0%

浅谈大模型和微调技术

Posted on 2023-08-24 In 算法
Symbols count in article: 694 Reading time ≈ 1 mins.

大模型浅谈

自从chatgpt爆火以来，大模型不断涌现，从 Bert、GPT3、GPT4、Chat-glm，到 Lamma2（Meta AI）再到文心、千帆等国产大模型等，各公司都在探索大模型，在大模型中，预训练网络模型往往非常重要，因为模型参数量持续增加，模型预训练耗时很长，训练一个百亿级别的大模型并不简单。

Langchain 架构的涌现使得通过 Agent 能力动态调用 Chain 成为可能，不同 agent 提供不同解决方案，langchain+chatGLM+本地知识库，也可以提供快速的部署方式搭建本地知识库和AI问答系统。

大模型训练框架

Pytorch、Tensorflow 无法满足大规模模型训练的需求，因此 Pytorch 开发了 DeepSpeed；腾讯开发了 PatricStar；达摩院开发了 Whale；百度开发了 PaddlePaddle；

大模型微调落地

预训练大模型+微调方式更适合长尾常见落地，AIGC 领域也同样可以通过 RLHF 等强化学习框架技术来进行微调，从而保证生成内容的有用性、真实性、无害性。

微调技术

Lora 微调，降秩，(稠密矩阵 -> 稀疏矩阵)
Prefix Tuning，最上层的网络增加一个前缀
P-tuning V2，每个网络层前面增加一个前缀，可以tracking每一个层的微调是否有问题
Prompt Tuning（更新 Verbalizer 和 Label的对应关系）
Delta Tuning，多种微调方式组合
SFT（全参数微调），需要更高的 GPU

在越大的数据集上，微调方法对于模型准确性来说，影响不大，lora tuning 等可以媲美全参数微调，但对于小模型来说，全参数微调是更好的选择。

Welcome to my other publishing channels