0%

浅谈大模型和微调技术

大模型浅谈

自从chatgpt爆火以来,大模型不断涌现,从 Bert、GPT3、GPT4、Chat-glm,到 Lamma2(Meta AI) 再到 文心、千帆等国产大模型等,各公司都在探索大模型,在大模型中,预训练网络模型往往非常重要,因为模型参数量持续增加,模型预训练耗时很长,训练一个百亿级别的大模型并不简单。

Langchain 架构的涌现使得 通过 Agent 能力动态调用 Chain 成为可能,不同 agent 提供不同解决方案,langchain+chatGLM+本地知识库,也可以提供快速的部署方式搭建本地知识库和AI问答系统。

大模型训练框架

Pytorch、Tensorflow 无法满足大规模模型训练的需求,因此 Pytorch 开发了 DeepSpeed;腾讯开发了 PatricStar;达摩院开发了 Whale;百度开发了 PaddlePaddle;

大模型微调落地

预训练大模型+微调方式 更适合长尾常见落地,AIGC 领域 也同样可以 通过 RLHF 等强化学习框架技术来进行微调,从而保证生成内容的有用性、真实性、无害性。

微调技术

  • Lora 微调,降秩,(稠密矩阵 -> 稀疏矩阵)
  • Prefix Tuning,最上层的网络增加一个前缀
  • P-tuning V2,每个网络层前面增加一个前缀,可以tracking每一个层的微调是否有问题
  • Prompt Tuning(更新 Verbalizer 和 Label的对应关系)
  • Delta Tuning,多种微调方式组合
  • SFT(全参数微调),需要更高的 GPU

在越大的数据集上,微调方法对于模型准确性来说,影响不大,lora tuning 等可以媲美全参数微调,但对于小模型来说,全参数微调是更好的选择。

Welcome to my other publishing channels