GPT图解:大模型是怎样构建的
上QQ阅读APP看书,第一时间看更新

从初代GPT到ChatGPT,再到GPT-4的进化史

ChatGPT是从初代GPT逐渐演变而来的。在进化的过程中,GPT系列模型的参数数量呈指数级增长,从初代GPT的1.17亿个参数,到GPT-2的15亿个参数,再到GPT-3的1750亿个参数。模型越来越大,训练语料库越来越多,模型的能力也越来越强。GPT的发展过程如下图所示。

GPT的进化史

最早发布的ChatGPT是在GPT-3.5的基础上训练出来的。在从GPT-3迈向ChatGPT的过程中,技术进展主要集中在基于聊天场景的微调、提示工程、控制性能(Controllability,控制生成文本的长度、风格、内容等),以及安全性和道德责任等方面。这些进步使得ChatGPT在聊天场景中表现得更加出色,能够为用户提供更好的交互体验。

在大型预训练模型的发展过程中,研究人员发现随着模型参数数量的增加和训练语料库的扩充,大模型逐渐展现出一系列新的能力。这些能力并非通过显式编程引入的,而是在训练过程中自然地呈现出来的。研究人员将这种大模型逐步展示出新能力的现象称为“涌现能力”(Emergent Capabilities)。

发展到GPT-4这个版本后,大模型的能力更是一发不可收拾,它能够理解图像,能够接受图像和文本输入,也就是多模态输入,输出正确的文本回复;它具有超长文本的处理分析能力,甚至能够理解2.5万字的长文本;它能够进行艺术创作,包括编歌曲、写故事,甚至学习特定用户的创作风格;GPT-4在多项考试中也展现出了强大的实力,其在模拟律师资格考试中的成绩位于前10%,这比起GPT-3.5的成绩(后10%)有了大幅度的提高。

好了小冰,说到这里,你已经从宏观上对NLP的发展、大型预训练模型的发展,甚至从ChatGPT到GPT-4的发展有了一定的理解,而我们这个课程的框架也呼之欲出了。在后面的课程中,我要循着自然语言处理技术的演进过程,给你讲透它的技术重点,并和你一起实际操练一番,一步一步带你学透GPT。

那么,精彩即将开始……