前言

我对语言模型始终抱有浓厚的兴趣。十余年前,一门统计模式分类课程开启了我的人工智能之旅。这门课程引领我完成了首个独立项目:一个能通过歌词识别歌曲所蕴含情绪的模型,以及相应的网页应用程序。

到了 2022 年,随着 ChatGPT 的发布,大语言模型(large language model,LLM,简称大模型)迅速风靡全球,并彻底改变了许多人的工作方式。这些模型用途广泛,可以在诸如检查语法、撰写邮件、总结长篇文档等任务中提供助力。这归功于它们具备解析和生成类似人类语言文本的能力。在从客户服务到内容创作,乃至技术性更强的编程和数据分析等领域,这一能力都非常重要。

顾名思义,大语言模型的一大显著特点便是其规模之“巨大”——拥有数百万到数十亿个参数。(相比之下,使用传统的机器学习或统计方法,凭借一个仅包含两个参数的小模型,就能以超过 90% 的分类准确率对鸢尾花数据集进行分类。)尽管与传统方法相比,大语言模型的规模庞大,但它们并不一定是“黑箱”模型。

在本书中,你将学习如何一步步地构建一个大语言模型。最终,你将深入理解像 ChatGPT 这样的大语言模型的底层运作原理。我相信,对基本概念和底层代码的方方面面都建立起信心,是迈向成功的关键所在。这不仅有助于你修复漏洞并优化模型性能,还能激发出你的新想法。

几年前,当我刚涉足大语言模型领域时,学习其实现方法的过程颇为艰难。在研读了海量的学术论文,并钻研了那些零散的代码仓库后,我才逐渐构建起对这一领域的大致认知。如今,借助本书,我希望打造并提供一份详尽的分步教程,对大语言模型的所有关键组件和开发阶段进行介绍,使其更易上手。

我坚信,理解大语言模型的最佳方式是从零开始编写一个模型——你会发现这件事充满乐趣!

祝阅读愉快,编码顺利!