AI + Web3 公益课笔记#1｜大型语言模型是什么？

閱讀筆耕

1 月 30 日

IPFS

⋯⋯GPT 有一个秘密，他其实是一个失忆症患者，为了不让别人发现他的秘密，他把和别人的对话写在一本日记本上；每次和别人说话之前，GPT 都会先翻阅一下日记本，回顾之前的对话，然后才做回应。

2024.01.28

大家好！我使用了「节录评论法」来写下AI + Web3 公益课的笔记。这是一种让笔记充满活力，可以「和自己对话」的整理方式。

操作方式是，摘录「印象深刻的段落和句子」或「令人困惑的段落」，并且「用自己的话发表看法」（in my opinion, IMO），甚至更进一步「与自己的经验产生连结」。

让我们马上开始吧！

▇开场嘉宾致词

Web3 和Web2 很不同的是，它是去中心化的，妥善处理了社区平台「保存、隐私、信任、价值确权、价值分配」等问题。
AU Universe的愿景是「将知识的价值回归给创造知识的人」，在这里发布的每一条讯息都会被你的数字分身（基于AI 技术产生的Avatar ）学习，并且产生价值。

▇ 课纲（讲师：陈财猫）

▇ 大语言模型是什么？

▍大语言模型是什么？接龙机器

大语言模型（Large Language Model, LLM）可理解为一种「预测下一个词元（token）」的统计模型
- 白话说→ LLM 是一个「接龙机器」 。

▍ GPT 是什么？从个别单字理解

GPT（Generative pre-trained transformer）是一种「生成式预训练模型」。
Pre-trained ：基于海量数据上的「预训练」。
- 白话说→ GPT 学富五车。
Generative ：基于海量数据上的机率分布「生成」新的数据。
- 白话说→ GPT 能连贯文本。
Transformer ：一种深度学习模型采用的「架构」，让模型能理解我们输入的文本（一连串序列）。
- 白话说→ GPT 能捕捉到字里行间行间的依赖、从属、因果关系等。

▍Chat GPT 是什么？

ChatGPT 是GPT 的其中一种版本，是一种应用产品（聊天机器人介面）。

【阅读笔耕IMO 🙋】何谓无情

挺喜欢LLM 是「接龙机器」这样的类比，而且LLM 是「无情」的。

针对课纲中的「无情」一词，我的理解是LLM 虽然能够不断预测文字，但他并不能真正理解那些文字背后所传达的意思，所以他是不带感情，理性地从机率分布中生成下一个Token。

▇ GPT 可以用来做什么？

▍执行自然语言处理任务

生成式任务：例如写文章、写诗歌、写程式码⋯⋯。
情感分析：例如喂食大量产品评论、新闻标题等人们的数位足迹，让GPT 研判并预测大环境的下一步。
文本校正
文本摘要
聊天：角色设定可以是朋友、情人、专家⋯⋯甚至是神明（AI 佛祖、AI 耶稣）。

▍选单（menu）翻译产品

▍智能增强

调用GPT 学富五车的知识来服务目标群众。
穷尽一生，没有任何一个人可以读完这些来自于人类历史上的精华——但是GPT 却可以，毕竟「预训练」的数据量极大。

【阅读笔耕IMO 🙋】AI 让心智脚踏车进化

人类非常擅长制造工具，工具是人类肢体和感官的延伸，例如脚踏车增加了人类（的双足）移动的效率。

贾伯斯曾在一场专访中说道：「对我来说，电脑是人类历来发明的最重要工具，从此让我们的心智骑上脚踏车。」

而当这台电脑还嵌上AI 功能时，这台车进化了，甚至不用我们亲自去踩踏，也能够引领我们来到更远的地方。

▍工作外包

复杂的问题简单化，简单的问题流程化。

Nevertheless, there is merit to the claim that much problem solving effort is directed at structuring problems, and only a fraction of it at solving problems once they are structured.
——Herbert A. Simon
⠀
大部分的问题解决努力，都集中在为问题构建结构上，而对于已经结构化的问题，实际解决它们只占了一小部分努力。
——赫伯特・西蒙

一但我们能把某些工作的具体场景「抽象化」成最核心的底层逻辑，那么就有了可以外包（给别人做、给AI 做）出去的本钱。

例如，把「设计提示（prompt）」这件事情，拆解为五个最根本的元素，而且它们之间具有可以画出流程图的关系，分发给AI 来打理。

【阅读笔耕IMO 🙋】外包前，先把「系统」剥到最干净

我联想到《普通人的财富自由之道》里提过工作外包的先决条件，称之为「系统的植入」。不管你有没有想要外包某一份工作，都先把系统给架设好：

写下你在一周内做的所有事情。
将工作分为清单一（重复执行的工作）与清单二（一次性任务），然后丢掉清单二。
重新排列清单一，从最耗时到最不耗时。逐条找出你想要为其建立系统的任务。
写出你是怎么完成该任务的步骤动线。然后，确认流程，看看是否能找到任何不必要的步骤，先删除所有不必要的步骤，然后才做优化，直到拥有你所能建立的最精简和最高效的流程。
在你进行这段流程时创作一段「说明书」⋯⋯逐步累积起一套培训内容。

这么做的好处是，未来如果要招募伙伴，你会知道哪些事情可以外包？哪种人才是最优先的？而哪些事情是非我不可，没有其他人可以接手？对接时，新成员就可以依循先前建置好的「说明书」很快地进入状况。

同时，这些「说明书」也可以成为一再重复利用的模板，不断迭代这套SOP。

▍涌现能力（Emergent Abilities）

在模型变大到一定程度时，出现了一些新的特性、能力或行为。例如思维链（Chain-of-Thought）多步推理能力。
- 白话说→ 是「从量变到质变」，是「整体大于部分的总和」。

【阅读笔耕IMO 🙋】知识的点、线、面串起「涌现」

我觉得用「知识点线面」来理解何谓涌现能力，是很不错的。

当喂食给模型的知识点少少的时候，这些知识点彼此是「孤岛」，还没有办法产生交互作用。就像是一幅「只有Ａ、Ｂ两个节点的地图」一样，能做的事情很有限。

但是当知识点的数量多到一定程度时，这些知识点已经形成了一个「体系」，这时候模型已经具备举一反三的能力。想像是一幅「记载着密密麻麻交通节点、路线的地图」，你只是问他从Ａ点到Ｂ点应该怎么走，他可以给你不止一种解答，还为你比较多种方案的成本效益分析。

知识的点、线、面串起神经网路，交织成一个体系带来1+1 >2 化学效应，就是涌现。

▇ GPT 的不足与缺陷

GPT 有一个秘密，他其实是一个失忆症患者，为了不让别人发现他的秘密，他把和别人的对话写在一本日记本上；每次和别人说话之前，GPT 都会先翻阅一下日记本，回顾之前的对话，然后才做回应。

▍有限的上下文窗口（Context Window）

GPT 会「忘记」聊天中太早的内容
- 知识点→ 因为「日记本」的容量是有限的。
不相关的话题最好在不同对话里聊
- 知识点→ GPT 是会一次读入所有对话内容，再做出反应的。
- 知识点→ 所以GPT 仍然会考量早期的讯息（只要还被「日记本」所涵盖到），如果新、旧讯息彼此不相关的话，会变成一种杂讯，一种干扰。
我们无法「训练」GPT
- 知识点→ 训练是一种特定过程，涉及模型参数调整，只有OpenAI 能执行。
- 知识点→ 我们觉得GPT 愈来愈聪明，其实是因为他的「日记本」册数更多、内容更丰富、让他对背景讯息的掌握度更高的关系。

【阅读笔耕IMO 🙋】关闭训练，保护隐私

点击GPT 聊天界面左下角头像，进入「设定▷ 数据控制▷ 聊天历史与训练」选单，预设是开启的。我们可以关闭这个功能，让GPT 不再纪录聊天讯息，不允许OpenAI 以我们的对话来训练模型，这么做更能保护隐私。