閱讀筆耕
閱讀筆耕

https://linktr.ee/penfarming 金融職人|文案編輯|雜食性閱讀者|Heptabase 愛用者 🌐 區塊鏈科普網站【鏈習生】專欄作家 🗞️ 電子報【創作者經濟IMO】主編 👤 臉書專頁【閱讀筆耕】

AI + Web3 公益课笔记#1|大型语言模型是什么?

⋯⋯GPT 有一个秘密,他其实是一个失忆症患者,为了不让别人发现他的秘密,他把和别人的对话写在一本日记本上;每次和别人说话之前,GPT 都会先翻阅一下日记本,回顾之前的对话,然后才做回应。

2024.01.28

大家好!我使用了「节录评论法」来写下AI + Web3 公益课的笔记。这是一种让笔记充满活力,可以「和自己对话」的整理方式。

操作方式是,摘录「印象深刻的段落和句子」或「令人困惑的段落」,并且「用自己的话发表看法」(in my opinion, IMO),甚至更进一步「与自己的经验产生连结」。

让我们马上开始吧!

AI + Web3 公益课

开场嘉宾致词

  • Web3 和Web2 很不同的是,它是去中心化的,妥善处理了社区平台「保存、隐私、信任、价值确权、价值分配」等问题。

  • AU Universe的愿景是「将知识的价值回归给创造知识的人」,在这里发布的每一条讯息都会被你的数字分身(基于AI 技术产生的Avatar )学习,并且产生价值。


▇ 课纲(讲师:陈财猫)

课纲

▇ 大语言模型是什么?

大语言模型是什么?接龙机器

  • 大语言模型(Large Language Model, LLM)可理解为一种「预测下一个词元(token)」的统计模型

    • 白话说→ LLM 是一个「接龙机器」

GPT 是什么?从个别单字理解

  • GPT(Generative pre-trained transformer)是一种「生成式预训练模型」。

  • Pre-trained :基于海量数据上的「预训练」。

    • 白话说→ GPT 学富五车。

  • Generative :基于海量数据上的机率分布「生成」新的数据。

    • 白话说→ GPT 能连贯文本。

  • Transformer :一种深度学习模型采用的「架构」,让模型能理解我们输入的文本( 一连串序列)。

    • 白话说→ GPT 能捕捉到字里行间行间的依赖、从属、因果关系等。

▍Chat GPT 是什么?

  • ChatGPT 是GPT 的其中一种版本,是一种应用产品(聊天机器人介面)。

【阅读笔耕IMO 🙋】何谓无情

挺喜欢LLM 是「接龙机器」这样的类比,而且LLM 是「无情」的。

针对课纲中的「无情」一词,我的理解是LLM 虽然能够不断预测文字,但他并不能真正理解那些文字背后所传达的意思,所以他是不带感情,理性地从机率分布中生成下一个Token。


▇ GPT 可以用来做什么?

▍执行自然语言处理任务

  • 生成式任务:例如写文章、写诗歌、写程式码⋯⋯。

  • 情感分析:例如喂食大量产品评论、新闻标题等人们的数位足迹,让GPT 研判并预测大环境的下一步。

  • 文本校正

  • 文本摘要

  • 聊天:角色设定可以是朋友、情人、专家⋯⋯甚至是神明(AI 佛祖、AI 耶稣)。

▍选单(menu)翻译产品

▍智能增强

  • 调用GPT 学富五车的知识来服务目标群众。

  • 穷尽一生,没有任何一个人可以读完这些来自于人类历史上的精华——但是GPT 却可以,毕竟「预训练」的数据量极大。

【阅读笔耕IMO 🙋】AI 让心智脚踏车进化

人类非常擅长制造工具,工具是人类肢体和感官的延伸,例如脚踏车增加了人类(的双足)移动的效率。

贾伯斯曾在一场专访中说道:「对我来说,电脑是人类历来发明的最重要工具,从此让我们的心智骑上脚踏车。」

而当这台电脑还嵌上AI 功能时,这台车进化了,甚至不用我们亲自去踩踏,也能够引领我们来到更远的地方。

▍工作外包

复杂的问题简单化,简单的问题流程化。

Nevertheless, there is merit to the claim that much problem solving effort is directed at structuring problems, and only a fraction of it at solving problems once they are structured.

——Herbert A. Simon

大部分的问题解决努力,都集中在为问题构建结构上,而对于已经结构化的问题,实际解决它们只占了一小部分努力。
——赫伯特・西蒙

一但我们能把某些工作的具体场景「抽象化」成最核心的底层逻辑,那么就有了可以外包(给别人做、给AI 做)出去的本钱。

例如,把「设计提示(prompt)」这件事情,拆解为五个最根本的元素,而且它们之间具有可以画出流程图的关系,分发给AI 来打理。

【阅读笔耕IMO 🙋】外包前,先把「系统」剥到最干净

我联想到《 普通人的财富自由之道》里提过工作外包的先决条件,称之为「系统的植入」。不管你有没有想要外包某一份工作,都先把系统给架设好:

  1. 写下你在一周内做的所有事情。

  2. 将工作分为清单一(重复执行的工作)与清单二(一次性任务),然后丢掉清单二。

  3. 重新排列清单一,从最耗时到最不耗时。逐条找出你想要为其建立系统的任务。

  4. 写出你是怎么完成该任务的步骤动线。然后,确认流程,看看是否能找到任何不必要的步骤,先删除所有不必要的步骤,然后才做优化,直到拥有你所能建立的最精简和最高效的流程。

  5. 在你进行这段流程时创作一段「说明书」⋯⋯逐步累积起一套培训内容。

这么做的好处是,未来如果要招募伙伴,你会知道哪些事情可以外包?哪种人才是最优先的?而哪些事情是非我不可,没有其他人可以接手?对接时,新成员就可以依循先前建置好的「说明书」很快地进入状况。

同时,这些「说明书」也可以成为一再重复利用的模板,不断迭代这套SOP。

▍涌现能力(Emergent Abilities)

  • 在模型变大到一定程度时,出现了一些新的特性、能力或行为。例如思维链(Chain-of-Thought)多步推理能力。

    • 白话说→ 是「从量变到质变」,是「整体大于部分的总和」。

【阅读笔耕IMO 🙋】知识的点、线、面串起「涌现」

我觉得用「知识点线面」来理解何谓涌现能力,是很不错的。

当喂食给模型的知识点少少的时候,这些知识点彼此是「孤岛」,还没有办法产生交互作用。就像是一幅「只有A、B两个节点的地图」一样,能做的事情很有限。

但是当知识点的数量多到一定程度时,这些知识点已经形成了一个「体系」,这时候模型已经具备举一反三的能力。想像是一幅「记载着密密麻麻交通节点、路线的地图」,你只是问他从A点到B点应该怎么走,他可以给你不止一种解答,还为你比较多种方案的成本效益分析。

知识的点、线、面串起神经网路,交织成一个体系带来1+1 >2 化学效应,就是涌现。


▇ GPT 的不足与缺陷

GPT 有一个秘密,他其实是一个失忆症患者,为了不让别人发现他的秘密,他把和别人的对话写在一本日记本上;每次和别人说话之前,GPT 都会先翻阅一下日记本,回顾之前的对话,然后才做回应。

有限的上下文窗口(Context Window)

  • GPT 会「忘记」聊天中太早的内容

    • 知识点→ 因为「日记本」的容量是有限的。

  • 不相关的话题最好在不同对话里聊

    • 知识点→ GPT 是会一次读入所有对话内容,再做出反应的。

    • 知识点→ 所以GPT 仍然会考量早期的讯息(只要还被「日记本」所涵盖到),如果新、旧讯息彼此不相关的话,会变成一种杂讯,一种干扰。

  • 我们无法「训练」GPT

    • 知识点→ 训练是一种特定过程,涉及模型参数调整,只有OpenAI 能执行

    • 知识点→ 我们觉得GPT 愈来愈聪明,其实是因为他的「日记本」册数更多、内容更丰富、让他对背景讯息的掌握度更高的关系。

【阅读笔耕IMO 🙋】关闭训练,保护隐私

点击GPT 聊天界面左下角头像,进入「设定▷ 数据控制▷ 聊天历史与训练」选单,预设是开启的。我们可以关闭这个功能,让GPT 不再纪录聊天讯息,不允许OpenAI 以我们的对话来训练模型,这么做更能保护隐私。

设定▷ 数据控制▷ 聊天历史与训练
不允许OpenAI 以我们的对话来训练模型

过时的数据

  • 透过付费升级把GPT 从3.5 升级到4.0,或是安装外挂插件,可以大幅缓解这个缺失。

幻觉( hallucination

  • GPT 编造不存在的东西与事实。

    • 白话说→ 一本正经的胡说八道。

【阅读笔耕IMO 🙋】不花钱,也能释放GPT 的能力

关于「过时数据」与「幻觉」这两个问题是息息相关的。如果问GPT 时事类问题,当他的数据库太旧,导致他查不到正确答案时,他就会画虎烂。

我之前使用一款名为「 WebChatGPT 」的浏览器插件,让即使是没有付费升级的GPT 3.5,也能在网路上搜寻资料,就可以有效改善这个缺失。

以下是用「 白饭之乱」新闻事件实测的结果:

before
after

🌱 免费订阅【 创作者经济IMO 】电子报。
电子报是以Heptabase 编辑,免费试用7 天,和我们一起写下IMO。

🌱 加入中书神经系统围炉,专题#写作的反思#炉内真心话连载中。

🌱 我在其它平台出没【 MetaXLiker SocialMattersMediumvocus
合作联系:penfarming.writer@gmail.com

🌱 我的教学文与邀请连结

注册币安币安开户+实名认证教学
注册Presearch
一举三得的search to earn 使用心得

CC BY-NC-ND 4.0 版权声明

喜欢我的文章吗?
别忘了给点支持与赞赏,让我知道创作的路上有你陪伴。

第一个支持了这篇作品

中書神經系統

閱讀筆耕

1. 關注各種有關書的消息。 2. 長文:專題 #寫作的反思 與 #爐內真心話 連載中。 3. 短文:每日「鏈習生幣圈日報」新聞的盤後觀點 murmur 眾聊。

9431
加载中…
加载中…

发布评论