“啊哒”~嘤嘤怪+硬妹，一个经不起批评的人。科幻文学硕士，星球大战中文网副站长。关注科技、游戏、艺术、美食、历史等领域。曾服务于多家主流媒体，主持过文化、科技、游戏等栏目。创作，是要发现和体现属于自己的趣味。此博客登载本人原创文字和编译内容，未经授权严禁转载。 “伏枥骅骝千里志，经霜乔木百年心。”

ChatGPT加入微軟必應，從沒見谷歌這麼慌過

2023 年 2 月 8 日

十二年前，在沒有標記的數據集裡，AI剛剛學會辨認銳角三角形。

很少見到科技巨頭“驚慌失措”。去年美國科技股大跌，五家科技巨頭市值一度蒸發1.8萬億美元，相當於跌去一個谷歌。那時候，也沒人見谷歌“慌”過。

2023年伊始，微軟給OpenAI砸了100億美元，又先後把OpenAI的聊天機器人ChatGPT整合進Office辦公軟件以及多年來半死不活的必應搜索引擎——谷歌開始慌了。

谷歌CEO桑達爾·皮查伊的動作緊鑼密鼓：把“退隱江湖”的兩位創始人拉里·佩奇、謝爾蓋·布林拉回來“看代碼”，向AI初創公司Anthropic投資了近4億美元，並於2月7日公開了自家競品——聊天機器人“巴德”。

谷歌主打搜索引擎，ChatGPT背後是個語言模型。要注意的是，搜索引擎和語言模型，不是一回事。

谷歌到底為什麼那麼慌？

人造智商考驗人類智商

谷歌的慌張，來自於ChatGPT的“耀眼”。

2022年被稱為“AIGC”（AI Generated Content）元年，而元年的集大成者就是ChatGPT。

去年，一系列AIGC應用均達到了“親民”級別。先是Disco Diffusion、Dall-E 2、MidJourney等“文生圖”工具觸手可及，又有Stable Diffusion通過“去噪模式”，將AI圖像生成的效率和精度提升到全新的境界。

去年年底，ChatGPT上線，五天內註冊人數超過一百萬，兩個月內達到一億。為到達這一目標，推特可用了五年。 ChatGPT通過“理解”對話者的語義，能和人類進行有效、連續的反饋，幾乎達到“以假亂真”的地步。

ChatGPT是由OpenAI開發的一個人工智能聊天機器人程序，2022年11月推出。對於用戶來說，和ChatGPT聊天就是在對話框“打字”。除此之外，它也可以用於相對複雜的語言工作，包括自動文本生成、自動問答、自動摘要等在內的多種任務。

ChatGPT使用的是基於GPT-3.5架構的大型語言模型，通過強化學習進行訓練。較之已經能寫論文的GPT-3，它最重要的變化是建立在人類真實反饋基礎上的調校，而訓練語料還不如GPT-3多。 GPT-3用了45T的文本，ChatGPT用了500G的文本——還只限於2021年。

GPT-3.5使用的新的AI訓練方法，就是加大“人”的反饋權重：標記者在模型中書寫期待的回复，AI的回复越貼近人的“期待”，排名就越高。排名越高，模型就越能得到獎勵。之後，在持續參數迭代的過程中，輸入獎勵模型，就能得到優化參數。

這就是為什麼ChatGPT能用北京話“捧哏”。你鼓勵它說“您瞧瞧”“多說幾句帶兒化音的北京話”，它馬上就回复你“好嘞”“這碗炒肝兒蓋了帽兒了”！

就憑藉這種“上下文”理解能力，ChatGPT的本事恐怕真超過不少直男，畢竟不少後者還糾結於“多喝熱水”的有效性，或者上論壇提問“她說這句話到底什麼意思”？

人造智商考驗人類智商。

聰明的學生首先想到用ChatGPT寫作業，搞得OpenAI不得不給“答案”加“水印”。學術界也非常緊張，《科學》和《自然》等頂級刊物，已經明確禁止將ChatGPT列為合著者，前者還不允許論文使用ChatGPT生成的文本。

ChatGPT模型如此厲害，和搜索引擎又有什麼關係？

某種意義上，ChatGPT是問答類媒體、知識付費另一種面貌，更像Quora、知乎。你想快速知道一種技能、一條信息、一個答案，ChatGPT立刻“穩準狠”作答（有時也不准）。

搜索引擎恰好沒有“穩準狠”的特點。

搜索引擎效率低

有一定“衝浪”經驗的網友，多半還記得這句話：“外事不決問谷歌，內事不決問百度”。 “決什麼”，如今是搜索引擎和語言模型的岔路口。

如果是“決”精確性，搜索引擎不如語言模型。

如果是“決”相關性，語言模型不如搜索引擎。

搜索引擎用來信息檢索、知識發現，而語言模型用來問題求解。

舉例而言，比如搜“高超音速導彈”，搜索引擎會列出很多相關頁面，其中既有高超音速導彈的定義，也會有它的新聞、歷史以及各種趣談——是“圖書館”層面上的；語言模型會告訴你一個“高超音速導彈”的定義，是“文本”層面上的。

也就是說，語言模型的作用，相當於搜索引擎的一個子集——好比你不用在“軍事武器”的書架周圍來回晃悠，管理員直接塞來一本書。

搜索引擎的優點，是更加開放，來源清晰，更多展示知識的相關性；缺點就是提供的內容不精確，更“散”。相比之下，語言模型因為“訓練”過，高度“切題”。

它們的差異，源自背後的技術差異。搜索引擎的本質是算法，模型的本質是目標函數。

搜索引擎公司一直明白“不精確”的致命之處。一個頁面上十條“高超音速導彈”信息，絕大多數用戶不知道如何分辨、梳理和確證，陷入亂花漸欲迷人眼的低效率之中；或者搜索引擎的“算法”失之偏頗，提供太多的“廣告”置頂，極大破壞了用戶的信任，甚至誤人生命。

Quora、知乎類產品的火爆，某種程度上起到“糾正”搜索引擎的作用：通過真人/專家的“現身說法”，為用戶提供高質量的信息集合。不過，事實證明UGC的風險很大——人人都成了“專家”的時候，“現身說法”也就成“故事會”了。

語言模型的語料庫經過篩選，內容更有保障，反應更加迅速，再加上準確度較高，對搜索引擎造成了很大威脅。

因此，當微軟說把ChatGPT放進Office裡時，谷歌還比較淡定；一說要加進必應，那真的是“觸及靈魂”，谷歌立刻行動起來，盤點一下模型家底——LaMDA，Sparrow，Claude，PaLM……

也不是說語言模型就沒有缺點。

首先，它是哪個詞用得多就重複哪個，容易陷入“同義詞反复”的境地；其次，因為要和人交流，它的“三觀”根正苗紅，絕對不講政治不正確的話，想要了解歷史的人恐怕還得費點功夫；另外，語言模型就是經“誘導”而來，只要“誘導”它就會跟著走，槓是不會槓，但“諂媚”的“核心”往往是胡說八道。

“快”和“準”是最大需求

谷歌的驚慌，更深層的原因恐怕還是了解人，或者說，了解今日的用戶。

最火爆的應用和社交平台，主打的都是“無腦”且簡單粗暴的內容提供方式。用戶只需要看過若干內容，後續就不用自己篩選信息、分辨源頭、思考真偽了，應用會通過“標籤化”的算法，一股腦推送最符合“個人口味”的東西，令人欲罷不能。

如果說社交平台給的是量身打造的娛樂，那麼ChatGPT給的就是量身打造的“知識”。整個社會的潮流是，知識可以通過非常便利、簡約的技術直塞給大眾，而不是個人通過較長的、曲折的學習過程自行獲得。

近日谷歌CEO桑達爾·皮查伊的發言一針見血。他說，“AI加深我們對信息的理解，高效將其轉化為有用的知識，幫助人們在搜索時更容易地找到核心、達成目的。”

這就是搜索引擎渴望語言模型加持的一大要義：用戶越來越不耐煩，所有的技術都要衝刺“快”和“準”。

就連武器發展也是這樣。高超音速導彈，俄羅斯去年先投入戰場，隨後美國也宣布試射成功，據悉將在日本部署。它的恐怖之處就是快，對手可能來不及反應。

更進一步說，人工智能發展也太快了。大概十二年前，剛剛出現神經網絡的概念，吳恩達在谷歌搞了一套新玩意，在沒有標記的數據集裡，AI學會了辨認銳角三角形。沒幾年，AI圍棋也下得，汽車也開得，還能預測蛋白質結構，如今要搶各位小編、畫家的飯碗。

正是因為發展快，谷歌這樣的巨頭才額外擔心。要知道，谷歌索引的數據量超過10萬T，GPT-3才用了45T。所謂“AI一日，人間一年”，一步落後，步步落後，巨頭也得未雨綢繆。

微軟聯合創始人比爾·蓋茨對ChatGPT評價很高：“這種人工智能技術的誕生有著重大的歷史意義，不亞於互聯網或個人電腦的誕生。”

也許，“歷史意義”正體現在人工智能和人類兩者的“混淆”：人工智能越來越像人，甚至比人能力強；人要越來越像機器，必要時可以使用各式各樣的“增能”手段。

五六年前，機器學習對人腦學習的“模仿”大幅度進步，算是歷史進程的一種突變，一個交叉點。深度學習模型捲積神經網絡就是模仿人工神經網絡的多層感知系統。不同的神經層接受、處理不同的信息，層層遞進，得到一個關於某事物的“正確”的描述。計算機模擬這一過程，開始“學習”人的“識別”和“認知”能力。

總的來說，突變之後，技術將線性發展，直到下一個突變。出乎意料的是，技術突變之間，相隔的時間越來越短。

喜歡我的文章嗎？
別忘了給點支持與讚賞，讓我知道創作的路上有你陪伴。

硬周刊

超载叽

Bring insistence to life. “历史奔跑，逃离人类，导致生命的连续性与一致性四分五裂。” 我们的生命横跨好几个时代，要面对或重建“一致性”，心里得有点“硬”东西。物质享受和精神追求，两手抓两手都要硬。硬骨头-美食栏目；硬着陆-政治栏目；硬通货-经济栏目；硬吹死挺-文化/科技/游戏栏目；周末夜狂热-随想栏目

載入中…

ChatGPT加入微軟必應，從沒見谷歌這麼慌過

硬周刊

推薦閱讀

[ChatGPT]用AI幫你找研究資料

茶几文化 | 杀死谷歌（Google）

茶几新闻 | ChatGPT加入搜索后，会颠覆Google吗？

Duckduckgo仍不好用，乾脆自架元搜尋引擎，保障隱私和自由

入門指南：如何使用 Power Automate 自動化你的工作流程