人类的记忆与计划-科幻杂思

2023 年 1 月 28 日

1 渺小的自我

这个标题中的「人类的」是后加的，原本只是突发奇想写写个人总结和思考规划。故意拔高是为了有趣和对比。

先写300字的短总结吧。小学时看了一本科幻短篇集，受影响很深，算是某种蝴蝶效应。后来读研学光学（理论物理没想好切入点、凝聚态物理感觉经常过于偏物质和应用。其实还是对于物理全景了解不够深入），印象深刻的是光孤子。我喜欢科学和艺术的结合点，希望在幻想和现实的边界游走。退学去玩互联网，做过几个独立杂志和网站app，后来去做自然语言处理NLP（最近很火的chatgpt也算是这个领域），在达摩院发过几篇顶会论文之后，赋闲一年半（开发了不够成熟的去中心化&web3内容社区和开源vr联机游戏demo，以及在ch和discord和朋友聊天，所谓元宇宙?）, 一年前回归主业，做对话机器人。

感觉人生有时候是一个混沌系统，但也觉得是一个被某个隐藏的线索链接起来的的有向无环图。一方面我觉得，像以前的同学那样去研发火箭或者潜心某个科学领域才是有意思的，也觉得看看书打打游戏的废材人生挺不错。那条能被记忆起的线是，看书-科幻-游戏-物理-杂志-互联网-内容社区-创业-人工智能-去中心化-现实引力-更科幻的人工智能。

回到当下和近未来的个人计划，我有50T的高质量文本（稍后也会加上其他模态），16*3080Ti的算力（还太小），做出结合类似(!) wolfram|alpha（符号系统代表作）和chatgpt（联结主义热搜作品）的机器人，并能做到正反馈。在这两者结合之外，产品里还得加上心智模型和数字孪生，让普通人在对话中创建自己的数字孪生（顺带做一些历史名人的孪生）。相比大公司的强大的算力和各种资源，似乎有些螳臂当车、蚍蜉撼树？或许这也是去中心化和好玩之处。

这一切的意义是什么呢？简单来说是，够好玩，够科幻。我的机器人不仅能帮我干活让我有更多时间玩，也帮助其他人获得某些效率提升和快乐。

当然，效率提升可能需要大量的资源（创新也很重要），普通的好玩则也容易被人快速遗忘。除非两者各自能突破科学（&技术）和艺术的一点点边界。个人的先说到这里。

2 回到标题的「宏大叙事」

《人类简史》说人类的崛起是因为会讲“故事”。在我看来，这只是进化中偶然（人类存续靠偶然？）获得的语言和思考方式的小优势。人类的历史是偶然突破带来短暂春天和资源受限带来的长期冬天的交替（写完这句想到乱纪元），处在恒纪元（有人担心快终结不？）的我们，寄希望的是什么呢？

不去想是最简单的（李白、快乐主义）。有人寄希望于技术加速主义（好像没有这个词？只有不断出现的新科技才能持续人类纪元，说这是飲鴆止渴的人也很多，总之是希望让游戏不再零和，毕竟宇宙资源那么多，人类能否用得到看本事），有人寄希望于人心的变化（杜甫、人文的力量、教育与艺术、哲学、自由主义（涌现）、共产主义（效率）、中国特色（试图融合涌现和效率的优点的极端高难度实验，出现故障就再来一场实验，但也容易偶发单点故障）、去中心化、开源的代码作为公正的法律），这些都是希望在零和游戏里获得更优解。

人类的交流效率（以及其他生理极限）是一个坎，语言本身存在无心的不合理表达和误解，加之每个人所处环境不一样，即使正确表达和理解，也无法做到充分的同理心，即使能充分的同理心也没法在短期里解决问题（历史惯性和教育等都是难题）。资源受限是另外一个难题，如今科幻的黄金时代过去，没多少人再提走出地球摇篮的事情了。人类之间比来比去有啥意思，都是没走出摇篮的婴儿👶🏻。所以除了少数人（比例没有精确估计），人类没有计划，活在快乐（哪怕是虚幻的）里就挺好。

3 额外离题的快乐与艺术思考

我将快乐分为3种，生理快乐，人际快乐，艺术快乐。生理的先不说了，阳光和流动的空气都是美好的；人际就不说了，人是社会动物，和环境时代共振。艺术则不容易说，某些艺术是有门槛的，没越过去就感受不到；有一些是无门槛的，雅俗共赏，只需要你会人类的语言或者说你是人类；另外可能有一些是跨物种和星系的，比如数学和物理（音乐不一定算，外星人可能没有振动感受器）

关于雅俗共赏的艺术，比如故事吧（绘画也是一种故事），简单分类：逐步展现美好的图景，曲折的经历（足以让人代入），让人深思的悲剧等。当没有新鲜元素时，一切都是在重组。

4 科幻杂思

以上似乎没啥新鲜信息，但我没有闲暇时间来深入讨论（类似的书籍太多了），本文我只是提出问题。做了什么？为什么做？要做什么？会出现什么？另外，文中提到的「主义」只是借用词语符号表达一些人看重什么（对任何争辩没有兴趣，没有银弹，不存在一种方法解决一切问题，但我倒是期待能有得到实验验证的萬有理論）。而所谓的分类，只是借用来简化模型，事物通常不能简单分类。

以前，在科幻小圈子里，有一句话「科幻，是一种生活方式」，我觉得是比较平淡的表达。在我看来，科幻更多的是一种让人信服的对于边界的有趣探索。在这种定一下，超级英雄不是科幻，而某些纯文学作品对我来说反倒更科幻。科幻和科学是一种好奇心驱动的作品（思想实验），而一些作品是恐惧、欲望和商业驱动的（一个更黑暗的世界，偶尔一束光，给人微茫的希望，或者一个不坚实的浮华泡沫）。

对于某些偏乌托邦和理想的未来图景似乎不受大众关注，比如《遥远的地球之歌》（The_Songs_of_Distant_Earth），目前没有中文词条。一些人已经活在类似机器人瓦力 (WALL-E)里的某种美丽新世界的图景中（当然高科技低生活也很常见），对于社会科幻、人工智能、赛博朋克和后启示录更感兴趣（当然，莱姆和刘慈欣算是半个例外），对于我来说，《真名实姓》作为第一部赛博朋克还是很有意思的。关注近未来科幻，不如自己做一个近未来的东西有意思。而对于中长期未来，作品挺少的。今年有空会多读一些书，写点笔记。

5 其他 - 开发计划

以上也算是本文的全部了，算是论文的动机部分。后面是太长不看的实际计划。

5.1 追平-对齐& 初步的可解释语义表示

chatgpt让人看到了一个初步上下文流畅的对话机器人该有的雏形。影响力自然比追求严谨的wolfram|alpha 大很多，但两者的结合应该会更有意思。对于我自己的实际体验，chatgpt帮不了我什么，因为我不需要那些模式化的文体生成（xx信，论文生成，角色扮演对话，代码生成，实用性的查询，概念互相解释的伪哲学等），而那些看起来真实但错误的回答则让人提不起交流的兴趣。虽然不够好，但有值得学习的部分。差异点是，我们也会同步生成可解释的语义表示（虽然很多句子难以做到合理的归一化表示）。架构融合预计1个月以内。
高质量语料的构建方式和人机结合的强化学习，规模是一个很大的问题。语料方面：机器读完文本能生成问题和知识图谱，并在文中寻找答案，且和以前的知识对照，构建概率推理图谱。预计能构建至少1000亿token的可解释多轮对话语料。强化学习：如何做好「不知为不知」也是一个难题，对于回答进行事实查核。（预计chatgpt以后也会补强这一块）。预计2个月达到高质量100亿token语料。
时间效率问题，以及小模型的极限。LLM出现让很多人震惊的表现，其中算力规模问题的影响没有被清晰量化，如果算力降低大约2-3个数量级，效果差距极大，则宣告去中心化人工智能的一大悲剧。虽然实际场景中，数据和算力差距可能在3-5个数量级以及以上。构建多个算力差距在3个数量级以内的多个协作模型，量化差异。预计2个月完成。
长期记忆问题，chatgpt每次使用最近的8000字符，记忆范围有上限（且不记忆用户个人信息），虽然大部分人不在意。另外两种架构：将记忆结构化存在外部存储模块，用向量表征中短期上文记忆。是否采用一条线走到底的LLM，还是多个模块的组合，后者是否有机会差异化竞争。这是一个难题，预计多种方案同步推进，计划半年内初步可用。
产品功能问题，对于我chatgpt可以作为一个语料标注和核对的标注员之一，其他功能不明。我们的则会更有差异化，这一点先不谈，如果有人看到本文有自己的需求，也欢迎交流。

5.2 推理-可解释-语义表示-多模态对齐-具身智能