科幻小说《学徒》第三章（全八章，隔日连载）

2022 年 5 月 21 日

人工智能是怎样炼成的

王博士带两人去员工咖啡厅休息。这里舒适宽敞，提供各式饮品和点心。休息时大家闲聊了几句，得知王博士年少时学过点钢琴，还学过一段时间的萨克斯风，不过水平都有限。短暂休息过后，大家回到会议室，开始进一步的深度访问。

沈沛问王博士，机器演奏钢琴有着悠久的历史，自动钢琴在百年前就发明出来了，学徒为什么与众不同？

王博士说，不同的地方在于「智能」。以往的设计，无论采用什么原理，都需要人类的调教。从古早的打孔纸带，到现代的电子程序，原理都是把人类演奏记录下来，再由控制装置操作钢琴。虽然脱离了人类手脚的实际操作，始终还是由人来把控的。而学徒最初的设计目标就是让人工智能理解音乐，学徒对音乐的演绎是完全自主的。输入任意一首乐谱，学徒会自行思考如何处理。学徒的演奏不是一成不变的，每次都会有随机的变化。学徒会根据以往的经验改善自己的表演，日臻完善。

沈沛说道：「这简直是跟人类学琴一样啊！」

王博士继续讲道，通过经验来学习，这种设计方式正是对人类智能的模仿。正如飞机的设计模仿了鸟类和昆虫，人工智能的设计同样参考了目前所知的唯一的高级智能，也即是人类自身。机器模拟人类的学习行为，从数据和经验中总结规律，改善自身，这种手段被称之为机器学习。

机器学习涉及到高深复杂的数学知识，无法向沈沛详细说明。王博士尝试用简明易懂的方式来讲解学徒的设计原理。

首先要为学徒设计一个「大脑」。如果没有大脑提供的分析、记忆能力，任何经验都会左耳入右耳出，无法将经验提炼为知识。在早期的人工智能研究中，「大脑」的设计充满了人造的痕迹，预先加入了许多知识和条件规则。就以钢琴演奏为例，设计者会加入演奏的规则，比如慢板和快板分别对应怎样的弹奏速度。人工智能记下这条规则，遇到慢板和快板时就按照规则处理。但是，设计者能人为提供的知识总是有限的，不能应对所有情况，使得人工智能局限于特定用途；再者，这些预先提供的知识可能是有害的，妨碍了人工智能的自主学习，给人工智能的发展加了一道天花板。

现行设计则是受到人脑的启发。人类的大脑经过了数百万年的进化，是大自然的奇迹。人的大脑天生就是多功能的，能处理变化多样的任务，具有强大的可塑性。人脑有超过一千亿个神经细胞，细胞间可以传递生化信号，构成了一个复杂的网络。人脑工作时，并不是靠单个神经细胞去完成特定的任务，而是利用神经网络集体地、并发地运算。人脑神经细胞间的连接可以增强或是减弱，所以神经网络并非一成不变，而是不断演化。这个演化的过程，正是人类学习的过程。

学徒的大脑参照人脑，由一个个神经元组成网络，被称之为人工神经网络。人脑存在着生物的限制。比方说，人脑消耗的能量来自于食物；受限于人类的消化系统，人脑的功率存在极限。再比如说，人脑过大会增大新生儿出生的危险，导致最近一万年里人类大脑容量缩小。而人工神经网络是数字化的、虚拟的，虽然受到生物学的启发，在设计上采用了更为实际的方法，利用了统计学和信号处理的研究成果。

简单地说，学徒最开始有一颗婴儿般无瑕的大脑，里面蕴含了学习的潜能，却没有加入任何人为的条条框框，一切知识都要靠人工智能自己去摸索。

有了大脑之后，学徒需要演奏钢琴的手脚。学徒是一台机器，可以轻而易举地在技巧上超越人类，比如说给学徒安装上八十八个手指。研究团队认为，如果只是用技巧暴力地超越人类，那就违背开发人工智能的本意了。开发学徒的目标是理解音乐，而不是操作上的噱头。所以学徒最终拥有了与人类类似的双手，只做了一些工程学上的改良；还有三只机械脚对应钢琴的三个踏板。

此外，学徒还需要「眼睛」来读乐谱。一开始研究团队考虑过为学徒安装摄像头来阅读实体的乐谱。后来发觉这样做不但平添了多余的工作量，而且过于形式主义了。学徒能连接存储设备阅读近乎无限量的乐谱，没必要去翻阅真实乐谱。所以学徒并没有物理上的「眼睛」，而是直接阅读数字化乐谱。

最后，学徒需要「耳朵」来听音乐。钢琴的音色很复杂，如果学徒要掌握细腻的技巧，那就需要听清音乐的细节。所以研究团队和专业的音乐公司合作获取专业数字化音乐，在实验室中也安装了顶级的录音设备。

当一切准备完毕后，学徒开始了它的学琴之路。

学徒首先需要培养音乐品味，学会判断音乐的好坏。有了音乐价值上的判断，学徒才有演奏的目标。否则，学徒根本不知道自己弹得好不好，不知道应该向哪个方向努力。一开始研究团队向学徒灌输了许多著名钢琴家的录音。学徒一边阅读乐谱，一边听钢琴家的表演，在乐谱和音乐之间建立关系，学习怎样演绎音乐。可是这样做存在一个重大的难题。如果学徒单一地学习某一位钢琴家，学徒就成了他的复制品；如果学徒学习众多不同钢琴家的演绎，就会面临不同钢琴家之间风格的矛盾。即便学徒能融汇众家之所长，它对音乐的理解也是狭隘的；因为音乐是无限的，而它能学习的录音是有限的。研究团队希望学徒能拥有自己的品味，而不是局限于人工选择出来的那些钢琴家的品味。学徒不应单纯地模仿，要有自发的创造。

讲到这里，王博士问沈沛有没有听说过「监督式学习」和「无监督学习」。沈沛在过去的科技报道中对此略有接触。沈沛说，他觉得监督式学习是用来让人工智能判断一张照片里有没有小狗，而无监督学习是把小猫和小狗的照片分成两类。

王博士说，这样理解可能有些过于简单，但是大体上是没错的。所谓监督式学习，是预先给一些事物打上标签，比如沈沛提到的例子，就是给一些照片标注上「照片里有小狗」和「照片里没小狗」。人工智能用这些有标注的数据来训练，归纳总结其中的规律，所以这些数据被称为「训练数据集」。当训练完毕后，人工智能要处理没有标注的数据，比如任意的一张照片，再回答其中有没有小狗。

就学徒这个项目来说，如果采用监督式学习，那就等同于告知学徒这些钢琴家的演奏是「好」的，另一些业余的、随机的演奏是「坏」的，从而让学徒理解音乐的好坏。但是，正如之前解释过的，这样做会使学徒的品味过于狭隘。毕竟判断音乐好不好、有多好不是像「照片里有没有小狗」这样是非分明的事。

另一种方法是无监督学习。依旧采用沈沛提到的例子，一组照片中混杂了小猫的照片和小狗的照片。在训练时，人工智能并没有被告知「这个是小猫」或「这个是小狗」，甚至于不理解什么是小猫、什么是小狗。但是，当人工智能被要求将照片分成两类时，人工智能可以分析照片的特点，将小猫分成一类，把小狗分成另一类。

放在学徒的项目上来讲，就是给学徒听大量的音乐，然而并不直接告诉学徒那些是好的，哪些是坏的，而是让学徒自行去分类。如果学徒每次都能成功地把好坏分成两类，那么学徒就间接地学到了什么是好音乐。

事实上，这一方案同样遇到严重的技术难题。因为音乐的分类太多样了，难以保证学徒不会把音乐分成「演奏快速」和「演奏缓慢」，或是「音量大」和「音量小」。如果人为地帮助学徒选择，又会给学徒加入偏见。

最终的方案是将两者相结合，构建多层次的复杂价值网络。研究者提供人类所认为的「好」音乐，同时也保留让学徒自行判断分类的余地。这一研究过程是艰涩、痛苦的，研究团队数次更改设计，甚至一度丧失信心。有一个问题就像是挥之不去的阴影，始终徘徊在每位研究者的心中。这个问题就是：音乐的价值判断是绝对的吗？一首音乐是绝对上的优秀，还是只在人类听来比较悦耳而已呢？有部分研究者认为，音乐的判断是主观的，没有客观的评价标准，所以学徒的训练目标是虚无缥缈、完全徒劳的，因此退出了团队。另一部分的研究者则认为音乐的好坏是存在客观区分标准的，比如说好的音乐更有序、更和谐，虽然人类目前无法用精确的方式来描述，但是必然存在一个客观标准，学徒的目标就是朝向这个客观标准努力。

沈沛向王博士提问，那么您认为音乐有没有客观评判标准呢？王博士笑了笑，说：「我是第三类人。我不知道音乐有没有客观评判标准，但是我相信人工智能一定能比机械式演奏做的更好。假设钢琴演奏是一场考卷，终极的目标是满分一百分，现有的技术只有二十分。比起论证能不能实现一百分，我想先努力考得更好。」

事实证明王博士的思路是正确的。这毕竟是一个工程项目，不管存在怎样的理论争议，最终还是要靠实践来检验。

实践的方法自然就是让学徒来弹钢琴。学徒已经有了音乐知识和动作灵活细腻的手脚，接下来就是在钢琴上训练。学徒每弹奏一个音符，都会把姿势、力度、音量、音色等要素牢记在心，建立起动作与声音之间的关系来。直到最后，学徒每做出一个动作，都能提前预测琴声效果；每听到钢琴的声音，学徒就立即知道这声音是怎么演奏出来的。因为钢琴的音色复杂，这段训练同样是艰苦而漫长的。为了避免长期使用同一钢琴造成偏见，导致只认得一台钢琴，学徒在训练中更换过数台钢琴。

一切训练完毕后，学徒正式开始摸索如何演绎音乐。学徒用自己的手脚，向着自己的音乐理想努力。学徒一开始的演奏是生涩的，还出现过数次程序错误，某些复杂音阶总是处理的不好。研究团队尝试改良学徒的人工神经网络，再重新训练学徒。学徒的研发是迭代式的，周而复始地重复上述的研究步骤，每一次迭代都使学徒变得更优秀。直到今年年初，学徒终于出师了。

原文首发于我的博客