leetron
leetron

Leetron,中學時文科成績總比理科好,但大學和研究所時選擇了理科,也從事了理科相關的職業。理科有其美的一面,現在退休了,又想回來用餘生追求文科的美,特別是想用文字來表達科技領域中人文的一面。

人工智慧背后的「人工」和「工人」

在我们迈向人工智能世界的旅途中,让我们不要忘记有一群拿着最小回报、默默用双手推动时代巨轮的无名英雄们。
Based on photo by Andrew “Donovan” Valdivia on Unsplash

我们常担心人工智慧会取代很多现在「人」在做的工作。但是在那一天到来之前,很讽刺的是人工智慧反而创造了一种新型态的必须由人来做的工作。这个工作就是「数据标注」。

现在当红的「人工智慧」主流技术之一就是用所谓的「监督式学习」来训练电脑模型。这种训练方式需要大量已经「标注」好的数据。所谓「标注」,就是每一笔数据代表的物体或者意义。比如说我们想训练电脑识别一张图像上的物体是猫还是狗,我们就要先准备大量标注过的猫的图像和狗的图像。一个狗的图像其「标注」就是「狗」;猫的图像「标注」就是「猫」。

「监督式学习」训练电脑模型从「错」中学。你给电脑看大量猫和狗参杂的图像,让电脑猜每张图像是猫还是狗。刚开始电脑对猫、狗没有概念只会乱猜,可是每猜一次,从「标注」就能知道是猜对了还是猜错了。猜错了电脑会自我调整。这样经过大量的图像和猜谜游戏训练下来,电脑就能聪明起来。下次你给训练完成的电脑一张它没看过的猫或者狗的图像,它就能正确的认出这张图像上是猫还是狗。

标注每张训练图像是猫还是狗还是需要「人」一张图像一张图像去做的。为了要让机器能学习,就需要大量的数据,但是每一笔数据都要人先花功夫做标注。这就是光鲜亮丽、高科技中的高科技、「人工智慧」背后我们看不见或是不想看见的「人工」。

光是训练电脑学习一些相对简单的事情譬如上述的认猫、认狗之类,所需要的数据笔数动则都是以百万或是千万计。以有名的图像数据库ImageNet为例[2],就包含超过一千四百万张、标注成二万多类别的图像。这么大的数据量所耗费的标注人力也大到难以想像。当年ImageNet是动用了Amazon Mechanical Turk在全世界167个国家,找了五万个工作者,花了三年的功夫来标注这些图像[3][4]。

今天全世界各式各样的智能应用像是自驾车或人脸识别等等越来越多,当然也就需要越来越多的人投入标注数据的工作。当我们在享受人工智慧的成果的时候,有想过这些背后的无名英雄吗?

最近看了《「数据折叠」:今天,那些人工智能背后「标数据的人」正在回家》这篇报导[1],描述了现在中国大陆数据标注工作者的血泪与辛酸。这些人多半受的教育不高,每天消耗体力、眼力,拿身体、拿青春标注数据换取微薄的工资。他们很多原来是社会的边缘人,今天算是进阶到了高科技的边缘人,但是茫茫的前途还是不变。

此文中提到了下面这个对比,在同一个训练机构中有平均教育程度低的数据标识班的学员,也有教育程度高的演算法班的学员:

『兼职标数据的培训班学员一个月的收入在2000元人民币左右。如果全职做,人均工资约4000到5000元。而坐在对面教室的未来算法工程师,刚毕业时,起薪就可能达到30万元/年。 』

就像是一个在建筑工地搬砖的工人大概永远不能期望有一天能成为大楼的建筑设计师,这些「数据标注工」也一样无望能成为算法工程师。

今天中国大陆这群「数据标注工」,让我想起了百多年前在美国修筑太平洋铁路的华工[5]。一百五十年前,华工们手拿着铲子、铁锹,一个枕木一个枕木的铺下去,让一个大国,从「农业时代」加速进入了「工业时代」。今天又是另一群工人,手里换成了键盘、滑鼠,一个数据一个数据的标注下去,让另外一个大国,能够从「工业时代」加速进入「人工智能时代」。两代工人,工作不同,其辛苦、心酸则如一。

昔日在异乡打拼的华工们,都己没世而名不称。今天这一群工人,比较幸运的是在为自己的祖国燃烧。当有一天祖国成了智能大国,让我们都不要忘记这些拿着最小回报、默默用双手推动时代巨轮的无名英雄们。在滚滚奔流的历史长河中,他们曾经留下的倒影也许只是惊鸿一瞥,但那是我们在迈向人工智能世界旅途中最美丽的一道风景。

对数据标注有兴趣的朋友,可进一步参照[6][7]参考文献。

 [1]「数据折叠」:今天,那些人工智能背后「标数据的人」正在回家http://bangqu.com/W179X9.html
[2]ImageNet
http://www.image-net.org/
[3]ImageNet: A Large-Scale Hierarchical Image Database
 https://image-net.org/static_files/papers/imagenet_cvpr09.pdf
 https://vision.cs.uiuc.edu/annotation/papers/cvpr08_annotation.pdf
[4] 杨澜∶人工智能真的来了   Chapter 2∶ ImageNet的洪荒之力  2017,江苏凤凰文艺出版社[5] 太平洋铁路:华工用汗水和鲜血浇灌的奇迹https://kknews.cc/history/2bgjm5g.html
[6] 背后有班「AI民工」日日在框图https://www.facebook.com/artificialintelligencehk/posts/841657919522390
[7] 台湾身障AI数据标注师https://www.facebook.com/FlowInnovation/videos/372945773905352/
 
 
CC BY-NC-ND 2.0 版权声明

喜欢我的文章吗?
别忘了给点支持与赞赏,让我知道创作的路上有你陪伴。

加载中…

发布评论