独家报导:OpenAI以少于每小时2美金低薪聘肯尼亚工人减少ChatGPT不良成分
作者:比利·佩利戈
发布日期:2023年1月18日
原文: https://time.com/6247678/openai-chatgpt-kenya-workers/
警告:本文章内含有性侵犯的描述。
从去年11月发布后,ChatGPT就被誉为2022年最令人刮目相看的科技创新之一。这个功能强大的人工智能(AI)聊天机器人可以开展几乎任何话题的文本:从以梅根·西·斯塔莉安(Megan Thee Stallion)的风格创作一首莎士比亚体十四行诗,到用连五岁小孩都能理解的语言解释复杂的数学定理。 ChatGPT在一个星期内已经有过百万的用户。
ChatGPT的创始公司「开放人工智能」(OpenAI)于2015年在旧金山成立,旨在构建超级智能机器。据报导,OpenAI正在与投资者谈判,以290亿美元的估值筹集资金。当中的投资者包括有意投入100亿美元的微软。如此庞大的投资会使OpenAI成为全球最高价值的人工智能公司之一。
但OpenAI的功劳不只归于硅谷的科技天才。 《时代周刊》调查发现,该公司以低于2美金的时薪外包肯尼亚工人来减少ChatGPT的不良成分。
这种工作对OpenAI来说非常重要。 ChatGPT的前身GPT-3已经具有惊人的能力去串连不同的句子。但该产品的商业价值并不理想,因为GPT-3常常脱口而出暴力、性别歧视和种族主义言论。这是因为OpenAI使用了互联网这个巨大人类语言库上数千亿的单词训练该人工智能。这个庞大的训练数据集成为了GPT-3拥有超强语言能力的原因,但也成为了它最大的诅咒。互联网一些角落布满的恶意和偏见无法从训练数据集移除,就算有一个数百人的团队也需时数十年才能将数据集里所有资料人工过目。因此,OpenAI只能构建另外一个由人工智能驱动的安全扫描系统来将危害降到最低,从而生产一个适合日常使用的聊天机器人。
为了构建安全扫描系统,OpenAI向脸书等已经示范了如何使用人工智能移除平台上仇恨语言的社交媒体借鉴。前提非常简单:若我们向人工智能灌输已标签为暴力、仇恨语言、性侵犯的例子,该工具就能学习认别广泛媒体里的不良内容。这个扫描系统将会加到ChatGPT程式里面,来检查它能否在训练数据库里侦测到同样的不良内容,并将该内容在到达用户前过滤掉。系统还可以将不良内容从未来人工智能型号使用的训练数据库中清洗掉。
为了获得不良内容标签,OpenAI从2021年11月开始寄了数千段文字到肯尼亚的一所外包公司。大量的文本取自互联网最黑暗的角落;部分材料将儿童性虐待、兽交、谋杀、自杀、虐待、自残及乱伦等情境描述得极其详细。
OpenAI在肯尼亚的外包拍档叫沙马(Sama),是一所总部位于旧金山的公司。 Sama聘用肯尼亚、乌干达和印度的工人为谷歌、Meta和微软标记数据。 Sama将自己推销为一所具有商业道德的人工智能公司,并声称曾帮助超过五万人脱离贫穷。
Sama代表OpenAI雇用的数据标签员的实得工资约为每小时1.32至2美元(按员工的资历和表现而定)。为了这篇报导,《时代周刊》翻查了几百页Sama和OpenAI的内部文件,包括员工的工资单,并访谈了四位标签员。出于对生计的担忧,受访者均不愿意透露身份。
虽然标签工作为人工智能成为安全的大众消费品发挥了重要作用,其工人的故事却揭开了人工智能产业鲜为人知的一面。 OpenAI所属的人工智能组织联盟「AI合作企业」表示:「虽然这些数据扩充专业人士发挥着基础性的作用,但越来越多研究显示,这些工人的工作条件不够稳定。这可能是在欢呼科技效率提高的同时试图隐藏人工智能对人力劳动依赖的结果。」(OpenAI没有公开其外包公司的名单。本报导也不清楚OpenAI在此项目中有没有与Sama以外的数据标签公司合作。)
在一份声明中,一位OpenAI发言人确认了Sama在肯尼亚的员工协助构建了一个辨别不良内容的工具。这一工具最后纳入了ChatGPT程式内。声明还表示,这项工作有助于从ChatGPT等工具的训练数据库中删除不良内容。发言人说:「我们的任务是保证通用的人工智能造福全人类,我们努力构建安全及有用,减低偏见和具伤害性内容的人工智能系统。为了尽量减少训练数据库中暴力和色情内容的数量,及创建可以检测有害内容的工具,将有害文本和图像分类和过滤是必经之路。」
尽管更广泛的科技经济因预期的低迷而放缓,但投资者竞相向以OpenAI为首的生成式AI产业投入了数十亿美元。最看涨的投资者相信,电脑生成的文本、图片、视频和音频将改变无数行业的商业模式,并提高所有行业的效率——从创意艺术到法律和电脑编程。但数据标签员的工作条件揭露了这画面的黑暗部分:虽然人工智能表面上很闪亮,但这产业经常依赖位于全球南方的隐藏人力劳动,而这些工种往往具有破坏性和剥削性。尽管他们的劳动为一个价值数十亿的产业做了贡献,但这些工人往往被隐形化和边缘化。
一位负责为OpenAI阅读并标记文本的员工告诉《时代周刊》,他在阅读一段描述一个男人在小孩面前与一只狗性交的文本后反复出现幻觉。 「那是虐待,」他说。 「你会在工作中常常看到很多类似的文章。一周下来那些脑中画面令人不安。」这项工作的创伤性导致Sama于2022年2月取消了与OpenAI有关的工作——比预期早八个月。
Sama的合约
《时代周刊》翻查的文件透露,OpenAI在2021年与Sama签订了三份总值20万美元的合约,后者会为OpenAI标记含有性侵犯、仇恨语言、暴力的文本。三十多名工人分到三个团队,每个团队负责以上三个主题中一个。三位工友告诉《时代周刊》,雇主要求他们在九小时上班期间过目并标记150到250篇文字。每篇文字的长度从100至1000多字不等。四个受访者均认为工作对他们造成了精神上的创伤。虽然有权参加心理治疗,但由于公司要求他们提高工作效率,他们很多时候参加不了治疗,故疗程起不了作用。其中两位受访者说,公司只让他们以小组形式参加心理治疗,其中一位更说Sama领导层一再拒绝他们与辅导员一对一见面的要求。
一位OpenAI发言人在声明里表示,雇员只有参与小组治疗抉择的说法「不正确」——雇员有权通过一对一或小组形式与“经过专业培训和许可的心理治疗师”见面。发言人补充,这些心理治疗师随时可用。
合约表明,OpenAI给Sama的时薪为12.50美元,这是该项目工人时薪的六至九倍。根据三位工人的说法,代理人——也就是占三个团队大部分的最初级标签员——每个月的基本工资是21000肯尼亚先令(折合170美元或1144人民币)。因为工作色情露骨的性质,每个月有额外70美元的津贴,达成准确性和速度等关键绩效指标也会获得奖金。每天工作9小时的代理人可以在扣税后每小时赚1.32美元,如果达成所有指标,他们的时薪可达1.44美元。如果质量分析员——检查代理人工作的高级员工——达成所有指标,可以每小时赚2美元。 (肯尼亚没有标准最低工资,但在这些工人受雇之时,内罗毕接待员的最低时薪为1.52美元。)
一位Sama发言人在声明里表示,他们要求工人每小时标记70段文字,而非高达250段,扣税后每小时可赚取1.46至3.74美元。发言人拒绝解释哪个工种才能赚取这范围的上限。他补充说:「该项目12.50美元的费率涵盖所有开支,包括设施费用,以及承包商及其全职质量分析师和团队负责人的工资和福利。」
一位OpenAI发言人在声明里表示,公司没有发出任何产量目标,而员工的薪金和心理治疗福利则由Sama负责。发言人更表示:「我们非常重视我们员工和外包商员工的精神健康。我们之前的理解是,Sama会提供保健方案和一对一的心理治疗,而选择退出任何工作的工人都不会受到惩罚。工人暴露于敏感、露骨内容的时间会受限制,敏感信息则由受过专业培训的员工处理。」
在肯尼亚的日常标签工作中,会出现一些边缘情况,展现教育机器理解细微差别的难度如何之大。去年三月初,一位Sama员工在工作期间阅读了一篇有关蝙蝠侠的搭档罗宾在歹徒巢穴被强奸的故事。 (通过网上搜寻,此故事来自一个色情文学网站,当中含有成人色情图像。)故事一开始表明性行为是非自愿性的。但后来——在一个描述得非常仔细的肛交情节后——罗宾开始响应。根据《时代周刊》翻查的文件,负责标记文本的Sama员工似乎对罗宾模棱两可的允许感到困惑,并要求OpenAI研究人员澄清如何标记文本。员工问道:「文本是否应该标记为性暴力?」OpenAI的回覆——如果他们有回覆——没有记录于该文件里;公司对此也拒绝回应。那位Sama员工也没有接受《时代周刊》的采访邀请。
OpenAI与Sama的关系如何破裂?
2022年2月,Sama和OpenAI一度深化关系,但后来步履蹒跚。那个月,Sama为OpenAI的另一个项目开展了试点工作:为OpenAI搜集并提供色情和暴力图片——其中一些还违反美国法例。这个项目的标签工作与ChatGPT无关。 OpenAI发言人在相关的声明里没有表明其公司向Sama索取图片的原因,但表示将不良图片标记是让人工智能工具更安全的必要步骤(OpenAI也有创建图像生成技术)。根据《时代周刊》翻查的一份帐单,Sama在2月提供了1400张图像作为样本。根据那份帐单,当中一些图像被归类为「C4」——OpenAI内部定为儿童性虐待的标签。样本还包括「C3」图像(兽交、强奸、性奴役)和「V3」——死亡、暴力、重伤——的图像。
Sama在数星期内退出了所有与OpenAI合作的项目,比合同约定早八个月。 Sama在声明里表示,为OpenAI搜集图像的项目合约并不包括非法内容,OpenAI是在项目开展后才「附加」了搜集「非法内容」的「指令」。 Sama发言人说,「东非的团队立刻向我们的高层提出疑问。Sama立刻停止了相关的试点工作,并通知了OpenAI我们会终止其他的合作项目。与客户合作的工作人员没有通过适当的渠道审批请求。对情况审查后,我们已开除了相关的个人,并制定了新的销售审查政策和规则。」
OpenAI通过声明确认,公司从Sama手上收到1400张图像,包括但不限于「C4、C3、C2、V3、V2和V1图像」。在另外一份声明中,该公司补充道:「我们聘请Sama作为正在进行的工作的一部分,以创建更安全的人工智能系统并防止有害的产出。我们从没有打算搜集C4类别的图像。我们的初步训练过滤器并不需要这样的输入,我们因此吩咐员工尽量避免这些内容。Sama告诉我们他们尝试搜集C4类别的图像后,我们马上向他们澄清这是一个误会,我们并不需要那些内容。发现有误会后,我们并没有开启或审视相关的内容,所以我们不能确认样本里有没有C4类别的图像。」
Sama与OpenAI终止合作的决定意味着Sama员工不需要再接触令人不安的文本和图像,但这也对他们的生计有影响。 Sama员工说公司的人力资源团队在2022年2月下旬召他们开会并将消息转告他们。其中一位员工表示:「Sama告诉我们他们不想再让员工接触那些不良内容。但我们回应说,这是我们养家糊口的方式。」标签团队的三十多名员工绝大部分重编到更低薪的工作组,再没有70美元的补贴;其他人被解雇了。 Sama在同年三月向OpenAI递交了最后一批有标签的数据,比合约原定早八个月。
因为合约提早被终止,OpenAI和Sama均说合同商定的20万美金没有全额支付。 OpenAI说,在两公司合作期间,合约总值15万美金左右。
Sama员工说管理层给了他们另外一个终止合约的理由。 2022年2月14日,《时代周刊》出版了另外一篇文章——《脸书在非洲的血汗工厂》。这篇文章调查了Sama为脸书聘用内容审查员,涉及审阅处决、强奸和虐待儿童的图像和视频,时薪仅为1.5美元。四位Sama员工说,管理层告诉他们该调查是公司决定与OpenAI终止合约的原因。 (脸书表示,它要求外包合作伙伴“提供业内领先的薪酬、福利和支援。”)
《时代周刊》更翻阅了在脸书调查出版后Sama的内部通讯,发现Sama在旧金山的主管急忙处理了事情的公关后果,包括满足一家公司(汉沙航空子公司)的要求删除Sama网站上双方外包合作的证据。通过一份声明,汉沙航空向《时代周刊》确认了此事,并补充其子公司zeroG也和Sama终止了合作关系。 2月17日,即《时代周刊》调查出版后的第三天,Sama总裁温蒂·冈萨雷斯(Wendy Gonzalez)通过Slack平台向一班主管发出以下信息:「我们将结束OpenAI的工作。」
今年1月10日,Sama更进一步宣布,它将结束一切与敏感内容有关的工作。它决定不会与脸书续签价值390万美元的内容审查合同,这导致内罗毕的200名员工丧失工作。 Sama的声明表示:「经过数次与全球团队的讨论,Sama战略性地作了决定,终止所有与自然言语处理和内容审查有关的工作,并将专注于电脑视觉数据注释解决方案。过去一年,我们都在与客户合作如何将业务过渡,并会在2023年3月完全退出所有内容审查项目。」
但人工智能系统仍然需要人力劳动去标记数据。安德烈·史泰特(Andrew Strait)——一位人工智能伦理学家——在Twitter上表示:「ChatGPT和其他生成模型很厉害,但它们不是魔术,要依赖庞大的人力劳动和搜刮数据的供应链——其中很多未经授权或同意就已经被使用。这都是OpenAI没有正面回应或解决的严重基础性问题。」
With reporting by Julia Zorthian/New York
茱莉亚·佐蒂安在纽约报导
喜欢我的作品吗?别忘了给予支持与赞赏,让我知道在创作的路上有你陪伴,一起延续这份热忱!
- 来自作者
- 相关推荐