494 微信监控诠释|公民实验室

野兽爱智慧
·
·
IPFS
·

野兽按:身为被腾讯关了四次小黑屋的微信用户,还蛮好奇已经堕落成洗脑帮凶的微信是如何监控用户的。今天看到一篇解析文章,也分享给诸位书友。

公民实验室2020年5月7日发布报告指出,中国最流行的社交媒体软件微信是对平台上的文档和图像内容实施监控,并使用监控所得的数据训练其审查系统。本文是对该报告的概述,以及与研究团队的一些常见问答。


研究摘要

微信监控非中国大陆区注册账号,并利用非中国大陆区账号之间的聊天记录训练微信针对中国大陆账号的审查系统。

此前我们的研究发现微信针对使用中国大陆手机号码注册的账号进行审查。不在中国大陆的用户可能会认为微信针对政治内容的审查和监控并不会影响到他们。然而,在最新的研究中,我们发现微信国际账号之间的通讯会被监控,通讯中的政治敏感内容会被用于训练和扩大微信针对中国大陆账号的审查。我们通过技术分析,发现此监控针对通讯中的文档和图像内容。目前我们无法得知文字信息是否受到同样的监控,我们提示用户存在这种可能性。

监控和审查均不会提示用户,缺乏透明。

本研究显示微信对中国大陆账号以及非中国大陆账号实施内容监控。非中国大陆区账号之间的内容监控几乎无法被察觉,除非用户自行进行审查测试,而大部分个人用户并不会主动测试。


微信对外公开的政策协议文件,个人信息请求,及微信的隐私专员均没有表明或解释微信会进行内容监控。

本报告对微信公开的政策协议文件进行了内容分析,发起了数据主体访问请求,并向腾讯数据保护专员提出了相关问题。我们试图通过这些研究方法,了解腾讯公司的政策文件是否明确授权了我们发现的监控行为,以及有关专员能否对这些行为作出解释。以上方法均无法为我们在技术测试中发现的监控行为提供合理充分的解释。


与研究团队的常见问答

微信如何进行审查?

此前我们的研究发现微信针对使用中国大陆手机号码注册的账号进行关键词和图片审查。

微信通过服务器端进行内容审查,审查机制存储在服务器上。信息从一方微信用户发送到另一方时,它会途径腾讯(微信的母公司)管理的服务器,服务器在把信息传递到接收方时会先检查该信息是否含有敏感词。

图一: 客户端审查示意图

含有敏感词的信息会被屏蔽,微信不会对信息发送方或接收方进行屏蔽提示。以下截屏显示的是两个中国大陆注册微信账号的聊天界面。一个账号试图发送关键词“法轮功”,该关键词被屏蔽,但没有任何信息提示发送者或接收者信息被屏蔽了。

图二: 一个账号试图发送关键词“法轮功”,该关键词被屏蔽,但没有任何信息提示发送者或接收者信息被屏蔽了。

中国大陆微信账号与非中国大陆微信大陆账号有什么区别?

中国大陆账号指的是最初注册时使用中国大陆手机号码注册的微信账号。非中国大陆账号指的是最初注册时使用任何除中国大陆以外的手机号码注册的微信账号(比如使用加拿大或者美国手机号码注册的微信号)。中国大陆注册账号适用的是中国大陆地区管辖区(主要是深圳市)的用户协议,并且会受到内容审查。非中国大陆账号适用的是除中国大陆以外的管辖区(主要是新加坡)的用户协议。此前研究指出,非中国大陆账号不受审查影响。不过我们最新的研究表明,非中国大陆账号之间的文档和图像传输会受到监控,含有政治敏感内容的文档和图像会被添加到针对中国大陆账号的审查列表中。

你是如何发现非中国大陆账号存在被监控行为的?

我们曾被问非中国大陆注册账号是否只要不与中国注册账号通讯就不存在针对政治内容的监控。根据我们的研究,非中国大陆注册账号之间的通讯不受审查,所以我们当时的回答是“我们认为非中国大陆注册账号之间的通讯也不受监控。”然后我们开始好奇,如何用科学的方法测试是否不存在监控?

监控甚少无缘无故地发生,很多时候实施监控是为了其他目的,比如用来完善日后的审查机制等。基于此前的研究,我们知道微信如何通过监控图像和文件来自动过滤敏感内容。研究非中国大陆注册账号的困难在于非中国大陆注册账号之间不存在内容审查,所以要测试它们是否受监控我们必须使用两个不同的聊天环境:第一个是非中国大陆注册账号之间的聊天环境,用以触发监控;第二个是含中国大陆注册账号在内的聊天环境,用于监测审查变化。当我们在仅含有非中国大陆账号的聊天环境中发送政治敏感内容,我们观察到第二个聊天环境中审查内容有所增多,这表明第一个聊天环境中的内容是受到监控的,即使它并不含有任何中国大陆账号。

微信如何分析,标示,并存储敏感文件?

文件会被扫描是否存在敏感文字。图像也会被扫描是否含有敏感文字,此外,图像还会被与系统现有的敏感图库比对,分析目标图片是否与图库内的其他图片相似。如果文件被系统定义为政治敏感,文件的MD5值会被标示。微信会储存这个MD5值,以备下次更有效率地过滤这些文件。

微信通过消息摘要算法版本5 (MD5 hash)来迅速辨识并标志敏感内容。MD5值是什么?

MD5是一种数字指纹。MD5算法可以用来把体积大的文件缩小至一个“哈希值”。哈希值通常由一个短的随机字母和数字组成的字符串组成。按照MD5算法的不可逆性和唯一性设计,不同的文件应该拥有不同的MD5值,但实际上该算法在漏洞。由于微信使用MD5算法存储敏感文件的哈希值,我们利用了算法的漏洞来设计本研究。我们把两份内容不同的图像文件修改成一样的哈希值,其中一张图像含有政治敏感信息,另一张是普通的图像文件。我们的测试显示,敏感图像在非中国大陆注册账号中传输后,拥有一样哈希值但是不含有敏感信息的图像在中国大陆注册账号中被审查了。测试结果表明,非中国大陆注册账号间的通讯必然存在监控,因为非敏感图像的数字指纹不可能被微信系统标示成敏感信息。

下图展示了把文档或图像转换为MD5值的过程。在下图的例子中,两张不同的图像通过加密算法转换成两个唯一的MD5值。

图三:把文档适用MD5值标示的流程示意图

这项研究存在哪些不足之处?

其中一个不足指出是我们的技术分析只能表明图像和文件是否被监控。我们目前无法得知文字通讯信息是否被监控。在没有实质性证据前,我们提示用户有这个可能性。另一不足之处是我们的研究时间跨度数月。虽然我们持续稳定地观察到针对非中国大陆账号的监控行为,但我们无法判断这种监控行为是否恰好在我们研究进行的时期出现。这种监控行为也有可能已存在数年,或者一直存在。

对于微信非中国大陆注册账号的用户来说,这项研究的结论意味着什么?

在中国大陆以外的微信用户或许会以为微信的审查和监控机制并不影响他们。但是,我们的研究表明,用户不仅会因为政治敏感内容受到监控,用户所发的内容也会被用于训练微信针对中国大陆注册账号用户的审查系统。

这些研究结果是否意味着中国政府在监控微信的国际用户?

根据中国网络安全法,中国政府有权以国家安全和侦查犯罪为由要求互联网公司提供其接收到的或存储的信息。具体就微信而言,其中国用户适用的是中国大陆的用户协议以及隐私政策,而国际用户适用的是基于新加坡的用户协议和隐私政策。我们研究的初衷是希望了解这些签订基于新加坡的用户协议及隐私政策的微信国际用户之间的通讯时候会被分享和传输到微信位于中国的团队,或者腾讯其他位于中国的子公司。我们希望借此了解微信国际用户的通讯是否不受诸如微信针对中国大陆用户的监控。

我们的实验显示微信国际用户之间的交流通讯会被用于扩建微信针对中国大陆用户的审查系统。然而,我们的研究无法支持腾讯与中国政府分享微信国际用户通讯记录这样的说法。虽然我们的研究表明微信对国际用户实施内容监控,但我们没有其他确切证据明晰哪些内容被监控,监控的所有动机,以及微信与谁或哪些机构分享了这些监控数据。

难道不是所有的社交媒体平台都或多或少存在监控吗?微信和其他社交媒体平台的行为有什么不同吗?

本报告之所以特别指出微信存在的监控行为,是因为监控的内容的特殊性,监控针对的是在中国被视为政治敏感的内容。这当中包括批评政府以及呼吁人权关注的内容。微信的内容监控之所以独特,是因为所监控的内容对象不同,而且微信的监控系统也是有所选择地对用户实施。我们的研究显示非中国大陆微信账号之间传输的内容会受到监控,其中政治敏感的内容会被用于训练和扩大微信针对中国大陆账号的审查。据我们所知,目前社交媒体平台所采用的监控系统中,只有微信是利用对一类用户实施监控所获得的数据来增强其对另一类用户的监控和审查。

这些研究结果如何帮助我们理解中国的数字审查?

就我们所知,本研究是目前为止第一个提供实质技术证据证明微信(一款用户数量遍布全球的软件)对国际用户进行内容监控,并且通过这些监控来训练针对中国大陆注册用户的审查系统的研究。此前针对中国的数字审查的研究大多集中在中国以内审查如何进行或者哪些内容会被审查。近年来,中国公司日益全球化,這些公司在满足国际用户的需求的同时,需要在中国国内遵守内容管控相关的法律。我们的研究结果在这个大环境下显得尤其重要。

中国的内容管控范围有多广?

中国有一套针对互联网,应用程序,和媒体的内容管控系统。所有在中国境内运营的互联网平台都必须遵守当地针对内容管理的法律法规。互联网公司须对平台上的内容负责,如果内容不当,公司会面临被罚款或者运营牌照被吊销的后果。

这个系统的复杂之处在于当地与内容管理相关的法律法规界定模糊。比如,“扰乱社会秩序,破坏社会稳定”的内容是不被允许的,但对于什么内容“扰乱社会秩序,破坏社会稳定”没有明确定义。互联网公司可能会在重大事件期间收到政府指令,但我们的研究显示中国目前并没有一份集中下发到公司的统一的关键词表。

公司需要自行审读有关条例和政府指令,自行鉴定如何过滤内容以及具体哪些内容需要被过滤。我们过去的研究显示,微信会在敏感时期重大事件期间会广泛地审查内容,比如最近针对新冠疫情的讨论。

研究结果指出哪些可能的法律问题?隐私协议难道不是应该告知用户相关的监控行为吗?

包括苹果和谷歌在内的应用软件平台服务商会要求应用软件提供隐私条例。许多国家也有相关法律要求公司阐明它们如何收集,处理,和存储用户数据。我们的研究显示微信国际版本的隐私条例和用户协议并没有充分告知用户他们的数据会被如何使用。

针对这种情况,部分地区的隐私专员可以以误导用户为理由给公司开出罚单。不同地区有不同的罚款规定,罚款可从数百,到数千,乃至数百万元。在某些国家,比如加拿大,居民可能向联邦隐私专员提出申诉,隐私专员可以向公司提出如何改进服务的建议。

平台服务商,如苹果和谷歌, 可以基于误导消费者和不准确提供隐私条例的理由从平台上移除相关应用。

最后,政府机构可能会调查微信如何在程序中植入内容监控。调查结果可能会导致某些政府机构禁用微信,甚至基于国家安全的理由强制平台移除软件。

这项研究与此前针对新冠病毒的审查研究有相关之处吗?

我们上一份报告指出微信广泛审查与新冠病毒有关的内容。因为微信采取“一APP两制”的审查系统,审查影响所有使用中国大陆手机号码注册的用户。

这一份报告指出的是,微信的内容管控并不限于中国大陆注册账号。微信针对非中国大陆注册账号进行了内容监控。我们并没有测试与新冠病毒相关的内容是否被监控和增加到针对中国大陆账号的审查列表中,但我们的研究结果表明微信有能力这样做。

以下截屏展示了我们在上一份报告中观察到的微信针对新冠肺炎的内容审查。一名用户试图发送同时含有“美国疾控中心” 和 “冠状病毒” 的信息,但由于“美国疾控中心”和“冠状病毒”这两个词组成了敏感词组,中国大陆微信账号并没有收到这些信息。

图四:针对新冠病毒关键词的审查,图片截取2020年1月1日至2月15日之间。

你们未来的研究计划是什么?

本次报告我们发现了微信如何在国际用户中监控文件和图像传输,我们会持续本项研究,并关注类似的监控行为是否发生在文字传输中。

微信研究背景
微信是中国目前最流行的社交软件之一。截至2019年末,微信拥有超过11亿海内外月活跃用户。微信2011年成立,是一款母公司腾讯运营的即时通讯软件,腾讯是中国其中一家规模最大的科技公司。
微信有多种功能,比如包括一对一和群组聊天在内的即时聊天功能,提供用户上传文字和图片等状态更新的微信朋友圈,以及类似博客的微信公众平台。
此前公民实验室的研究指出,微信针对使用中国大陆手机号码注册的账号实行内容审查。内容审查并不是静态的,而是随着事件发生发展而变化。
 “一APP两制” :微信如何区别审查中国及海外用户
关键词过滤仅仅针对那些用中国大陆手机号码注册微信号的用户,即便这些用户之后更改绑定的手机号,用海外手机号码绑定原有微信号,审查机制也依然存在。
中国社交媒体如何管控新型冠状病毒讨论
针对直播软件YY和聊天软件微信的研究显示,两款软件均对该话题采取了广泛的审查。不仅内容敏感的词汇被过滤,甚至一些对病毒的中性的讨论和提及被审查。这样广泛的审查有可能导致公众无法获得能帮助其保护自身安全的信息。
 “未阅先焚” :微信朋友圈图片过滤功能分析
微信采用了两种不同的算法过滤朋友圈中的敏感图片:一种是基于光学字符识别(Optical Character Recognition)的文字检测方法,该方法用以过滤包含敏感词的图片;另一种是基于图像相似度的对比,该算法用以过滤与微信不良图片数据库中的图片相似或吻合的图片。
 “未阅先焚” (二):微信实时过滤图片功能分析
我们发现微信实时自动过滤用户聊天中给传输的图片,微信分析图片中的文字以及比对图片是否与不良图片数据库中的现存图片相似。微信通过保存和更新敏感图片的MD5哈希值实现实时图片过滤。
微信过滤了哪些“十九大”关键词?
微信从与十九大开始一年多前就开始屏蔽有关的关键词,随着十九大日期逼近,该关键词库也在不断更新。关键词涵盖内容非常广泛,不仅包括了批评党代会,领导人以及党内斗争的言论,许多对中央政策和党意识形态的中性指称也被过滤。
勿忘晓波:微信和微博针对刘晓波逝世的信息审查之分
对微信和微博针对刘晓波逝世的信息审查的初步分析显示,在刘晓波去世後审查力度大幅增加,以至于任何对刘晓波的讨论乃至简单提及也不被允许。在微信上,刘晓波去世后,任何提及刘晓波名字的内容——不管是简体中文、繁体中文还是英文拼音——都会被过滤。我们在之前的研究曾发现,微信在群组聊天和朋友圈功能内会进行图片审查,而在刘晓波去世的这事件上,我们首次发现:微信在一对一聊天功能中也进行图片审查。在新浪微博上,刘晓波去世前,任何由刘晓波全名为关键词的搜索——包括简体中文、繁体中文及英文拼音——早以被屏蔽。在他去世后,单单是刘的名字“晓波”就足以触发审查。
不能说的秘密:新浪微博和微信上被过滤的“709追捕”
本研究记录了在微信和微博平台上针对“709事件”的审查。通过一系列测试,研究者发现了在这两个平台上被审查过滤的与“709追捕”相关的关键词。研究者在微信平台上发现了与“709事件”相关的图片审查。这是第一次针对微信平台的图片审查的系统记录。


公民实验室 | “未阅先焚” 微信朋友圈图片过滤功能分析

Posted by 一朵后浪 | 8月 31, 2018

编者按:加拿大多伦多大学公民实验室的研究人员发布报告分析了腾讯审查微信图像的技术。 研究人员发现,微信采用了两种不同的算法过滤朋友圈中的敏感图片:一种是基于光学字符识别(Optical character Recognition)的文字检测方法,该方法用以过滤包含敏感词的图片;另一种是基于图像相似度的对比,该算法用以过滤与微信不良图片数据库中的图片相似或吻合的图片。微信采用的文字识别算法与大部分文字识别算法有所相通,即其对包含文字的图像进行灰度化(grayscale)和通过斑点合并(blob merging)来识别文字。

本报告分析了微信朋友圈上的敏感图片过滤技术。微信是中国腾讯控股有限公司旗下的即时通讯应用,目前是中国最受欢迎的聊天软件之一,也是全球排名第四的最流行聊天软件。朋友圈是微信上最常用的功能之一,其中图片是用户最期望看到的内容分享形式。

根据中国相关法律法规,互联网公司往往需要对内容进行过滤。公民实验室此前的研究报告发现了微信的“一APP两制”关键词过滤机制,在新浪微博Tom-Skype和新浪UC等即时通讯软件,以及直播平台上的审查机制。此前,我们留意到微信除了过滤关键词,部分与敏感事件相关的图片也会被审查。

主要发现

  • 微信采用了两种不同的算法过滤朋友圈中的敏感图片:一种是基于光学字符识别(Optical character Recognition)的文字检测方法,该方法用以过滤包含敏感词的图片;另一种是基于图像相似度的对比,该算法用以过滤与微信不良图片数据库中的图片相似或吻合的图片。
  • 我们发现微信采用的文字识别算法与大部分文字识别算法有所相通,即其对包含文字的图像进行灰度化(grayscale)和通过斑点合并(blob merging)来识别文字。
  • 微信基于图片相似度的的图片过滤算法并没有使用机器学习来判别目标图片是否属于某个不良图片类别。
  • 在研究这两种不同算法的同时,我们发现用以检测不良内容的技术同样可以被用来反审查。
  • 通过分析了解文字识别算法和图片相似度检测算法,我们发现了这两种算法并非万无一失。算法的弱点让用户得以通过编辑图片,使经过编辑的图片与原敏感图片在能够被普通读者识别理解的同时欺骗机器算法,从而不被过滤。


香港独立媒体|鮑帆:公民實驗室:普通公民的「中情局」

Posted by 网眼恢恢 | 1月 15, 2015

從加拿大多倫多大學蒙克全球事務學院的一間地下室裏出發,公民實驗室(Citizen Lab)歷經14年的發展,已經成為令世界各地的「老大哥」們頭疼、 使億萬普通網民受益的知名研究機構 。

簡單來說,公民實驗室的 研究核心是對互聯網的開放與安全、對網民的基本人權造成侵害的信息控制 ——比如政府監控項目,比如信息過濾系統。毋庸置疑,信息控制的實施者往往是政府,或政府與商業力量的合謀。

有意思的是,公民實驗室的最初創辦靈感其實來自政府內部。1990年代,公民實驗室的創始人Ronald Deibert教授曾在加拿大政府外交部任職。他的主要工作是研究將衛星偵察用於軍備控制。他所在研究小組提出了 「地球監控系統」 的概念,以實施對核試驗的禁令。這一規模龐大的系統讓Deibert見識了全球情報系統和地緣政治的重要性。他認識到,對信息的獲取和控制是大國政治的重要內容,但卻少有人研究。

2001年,Deibert獲得福特基金會的資助,建起了公民實驗室。他的目標是讓實驗室成為全球公民的情報機構:在今天這個全面監控的時代,我們需要知道「老大哥」們正如何監控我們的行為、如何截取和控制我們的信息。為了獲取關於政府控制信息的情報,公民實驗室聘請了黑客、律師和政策專家,借助多倫多大學的機構支持,完成了一個又一個重要項目。

這些項目覆蓋全球,不放過任何一個主要國家,惹惱了許多政府。在一次公開會議上,加拿大情報機構CSEC的前任負責人甚至直接告訴Deibert:政府裏有些人很想逮捕Deibert,而這位前情報頭子本人就是其中一員。

作為控制信息的「大戶」,中國自然也是公民實驗室的重點關註區域。以下簡要介紹公民實驗室近兩年來所做的與中國有關的項目。

詳細揭露網絡審查

中國的網絡審查一直備受關註。在已有的針對此問題的研究團隊中,公民實驗室可以算是最持之以恒、產出了最豐富成果的一支。

公民實驗室研究的審查涵蓋了包括搜索引擎、即時通訊、社交網絡等在內的多類平臺。它們曾經研究谷歌、微軟、雅虎等國外公司在中國提供的搜索服務屏蔽了哪些內容,也曾研究百度的信息審查。

隨著微博、微信等社交媒體的流行,近兩年來公民實驗室也將研究的重點轉向了社交媒體上的信息審查。在2014年11月發布的一項研究中, 公民實驗室的研究者詳細總結了微博上的信息審查流程 :發布一條微博後,可能有哪幾種提示(發布成功、發布失敗、延時發布通知),而每一種提示之後又可能發生什麽(雖然提示發布成功,但因為含有敏感詞,只有自己可見;雖然發布成功,公開可見,但後續可能還是會被刪除;等等)。這項研究還總結了哪些詞可能會觸發系統的自動審查。

當然,中國網絡審查的一大特點是其不斷的更新與變化,公民實驗室的研究並沒有忽略這一點。在2013年8月發布的一項研究中,他們用圖表的形式展現了兩個月內的敏感詞變化,提供了一些很有意思的發現。同一年,公民實驗室的研究者和墨西哥大學的兩位學者合作,成功破解了Tom版Skype和新浪UC的每日敏感詞列表。 他們分析了一年半內的敏感詞變化,並將其與背後的政治社會變化聯系起來,做出了非常有意思的研究。

2014年12月,公民實驗室還總結了目前已有的中國網絡敏感詞研究, 匯總了不同機構發布的13個列表、9054個詞條,這成為研究中國網絡審查的重要數據庫 。

除了發表自己的研究報告外,公民實驗室的研究者也通過其他媒體、會議等渠道發表意見。比如,其中國項目的主要研究者Jason Ng就曾在World Policy撰文介紹百度在巴西發布葡萄牙語版本搜索引擎對全球互聯網信息自由所帶來的影響。

助力中國網民翻墻

公民實驗室不僅揭露中國政府如何審查信息,還為中國網民避開審查、獲取全面信息提供了工具,那就是 著名的翻墻軟件賽風(Psiphon) 。

這款於2006年12月1日發布的軟件,是由開放網絡基金會資助,由公民實驗室開發而成。目前已有多個版本問世,其中賽風2是網頁版代理,而賽風3則是利用VPN和HTTP代理技術的軟件,支持安卓系統。

問世以來,賽風已經獲得了多個獎項。在一次頒獎典禮上,Deibert這樣介紹了這款軟件的目標:「賽風旨在恢復互聯網曾經帶來的願景:成為自由表達、自由獲取信息的平臺……網絡審查已經成為一個重要的全球問題,幾十個國家的政府都在不同程度地屏蔽網民獲取新聞和人權信息的渠道,屏蔽政治反對網站,限制新媒體上的自我表達,如博客和網絡視頻。」

曝光網絡監控項目

2008年,公民實驗室的研究者Nart Villeneuve發現:TOM版Skype收集和存儲了數以百萬計的聊天記錄,並存儲在了一個位於中國境內、可以公開訪問的服務器上。

這只是公民實驗室曝光的中國網絡監控之一。在一項針對全球各國政府使用Blue Coat網絡監控工具的報告中,他們也研究了中國政府對該工具的使用。 他們發現,在中國電信的網絡上,安裝有Blue Coat產品,這一系統被命名為WT-CHENGDU-INT-PS,IP地址位於四川省境內 。

可以看出,與其他許多致力於推廣和保護互聯網信息自由的機構不同,公民實驗室帶有深深的Geek色彩:他們的發聲並非簡單的呼籲和倡導,而是基於實實在在的數據——而這些數據,則往往是通過研究人員精湛的網絡技術, 通過精巧的實驗設計或一些黑客手段獲取的。對於研究信息控制、爭取網絡自由,這種類型的工作有著不可或缺的獨特意義。

CC BY-NC-ND 2.0

Like my work? Don't forget to support and clap, let me know that you are with me on the road of creation. Keep this enthusiasm together!