一窺推特釋出的倆資料集

GnothiSeauton
·
·
IPFS
·

Twitter Safety於昨日的文章〈針對香港的信息操縱〉中釋出了兩組用戶和推文的數據包。

雖然,這僅是推特官方封禁(或其他處理方式處理)的約20萬帳號的一個樣本,但頗具價值。

已有 讀+ 發表的 〈twitter大戰中國網軍!?解密被刪帳號資料集〉珠玉在前,就多翻翻推文啦

數據概覽

csv格式的數據,可以直接用文本編輯器打開,也可用Excel打開,需使用UTF-8碼

第一組用戶數據名爲「china_082019_1_users_csv_hashed」,含744位用戶,每位用戶提供了10項數據,如下:

"userid" "user_display_name" "user_screen_name" "user_reported_location" "user_profile_description" "user_profile_url" "follower_count" "following_count" "account_creation_date" "account_language"

而推文數據名爲「china_082019_1_tweets_csv_hashed」,762.1MB,含1906831條推文(來自699位不同用戶),每條推文提供了31項數據,如下:

"tweetid" "userid" "user_display_name" "user_screen_name" "user_reported_location" "user_profile_description" "user_profile_url" "follower_count" "following_count" "account_creation_date" "account_language" "tweet_language" "tweet_text" "tweet_time" "tweet_client_name" "in_reply_to_userid" "in_reply_to_tweetid" "quoted_tweet_tweetid" "is_retweet" "retweet_userid" "retweet_tweetid" "latitude" "longitude" "quote_count" "reply_count" "like_count" "retweet_count" "hashtags" "urls" "user_mentions" "poll_choices"

同理,第二組含196名用戶,807.9MB,1708078條推文(來自191位不同用戶)

他們使用什麼語言?

第一組

賬戶中,共8種語言。中文最多,簡體582個(78.23%),繁體10個;其次是英文104個(13.98%)。如圖

「zh-cn」與「zh-CN」之分爲原數據之誤

發佈的推文中,共52種語言。最多是印地文(in),794088條(41.64%);第二是英文(en),377943條(19.82%);第三是葡萄牙文(pt),183518條(9.62%);第四是中文,115283條(6.05%)。如圖

第二組

賬戶中,共8種語言。英文最多127個(64.80%);其次是中文,簡體45個(22.96%),繁體1個。如圖

「zh-cn」與「zh-CN」之分爲原數據之誤

發佈的推文中,共57種語言。最多是阿拉伯文(ar),591104 條(34.61%);第二是英文(en),167573條(9.81%);第三是中文,54440條(3.19%);另有Undefined(und)63166條(3.70%),不少就是貼個鏈接。如圖

他們有多少人fo,又有多少人fo他們?

第一組

follower的中位數是2,均值是7991,最多的一個賬戶「蓓嘉」@benjaminkudla39 有170155位,十萬以上的共5人。

following的中位數是36,均值是1247.38,最多的一位fo了31752個賬戶。如圖


第二組

follower的中位數是11222,均值是22434,最多的一個賬戶「癒しの館」@IYASHI_Y 有293635位。十萬以上的有8人。

following的中位數是1586.5,均值是6303.0,最多的一位「ماهر الملالحة」@maheralmlalha fo了195342個賬戶,此人同時有285742人fo。如圖

他們的帳號有多老?他們什麼時候發文?

第一組

119個賬戶於2017年8月30號創立,有97個賬戶於2017年8月18號創立。如圖

發文時間精確到分鐘,最多的4項都在2018年1月4號06:51-07:50這一小時之間,如圖

第二組

創立時間分佈均勻,如圖

電腦不堪重負,只能顯示圖形,時間軸煩請腦補。心疼電腦

他們發了什麼樣的推文?

因語言能力所限,這兒只關注中英兩種語言的貼文,然而,必須先說,這在整個數據集中僅爲少數(其中在集一中佔25.87%,集二佔13.00%)

兩數據集中推文的發表時間都沒有在2019年7月26號之後的,其中集二的中文帳號的發表時間都是在7月6號以前。

翻閱這些帳號自6月以來的發言,主要仍然是轉貼新聞(推文會有附帶鏈接),而在這之前,主要是針對郭文貴等人。當然,轉發新聞,貼一些古詩詞一直佔據大多數

可以先看標籤。取數據集一的中文推文子集,'郭文貴'標籤佔了有標籤推文的三分之一,被標1704次,另有'砸锅', '郭文贵'420次,'郭文贵', '大骗子'185次,'桂民海'903次。數據集二中就比較少,多是‘整點報時’

數據集一中被轉推最多的一則推文就有關郭文貴,被轉3344次,發表於2017-10-21 09:41,作者「0QqazyXTunGfzxwwYgSMugZH0MxjzwJNck4+lHcKM8M=」@0QqazyXTunGfzxwwYgSMugZH0MxjzwJNck4+lHcKM8M=,自我介紹「我是一个草民,却为这个国家操足了心」

郭文贵你该知错了! https://t.co/lB2Z9j4WDw

帳號是不是水軍,重複的推文可能是最簡單的指標了。關於郭文貴的一則推文在數據集一中文子集中出現62次,還有類似的也出現了五十幾次,表達的意思都一樣——郭文貴是騙子。而這種情況在數據集二中文子集和英文子集中沒有出現

郭文贵在国内偷税漏税,伪造公文,行贿国家公职人员,欺骗银行贷款等,可以这样说,只要是能够赚钱,不择手段的欺骗。不管在哪里,郭文贵为了达到目的,就会想办法的制造各种谣言,开始讲自己的故事,吹嘘自己,把自己的形象高大话,来吸引粉丝,吸引追随者。大骗子、就是一个大骗子。

推特官方封禁這些帳號是因爲與香港的信息操控有關,那麼就以6月初爲限來看是否真如此

在數據集一中文共三千餘條,出現的最多都是轉推,同樣的轉推文出現十幾次,幾個例子:

RT @allishotKAI: 反中暴徒用[手無寸鐵]四個字實際作用是\n製造謊言向外面世界宣傳,屈香港警察使用武力對付手無寸鐵的學生, \n但警察被暴徒打到血流披面隻字不提,\n這個正正是今日的香港,昨日的天安門!\n現在大家知道89民運背後的真相嗎?\n#反送中 #香港69反送中大…
RT @HKpoliticalnew: 暴徒們連續性嘅去街嚴重破壞了香港社會治安秩序,毆打執勤警員…\n7月1日暴徒們更系大肆使用暴力,肆意沖擊破壞立法會大樓,而反對派議員非但未阻止示威者武力升級,更叫警員「克制」,仲為暴徒提供人力及物資,煽風點火…\n呢種時候只能冀警方嚴正執法,…
RT @HKpoliticalnew: 【呢一天嘅暴行 我哋用無聲嚟銘記】\n\n2019年7月1日嘅深夜,瘋狂嘅暴徒沖進了香港立法會大樓,開始了毫無顧忌嘅破壞。「法治」呢一立法會所代表嘅香港核心價值喺呢一夜被撕碎、被砸爛、被踐踏。\n\n我哋用無聲嚟表達憤怒,用靜音嚟拒絕遺忘。\n\n#…

在數據集一英文中,和香港有關的很少,但有和中文子集中同樣重複17次和16次的兩段,如下:

RT @ctcc507: Governing Hong Kong by law is the core value of Hong Kong. We don’t allow anyone to run roughshod over the law. https://t.co/P…
RT @ctcc507: The legislative council belongs to the people of Hong Kong.Those people with ulterior motives indicated by forces hide behind…

在數據集二中,因爲中文部分只提供到7月6號,發文極少僅百條,但也有重複內容,重複次數僅2次,如下:

RT @bindarsou: 香港警察,真正嘅正義使者!\n反對派污蔑攻击香港警察嘅目的,係為咗擾亂香港嘅社會穩定,相信廣大具有正義感嘅市民同學生,定能睇清事實,不再被反對派制造嘅假象迷惑,譴責利用學生進行暴力嘅邋遢行為!#香港警察 #撐港警 #反暴力遊行 #HongKong #…
RT @HKpoliticalnew: 「我哋需要你」【1】\n\n連日嚟多個團體喺中環遮打花園等地舉辦撐警晚會、街站,精力更有大批人員到警總高呼「我哋需要你」,大叫「支持警察,嚴正執法,愛香港,撐警察」嘅口號。\n#香港 #撐警行動 https://t.co/1gp6JqhumY
RT @HKpoliticalnew: 撐警隊 你我同行【1】\n\n示威者連續發起占領行動,更包圍灣仔警察總部近16小時,嚴重影響警方工作和社會治安!\n警察系社會嘅衛士,撐警隊,你我同行!\n#香港 #撐警行動 https://t.co/F3ssbIcHWq
RT @simsoer: 曾經亞洲最安全城市嘅締造者-香港警察,為了最小嘅傷害保持了最大嘅克制。 嚴正聲明——強力支持香港警察嘅執法行為,強烈譴責香港反修例暴徒暴力嘅行為,愿香港重歸穩定,齊心建設粵港澳灣區 #HK #HongKongProtest \nhttps://t.co/…

6月初以來,數據集二的英文子集發推萬條,沒有發現以上有關重複內容

個案研究

「HK時政直擊」@HKpoliticalnew ,2015年1月22號建號,有22551人跟隨,自我介紹「Love Hong Kong, love China.We should pay attention to current policies and people's livelihood. 愛港、愛國,關注時政、民生。」,共2099條歷史推文,之前的推文都鮮有喜歡或轉推,被喜歡和轉推都過200的推文,都是近兩月所發,如下:

【呢一天嘅暴行 我哋用無聲嚟銘記】 2019年7月1日嘅深夜,瘋狂嘅暴徒沖進了香港立法會大樓,開始了毫無顧忌嘅破壞。「法治」呢一立法會所代表嘅香港核心價值喺呢一夜被撕碎、被砸爛、被踐踏。 我哋用無聲嚟表達憤怒,用靜音嚟拒絕遺忘。 #香港 #暴行 #法治 #核心價值 https://t.co/3Vwnnpzm5q
暴徒們連續性嘅去街嚴重破壞了香港社會治安秩序,毆打執勤警員… 7月1日暴徒們更系大肆使用暴力,肆意沖擊破壞立法會大樓,而反對派議員非但未阻止示威者武力升級,更叫警員「克制」,仲為暴徒提供人力及物資,煽風點火… 呢種時候只能冀警方嚴正執法,還社會安寧 #香港 #反對派 #暴徒 #立法會大樓 https://t.co/jJ4rNtlSvJ
撐警隊 你我同行【1】 示威者連續發起占領行動,更包圍灣仔警察總部近16小時,嚴重影響警方工作和社會治安! 警察系社會嘅衛士,撐警隊,你我同行! #香港 #撐警行動 https://t.co/F3ssbIcHWq
「我哋需要你」【1】 連日嚟多個團體喺中環遮打花園等地舉辦撐警晚會、街站,精力更有大批人員到警總高呼「我哋需要你」,大叫「支持警察,嚴正執法,愛香港,撐警察」嘅口號。 #香港 #撐警行動 https://t.co/1gp6JqhumY
#屈穎妍:溫柔的暴力 七一那夜,如果你不是圍着電視,也會盯着手機,與全香港人一同見證這幕立法會暴力衝擊。看到暴徒大肆破壞,我天真地以為,這幕暴力該能敲醒民心吧? #暴力 #破壞 #立法會 #大公報 全文:https://t.co/1iGHIT0kwB https://t.co/8MidDY0v0d

這第二條推文,也就是前述重複17次之多的推文,這17位發推用戶,都有大量追蹤者,然而這條推文在評論、引用、喜歡和轉推四項互動上全都掛零。

疑問

@Twitter Safety文章指出這些賬戶被封禁的原因是

Spam
Coordinated activity
Fake accounts
Attributed activity
Ban evasion

從前面的分析來看,數據集一和二有很大不同,數據集一中明顯有一些網軍,不同帳號發表相同推文的情況,數據集二沒有。然而,很有意思,推特文章最後聲稱有證據

Note: We have divided these archives into two parts to better enable review of the intersecting networks of accounts which comprise this campaign. We have evidence to indicate that both sets are associated with the same entity.

除了已知的中國政府購買增粉業務(推特臉書),可能使用相似增粉服務的用戶就會造成誤傷,比如BBC報導的Luka Ivezic。其實,推特bot氾濫不算新聞了,《紐約時報》2018年初就曾專文起底了Devumi,稱它至少掌握了350萬自動化帳號,增了兩億粉。

但是,根據讀+所發現的,「『反送中』帳號以前是一群死忠韓團粉絲」,很難認爲這些屬於網軍;很有可能的是,這些是「出征」的網民(或稱「小粉紅」),他們和bot的行爲模式相似,上來先關注下中國官媒,力挺香港警察,然後馬上被識別爲coordinated activity、封禁帳號。由於數據集僅止於7月26日前,沒能提供更近的內容,一定會有更多類似的人伴隨著「出征」潮,帳號會被停用。

言論自由的問題多有討論,Meiklejohn在《表達自由的法律限度》中指出,對於公共問題的討論應該不設限制;Fiss在《言論自由的反諷》中認爲,美國憲法第一修正案保護應當是的是「言論自由」,而非「言論」,故整個言論環境才是應當保護的。bot被封禁是因爲屬於人爲提高聲量(即錢論自由),而封禁人的帳號需要更爲嚴謹,演算法在此是有缺陷的。還是希望推特能給出更多的論據。

CC BY-NC-ND 2.0 授权

喜欢我的作品吗?别忘了给予支持与赞赏,让我知道在创作的路上有你陪伴,一起延续这份热忱!