政黑板的社群網路分析(Social Network Analysis)
延續上一次對於ptt分析的初步架構,這次將分析目標延伸至政黑板(Hate Politics),主要是想嘗試看看天下2019/01/09的報導《PTT原始資料全揭露!「韓流」怎麼造出來的?》 重現,以及延伸。
前言:
因為政黑板只保留近六個月的資料,除非有被標記的文章(不知道其他板是如何?),時間是2019/01/21 ~ 2019/06/15,相對ptt最大的八卦板,主題比較聚焦於政治,較容易分析,且資料量較小,約不到一天就爬完了。分析角度主要是基礎統計與利用graph找出互動的關係,以及資料處理遇到的困難。
Ps. 資料來源是使用jwlin在github上面的爬蟲,但好像有點小bug,部分id只要暱稱有特殊符號 @ 就會變成空白,要再確認一下原始碼id解析的部分,目前有292篇文章有這樣的情形,先略過~
首先看看發文量吧!
文章主要分為三個部分:
1. 資料視覺化 — 基本統計(Tableau,付費軟體,免費板的限制是一定要公開檔案才能存檔,要小心使用歐!)
2. 發文與推文的互動關係 — graph(開源軟體Gephi,網路分析的視覺化軟體)
3. 資料處理的一些細節 — code(python) 有興趣看ETL的髒code我放在colab ler
資料處理後的資料如下:
1. id統計 (作為圖的節點Node)
2. id發文資料 (作為Tableau的時序分析來源)
3. 留言互動資料(作為圖的邊Edge)
首先,根據鄉民百科,此板立場比較偏藍:
政黑板全名政治黑特板,英文名稱 HatePolitics,板上以批判政治爲主,算是黑特板相關的姊妹板。板上文章及推文拼命護航藍營政府弊案,所以被八卦板板友戲稱爲糞坑板(因爲藍營的支持者蛆蛆多)
下面用Tableau做視覺化分析,有興趣可以到網站上互動或載下來編輯
但若先不看立場,可以先從整體對照到特殊的使用者,其中一個是看發文與回文(Re)的比例,上方是推(+1)噓(-1)加總,下方是文章數量。
藍色:發文
橘色:回文
進一步從id的角度來看,看看Top10推噓有何不同?
以Top10推噓加總的id來看,在推文與回文的比例也有些不同,以Top1的mark2165(下方的青綠色)來說,幾乎都是發文,回文的比例很少。目前看到許多ptt的異常使用者分析都會濾除回文,我推測可能是假設如果是要進行議題設定是比較難透過回文發揮的,因為腳本可能已經設定好了,用回文的話會有其他影響因素。
但這只是分析的某個片面之詞,上面有資料,也有互動的網站,期待有不同的看法~
天下對於韓流質疑的報導是2019/01/09刊出,點出對於mark2165的質疑,卻還是在2019/03/22/當選板主(他的政見發表),或許代表該id還是有一定的受歡迎程度,不一定是營造出來的?
以社群網路分析(Social Network Analysis)互動關係
除了看整體的風向,也可以看看使用者間的互動關係~
id的屬性(Node)主要是統計發文與回文的讚噓發文數等加總,兩個人中間線條的粗細代表互動量(推噓與箭頭的加總,各算一次),顏色代表互動中最多的類別,。
兩個人互動中
推文最多,會以藍色標示,
噓文用紅色,
箭頭是淡綠色。
點越大代表推噓加總越高,可能是越受歡迎~
由於整體數量過於龐大,做些簡單的篩選,找出id間的強烈關係,兩個id之間單向互動量必須超過100,且經過此篩除後,變成孤立點的也篩除,就只剩下136個id(佔整體id的0.3%)與159條互動量的線(佔整體互動線條的0.02%),就會發現有趣的群聚現象。
為了突出高互動量的id,下面將互動量門檻調高到250
初步的分析大概到這邊,還有很多不完備的,不管是資料來源、分析角度、語意分析都還有很大的空間,在觀察特殊的使用者(抑或指摘為網軍)要如何區分狂熱的積極使用者,需要一些關鍵性的條件,主要應該是一些有規律的機器人行為,留待下次分析囉~
參考資料:
- 無所不在的自然語言處理 — 基礎概念、技術與工具介紹 能大致了解整體NLP的研究範疇
- i’Analyseur 是一個PTT分析平台,針對ID或IP提供整合性且視覺化的分析。(2019/06/30時網站掛了)
- 「抓到了?!」用數據分析鳥瞰 PTT 政治文帳號 (上) 王銘宏/逢甲大學資訊工程學系助理教授 的文章,利用統計數據找出異常使用者
- 《PTT原始資料全揭露!「韓流」怎麼造出來的?》
- 互联网数字宣传战(二):数字世界里的水军们如何介入现实世界里的政治
喜欢我的作品吗?别忘了给予支持与赞赏,让我知道在创作的路上有你陪伴,一起延续这份热忱!