麻瓜也可以擁有的分類帽
恭喜你,被標題騙進來了!這篇文章與哈利波特一點關係也沒有!
前言
話在前頭,其實那個「假日快閃 Matters 選集」徵圖活動是不需要寫文章,只需把你的「選集」截圖(至少一本)發到 Matters Lab 的「創作者經濟」頻道即可。這篇文章的出現,是因為活動獎金會透過支持個人首頁最新一篇文章的形式發放。同時,也因為被 @Matty 邀稿,分享使用選集的二三事:
孤立子你好~Matty 看到你第一時間如火如荼的試用了新上線的選集功能~感謝你的支持!~~你創建的選集都很有趣!都包含了你自己的設計心思haha我們覺得很適合推薦給社區,想邀請你寫一篇文章分享使用選集的感受或建議,或把這個功能分享給更多還沒用的朋友~
煩惱
如我在《進駐五個月,投稿二十篇》中分享,馬特市「孤立子」這帳號於我而言,是個以市內徵文活動(包括私人邀稿)自我挑戰的場地。執筆時帳號中29篇作品全是投稿,內容主題自然大不相同,難作分類的準則。
曾想過最簡單的分類:「社區活動」、「DC 駕駛員徵文」、「自辦徵文」、「私人邀稿」。但實在不行!太沉悶了!而且這樣的區分完全無助於更立體、多元地呈現作品。單純為分類而分類,是無法吸引更多讀者。
按文體分類又如何?故事式的記敍文歸一類,論說文和說明文歸一類,詩歌歸一類,眼看似乎也是個不錯的選擇…… 然而,實際操作時就發現有點尷尬。以最近期的《撲朔迷離》為例,文首有小明與小芳的一則故事,中間有一小段對故事及徵文主題「恐懼與愛」的感想,文末加入為了向 @Sogni 騙款而把文首故事改寫的詩歌。同一篇文章內混合了多個文體,這種區分好像也作用平平。
不過我也沒有把創建的 3 個選集刪去,僅是把「詩歌一類」改為放「介紹文」,修改一下選集名稱、並選一些迷因圖當封面。選集內的文章按其拍手數,由多至少排序。
決定
最後,我選擇的是按熱度分類,使用每篇文章的拍手數進行 K-均值聚類算法(K-means Clustering),分成低熱度、中熱度和高熱度三個選集。與按文體分類的選集不同,這 3 個選集內的文章是按其拍手數,由少至多排序。
上圖中每一個圖點代表一篇投稿作品,橫軸顯示的是作品的篇號(由第 0 篇至第 29 篇),縱軸則是該作品所得的拍手數。經過 K-均值聚類算法,作品被分成了棕色、綠色和紅色三群。低熱度的作品拍手數只有 20-30,可謂默默無聞(所以我會哭小聲一點);中熱度的作品顯然是小有名氣,拍手數界乎 45 和 78 之間(其實我也知道自己的文筆就是爛,能有十多人拍手已經很不錯);高熱度的作品獲得的拍手皆在 85 以上,曾有幸在「熱門區」逗留,算是風靡一時,讓人瞬間充滿自信(Feel like a sir)。
文末,一起看看 GPT-4 的回應:
其實還有兩個顯然而見的負面後果。首先,這分類法「乞討拍手」的意圖太露骨!其次,就是往後不論是獲得新的拍手,還是有新作品發布,我都得重新分類一次……
所以,喜歡我的,趕快來看看這些「默默無聞」的文章,它們正等待你的拍手……
討厭我的,想加大我工作量,看我辛苦忙碌的樣子嗎?來拍手吧……
[詩] 選集(獻給 @Sogni )
分類難堪煩惱增
主題文體均不行
聚類算法添靈感
依其熱度以三分
低熱文章無人問
中熱小有名氣得
高熱一時風頭強
唯盼讀者拍手增
作者附註
關於 K-均值聚類算法:
舉個簡單的例子,假設我們想將10個人根據他們的身高/體重分成2群。我們可以先隨機選2個人作為起始群中心,然後計算每個人與這2個群中心的距離,將每個人分配到距離最近的那一群。接著重新計算每群的平均值作為新的群中心,再次計算每個人與群中心的距離並重新分配群份。反覆執行幾次後,就會自然地將人分成較矮/輕的一群和較高/重的一群。
這個算法就像是將人群分成幾個小團體,每個團體圍繞著一個代表性的中心,不斷調整中心和重新分配人以形成合理的分群。它不需要預先知道每個人的資訊,通過迭代就可以自主找到群的結構。
所以 K-means clustering 可以自動將資料分成具有代表性的幾個群落或類別,是一種很有用的無監督學習算法。