COSCUP 2024 台灣語言峰會參與有感

王文岳
·
(修改过)
·
IPFS
·
自 COSCUP 2020 嘗試邀請各族夥伴分享族語社群參與維基媒體社群後,每一年也都慢慢可以在 COSCUP 上看到部落的夥伴來分享

「透過再去訪談我們才知道還有這種說法..(略)
舉個例子 #泰雅語 挖地的挖(如有錯誤請指正)
目前辭典有三種說法
但在訪談後我們才發現竟然有十一種說法
我們有沒有可能用維基百科來記錄其他的說法」
這是摘自 COSCUP 2024 台灣語言峰會
(原始錄影可參閱:g0v.social/@Allenwan...)
族人夥伴對於維基百科或是維基社群給予的回饋與建議

誠如前幾篇提到的:我總是在演講中提到華語的數位基礎建設相當不足
縱然過往臺灣的政府單位如: 文化部 、 中研院還有國家圖書館等機構都在為臺灣、華語的數位、數位化資料做基礎資料建設
相關的數位化典藏計畫甚至早在文建會時期就已經開始
到現場還有國家文化記憶庫等新的典藏、應用與轉譯計畫

但若從近年的語料以及LLM(Large Language Model,大型語言模型)的議題
再看到已經在全球推展數年的鏈結資料 (Linked Data)
甚至到臺灣最引以為傲的開放資料領域 Open Data
你都可以看到華語資料在全球尺度下是多麼弱勢

那我們再轉來看的原住民語那又是怎麼樣的一個情景
即便不討論原住民與
看到台語、客語還有馬祖話
還有多少的數位基礎工程工作要做
過去我曾用「建構族語鏈結開放資料? Wikidata 上賽德克語的應用現況」為題
到埔里賽德克的夥伴那邊分享我的所見
「臺灣有多少的開放資料是以族語書寫的?」
一語到破現在族語數位資料基礎建設的問題
而這些問題也是在臺灣這塊土地上面非華語(甚至包含華語)都必須面對的問題

寫到這邊並沒有要指責誰或哪個單位的不是
上面點名的單位也是希望大家可以去看看這些單位做了哪些酷事情
像是中研院有一個單位專責維護華語的建築與藝術索引典
除了將外文語彙進行華語翻譯與驗證外
也同步在華語辭彙彙編提供讓全球社群共同翻譯與驗證
並釐清相關實體的分類與階層歸屬
如此「無聊」的基礎資料維護工作
卻是組成網際網路的龐大、巨量資料的核心基礎建設
可是少有人會關注這塊
也少有人想到:嘿!OO語也要做這個!

我們還有很多工作可以做
AI 或許可以幫忙但還有太多工作還沒做了

[ COSCUP 2024 台灣語言峰會]
時間:20240803 13:00 - 16:00
地點:台灣科技大學 TR615 教室

CC BY-NC-ND 4.0 授权

喜欢我的作品吗?别忘了给予支持与赞赏,让我知道在创作的路上有你陪伴,一起延续这份热忱!

王文岳王文岳 Allen Wang 「紀錄、分享與挖掘更多小角落」 主要同步 Mastodon 、 Instagram 所發布的長文內容與紀錄
  • 来自作者
  • 相关推荐

毬可魔法飾品【指針】的製作與心得

給未來也想帶開放社群夥伴們的一點建議

【種土】觀後感之一:重新回到自己對於土地的關懷