寫在「臺灣哲學史料資源調查研究」諮詢會議之後,我對資料庫回應與想像

王文岳
·
·
IPFS
·
2023「臺灣哲學史料資源調查研究」諮詢會議後記,重新思考與審視資料庫的實際應用與想像


上周末我應邀在「臺灣哲學史料資源調查研究」諮詢會議(四):「臺灣哲學資料庫的數位應用可能性,與國家文化記憶庫」,擔任發言委員的角色。其實過去我幫人文領域講資料庫的分享不少,而這次是第一次涉足到哲學領域,有些新鮮但也同時在思考哲學領域的資料庫,跟其他的資料庫會有什麼樣不同的需求?應該說,除了主題與資料之外,哲學如果真的要做出一個資料庫,會有什麼樣的關鍵功能,讓他跟其他人文領域的資料庫核心的區別呢?


當天活動講者洪一梅老師正在介紹數位人文發展與平台演進

哲學資料庫的建立與想像,我的想法以及回應

當我們在面對是否要建立台灣哲學資料庫之前,我想有許多的問題想要先釐清,當然今天的會議只是一個非常前期的討論會,有很多問題都還在「討論」的階段,而既然今天建立一個資料庫會是一個選項,那這邊也有三個問題希望在座的參與夥伴也能一起思考看看。

如果今天真的要建立一個台灣哲學資料庫,那麼:

1. 這個資料庫的年限是否有考量過?並且若是年限到了,要如何應對以及思考下一步?並且,我們如何在策略上去應對與思考可預期以及非預期的資料庫下線?

2. 在台灣這學資料庫中,大家認為是資料庫中的資料被使用比較重要?還是資料庫被使用比較重要?並且我們應該如何避免再去作出一個大的資訊孤島,或是一個數位蚊子館?

3. 最後,人的注意力專注力是有限的。資料庫、網站以及各式服務的數量不斷的增加,我們怎麼去思考這個資料庫是否有非人(多數時候我們可能說的是機器人或是爬蟲程式等)的參與方式?而這樣的應用方式,是否也是我們有設想到的使用方式?

這三個問題方向都是不小的問題,包含前面老師也分享了不少對於資料庫、哲學資料的現況以及見解。我想我今天用一個比較不一樣的角度,來切入目前做資料庫的幾個可能的問題,以及我的幾個看法。

首先先來引用一個最近蠻熱門的討論議題:數位韌性,台灣作為一個海島國家,數位任性是我們首要要關注的一個戰略問題也好、國安問題也罷,電力、網路的中斷都有可能對我們帶來極大的影響,尤其在電力中斷的狀態下,再快的網路、再龐大的儲存設備都無用武之地。

既然台灣做為國家都有可能面臨到這樣的困難,我們民間力量或是政府興建的資料庫何嘗又不會遇到呢?我這邊舉一個例子,前段時間有個案例引發了不小的討論:法國一間雲端公司的資料中心發生爆炸、引起火災。這裡不是要說什麼資料中心是什麼危險的建築物,會爆炸;而是在這個雲端公司他們是一間提供「預算敏感」用戶雲端服務的雲端公司,舉凡各種 NGO 、 學術機構等甚至某些政府部門都有網站、服務以及資料放在那個雲端公司的伺服器中。而由於他們專門提供給「預算敏感」的用戶,在他們的服務協議中也提及「無法」為資料的完整性提供保障,因此也有部分單位的資料在那次的爆炸中,就這樣消逝了。

講這麼多其實要跟大家說明的是:數位本身是脆弱的,比起十足完善的圖書資訊系統,你其實會發現要找到一本劇今一百年的書籍跟一張三十年前的軟碟,前者可能會容易的許多;畢竟圖書館發展至今已經有上千年的歷史,而他們的核心業務就是把書收好,並讓你們能找到書。同時,當你真的找到了三十年前的軟碟,那下一個問題是你具備有讀取他的工具嗎?即便你成功讀取了,那你還認得他的檔案格式嗎?跟書最大的差距是:書打開,你就能看。因此你會發現,當我們在面對一個數位資料庫,並嘗試以「典藏」的概念思考時,他的問題就會多很多。

當我們過去在用單一中心的機房時,我們就要時常思考到剛剛提到的這些可能的風險,而在現代「開放」成了一種很重要的概念,並且能協助我們去降低資料可能佚失的風險。從開放資料(Open Data)的概念中,在整個開放授權的框架下能有許多平台都能共同收存這些資料,並透過其平台原先自有的使用者社群促進資料的流通。像是過去我就曾協助過國家文化記憶庫開放資料轉匯入維機共享資源與歷史影像平台,除了避免單一平台下線導致資料佚失,也能透過各自平台原有的使用社群與資料流通機制促進資料的能見度。

這種「聯邦式」的概念是先以單一資料庫做為中心,串接(或介接)一到兩個資料庫,在開放授權、開放資料的架構下,達到資料交互流通、交互豐富並且也是一種交互備份的概念。若是資料本身有潛在的授權問題,像是沒有辦法以開放授權的方式釋出,那也可以先以後設資料,尤其是結構化後設資料作為串接的目標,除了授權教不易有爭議外,也能改善資料庫的機讀性,增加可被搜尋引擎或其他數位人文應用的可能性。

再來談資料庫的使用,既然今天主題有拉到國家文化記憶庫那就用國家文化記憶庫所提出的一個脈絡來做一個陳述,也就是談「盤、收、存、取、用」。

「盤」談的是盤點,這比較是資料收集團隊的工作,不過也是資料庫建置一個很重要的前置工作,要瞭解資料的筆數、資料的類型等等的。「收」從哪邊收,怎麼收?看是收存數位檔,還是要收數位化的檔案,怎麼去建構出檔案被「送到資料庫」的流程跟工作,是收一個很重要的環節。「存」資料要保存得好,我這邊是認為分類、後設資料那些不在存的範疇;存更重要在於如何在資料級別上面避免檔案流失,避免位元級別的資料損失甚至是檔案損毀跟佚失,同時也要去確保檔案隨時要可以被讀取。「取」就來到分類、後設資料以及搜尋的範疇了,資料怎麼樣容易被找到、被取得,這是取很重要的一環。最後談的就是「用」包含像是授權、應用方式,像是音樂能夠很容易被下載下來或是搭配某些軟體可以將所有素材都在工作中一次呈現,這就是用很重要去關注的點。

而一個資料庫要成功,也不要說成功,應該說能夠存續下去很重要的就是在「收」、「存」、「取」、「用」上,至少一個象限要有穩定的活絡度,或是至少要在這四象限中有一個是主打的功能,維繫這個資料庫有一個穩定的使用群體。舉個例子你可以主打這資料庫超會收,收全台灣最多筆、最全的哲學資料;亦或是主打資料庫超會存,資料定期做位元級別的檔案校驗確保檔案完整性,或是確保資料 20 年、30 年不會損毀之類的。要去找出資料庫最核心需要去滿足的需求,並持續滿足才有辦法使一個資料庫在可見的周期內活下來。

在前面老師的分享中,是不是感覺一個資料庫要滿足各種使用者的需求,感覺到好像更佳的迷茫了?事實上,無論是哲學資料庫也好或是各類型資料庫也罷,最重要的一點就是:他只能嘗試解決一個問題,並且最好只面對一個目標客群。事實上,瞄準各式各樣的客群,那基本上就等於是沒有客群;當你的客群不明確,自然而然做出來的資料庫其使用者或是說使用對象/族群便不明確。先設定好最核心的使用族群,持續滿足其需求,才是一個資料庫能好好活下去的重點。

再者,資料庫終究只是資料庫,哪怕我資料庫做得再好再完善、資料收的再多再豐富,並且在使用者體驗上或是各方面上面都做到面面俱到,但最重要的是要有人(或非人)的使用。因此第一群或是說第一波的使用者社群培植是相當重要的,並且資料庫的可機讀性也就是對於機器人或是爬蟲的友善度也是需要兼顧的。尤其在可機讀性上面,其實還是回歸到搜尋引擎本身,這個資料庫的特定資料是否能透過搜尋引擎去搜尋到,可以的話才比較有機會提供資料庫一個使用者社群陌生開發的機會。以維基百科為例,即便維基百科已經是全球相當通用的資料查詢工具網站,可是也並不是某一個條目都會獲得一定數量的點閱次數,即便該條目建置的相當完整,但若是卻少相應的話題、相應的討論,沒有人去對於該主題進行搜尋,那那個條目也不會有點閱。

最後,對於新建資料庫或是是否以資料庫做為特定領域推動或是促進的策略,這邊給出三個建議:

1. 平台的遷移是困難的:我們會發現在社群平台的廣泛使用下,要求社群改變原有的使用習慣遷移到新的平台去本身是困難的,除非原有平台有重大變更包含關閉或是使用方式變更的。但這並不是說我們就採用社群平台做為資料庫的載體,而是我們在新建資料庫時需要考慮與其他資料庫、網站甚至社群平台的關係,並考慮是不是透過轉譯或什麼樣的方式將資料提供給用戶,再倒流回到資料庫。

2. 多方交叉持有資料是重要的:單一中心的資料持有要維持穩定只會帶來高額成本,而結合上一項建議,透過開放的態度將資料或是至少後設資料透過如 Wikidata、Deposita 或是其他圖書資料庫來進行交叉持有或界接,不但能夠豐富本身的資料多元性,也能避免資料庫預期或非預期下線時,資料可能亡佚的問題。

3. 營造資料的討論熱度或是資料庫使用流程是必須的:這個資料庫必須持續的存在著使用社群才有辦法持續創造一定的社會影響力,而透過這樣的社會影響力才有辦法讓資料庫的主責單位持續與社會進行溝通並獲得資源來維運這個資料庫。

[「臺灣哲學史料資源調查研究」諮詢會議四:臺灣哲學資料庫的數位應用可能性,與國家文化記憶庫]
時間:2023年05月13日 16:00-18:00
地點:台南海馬迴光畫館(台南市中西區成功路83號2樓)
相關活動資訊可參閱活動頁面

文:Wikidata Taiwan 臺灣維基數據社群共同召集人 王文岳
本文圖文以 CC-BY-SA 4.0 釋出

CC BY-NC-ND 4.0 授权

喜欢我的作品吗?别忘了给予支持与赞赏,让我知道在创作的路上有你陪伴,一起延续这份热忱!

王文岳王文岳 Allen Wang 「紀錄、分享與挖掘更多小角落」 主要同步 Mastodon 、 Instagram 所發布的長文內容與紀錄
  • 来自作者
  • 相关推荐

毬可魔法飾品【指針】的製作與心得

給未來也想帶開放社群夥伴們的一點建議

【種土】觀後感之一:重新回到自己對於土地的關懷