有關資料的資料 - 元資料概說
三十年前數碼相機還沒普及的年代,由於拍了的照片必需沖印出來才能見到,家中不會儲存很多照片 – 可能只是幾十本相簿,幾百張照片的量。那時人們整理照片的方式是把照片分門別類放在不同相簿中。當想尋找關於某些人和事的照片,便先從相簿封底的目錄開始找正確的分類,再逐頁翻開尋找。
整理數位照片的方法也差不多,人們會把照片用檔案系統分類,把同類的檔案放進一個文件夾。然而自從拍照可用數碼方式存檔,很多人家中已儲了大量照片的 JPEG 檔案,個人儲存的數據量可能以 TB 計算 (1 TB = 1,000 GB),儲了幾萬至幾十萬張照片也毫不出奇,而且數據增加速度隨著手機拍攝技術愈趨普及還在持續上升中呢。假設我們要從海量檔案中尋找大約十年前某天跟朋友一起的歡送會合照,該如何尋找呢?可能不少人都曾有過這樣的經歷:明明記得有拍過某張照片卻就是沒法找出來,因為檔案的量實在太多了。結果是雖然擁有卻有如遺失,得物無所用。
要有效率地使用已儲存的照片,我們需要先整理好照片的「元資料」(metadata),例如日期時間、地點、人物、事件等等,讓我們能根據這些條件把照片找出來。照片檔案是「資料」本身,而日期時間等元資料便是「資料的資料」。要令內容能物盡其用,資料及元資料兩大元素,缺一不可。
元資料使內容更完整
元資料不單用於搜尋內容,缺乏元資料的內容是不完整的。這好比理解一句說話時必須同時理解語境,才能準確掌握那句話的意義。理解一筆資料時也相彷。例如一張照片,於何時何地拍攝、照片中的人物等資料,會有助照片讀者準確掌握拍攝瞬間所發生的事,進而喚起同理心。
例如以下這張照片,若沒提供任何語境的話便只是一個男人在家中看書的照片;然而照片的元資料告訴我們,照片中的男人是改變近代印度史的聖雄甘地,旁邊的訪織機器是當時他推動「公民不服從」運動的標誌之一: 他呼籲所有國民穿著自製的紡織品,抵制英國貨。家中紡織的手藝成了當時近乎信仰的修練,攝影者 Margaret Bourke-White 在採訪甘地以前,也被要求要先學會使用這紡織機。
可以這樣理解「元資料」的角色:資料加上元資料,有如句子加上語境,令表達的內容更完整。
再看以下一張剪報圖片。元資料:
標題:香港電影導演向全國學生致敬
日期: 1989 年 5 月 20 日
出處: 明報
連同元資料中的日期和出處一起讀了後,得知原來這是當年明報上的一則廣告。怎樣,是否豐富了對歷史和人性的理解?
元資料除了如日期、標題、描述等「記敍性元資料」外還有好些不同類型,包括結構性、管理性、參考性、統計性及法律性等功用的元資料,令內容更立體。例如一篇文章或一本書可以有很多版本,版本的序號及描述是「結構性元資料」的一種,追溯內容版本的更替有助了解當前內容版本演化的思想脈絡。又例如授權方式這一項屬於「法律性元資料」,標示版權持有人、授權方式等資訊,幫助任何人在保障創作者權益的條件下利用已有內容再闡述和演譯。
以這張刋登在 Flickr 的白花照片為例,元資料顯示授權方式為 “CC-BY 2.0“,意思是任何人都可自由地分享及修改 ,且為包括商業性質之使用等任何目的。若留意到這照片有關授權方式的元資料,便可放心地用合法的方式使用這照片了。
這張照片還有其他重要的元資料,例如:很多照片在拍攝時已寫進了重要的元資料,常見的照片元資料格式有 EXIF。以下這張照片的 EXIF 資料可在原網址找到。元資料也有助辨別內容的真偽,愈豐富的元資料提供愈詳細的「環境證供」,增加內容的可信性。
元資料的儲存與維護
元資料的欄目清楚易懂,讓用戶能以直觀的關鍵字和篩選條件在茫茫大海中找到所需資料。如果沒有元資料的索引,在互聯網大數據高速增長的數據量現況下,資料很容易被淹沒,就如重要文獻被萬里黃沙覆蓋一般再難被發現。
坊間有好些備份民間史料的志願工作在進行中,例如有人把自 2016 年開始的蘋果日報內容,及香港電台的部份節目備份到 IPFS 上,然而要在互聯網上搜尋到這些資料並非易事。例如若想搜尋蘋果日報對被槍傷眼睛的印尼女記者 Veby 此案件的相關報導,就算知道關鍵字如「印尼女記者」,「Veby」,「私人檢控」,甚至「案件編號:HCMP2249/19 」等,在這備份網站仍是很難搜到相關報導,結果要靠 Google 找到其他報章相關報導的日期,再點進備份網站逐篇查看才能找到這篇 2019 年 12 月 7 日 的蘋果日報報導: 《爆眼記者 入稟高院索開槍警身份》。搜尋過程所以如此困難正是因為元資料不夠詳細 – 在以上案例中只整理了日期和標題。也還好有整理到日期和標題,否則單靠那串不是人讀的 IPFS 的網址,真的沒可能找得著呢。
假設現在已有人把需要備份的文章上傳到分佈式檔案系統並確保會一直寄存著,下一步幫助資料流通的工作便是建立並維護好每一篇文章、每一幅照片的元資料。傳統的做法是把整理好的元資料導進數據庫,然而對那些正面臨被抹殺壓力的內容,集中在幾個寄存點很易受攻擊最終消亡。所以我們提倡以一個公開的、由分散全球各地的社群維護的數據庫去儲存這些重要史料的元資料記錄,把零散的檔案連結整理起來。
區塊鏈技術可實現持久協作營運、並分散儲存數據的目的,屬技術上的不二之選。LikeCoin 的 ISCN (International Standard Content Number) 內容註冊功能,正是為記錄內容的元資料而生,並將在這幾個月內投產。期望在這大時代裡,記錄歷史的技術能保護人類文明不向後退。