關於「內容保護」的做法,有些話想說
IPFS
手動一篇篇複製貼上真的非常沒有效率,如果單以保存為目標而言(先不管策展之類的),應該盡量採用更有效率的方式,而不只是「有心做」。
說白些,對於文章密集的站點(例如FB或新聞網站,而非零散的個人網站),與其手動作業剪貼,還不如拿時間去打工,然後用賺來的錢僱個三流工程師用/寫簡單工具批量保存,還比較有效益。
有哪些可考慮的方案?
將網址提交到archive.org等網站
- 方式:可手動提交網址、用瀏覽器擴充一鍵提交、使用archivenow等指令列工具批量提交
- 完整度:幾乎與原本頁面相同
- 優點:幾乎適用所有網站、無需自行寫程式、維護伺服器
- 缺點:提交有頻率限制、依賴單一站點的穩定性與可訪問性(容易會被封鎖)
自行保存WARC檔案
- 方式:使用archivenow等工具生成檔案
- 完整度:幾乎與原本頁面相同
- 優點:幾乎適用所有網站、無需自行寫程式、無需依賴單一站點、檔案可透過IPFS分散式儲存
- 缺點:檔案較大、抓取速度較慢、需架設IPWB等服務以供一般用戶瀏覽
客製化爬蟲生成HTML
- 方式:寫爬蟲程式,想抓哪些內容自行決定(純文字、含圖片……)
- 完整度:視爬蟲實作而定
- 優點:速度較快、檔案較小、檔案可透過IPFS分散式儲存、一般用戶可直接開啟
- 缺點:頁面完整度較低、有寫爬蟲的成本(且難以跨網站通用)
這次備份我選擇的方案
以這次備份香港蘋果的文章為例,首先排除掉第一個方案,因為文章總量過大(>100萬),且不想過於依賴archive.org等組織/站點。
而WARC在用戶體驗方面,應該是比較理想的方案。但是一來爬取速度較低,二來檔案佔用空間較大(單一頁面約5MB,多圖文章會更高),故也先跳過。
最後採用的方案是自行編寫純文字的爬蟲,雖然完整度較低,但是速度相當快(16線程約12頁面/秒),空間需求也不高(基本上一天份<3BM),而且一般用戶也能輕鬆下載與瀏覽。
一共花了多少時間?(2016-01-01~2021-06-16,其他年份還在跑)
注意:我不是專門做爬蟲的,IPFS也不熟悉,效率已不算高
- 寫程式(初稿+調整細節+DEBUG):不超過3小時
- 運行爬蟲:約1天(一開始線程沒用到16個,且含中途調整花費的重跑時間)
- 建置IPFS節點:10分鐘
- 將檔案加入IPFS節點PIN住:數小時
其他
- 感謝@slash介紹IPWB等工具
- 2002-01-01~2015-12-31的正在跑,之後會再發佈
喜欢我的作品吗?别忘了给予支持与赞赏,让我知道在创作的路上有你陪伴,一起延续这份热忱!
![](https://imagedelivery.net/kDRCweMmqLnTPNlbum-pYA/prod/avatar/d8f4769e-eb74-451a-bdf5-eee43f676036.jpeg/public)
![](https://imagedelivery.net/kDRCweMmqLnTPNlbum-pYA/prod/avatar/d8f4769e-eb74-451a-bdf5-eee43f676036.jpeg/public)
![](https://imagedelivery.net/kDRCweMmqLnTPNlbum-pYA/prod/avatar/8baa30a2-b26d-45f9-95c8-e429a32f1eae.jpeg/public)
![](https://imagedelivery.net/kDRCweMmqLnTPNlbum-pYA/prod/avatar/8baa30a2-b26d-45f9-95c8-e429a32f1eae.jpeg/public)
![](https://imagedelivery.net/kDRCweMmqLnTPNlbum-pYA/prod/avatar/ce527dde-d7d2-44ca-a17f-7af248e2404b.jpeg/public)
![](https://imagedelivery.net/kDRCweMmqLnTPNlbum-pYA/prod/avatar/ce527dde-d7d2-44ca-a17f-7af248e2404b.jpeg/public)
![](https://imagedelivery.net/kDRCweMmqLnTPNlbum-pYA/prod/avatar/e65dac35-a137-4ccd-9aa8-96bac3c46233.jpeg/public)
![](https://imagedelivery.net/kDRCweMmqLnTPNlbum-pYA/prod/avatar/e65dac35-a137-4ccd-9aa8-96bac3c46233.jpeg/public)
![](https://imagedelivery.net/kDRCweMmqLnTPNlbum-pYA/prod/avatar/d19921c7-13ef-4eed-9344-1adb1fb7f349.png/public)
![](https://imagedelivery.net/kDRCweMmqLnTPNlbum-pYA/prod/avatar/d19921c7-13ef-4eed-9344-1adb1fb7f349.png/public)
![](https://imagedelivery.net/kDRCweMmqLnTPNlbum-pYA/prod/avatar/33f92fcb-3f18-4748-af76-d562618c3d5a.jpeg/public)
![](https://imagedelivery.net/kDRCweMmqLnTPNlbum-pYA/prod/avatar/33f92fcb-3f18-4748-af76-d562618c3d5a.jpeg/public)
![](https://imagedelivery.net/kDRCweMmqLnTPNlbum-pYA/prod/avatar/8b04b029-82e0-4544-a73d-c4ab3515ac83.jpeg/public)
![](https://imagedelivery.net/kDRCweMmqLnTPNlbum-pYA/prod/avatar/8b04b029-82e0-4544-a73d-c4ab3515ac83.jpeg/public)
![](https://imagedelivery.net/kDRCweMmqLnTPNlbum-pYA/prod/avatar/7f557c27-ea5e-4e26-9c36-258e1f9a1307.jpeg/public)
![](https://imagedelivery.net/kDRCweMmqLnTPNlbum-pYA/prod/avatar/7f557c27-ea5e-4e26-9c36-258e1f9a1307.jpeg/public)
![](https://imagedelivery.net/kDRCweMmqLnTPNlbum-pYA/prod/avatar/ee1fd9b0-88e9-4ddf-abd6-4f8c7dd2f6b2.jpeg/public)
![](https://imagedelivery.net/kDRCweMmqLnTPNlbum-pYA/prod/avatar/ee1fd9b0-88e9-4ddf-abd6-4f8c7dd2f6b2.jpeg/public)
![](https://imagedelivery.net/kDRCweMmqLnTPNlbum-pYA/prod/imgCached/lODcB-PawRz1-tNqSp_PXDOQCADI2k-fzZZAauRQzWme0i5L4SkuuYA2KFn_lFUtvHpUxvIbWxKRFUNni6MPVh32JXLYP6g7j2r8ZA=s250.png/public)
![](https://imagedelivery.net/kDRCweMmqLnTPNlbum-pYA/prod/imgCached/lODcB-PawRz1-tNqSp_PXDOQCADI2k-fzZZAauRQzWme0i5L4SkuuYA2KFn_lFUtvHpUxvIbWxKRFUNni6MPVh32JXLYP6g7j2r8ZA=s250.png/public)
![](https://imagedelivery.net/kDRCweMmqLnTPNlbum-pYA/prod/avatar/19b36f6e-6311-4cd6-b703-c143a4a49113.png/public)
![](https://imagedelivery.net/kDRCweMmqLnTPNlbum-pYA/prod/avatar/19b36f6e-6311-4cd6-b703-c143a4a49113.png/public)
![](https://imagedelivery.net/kDRCweMmqLnTPNlbum-pYA/prod/avatar/e8c62984-5ae5-4668-b81a-bf6cbe94d2f3/asset-aLdP.jpeg/public)
![](https://imagedelivery.net/kDRCweMmqLnTPNlbum-pYA/prod/avatar/e8c62984-5ae5-4668-b81a-bf6cbe94d2f3/asset-aLdP.jpeg/public)
![](https://imagedelivery.net/kDRCweMmqLnTPNlbum-pYA/prod/avatar/647a90b5-b7c8-4ab1-b949-f1ec0a1e2800.jpeg/public)
![logbook icon](https://assets-next.mattersprotocol.io/_next/static/media/logbook.2cfac4f7.gif)
- 来自作者
- 相关推荐