此为历史版本和 IPFS 入口查阅区,回到作品页
Ivon Huang
IPFS 指纹 这是什么

作品指纹

反制Google中文搜尋的垃圾採集站和機器翻譯網站

Ivon Huang
·
·
你的網站是否只針對SEO優化但卻無實際有用內容?

Google中文搜尋這幾年遭到了巨大破壞,尤其是對SEO的濫用,使得內容農場進化成垃圾採集站配合機器翻譯網站干擾自由世界的搜尋體驗。

我們有必要認識有哪些類型的垃圾站,以及Google態度,還有主動反制的手段,讓他們在搜尋結果中蒸發。

判定是否為內容農場

內容農場的典型形式就是大量生產低品質內容、複製抄襲,如果該網站的標題拿去Google可以找到五篇一模一樣的文章,高機率是內容農場。

當然不能排除是個人部落格或新聞網站的可能性,只是如果文章題材多變,筆調不統一,然後網站廣告多的嚇人的,也可以合理懷疑是農場。

雖然確實有正規新聞網站寫得很八卦,但跟農場還是有點距離,因此媒體識讀的技巧要最大化運用。多遇到幾次內容農場後,就會知道哪些網站是原創,哪些是抄襲的了。

中國人整理的列表可以看到公認的內容農場,目前已經高達1000多個。

中國的垃圾站與採集站

古典型態的內容農場已經不夠看了,以前的內容農場還是人工寫廢文來賺取流量,雖然現在還有就是了,但已經被新興的垃圾採集站點取代。這種網站是透過自動化爬取文章的方式來產生文章,讓自己的網站看起來是一個不錯的參考來源。有的採集站點只爬專門領域的文章,有的是什麼都要包,最成功的過於「每日頭條」了吧。

但Google不會判定重複抄襲嗎?因為那些採集站很多是爬中國牆內Google爬不到的簡體文章,再轉成繁體的。作垃圾站點的行為根據百度上的一些文章說,在中國國內就已經橫行多年,某些德性低下的人還認為這樣作沒有不對。垃圾採集站利用防火長城牆的機制作起了生意,不只爬取簡體文章,有的還禁止中國IP存取,因此這些網站用資訊差賺取自由世界的流量,再靠廣告賺取收入。

現在除了偽裝成一般的新聞網站,有些還會重新排版成假問答網站,讓人防不勝防。

垃圾站點變體,台灣國內的特有種

在搜尋某東西在PTT與Dcard評價的時候,會出現「XX懶人包」、「XX在PTT/Mobile01的評價與資訊」的網站,點進去發現都是支離破碎的文字。原來這是比內容農場更惡劣的關鍵字聚合網站。裡面文章都不爬完整(或者排版很亂),單純把關鍵字蒐蘿一起,換取SEO位置的高位。

仔細一看,會發現這些站似乎都是偽裝成工具網站,待有流量後通過Google審核開始放Adsesne廣告。比方說「藥師家」首頁是寫搜尋全台藥局資料,但同時作這種垃圾採集,然後廣告多到遮住文字。事實上台灣這種一般網站兼職做垃圾採集的例子已經屢見不鮮了,過去連「軟體兄弟」這種3C網站都會把搜尋引擎關鍵字建立成頁面,騙人點進去。現在這種網站不過是更加掌握Google的搜尋習慣罷了。

機器翻譯的網站

機器翻譯的垃圾網站要在台灣比較冷門的領域,但外國很熱門的技術領域才會遇到。除了有垃圾站點把英文stackoverflow機翻成中文的以外,還有西班牙文/英文的媒體網站翻成中文的。比方說搜尋Linux相關的最新技術,常常會出現"Linux Addictive"、"Ubuntulog"的機器翻譯文章。


這些網站就是看準中文世界對特定領域的興趣較少,才想以此搶佔先機。雖然他們不是抄襲盜取他人內容,但是機器翻譯也是在污染搜尋結果,應該視情況抵制。

對抗垃圾網站的方法

Google早在10年前就說消滅了內容農場,很可惜只對英文圈有殺傷力。

Google在今年8月調整了演算法,宣佈要呈現更多For People的內容,避免看到一堆無意義的資訊聚合網站。現在英文圈雖然沒有像中文圈那麼誇張,但其實也是有盜取Github內容,假意為使用者整理資訊的垃圾站點。所以,Google在全新的搜尋準則中告誡網站管理員:

您是否大規模運用自動化功能,針對許多主題建立內容?
您主要是匯總其他人說話的內容,但其實並沒有帶來太多的價值?
您的內容是否會讓讀者覺得他們需要再次搜尋,才能從其他來源取得更完善的資訊?

這樣有望打擊libhunt這種網站。不過就現狀來看,中文內容農場還是沒有被Google篩掉,因此我們要主動用小工具來封鎖內容農場,直接把他們從Google搜尋結果移除。

首先,在瀏覽器安裝ublock Origin的擋廣告擴充元件(Android手機下載Kiwi Browser),再下載中國台灣的過濾列表,加入ublock Origin自定義靜態過濾規則,這樣Google搜尋結果中的內容農場網站便會自動移除。

在Google真的下重手整治以前,這是唯一能作的方法,保持良好的媒體識讀也是有其必要。要知道這些網站不是因為政治立場不同而封鎖他們,而是針對他們只以獲利為導向的不齒行為,做出反制。

CC BY-NC-ND 2.0 授权