反制Google中文搜寻的垃圾采集站和机器翻译网站
Google中文搜寻这几年遭到了巨大破坏,尤其是对SEO的滥用,使得内容农场进化成垃圾采集站配合机器翻译网站干扰自由世界的搜寻体验。
我们有必要认识有哪些类型的垃圾站,以及Google态度,还有主动反制的手段,让他们在搜寻结果中蒸发。
判定是否为内容农场
内容农场的典型形式就是大量生产低品质内容、复制抄袭,如果该网站的标题拿去Google可以找到五篇一模一样的文章,高机率是内容农场。
当然不能排除是个人部落格或新闻网站的可能性,只是如果文章题材多变,笔调不统一,然后网站广告多的吓人的,也可以合理怀疑是农场。
虽然确实有正规新闻网站写得很八卦,但跟农场还是有点距离,因此媒体识读的技巧要最大化运用。多遇到几次内容农场后,就会知道哪些网站是原创,哪些是抄袭的了。
在中国人整理的列表可以看到公认的内容农场,目前已经高达1000多个。
中国的垃圾站与采集站
古典型态的内容农场已经不够看了,以前的内容农场还是人工写废文来赚取流量,虽然现在还有就是了,但已经被新兴的垃圾采集站点取代。这种网站是透过自动化爬取文章的方式来产生文章,让自己的网站看起来是一个不错的参考来源。有的采集站点只爬专门领域的文章,有的是什么都要包,最成功的过于「每日头条」了吧。
但Google不会判定重复抄袭吗?因为那些采集站很多是爬中国墙内Google爬不到的简体文章,再转成繁体的。作垃圾站点的行为根据百度上的一些文章说,在中国国内就已经横行多年,某些德性低下的人还认为这样作没有不对。垃圾采集站利用防火长城墙的机制作起了生意,不只爬取简体文章,有的还禁止中国IP存取,因此这些网站用资讯差赚取自由世界的流量,再靠广告赚取收入。
现在除了伪装成一般的新闻网站,有些还会重新排版成假问答网站,让人防不胜防。
垃圾站点变体,台湾国内的特有种
在搜寻某东西在PTT与Dcard评价的时候,会出现「XX懒人包」、「XX在PTT/Mobile01的评价与资讯」的网站,点进去发现都是支离破碎的文字。原来这是比内容农场更恶劣的关键字聚合网站。里面文章都不爬完整(或者排版很乱),单纯把关键字搜萝一起,换取SEO位置的高位。
仔细一看,会发现这些站似乎都是伪装成工具网站,待有流量后通过Google审核开始放Adsesne广告。比方说「药师家」首页是写搜寻全台药局资料,但同时作这种垃圾采集,然后广告多到遮住文字。事实上台湾这种一般网站兼职做垃圾采集的例子已经屡见不鲜了,过去连「软体兄弟」这种3C网站都会把搜寻引擎关键字建立成页面,骗人点进去。现在这种网站不过是更加掌握Google的搜寻习惯罢了。
机器翻译的网站
机器翻译的垃圾网站要在台湾比较冷门的领域,但外国很热门的技术领域才会遇到。除了有垃圾站点把英文stackoverflow机翻成中文的以外,还有西班牙文/英文的媒体网站翻成中文的。比方说搜寻Linux相关的最新技术,常常会出现"Linux Addictive"、"Ubuntulog"的机器翻译文章。
这些网站就是看准中文世界对特定领域的兴趣较少,才想以此抢占先机。虽然他们不是抄袭盗取他人内容,但是机器翻译也是在污染搜寻结果,应该视情况抵制。
对抗垃圾网站的方法
Google早在10年前就说消灭了内容农场,很可惜只对英文圈有杀伤力。
Google在今年8月调整了演算法,宣布要呈现更多For People的内容,避免看到一堆无意义的资讯聚合网站。现在英文圈虽然没有像中文圈那么夸张,但其实也是有盗取Github内容,假意为使用者整理资讯的垃圾站点。所以, Google在全新的搜寻准则中告诫网站管理员:
您是否大规模运用自动化功能,针对许多主题建立内容?
您主要是汇总其他人说话的内容,但其实并没有带来太多的价值?
您的内容是否会让读者觉得他们需要再次搜寻,才能从其他来源取得更完善的资讯?
这样有望打击libhunt这种网站。不过就现状来看,中文内容农场还是没有被Google筛掉,因此我们要主动用小工具来封锁内容农场,直接把他们从Google搜寻结果移除。
首先,在浏览器安装ublock Origin的挡广告扩充元件(Android手机下载Kiwi Browser),再下载中国或台湾的过滤列表,加入ublock Origin自定义静态过滤规则,这样Google搜寻结果中的内容农场网站便会自动移除。
在Google真的下重手整治以前,这是唯一能作的方法,保持良好的媒体识读也是有其必要。要知道这些网站不是因为政治立场不同而封锁他们,而是针对他们只以获利为导向的不齿行为,做出反制。
喜欢我的作品吗?别忘了给予支持与赞赏,让我知道在创作的路上有你陪伴,一起延续这份热忱!
- 来自作者
- 相关推荐