Matters上的文章会越写越长吗?

鹿馬
·
·
IPFS
·
这是一篇异与我以往画风的文章。来Matters已经三年了,是时候分析一下自己的文章数据了。或许说不定能有所启发?又或许能印证一些用户们已经感觉到的问题?

来Matters已经三年了,也写了六十多篇文章,想着多少也能看出点规律了,于是就试着分析了一下自己的周报数据,正好也分享一下一些小发现。或许这篇文章的许多内容你会觉得不分析也能感觉出来,那就当是我做了个印证观点的工作,各位朋友看看结果乐呵乐呵就好。

首先声明,这篇文章结论仅供参考,一切基于我自己的数据。更详细不足点说明我放在了结尾。

废话不多说,看数据。

相关性分析

我从数据周报中的26列数据中挑选出了部分指标,计算出他们两两之间的相关系数。

部分周报重要指标之间的相关系数矩阵

这里的相关系数描述的是两个指标之间的线性相关关系,数字越接近于1,两者就正相关性就越强,越接近于0就越不相关,越接近于1负相关性就越强。一般来说,相关系数能超过0.4就算是有一定的相关性,超过0.7就可以说有较强相关。

由于每个人关注指标的不同,大家可以参考图中自己感兴趣的指标之间的相关关系。我个人比较关注以下这几个指标,它们大体可以衡量文章传播的深度和广度,以及文章受读者认可的程度。

登陆用户有效阅读时长_小时
总浏览次数(登陆用户有效阅读次数+总访客浏览次数)
拍手数
收藏数

长篇大论才是王道?

眼尖的朋友可能发现了,在上面的图表中涉及的数据中,除了字数这个指标外,其他指标均为这篇文章被阅读所产生的数据,这些指标并不是文章本身的属性(比如,字数,发布时间,内容,作者等等)。因此,严格来说他们都不是那个最根源的原因,理论上很难判断这些指标是谁决定了谁。比如,我们可以看到拍手数和收藏数都与登录用户阅读时长有很大的相关性,但是到底是拍手多导致读的人变多,进而被阅读时间也变多呢?还是反过来,阅读阅读时长长的文章更容易被用户刷到进而增加了被拍手的机会?我们无法直接判断谁是因谁是果。

但是,我们还是能观察这些阅读指标之间的相关性,来间接得出一些结论。比如,登陆用户有效阅读时长与访客浏览次数之间有着很强的相关关系,又因为访客阅读文章并不会导致登陆用户有效阅读时长增加,因此可以说登录用户阅读时间越长,越容易被(访客或登录用户)看到=越容易登上热门前排=有更多机会被拍手,也就是说登录用户阅读时长很可能是拍手数的因而不是果。想必这一点,各位作者用户深有体会,从年度最长阅读时间文章TOP 10里面的文章也能可见一斑,这篇文章只是从数据的角度印证了这种体感,并提供一个大体的参考数字。

既然如此,很自然就会有人想到:那写长文不就好了?文章越长每个读者阅读的时间就越长,就越容易冲上热门前排,也就越容易被拍手吧?从我自己文章的数据来看,我的结论是:大体上是这样的。字数与阅读时长的相关系数是0.58,而阅读时长与拍手数的相关系数又是0.74,字数与拍手数直接的相关系数达到了0.42。这意味着虽然但文章字数并非决定性因素,但长文确实比较容易获得更多的拍手。对于写诗歌或短篇散文的作者来说,这种机制或许并不公平,之前也有用户吐槽过这个规则。

为了防止用户通过刷拍手来冲热门,用阅读时间来决定谁热门文章确实是一个不错的方法,如果要进一步完善的话,我认为可以考虑的是用阅读时间除以字数构建新的指标,并赋予这一新指标一定的权重来抵消现有推荐机制的过度倾斜。这方面的内容,后面也会有所涉及。

真金白银也很重要?

除了阅读时间(从根源来说应该是字数)这一指标外,另一个重要的指标就是HKD的支持次数。不知道朋友们有没有这样的体验:一旦一篇文章被支持,它就可以立刻冲到热门前排,并持续很长一段时间。

作为一个普通用户,我大概能够感觉到有支持与否对文章的曝光度有一定影响,那么数据是怎样的呢?首先,我们可以看到上面的相关分析图表中,hkd支持次数与阅读时常的相关系数有0.42,证明有一定相关性;而有无likecoin的支持对有效阅读时间的影响并不大。随后,我单独考察了有无hkd支持这一变量对有效阅读时长的影响。鉴于文章长度不同,因此把字数放在横坐标,有效阅读时长为纵坐标,每个点代表一篇文章,蓝色点代表没有hkd支持的文章,橘色点代表有hkd支持的文章。相应地,蓝色直线代表没有hkd支持的文章的线性拟合曲线,橘色直线代表有hkd支持的文章的线性拟合曲线。


从这幅图我们可以得出两个结论。第一,有hkd支持的文章有效阅读时长要明显多于同等篇幅的文章。第二,橘色线的比蓝色线更陡峭,证明每增加一个字,有被hkd支持的文章的有效阅读时间的增加量要多于没有被支持组,也就是说,收到hkd支持的可能会放大篇幅的“威力” 。当然,由于本人能力有限,被hkd支持过的文章总共也就九篇,因此这个结果置信度没那么高,结论仅供参考。

字数真的越多越好?

上面说到字数和有效阅读时间之间存在正相关,那么如果我们用有效阅读时间除以字数,得出每个字所获得的有效阅读时间(姑且称之为“单字阅读时间”),就可以排除文章之间字数差异带来的影响。

当然,在在现如今的规则下,就算除以字数后的阅读时间仍然与字数有较弱的正相关关系(因为篇幅的增加导致的关注量增加并非线性),但是与字数的相关系数从0.58降到了0.34。这说明虽然写长文还是王道,但是并不是字数越多,边际收益(每增加一个字所带来的单字阅读时间的增加)并不是一成不变的。

从下图中我们可以发现,在现行规则下,相比于2000字以下的短文,在2000-4000字区间的文章有较高的单字阅读时间,而当字数上升到4000字之后,单字阅读时间并没有显著增加,甚至有减少的倾向。当然,这只是基于我的文章的数据的结果,换做是不同的作者最佳的字数区间可能会有所不同,而且不排除某些爆款文章会成为异常值——身在最佳区间外依然保持超高单字阅读时间。

那内容呢?

我分析这些数据,并不是想说明只要找到站方的推荐规律就可以高枕无忧,更不是要大家去钻漏洞。相反,我认为所有高阅读时常、高收藏数以及高拍手的文章都有一定的内容保证(只是文章到底值不值得那么多阅读时常和拍手赞赏就仁者见仁智者见智了),毕竟没有人会仅仅因为文章写的长而拍手或收藏。

说到这里或许有人会问,那内容你分析了吗?很遗憾,以我的能力和所掌握的数据来看还是有难度的。前文已经提到,作者的文章数据周报中,只有标题、字数和发布时间是文章本身的属性,其他都是阅读产生的指标性数据,巧妇难为无米之炊,怎奈关于文章属性的数据太少。

但是,也不是不能分析。没有现成的数据可以创造数据(当然我的意思不是编造数据)。目前我能想到做法是给每篇文章添加内容标签数据,就像我们给文章添加标签一样。具体做法如下图,一个属性就是一列数据,符合该属性就是1,不符合就是0或空值。你完全可以根据自己关注的方面去构建标签,说不定会有意想不到的发现。由于我的文章总共也就60多篇,再加上自己写的文章大多记得内容,我就直接手动添加了,文章较多的用户可以考虑用爬虫的方法构建自己的标签生成方法。由于这部分与每个作者的创作内容息息相关,作者之间存在很大差异,这部分的分析我就不展开了,权当是抛砖引玉。

内容标签化示例

关于其他属性的分析

其实除了字数和内容主题,我们还是可以从其他角度量化文章属性。比如,发布时间。星期几发布会比较有人看呢?一天中什么时间段发布会比较有机会成为热门?再比如,文章的阅读数据指标与标题的字数有没有关系?和有没有副标题有没有关系?和摘要字数有没有关系?再比如,通过对词频进行统计,找出某个词(实词或虚词)出现次数是否对文章阅读时长有没有影响等等。这些我都还没有探究,有能力和兴趣的朋友可以试着玩一下,或许会有意想不到的发现。

分析的不足和缺陷

第一,数据量不足,难以得出统计上特别靠谱的结论,文章数如果超过一百的话可能会好很多。

第二,分析用到的样本仅限于我自己的文章,由于创作内容和风格不同,换做其他作者的文章数据可能得出不同结果。因此,当把不同作者文章放在一起分析的时候,作者本身应当作变量考虑。

第三,没有做严密的统计检验。这篇文章说到的差异仅仅是样本反应出来的差异,至于这些差异在多大程度上能推广到整体,以及这种差异是恰巧因为样本选取发生的还是真的普遍存在,这篇文章并没有进行检验。

第四,相关不等于因果,本文只是用相关系数这一指标和我作为用户的经验,对因果性进行推论,但随着掌握更多信息,本文的推论完全有可能被证明是错误的。

所以,各位朋友:

以上内容仅供参考!

以上内容仅供参考!

以上内容仅供参考!

CC BY-NC-ND 2.0 授权

喜欢我的作品吗?别忘了给予支持与赞赏,让我知道在创作的路上有你陪伴,一起延续这份热忱!

鹿馬希望能在一个免于恐惧的环境下畅所欲言,且保证一定的讨论质量。尽量不仅仅做就事论事的争论,努力走从现象到概念的思考路径。
  • 来自作者
  • 相关推荐

当假装讨论公共事件成为习惯

是什么限制了我们对反抗的想象力?

后疫情中国的社会心态——一个离岸观察者的臆想?