作为一种正当化手段的定量社会调查及其背后的“科学至上主义”

yeyzh6
·
·
IPFS
·

当今的潮流似乎是写东西总要夹带些数字,最好这些数字还是所谓的“统计数字”,最好这些“统计数字”还是你独家收集的,仿佛如此,写出来的文章便专业可信,独家权威。但是真的如此吗?在我看来,这只是在“科学至上主义”色彩下,将定量社会调查当成了一种正当化自己论断的手段而已(本文的社会调查主要指的是使用问卷等方式收集定量数据的社会调查,不涉及田野调查等质性手段)。

这种写东西带数字的例子比比皆是,政策出来了看大家支持不支持,官方媒体号称自己做了个调查;新媒体营销号发个文章,号称自己做了个调查;大学生写个课堂作业,也号称自己做了个调查;至于大大小小的市场调查公司便更是将“做了个调查”作为一种常规手段了。这种调查是如何做的呢?最原始最野蛮的方式是所谓的街头随机访问,但是真的随机吗?或许不如将其称作“街头随缘访问”更为贴切了。这种街头调查很多市场公司、传统媒体都还在用,下一部分我会仔细说明为什么这种调查是无意义的甚至是有害的。进步一点的调查数据收集方式是网络调查,原始的网络调查是门户网站的弹窗,靠用户的好奇心点开,但随着弹窗的广告污染这种方法早已式微;新近一点的通过QQ/邮箱等媒介投放,激励是抽奖或是什么,于此同时也出现了所谓的“问卷网站”,你可以从每一份问卷中获得报酬,成为一个“职业受访者”,这个方式的激励逻辑是经济回报;最先进的网络问卷是充斥你朋友圈的问卷星/腾讯问卷/SurveyMonkey,朋友们或逐个私戳,或发在朋友圈,用回答问卷变现自己的社会资本,这个方式的激励逻辑变成了社会关系。当然,最最先进的流行是大数据,把一个主题相关的网络资源都爬取下来,因为这个不属于定量社会调查了,本文先不谈及。

各式各样的数据使用者通过或时髦或复古的方法取得数据后,自然需要对这些数据进行分析,平均数和比例是大部分数据使用者们的最爱,他们用此加强自己论据的说服力,并且常常大获成功。可是,这种文章中的调查数据使用真的是正确的吗?我们不妨从学理上略微加以考察。统计学的魅力不在于描述所收集到的数据到底如何(当然普查除外),而在于统计推断(statistical inference),也就是数据收集者尝试以点见面,通过小规模的数据收集和分析,对所希望研究对象的整体有所认识。这种可推断的性质来自统计分布(statistical distribution),简单说就是研究对象中某个属性中各个值的比例(举个例子,把中国人的收入按照某个单位(如一千元)进行分组,每个组对应一个频数,将特定单位作为横坐标,频数作为纵坐标,做出来的就是中国人收入分布图)。当我们先定地知道分布状况,并且以随机的方法收集数据,就可以用这些收集来的小规模数据推定总体的情况了。那为什么我认为上述的定量社会调查无意义甚至有害呢?这源于他们犯了统计学中最常见的一类错误,选择性偏差(selection bias),他们收集来的数据并不是按照整体分布中相应概率的原则存在于整体的一些位置的,而是集中地存在在整体分布中的某个位置,譬如刚才收入的例子,在香港中环做的街访可能问到的都是收入很高的一群人,在大陆某个贫困县做街坊问到的则截然不同。而不采取随机化的策略的话,我们并不可能全知全能得恰到好处地在每一个代表性的地方进行街访,也就自然无从了解整体了(而且市场调查公司等的街访通常只在一处)。同样的逻辑可以应用到门户网站,应用到邮箱,应用到你我的朋友圈问卷中,能看到我们问卷的人群本已高度选择性,愿意帮助我们回答问卷,不如说是选中之甄选了。样本的选择性绝不是上述定量社会调查的唯一问题,如何测量能收集到更准确更稳定的数据,如何解读收集到的数据(譬如是相关还是因果,譬如是描述性还是推断性,又譬如总体的分布到底是什么形状的)都是我们常见的定量社会调查所面临却不知道自己面临,更别说谨慎对待和努力解决的问题。

滥用误用定量社会调查的危害并不在于技术本身,而在于这种技术被赋予以及不断再生产的科学权威的意象。我们常常觉得,有数据的文章便是权威的,便代表了写作者努力往所谓的客观真实靠拢,努力给我们呈现证据,于是我们也就努力地相信这些有了数据支撑的文章。但是前文告诉我们,假如这些数据很可能是错的呢?而且这种错误往往并非有心为之,生产者觉得自己再正确不过了,并且陶醉于自己追求科学化社会问题的努力之中。他们的文章中有心无意,总不会提及数据如何被收集;或多或少,总会暗示他们通过数据给你展示了某个群体定量化的全貌。于是读者就按着这些文章的指导去面对生活,更有甚者按照这些报告的指导去制定商业/政治策略。在荒谬的结果上岂能构筑起坚实的大楼,但我们当今的社会正是在无数数据泡沫之上大作跃进的。这种误用数据的例子不少,譬如某个品牌推出一款新口味牛奶,市场调查反馈极好,殊不知只是一个小地域;又譬如某些公共组织发布性骚扰/家暴调查报告,洋洋洒洒,满篇都是“大部分被调查者”如何如何,一看样本量却只有三十多,还不知道来源如何。使用者们用比较粗浅的技术对这些质量不高的数据进行分析,尝试正当化他们的论断,而我们读者听众也藉由这些虚浮的数据去认识社会,越来越自信,殊不知与真实运行的社会却可能渐行渐远了,这实在值得警惕。

从技术手段来说,定量社会调查要求相对严谨专业的设计,还要求相对高成本的随机化抽样和访问,这可能都不是个人或一个小组织探讨大问题的时候能做到的,此时便不如用回质性的方法,在细致的田野调查中梳理清楚事情的脉络与机制,或许能给读者带来更多有用的至少不是错误的信息。当然我也不是绝然否定了个人/小组织使用定量社会调查数据的可能,把问题narrow down,明明白白告诉读者自己就是研究一个小群体,这样在研究这个小群体的时候或许能做到一定的代表性;使用二手数据也是一个绝佳的选择,国内的CGSS/CFPS/CLDS等等都是很优质的数据,数据的采集者在设计和收集环境已经把好关——使用者只要负责不误读就可以了。

文章已经有点冗长了,但容许我讨论最后一个问题,为什么我们社会的风气是推崇使用定量社会调查的数据?这是于启蒙时代以来的理性精神一脉相承的。启蒙时代带给我们理性思考的光辉,现在也当之无愧主宰了我们的智趣审美,科学是理性思考的一个典型代表,而科学与定量的色彩又息息相关。人类从来没有放弃过将社会科学化的努力,从社会物理学,到社会进化论,现在我们已经幸运地走在了(可能的?)正轨上,经济学和定量社会政治科学可以说是这种努力的先行者。从学术界弥漫到大众传媒,我们慢慢便变得越来越推崇数字和定量社会调查数据了,我们尝试用这个手段去正当化我们的论断,鼓吹我们的倡议。这种努力自然是好的,代表了人类尝试更理性地认识我们每个人都难逃其中的社会,现在各界对定量社会调查的误用只是时代之痛,证明我们意识跑前头了,能力还没跟上,绝不应因噎废食对这种通过定量社会调查认识社会的风气大加鞭挞,我们更应该做的是广为传播正确的认知和技术,提高大家做定量社会研究的能力(当然这也绝不意味着对质性认识社会手段的不公平对待,两种路径各有好处,理应相辅相成)。

CC BY-NC-ND 2.0 授权

喜欢我的作品吗?别忘了给予支持与赞赏,让我知道在创作的路上有你陪伴,一起延续这份热忱!

yeyzh6社会学,研究兴趣为社会分层、人口流动、邻里效应、定量研究方法和计算社会科学。 Email: yeyzh6@gmail.com