这篇文章发表于 803 天前,可能其部分内容已经发生变化,如有疑问可询问作者。

最近发现了一个语言打字的小玩意儿,能大幅提升生产力。虽说写论文啥的还是手敲来的舒适,但用来做读书笔记真是再合适不过了。

这第一次做笔记的书是中信出版集团的计算社会学,其中有不少有趣而深刻的概念和我感兴趣的部分,值得在开展一些工作前好好琢磨琢磨,特此记录。

大数据

定义

大数据常见的定义主要包括了3个y,也就是大量(volume)、多样(variety)和高速(velocity)。大数据的倡导者还为其增加了真实性(veracity)和价值(value),而批评者增加了模糊(vague)和空洞(vacuous)。但就社会研究这一目的来说,相比于以上几个v,以下5个w才是更好的出发点。who, what, where, when, why。大数据资源带来的许多挑战和机会都源自于最后一个why。

特征

大数据一般具有10个共同特征,通常情况下有利于研究的:海量性、持续性以及不反应性。通常情况下不利于研究的:不完整性、难以获取性,不具有代表性、漂移、算法干扰、脏数据以及敏感性。

1、大数据资源具有海量性,使得研究人员能够完成对异质性和稀有事件的研究,还能让研究人员发现细微的差异。大数据集它本身不是目的,因此他可能会让研究人员忽略这些数据产生的过程,导致他们精确的计算了一些并不重要的数据(但很多时候研究人员似乎会把大资源的大数据资源的规模大小当作一种目的,旨在向人炫耀“我能处理多少数据”,而说并不是将其看作实现某些更重要科学目标的手段)。

2、大数据资源具有持续性。这一点对决策者来说比较重要,因为他们要面对各种应急的响应和对经济活动进行实时的评估。一般来说,持续运行的大数据系统主要应对突发事件,并且为决策者提供事实信息。但如果追踪长时间的一段数据变化,这样的系统就不再适用。因为很多大数据系统是不断变化的,这一过程称为漂移。

3、大数据资源具有不反应性。当社会学家去研究人的时候,人们就会改变自己的行为,而在大数据面前,这是不可能的。

4、大数据资源具有不完整性。大数据通常缺少以下三种对社会研究有用的信息:有关参与者的统计信息、在其他平台上的行为以及时理论构念具有可操作性所需的数据。在以上三种情况中,缺失使理论构念具有可操作性所需的数据是最难解决的(构念的定义:对某一学科研究领域内模糊或者抽象的要素进行概括或概念化的途径,是旨在探究研究对象的规律性而由科学研究者设想出来抽象物)。社会科学家将理论构念和数据之间的匹配程度称为构念效度。

5、大数据资源具有难以获取性,研究人员很难获取公司和政府所持有的数据资源。并不是因为公司或者政府的人愚蠢、懒惰或者冷漠,那是因为有严格的法律商业和伦理限制了数据的获取。他们一旦提供数据,就有风险。虽然可以通过与某些公司合作,但这也会给研究人员带来各种问题。

6、大数据资源具有不具代表性,这种数据不利于样本外的泛化。但是对样本内的对比还是很有用的。由大量不具代表性的数据得出结论依然是不具有代表性的因此不能进行样本外泛化。

7、大数据资源的持续变化被称为漂移,漂移可分为三种:用户漂移(使用系统的人的变化)、行为漂移(人使用系统的方式的变化)和系统漂移(系统本身的变化)。这些变化中本身就包含了非常有趣的研究的问题。但它也让大数据资源追踪长期变化变得更加复杂。

8、大数据资源还存在着算法干扰的问题。当在线设计系统的设计者意识到社会理论的存在,并将其录入系统的运行方式中的时候,就会产生更为复杂的算法干扰。社会科学家称之为述行性——当一个理论已使世界与理论更为符合为目的,改变着世界时,我们就说该理论具有述行性(个人感觉这个现象跟心理暗示有一定的相似性)。

9、大数据中还存在着很多垃圾和重复数据,这些数据被称为脏数据。必须尽可能了解数据是被如何创建的,才能比较合理地删除这些脏数据。

10、剩下的一个就是敏感性。这一个性质跟难以获取性非常相关,但它更侧重于被收集数据者的隐私问题。

几个有趣的概念

自然实验

一些时候研究的情形并不理想,需要我们通过一些自然实验来完成我们想要的研究这一类研究策略可以被归纳如下随机变化或者似乎是随机的变化,再加上不间断运行系统的数据,就相当于自然实验。

在实践当中,研究人员可以通过两种不同的方法寻找实验自然实验。一种是先有一个不间断运行的数据系统。然后在现实世界中寻找随机事件。另外一种是先有一个现实世界中的随机事件,然后寻找能捕获其影响的数据资源。利用非实验数据进行因果推断时,自然实验是一个强有力的策略。

匹配

匹配这个概念类似于分类匹配所得到的结论,仅适用于该匹配集内的对象。而对于匹配只有以外的对象是不适用的。匹配是从非实验数据中找出合适对象,从而进行公平比较的一项有力的策略。

误差

调查的总误差等于代表性误差加上测量误差。粗略来讲偏差是系统误差,方差是随机误差。最理想的情况评估过程应该是无偏差、低方差的。在理想情况下,目标总体和抽样框总体是完全相同的,但实际情况往往并非如此。

目标总体和抽样框总体之间的差异被称为覆盖面误差。覆盖面误差不一定会引发问题。但是如果抽样框总体的人与在目标总体中却不在抽样框总体中的人存在系统性差异。那么覆盖面误差将会导致覆盖面偏差。

在确定完抽样框总体和研究人员的下一步,就是选择抽样总体,即研究人员试图采访的对象。车状况总体相比,如果样本具有不同的特征,那么抽样就产生了抽样误差。抽样误差往往被人提及,而其他两个误差并不怎么被人提及。

最后一个误差是无回答偏差,也就是说选择为样本的人有时会不参与调查。这样如果参与者的答案和未参与者的答案不一样,那么无回答误差,就可能造成无回答偏差。

抽样调查

测量就是根据受访者的答案推断他们的想法和行为。在抽样的发展过程中,有两种相互对立的方法,概率抽样和非概率抽样。尽管在抽样早期两种方法都在被使用,但如今概率抽样处于主要地位,而且许多社会研究人员被教导要对非概率抽样持极其怀疑的态度。

但现在必须得重新考虑非概率抽样了。概率抽样实践起来越来越困难,而非概率抽样越来越快,越来越便宜,效果也越来越好,不过它在后期需要结合一定的技术(比如事后分层技术)来完善以得出较为准确的结论。

事后分层技术往往被广泛用于调整,有覆盖面误差和无回答现象的概率样本。事后分层的主要思想是利用关于目标总体的辅助信息,帮助改善源于样本的评估结论。其关键是正确分组。随着分组数目的增加,用来支持该方法的假设也会越来越合理。但是这样研究人员需要创造大量的组。但是随着数目的增加,又会遇到新的问题,数据稀疏,那么得出的评估结果也会显得不可靠。

现在主要介绍三个数字时代的新方法。第一个方法是研究人员借助数字时代的工具,以不同形式发问。第二种方法是生态瞬时评估法。第三种方法是维基调查。第一种已经演得非常明白,不再阐释。第二种生态瞬时评估法是将传统的调查分解,然后将其融入参与者的生活。因此研究人员可以在合适的时间与地点进行提问,而不是在事情发生数周后,才通过一个长时间的访谈来了解。第三种维基调查的方式主要是为封闭式问题和开放式问题的结合提供了新的可能性,首先以开放式问题来收集答案,然后在封闭式问题中将这些答案呈现,并且选项具有可更新性。

实验设计

一个有趣的例子

维斯利-舒尔茨及其同事在2007年针对社会规范与用电量之间的关系所开展的模拟实验。这个团队选取了位于圣马科斯和加利福尼亚州的约300个家庭对象为实验对象。并且在他们家门前挂上写有鼓励人们节约用电的信息的门挂牌。然后这个团队分别在一周后和三周后测量了这些信息对用电量的影响,得到的结果发现这一处理并没有任何效果。

但是他们并没有简单局限于这样的分析,而是继续推测用电量的大的居民,其用电量可能减少。而对于用电量小的居民,其用电量可能会增加。这是因为产生了“飞去来器效应”,即某一处理产生了与原目标相反的效应。

为了消除这种效应带来的影响,他们使用了笑脸与哭脸两种表情来进行指令性规范,不像之前的描述性规范。在这个实验中,被试间设计的优势在于降低了混淆变量的干扰,而被试内设计的优势在于提高了估计结果的准确性。

三个理念来辅助

社会学家已经提出三个理念来指导我们设计出更为丰富的实验:一、效度;二、处理效应的抑制性;三、原理。

其中效度是指实验结果符合某个一般性结论的程度。社会学家将效度分为4种主要类型:统计结论效度、内部效度、构念效度和外部效度。统计结论效度的核心在于对实验进行了统计分析是否正确;内部效度的核心是实验步骤是否被正确的完成;构念效度的核心是数据和理论构念的匹配;外部效度的核心是该实验的结果能否被推广到其他的情形中。相比于模拟时代的实验,数字时代的实验应该更易于通过实证来解决外部效度的问题,同时也更易于确保内部效度,而构念效度的问题则可能变得更具挑战性。

实验通常测量的是平均效应,而他对每个人产生的效应很可能是不一样的——这就是处理效应的异质性。在数字实验中通常会有更多的参与者,而且研究人员对他们的了解也更多在这样一个不同的数据环境中继续只关注平均处理效应的研究人员,就会错失三方面信息:一个处理是如何起作用的、如何对其进行改进以及如何才能让最有可能受益的人接受处理。因为这是要靠评估处理效应的异质性才能获得的信息。这里的原理指的是一项处理产生效应的途径。

模拟实验室固定成本较低,可变成本较高,而数字试验则是固定成本较高,可变成本较低。不同的成本结构意味着数字实验能达到模拟实验不可能达到的规模。

伦理

四项原则

研究人员面对道德伦理不确定性时,可采用四项原则包括:对人的尊重原则、有利化原则、公正原则、对法律和公共利益的尊重原则。在实践中有利化原则被解释为研究人员应该实施两个不同的步骤,风险/效益分析,以及随后判定风险和收益是否达到适当的道德伦理平衡。第一个过程主要涉及实质性专业知识的技术问题;而第二个过程主要是伦理问题,在第二个过程中,实质性的专业知识可能不那么有价值,甚至是有害的。公正原则是确保研究的风险和收益能够被公平的分配。

这四项原则本身来源于更为抽象的两种道德框架:结果主义和义务论。结果主义关注于采取相关行动,使世界上的国家或地区变得更好;义务论来自康德的思想,关注于道德义务。他与所收到的结果无关。结果主义和义务论都提供了重要的道德洞察力。但每个都可以被视为极端的荒谬:对于结果主义,其中一个极端例子是移植,也就是杀死一个人去拯救5个因器官衰竭而濒临死亡的病患;同理,义务论一样拥有荒唐的极端思想,警察抓住一名恐怖分子,可警察不通过手段来获取定时炸弹的位置。因此,在实践中,社会研究人员必须含蓄融合这两种道德框架。

四个困难面

在数字时代存在四个特定的困难面,知情同意、理解与管理信息化风险、隐私权以及面对不确定性所做出的决策。

对于知情同意而言,首先有时向参与者提出获取知情同意,可能增加其面对的风险;第二,有时在研究开始之前获得完全知情同意,可能会损害研究的科学价值;第三,有时向受影响的每个人争取知情同意在逻辑上是不切实际的。有个比较有意思的实验利用了网页追踪脚本来进行对访问敏感网站的人群的研究,但由于缺乏参与者和知情同意,这个项目令人担忧。

对信息化风险的减少措施,主要是使用数据的匿名化。匿名化主要是从数据中除去诸如姓名、住址以及电话号码等显著个人信息的过程。但这样依然存在着风险,比如通过两个相关的数据库进行“再识别攻击”。事实上,信息化风险应被视为在所有项目上都存在着并且适用,但我们只能尽可能降低泄露数据的概率,减小其风险。另外,对于共享与公开,有种保护性公开的方法,也就是将数字与符合特定标准并同意受某些规则约束的人共享。

隐私权是让信息适当流通的权利。考虑隐私权的常见方式是公/私二分法,但这样存在着一定的问题,思考隐私权的一种更好的方式是情境完整性。情境完整性关注的是信息流通,而不是将信息视为公共或私人信息。

在数字时代社会研究中,我们要将研究伦理视作连续而非离散的过程,必须超越这种二元思维。研究伦理二元概念的一个主要实际问题是它会使讨论变得更偏激,把情绪感染项目称为“不道德的”,会以一种无意的方式将它与真正的暴行混为一谈。相反,更具体地讨论研究中遇到的问题会更有帮助,并且更恰当。任何一个人都不应该对自己判断正确的行为的能力过于自信。

以上仅作为学习记录,不一定代表本人观点。