塞思·斯蒂芬斯-达维多维茨《人人都在说谎》:别装了!前谷歌科学家揭秘:你的搜索记录,才是你最真实的日记 - 详细摘要
核心论点:大数据揭示人类的真实思想、欲望和行为
本书作者,一位前谷歌科学家,通过分析人们在谷歌搜索、色情网站、社交媒体等数字平台上留下的“蛛丝马迹”,揭示了传统调查和自我报告无法捕捉到的真实人性。核心观点是:“人们搜寻信息这一行为本身就是信息。” 人们在谷歌等平台上的搜索行为,尤其是在匿名和私密的环境下,能够高度反映其真实的“想法、欲望、恐惧和职业”,甚至包括那些令人尴尬、不愿向他人坦承的内容,例如“我恨我的老板”、“我喝醉了”、“我爸爸打了我”。这种“数字吐真剂”的特性,使得大数据成为理解人类行为和思想的强大工具。
大数据的独特功能与优势
作者强调大数据具有四大独特功能,使其超越传统研究方法:
- 提供新型数据: 大数据带来了前所未有的数据来源,例如谷歌搜索数据、色情网站数据、社交媒体文本数据等。这些数据在过去是不存在的,或者难以被收集和分析,如今却为我们打开了通往“过去仅存在于我们猜测中的领域”的窗户。例如,通过休闲活动搜索可以预测失业率,这在谷歌出现之前是无法想象的。
- 提供可靠的数据(数字吐真剂): 人们在网络上,尤其是在谷歌和色情网站等保护隐私的平台上,更倾向于暴露真实的想法和行为。他们对朋友、爱人、医生、调查人员甚至自己都可能说谎,但在这些数字平台上,他们会分享“令人尴尬的信息,比如他们的无性婚姻、心理健康问题、不安全感和对黑人的仇恨等。”这种匿名性与“激励机制”(即为了找到答案而诚实搜索的动机)相结合,使得在线数据具有极高的可信度。
- 支持“放大”分析,揭示细微模式: 大量的数据允许研究人员进行“放大”分析,即深入到城市、社区甚至更小的群体中,揭示传统小样本调查无法发现的细微模式和地域差异。例如,利用亿万级的国税局数据,可以发现美国不同地区儿童摆脱贫困的机会差异,以及税收欺诈行为的传播路径。这种“放大”能力使得我们能更精细地理解复杂系统。
- 使随机试验更加便捷: 数字时代极大地降低了随机对照试验的成本和时间,使其更容易实现。通过A/B测试等方式,研究人员可以快速、低成本地测试各种假设,从而更准确地建立因果关系。这使得社会科学研究能够像物理学一样进行严谨的实验,从而“改善我们的生活”。
大数据颠覆传统认知的关键发现
作者通过其研究和引用的案例,挑战了许多根深蒂固的观念和直觉判断:
- 种族主义的普遍性与隐秘性: 尽管在调查中人们普遍声称不再在意种族,但谷歌搜索数据显示,“黑鬼”一词的搜索量与“偏头痛”等常见词汇相当,其中20%与“笑话”相关。在奥巴马胜选之夜,仍有约1%的“奥巴马”搜索包含“kkk”或“黑鬼”。这表明“隐形显性种族主义”广泛存在,人们心知肚明却不愿承认。
- 种族主义与经济状况无关: 传统观念认为经济不安全感会导致种族主义加剧,但数据显示,失业率上升时,种族主义搜索量和相关组织会员数并未走高。
- 焦虑的地域分布: 焦虑程度并非在大城市或受过高等教育的人群中最高,反而在教育水平较低、家庭收入较低、农村人口密度较大的地区更高。
- 恐怖袭击与焦虑: 恐怖袭击后,与焦虑相关的谷歌搜索量平均没有增长,这与人们直觉中的“恐惧感”蔓延形成对比。
- 幽默与悲伤的关系: 人们在心情低落时(如周一、阴雨天、重大悲剧后)搜索笑话的频率反而最低,这与“幽默缓解痛苦”的传统观点相悖。
- 弗洛伊德理论的证伪: 通过分析大量梦境和打字错误数据,作者发现梦中生殖器符号出现的频率主要与食物的消费频率和喜爱程度相关,而非性压抑。打字错误也主要由字母替换频率解释,而非潜意识的性欲望。
- 乱伦搜索的惊人普遍性: 色情网站数据显示,大量用户搜索乱伦主题的图片,男性搜索中16%的前100词条与乱伦相关。这揭示了不为人知的人类性偏好。
- 婚姻关系预测: Facebook数据表明,拥有共同好友圈的伴侣反而更有可能分手,这颠覆了“共同社交圈有助于巩固关系”的直觉。
- 新闻媒体的偏好: 媒体并非主要通过意识形态驱动,而是为了满足读者需求。数据分析显示,美国新闻媒体整体偏左,因为其读者群体也普遍偏左。此外,人们更倾向于分享积极而非负面新闻。
- 父母对子女智力的偏见: 父母搜索“我的儿子有天赋吗”的次数是“我的女儿有天赋吗”的2.5倍,对儿子的智力关注度更高,而对女儿的外貌(如“超重”)关注更多,尽管女孩在学业上通常表现更优。
- 暴力电影与犯罪率: 暴力电影上映期间及其后数小时内,犯罪率(特别是与酒精相关的犯罪)反而下降。原因并非电影本身的影响,而是这些电影将潜在的犯罪人群吸引到了电影院,减少了他们在犯罪高发场所的活动。
- 精英学校的“幻觉”: 断点回归分析表明,进入顶尖高中(如史岱文森高中)对学生后续的学业表现(AP、SAT成绩、大学录取)没有显著的因果影响。学生的成功更多取决于自身才华和动力,而非学校的“光环”。
大数据的局限性与道德问题
作者也坦诚了大数据研究的局限性,并提出了重要的道德问题:
- 预测股市的局限性: 大数据目前无法成功预测股市走势,因为金融行业已经投入大量资源进行数据分析,竞争异常激烈。同时,“维度的诅咒”意味着测试的变量越多,偶然出现“统计学意义”的概率就越大,可能导致虚假发现。
- 知识的诅咒: 数据科学家在提供新的洞见时,有时会发现这些发现对他们而言是显而易见的,但对于缺乏相关经验的人来说却是革命性的。
- 潜在的歧视风险: 基于大数据对个人进行评判(如贷款审批、招聘)可能导致“歧视更加微妙,也更恶毒”。例如,根据人们在网上使用的词语(如提及“上帝”或“谢谢”)来判断其贷款偿还意愿,或者根据社交媒体点赞判断智商,可能导致不公平的对待和“价格歧视”。
- 操纵与利用: 大数据可能被用于商业目的,例如赌场利用数据分析赌徒的“痛点”,以便在不让他们“输红眼”的情况下榨取最大利润。
大数据对社会科学的革命性影响
作者认为,大数据正在将社会科学转变为一门真正的科学。过去,社会科学家常被批评为“软科学家”,其研究缺乏严谨性。然而,大数据提供了大规模、可量化、可验证的数据,使得社会科学能够提出“明确的问题,也有明确的答案”,并进行严谨的实验。这使得社会科学研究能够“发现模式以及预测一个变量如何影响其他变量”,就像物理学一样。
对未来的展望
作者对大数据研究的未来充满信心,并提出了许多有待探索的领域:
- 公共卫生: 例如,像19世纪霍乱研究那样,利用大数据追踪疾病传播路径和致病因素。
- 心理学: 通过A/B测试等方法,显著改进心理学研究,快速测试数百乃至数千个想法。
- 语言学: 更深入地理解想法传播、新词产生、方言发展以及幽默的机制。
- 儿童发展: 匿名分析儿童的在线行为,了解他们的学习、成长、拼写、阅读障碍迹象、兴趣培养和社交情况。
- 人类性行为: 进一步探索性取向的维度和形成机制。
总结
《人人都在说谎》的核心在于强调大数据作为“数字吐真剂”的独特价值。它不仅能揭示人类最真实的、甚至是不体面的想法和行为,还能通过其“新型、可靠、可放大、可实验”的特点,颠覆传统认知,推动社会科学向更严谨、更具洞察力的方向发展。尽管存在潜在的伦理和滥用风险,但作者坚信,正确利用大数据将最终“改善我们的生活”,并帮助我们更好地理解自己和所处的世界。
1. 谷歌搜索数据为何能成为研究人类思想和行为的独特且真实的来源?
谷歌搜索数据之所以独特且真实,是因为它揭示了人们在没有社交顾虑时最真实的想法、欲望和恐惧。与调查问卷不同,人们在搜索引擎中输入的内容往往是个性化且匿名的,例如“我恨我的老板”、“我喝醉了”或“我爸爸打了我”之类的搜索。这些微小的、日常的搜索行为,在数百万次的重复中,最终揭示了许多深刻的现实问题。当人们寻求信息、格言、笑话、地点、人物或帮助时,他们的搜索行为本身就成了信息,其真实程度是传统调查无法比拟的。因此,谷歌搜索数据被视为一种“数字吐真剂”,能够展现人们在其他场合可能羞于承认的观点和行为,例如对种族主义笑话的搜索、对自身性吸引力或性能力的担忧,以及对生育的后悔等不便启齿的想法。
2. 大数据,特别是谷歌搜索数据,如何挑战了我们对社会现象的传统认知?
大数据常常挑战并颠覆我们固有的直觉和传统认知。例如,传统观点认为种族主义主要源于经济不安全感,失业会加剧种族主义,但数据显示种族主义搜索量和相关会员数量在失业时并未走高。再比如,恐怖袭击后人们通常认为焦虑会迅速蔓延,但谷歌搜索数据显示,重大恐怖袭击后焦虑相关的搜索量平均并未增长。另一个例子是,人们通常认为心情低落时更倾向于搜索笑话来缓解痛苦,但数据显示周一和阴雨天笑话搜索量最少,重大悲剧发生后笑话搜索量也会骤降,反而是在生活顺遂时笑话搜索量更高。此外,传统观念认为报纸读者偏好负面新闻,但研究表明正面报道的分享率更高。这些例子都说明,大数据能够揭示与我们直觉或传统观念截然相反的真实情况。
3. 大数据研究如何揭示了人们内心深处,甚至连自己都未曾意识到的偏见和秘密?
大数据,特别是通过匿名搜索数据和色情网站数据,能够揭示人们内心深处甚至自己都未意识到的偏见和秘密。例如,对于种族主义,研究发现“黑鬼”一词的搜索量与“偏头痛”或“经济学家”相当,且大量搜索是为了查找嘲笑非裔美国人的笑话,这揭示了一种“隐形显性种族主义”,即人们意识到了这种偏见但拒绝承认。在家庭领域,父母对子女天赋的搜索也存在性别偏见,搜索“我的儿子有天赋吗”的次数是“我的女儿有天赋吗”的2.5倍,而对女儿的关注更多集中在外貌。在性方面,数据显示男性对乱伦主题色情内容的搜索量惊人,且男性搜索伴侣阴道时常抱怨气味,甚至以此侦察出轨,这反映了深层的不自信和担忧。这些都是传统调查难以触及的私密和不便启齿的内心活动。
空空如也
暂无小宇宙热门评论