预测选举结果的更好方法
两名BU CAS教授使用网页浏览数据进行快速、深入的分析

图片来源:GoodLifeStudio/iStock
正如对2016年总统大选的预测提醒我们的那样,对选民进行民意调查是一门不完美的科学。大多数民意调查都声称希拉里·克林顿将成为我们的下一任总统——这似乎是意料之中的结果——而且大多数民意调查都是错误的,尽管许多对普选票数的预测非常接近,相差不到一个百分点。选举调查向来不准确。这种方法也很耗时、昂贵,而且缺乏衡量短期事件影响的能力,比如候选人的演讲,或者解读小地理区域的选民。
现在,波士顿大学(Boston University)的两位教授认为,他们已经找到了一种替代方法,这种方法不仅同样准确,而且有可能更快、更便宜,可以瞄准小到城镇的区域,还可以衡量人们对特定问题和事件的反应。这种将网络浏览模式与民意调查联系起来的方法是由艺术与科学学院的两位教授开发的:计算机科学家马克·克罗维拉和政治学家迪诺·克里斯滕森。
两人的合作伙伴是维科萨大学的乔瓦尼·科马雷拉(以前是克罗维拉领导下的波士顿大学的博士生)、俄勒冈大学的拉马克里希南·杜拉拉扬和威斯康星大学麦迪逊分校的保罗·巴福德。Barford同时也在comScore公司工作,comScore公司是一家类似于尼尔森的互联网评级公司,他与澳门威尼斯人注册网站研究人员达成了一项协议,comScore公司向澳门威尼斯人注册网站研究人员提供了2016年大选前56天内超过10万名美国居民的网络浏览历史。
澳门威尼斯人注册网站研究人员使用的所有数据都是由生成数据的用户专门授权和发布的。澳门威尼斯人注册网站研究人员对这些数据的分析显示,选民在何时何地做出了导致唐纳德·特朗普当选的决定,这些数据相当于2太字节,包含了7000万个网站。

它还表明,与大众和专家的观点相反,希拉里·克林顿的支持率在最后一刻下降并不是由联邦调查局局长詹姆斯·科米(James Comey)致国会的一封信促成的。在这封信中,联邦调查局(FBI)透露,联邦调查局在希拉里·克林顿的服务器上发现了一批新的相关电子邮件。克罗维拉和克里斯滕森的分析清楚地表明,希拉里的支持率从2016年10月25日开始下降,也就是这封信发出的三天前。克里斯滕森说,这并不意味着这封信对民主党候选人的支持没有影响。“之前的下滑可能只是一个巧合,”他说。“如果没有那封信,这可能是一个小幅度的下跌,而且还会反弹……但调查结果肯定让人怀疑科米的信是第一个推动者。”
对克罗维拉和克里斯滕森来说,这一发现的重要性在于它证明了他们的方法可以衡量单一的、短暂的事件的影响,比如一次特别的竞选活动,或者最高法院的裁决,或者一则丑闻性的新闻报道——这对候选人和民意测验专家来说是有价值的潜力的。
“比方说,一位候选人飞到一个城市,发表演讲,然后飞出去,”克罗维拉说。“这有多大的影响?”典型的政治民意调查是一种过于粗糙的工具,无法衡量这一点。一项民意调查,即使做得很好,也需要三到四天的时间才能得到足够大的回应,从而具有统计意义。你无法衡量一种效果持续两天的东西。这些都被排除在了测量过程之外。”
同样,Crovella说,传统民意调查需要大量的数据才能具有统计意义,这使得它无法深入澳门威尼斯人注册网站研究小群体。Crovella说:“因为有很多人参与我们的数据,所以我们可以在早期的、局部的地理基础上看到不同人群的政治倾向。”“我们可以在空间和时间上以相当细粒度的方式做到这一点,因为我们已经记录了他们的浏览行为,他们的网站,每分钟、每小时、每一天。”
克罗维拉和克里斯滕森还说,他们的方法可以比目前的民意调查方法更准确地衡量总体支持率。他们的澳门威尼斯人注册网站研究,“通过网络浏览历史评估候选人偏好”,由Giovanni Comarela, Ramakrishnan Durairajan, Paul Barford, Dino christensen和Mark Crovella完成,发表在2018年ACM KDD会议录上,英国伦敦。
Crovella说,最终,投票系统需要两件事:“它需要网页浏览记录,它需要某种初始投票来校准机器学习组件,以了解它正在寻找什么。”
校准是最困难的部分,也是需要大量计算能力的原因。如何准确地将网站访问量转化为政治倾向的可靠指标?有些网站明显偏向某一候选人或政党,但许多网站并非如此。访问一个特定的网站不一定意味着访问者同意该网站的观点。
第一步是找到一种可靠的方法来确定“基础真相”,这个术语描述了基于现实世界证据的标准,用于训练机器学习算法。Crovella从传统的民意调查的结果开始,有点讽刺。

“假设你在9月1日进行了一项民意调查,结果显示,在这一天,60%的密歇根州人倾向于民主党。你可以用它来训练一个机器学习算法,让它查看数据集中的所有个体,并决定哪些人必须构成这60%。然后你就知道民主党选民的网站访问量是什么样的了。你带着它前进,看着随后的访问,并询问数据集是如何变化的。这种方法以前没有得到很好的发展,我们必须找到一种新的方法,将其应用于与我们正在澳门威尼斯人注册网站研究的数据一样大的数据中。”
Crovella和christensen指出,现在他们已经开发出了利用捐赠数据的方法,他们正在开发方法来实现对加密数据进行操作的相同目的。这将提高用户的隐私,因为没有计算机(除了用户自己的计算机)能够看到用户的网页浏览数据。
不出所料,克罗维拉和克里斯滕森的初步分析教会了他们一些澳门威尼斯人注册他们的方法的东西,以及选民的情绪。例如,他们了解到哪些浏览习惯是政治倾向的最佳指标。“我们发现来自社交媒体的推荐信息非常丰富,”Crovella说。“我们发现,如果你只是在浏览器中输入一个搜索词,然后点击那个链接,它不太可能告诉我们你的政治倾向。但如果你点击了一个朋友推荐给你的链接,这很可能表明了你的政治倾向。”
接下来是什么?克罗维拉和克里斯滕森计划建立一个网络功能,将他们的技术和方法提供给其他社会科学家和民意澳门威尼斯人注册网站研究人员。Crovella说,他们希望建立一个系统,社会科学家可以用它来回答这样的问题:“比如,如果有人去芝加哥发表演讲,它会改变多少,会保持多长时间?”
“我希望有一个网络API,任何学术澳门威尼斯人注册网站研究人员都可以在任何一天查询公众意见,”克里斯滕森说。“人们可以输入他们感兴趣的结果,以及国家的地理区域和时间,作为回报,实时获得相关民意动态的估计。其应用可能相当广泛。你可以看看公众对候选人、代表、政策问题,甚至是当地事件的立场,比如竞选活动或学校董事会选举,假设存在潜在的党派或意识形态维度,你就不必花费数万美元进行民意调查,甚至不必在某个时期或某个地区进行民意调查。”
也许是因为克里斯滕森长期观察政治民意调查,也是一名训练有素的调查澳门威尼斯人注册网站研究员,他对传统民意调查的缺点表示同情。
他说:“无论何时你试图进行概括,都会出现错误。”“当一个选民像美国一样存在分歧时,民意调查出现偏差也就不足为奇了,尤其是在我们没有大量数据收集的地区,差距很小。”不过,他认为,民意太重要了,不能用民意调查的局限性和成本来衡量,至少如果有办法改进民意调查的话。现在可能有了。
评论与讨论
波士顿大学缓和评论,以促进知情的、实质性的、文明的对话。辱骂、亵渎、自我推销、误导、语无伦次或离题的评论将被拒绝。版主在正常营业时间(EST)有澳门威尼斯人注册,只能接受用英语写的评论。统计数据或事实必须包含引文或引文链接。