AP Bestavros问答:第二部分
*请注意,这是与副教务长Bestavros的系列访谈的第二部分。请继续关注下一期。第1部分已提供在这里.
上次我们与Azer Bestavros讨论了数据的力量以及它如何有助于评估政策或政策制定。今天,我们将深入探讨数据科学和数据收集/可视化之间的差异,以及如何使用前者来揭示种族差异(以及其他事情)的证据。
问:考虑到黑人种族隔离制度的建立,CDS的主要影响似乎是在种族平等方面司法媒体联合实验室与COM合作,以及种族数据实验室与中非共和国合作。你能举例说明如何使用数据科学(而不是数据收集和可视化)来揭示种族差异的证据吗?
Azer: Bestavros:例如,通过各种过程(例如法律要求警察报告他们在车辆或行人停车时发出的人的人口统计数据)收集的数据的分析可以用来揭示种族差异(以及更多)。首先,请注意,从单个流程收集的数据可能不足以揭示模式,而揭示模式的是该数据与其他数据集的链接(以及在上下文中对该数据的分析)。这就是数据科学发挥作用的地方。为了正确地进行链接或分析,需要部署一系列相当复杂的计算技术。例如,数据可能具有不同的形式(即数据库、自由文本、音频、图像、视频),数据可能有噪声或不完整,数据可能受到严重的隐私限制,等等。这就是来自各种计算和数据科学领域的技术发挥作用的地方。
问:你能否详细说明为什么咨询和分析多种来源的数据很重要?看某一家医院澳门威尼斯人注册病人的数据有什么错?为什么要超越我们现有的数据?
需要明确的是,查看单一来源的数据并没有什么“错”。问题是,你是否会得到一个完整的画面,或者就此而言,一个准确的画面(而不是一个有偏见或不完整的画面)。
也就是说,数据来源的多样化是很重要的,因为很少有人能从单一来源的数据中获得洞察力。事实恰恰相反。只有当您查看来自许多来源的数据时,您才能开始看到隐藏在各个部分中的模式。例如,如果你看个别医院的数据,你可能不会太注意少数看起来像流感的病例。但是,当你汇总来自许多医院的数据时,一家医院出现的小问题可能正在形成一场大流行。这是一个微不足道的例子,但一般来说,这是正确的。只有将来自健康保险公司、医院、教育、交通、社交媒体等方面的数据结合起来,人们才能深入了解如何应对因COVID而变得如此明显的卫生不平等现象。
问:你似乎在暗示,多样化的数据来源可以防止我们得出错误的结论。你能详细说明一下吗?
数据源的多样性实际上是“大数据”热词的一个重要属性。人们通常认为“大数据”是由我们拥有的数据量构成的。这只是一个属性。除了数据的“量”之外,需要考虑的另外三个重要属性是数据的“速度”、“种类”和“准确性”。这些属性统称为大数据的4v。速度指的是数据生成和积累的速度。传统的数据分析涉及存储在某些数据库中的静态数据,而数据科学家处理实时数据-就像从消防水带中喝水一样!多样性是指不同的数据来源和不同的数据形式。传统的数据分析假设数据是经过精心管理和非常一致的,而今天的数据科学家必须处理使用不同命名标准、粒度和分类法的异构数据。真实性是建立对数据的信心,而这些数据通常是嘈杂的、不完整的、有偏见的,甚至是被对手污染的!
好消息是,提高准确性的唯一方法是增加数据的多样性(即来源的多样性)。让我这么说吧:多样性之于数据科学就像随机抽样之于统计学。
问:CDS的澳门威尼斯人注册网站和学生所从事的项目中,有哪些是超越简单追踪的例子?
BU火花!有许多学生的项目,都是这类项目的好例子。这些项目要么由学生独立完成(使用BU Spark!监督)或作为澳门威尼斯人注册网站更大项目的一部分完成。
这个项目,在Spark!的“弹性挑战”(Resiliency Challenge)在Twitter上追踪种族主义。具体来说,学生团队在COVID-19大流行的背景下寻找了仇华言论的趋势。这项工作源于Gianluca Stringhini(欧洲经委会/工程系的教员和CDS附属教员)的原创澳门威尼斯人注册网站研究,学生们与他密切合作。你可以在今日波士顿大学的故事中了解更多,或者访问他们的网站。
我最喜欢的另一个学生项目是使用各种方法建立一个数据集,揭示政治竞选捐款对警务实践的腐败影响。这个项目产生的证据在比肯山警察改革听证会上被引用。
问:回到挖掘数据以获取证据的问题上,您指出,人们可能需要多组数据来发现模式,也就是说,只有当你把所有数据放在一起时,情况才会出现。为了挖掘证据,把数据放在一个地方很重要吗?你指的是一个地方吗——比如存储在波士顿大学劳动数据中心的数据库?
不,不一定是在一个地方。我的意思是,为了解决问题,比如那些由种族数据联合实验室或司法媒体联合实验室考虑的问题,人们通常需要访问多个数据片段,以便进行计算和数据分析,使其有意义。是否所有的数据都在一个地方(从物理上讲)并不重要/相关。重要和相关的是能够访问数据,以便将其组合/链接/分析以获得见解/证据等。
事实上,数据科学最有趣的方面是它“分发”计算的能力,这样你就不必把所有的数据放在同一个地方,这可能是不可行的(例如,由于数据的绝对规模-想想人口普查数据)或非法的(例如,由于监管限制-想想HIPAA和FERPA)。这就是云计算等技术和平台脱颖而出的地方!
问:从我们对病毒及其影响人群的理解来看,COVID种族数据追踪器是一个改变游戏规则的例子,很多人可能认为这相当简单:你得到了那些正在感染和死亡的人的种族/民族/地理位置的国家统计数据,然后你发布这些数据。为什么这么复杂?为什么需要数据科学?
我同意!它并不复杂,你不需要“数据科学”来拥有显示电子表格统计数据的仪表板。对我来说,作为一名计算机和数据科学家,重要的是除了简单地跟踪统计数据之外,你还能做多少事情。COVID种族数据跟踪器(以及我们可能希望为社会其他方面开发的任何其他跟踪器)的价值仅仅是激励我们更深入地澳门威尼斯人注册网站研究并部署我们可以使用的工具和技术库(并在必要时开发新工具和技术),以找到跟踪器所揭示的根本原因。
问:那么,您能否详细说明,为了“看得更深”,为了“找到根源”,需要做些什么?社会科学家希望从CDS中获得哪些关键的数据科学技能?
除了通过简单的可视化和仪表板提高人们对不平等现象的认识之外,如果我们希望改变种族不公正现象,我们必须能够通过提供基于数据的令人信服的证据,将这些不平等现象与政策和实践中的根本原因联系起来。这一努力的成功取决于计算和数据驱动的能力,从单个数据集的收集、管理和安全存储,到多个数据集的链接、集成和可视化,到各种数据管道的处理、挖掘和分析,到预测建模、假设检验和潜在社会经济过程的模拟,等等。
不幸的是,对于社会科学家来说,仅仅雇佣一个实践者,使用一些现成的软件平台,如R或Tableau,或者使用你最喜欢的“数据科学的假人”工具是不够的。社会科学专家需要的远不止“技能”,这就是与CDS成员合作的重要之处。CDS专家(澳门威尼斯人注册网站和学生)拥有一系列方法和机制,他们可以以非常有创意和创新的方式组合在一起。除了大家都在谈论的数据科学的流行维度,比如机器学习和预测建模,其他方法和机制同样重要,比如软件和数据工程、信息系统安全、数据隐私、自然语言处理、视频和图像分析等。
问:你刚才提到的从各种方式和来源收集数据的问题很有意思。你能否举例说明,为一个目的收集的数据如何有助于回答远远超出收集数据的原始原因的问题?
想象一下,一个人如何给不同的社区打分,根据这些社区的适宜步行程度、街道维护得有多好、树木覆盖程度、停在那里的汽车种类、附近有什么类型的企业,或者不同社区建筑物的维修状况。为此,我们可以使用谷歌Streets数据。我们有15年的谷歌街道数据,每年为同一条街道提供多个版本的图像。我们可以使用计算机视觉和机器学习的方法来分析图像,并根据“可步行性”、“树木覆盖”或“路面质量”随时间的变化得出分数。然后,我们可以将这些分数与健康结果、教育程度数字或房地产价值联系起来,然后随着时间的推移,比较不同社区(富人与穷人)的所有这些指标,看看情况是否有所改善。或者我们可以用这些来澳门威尼斯人注册网站研究中产阶级化的影响。但是,你猜怎么着?收集街道数据不是为了回答这些问题!收集它们是为了帮助人们使用谷歌地图进行导航。现在,通过创造性地使用计算工具和技术,同样的数据集可以作为许多数据模式之一,开始回答有关中产阶级化或公共卫生与街道质量之间的相关性的问题。
问:但这些想法是谁提出的?你如何决定问什么问题?
虽然我们(CDS的教职员工和学生)可以创造性地思考有趣的分析,这些分析可能会导致值得提出的有趣问题——对于给定的数据集,我们可以做几十个甚至几百个分析——我们也依赖于同事和合作者,他们的专业知识放大了值得提出的问题。回答这些问题将使这些专家获得洞察力,这可能会让他们提出更多的问题,这样循环下去。如果我们(CDS)独自工作,我们可能不知道什么问题值得问,我们甚至可能提出完全错误的问题。如果专家独自工作,他们将无法超越展示一些简单的跟踪器或各个社区的热图的表面。
以我之前提到的将警察在交通拦截中收集的人口统计数据相关联的例子为例。如果对交通站点的种族维度进行分析对反种族主义澳门威尼斯人注册网站研究人员来说很重要,他们将为我们指明方向,我们将为此而努力。但是,它们同样可以指导我们观察不同社区公立学校在线能力的差异,或者不同地理位置的噪音污染与教育结果之间的相关性。而且,还有很多……
问:在宣布成立种族数据联合实验室易卜拉欣·肯迪(ibrahim Kendi)博士将“种族数据科学”称为一个新兴领域,并表示他希望让波士顿大学成为该领域的一流大学中心。你同意吗?
我不确定我是否会称之为“新领域”或“新学科”,因为它实际上是两个(或更多)澳门威尼斯人注册网站研究领域的结合——它是一个跨学科/多学科领域。也就是说,我同意CDS和CAR的结合给了波士顿大学一个独特的机会,当涉及到数据科学和种族关系的澳门威尼斯人注册网站研究和教育时,它将成为全国的重心。
-加入我们,了解更多澳门威尼斯人注册与CAR合作的信息!