“我们需要分析和解释数据的新方法”.
本文的一个版本是出版这里是Amstat新闻。
公共卫生学院将与生物统计学系和波士顿大学数学与统计学系合作,于11月15日联合举办题为“统计与生命科学:创造一个更健康的世界”的院长研讨会。
由美国统计协会、数学统计澳门威尼斯人注册网站研究所和国家统计科学澳门威尼斯人注册网站研究所共同主办,并向亲自或通过网络研讨会的与会者开放,为期一天的研讨会将以简短的演讲和讨论为特色,讨论在少数新兴和关键任务领域的统计挑战和解决方案的进展。具体而言,研讨会将重点关注数字健康、因果推理中的机器学习和公共卫生网络。
研讨会将有两位全体会议发言人——强生公司杨森制药公司的约瑟夫·莱哈尔和哈佛大学的苏珊·墨菲,以及两位主题发言人——杜克大学的大卫·邓森和约翰·霍普金斯大学的瓦迪姆·齐普尼科夫。
作为研讨会的预热,四位演讲者都被问及三个问题,这些问题与预期的焦点有关,即在最近的过去,统计如何对健康科学产生了最大的影响,未来十年健康科学中最大的统计挑战是什么,以及我们如何才能最好地应对这些挑战。他们的回答总结如下。
在过去的十年里,你认为统计学在哪些方面对生命科学产生了最大的影响?
普遍的反应是,这种影响在本质上是双重的,包括(i)支持使用大量、多样和复杂形式的数据,以及(ii)开发用于分析数据的统计机器学习方法。Lehar指出,统计数据是“整合和分析各种信息来源的复杂数据集”的关键。作为机器学习影响的一个例子,他强调了使用这些方法“自动分类疾病表型,这些疾病表型过去依赖于主观和不精确的专家意见(例如,癌症病理图像的深度神经网络或分子谱的机器学习,以产生可操作的临床生物标志物,以将患者与治疗相匹配)。”
同样,Dunson谈到了从更传统的“小数据”到“大数据”的转变,他引用了一系列新的测量技术,这些技术的使用是由统计学实现的,从单细胞RNA测序到电子医疗记录,从移动医疗设备到社交媒体。他总结道:“统计学对生命科学联系方式的范式转变产生了根本性的影响;除非我们有可靠和可重复的分析和解释方法,否则收集这些数据是没有用的。‘大数据’统计的发展使科学家们在开发和探索新的数据来源时能够发挥创造性。”
你认为未来十年健康科学中最大的统计挑战是什么?
在这里,回答是多种多样的,从许多方面反映了演讲者的兴趣和澳门威尼斯人注册网站研究领域的多样性。墨菲站在临床试验设计和分析的最前沿,从她的角度出发,问道:“我们如何利用大量的数据——来自许多个体和任何一个个体的数据——来增强和增加临床试验的影响?”
另一方面,Zipunnikov从他在数字移动医疗方面的专业知识出发,指出了从“对人体生理和环境暴露的多系统实时监测”产生的大量、复杂和多样的数据中提取价值和见解的需求所带来的挑战。他进一步评论说:“主要的分析挑战集中在数字移动健康测量的复杂性上,这些测量本质上是纵向的,具有不同的时间尺度,具有不同的测量方法,对尺度的主观解释存在差异,在观察的几天和几周内表现出受试者之间和受试者之间的巨大异质性,遵循重要的每日和每周模式,并且经常存在大量潜在的信息缺失。”所有这些都因测量方式之间的相互依赖而进一步复杂化。
从一个在肿瘤澳门威尼斯人注册网站研究前沿工作的跨行业和学术界人士的角度来看,Lehar用两个词来总结:“不完整的数据”。他补充说:“我们很少能很好地覆盖许多患者的足够数据类型。这限制了机器学习的应用范围,从而限制了我们可以解决的问题。”
最后,Dunson对统计学和健康科学给出了一个笼统而发人深省的评论,他说:“毫无疑问,数据生产的速度之快,规模之大,复杂性之大,已经使统计界不堪重负。我们缺乏必要的工具来正确分析这些数据流,我们也缺乏必要的人才库来适当地实施现有工具,同时以数据/科学驱动的方式开发变革性的新工具。”他进一步指出了统计学内部的文化挑战,特别是与更广泛的机器学习社区的文化相比,他声称“学术界统计部门的优先事项往往与应对这些挑战背道而驰。”赌注很高:“人们越来越关注机器学习算法,而不是具有适应不确定性量化和处理选择偏差等关键问题的正式框架的统计方法,这导致了科学中一个关键的可重复性问题。”
应对这一挑战需要什么?
Zipunnikov呼吁统计学家的参与来应对他提出的挑战,他说:“如果统计学家不积极参与主要的多学科努力,将数据转化为知识的过程是不可能的,这些努力集中在无数生理、行为和精神健康状况的概念化、测量、分析和治疗上。”作为一个积极的例子,他指出,他和其他人最近成立的移动运动健康澳门威尼斯人注册网站研究联盟(mMARCH)是一个利用数字移动健康潜力的国际网络。
同样,Lehar呼吁增加数据共享,以应对数据不完整的挑战,并指出数据“孤岛”的趋势太大。他强调了这一步骤的核心重要性,他说:“要真正实现精准医疗的梦想,必须更加协调一致地在不同的提供者之间共享数据。”
另外,墨菲呼吁更多地关注“在临床试验设计和执行中利用大数据的概念性想法的发展”。此外,她还指出,需要“对试验设计的基本原则进行培训(例如,回到Fisher和Hill),并结合与可复制性相关的计算方法和统计原则进行培训。”
最后,邓森呼吁进行一场革命,呼应了最近其他类似性质的呼吁(例如,国家科学基金会十字路口项目):“我们需要从根本上改革统计教育课程,为学生提供分析和解释常规收集的大规模复杂数据的高质量工具。我们需要改进学术界的奖励制度,以支持真正创新的方法的发展,这些方法实际上在分析大规模科学数据集时具有直接效用,而不是具有看似强大的渐近支持的增量方法。少关注出版数量,多关注一些关键出版物在任期决策中的影响/创新。我们需要从根本上分析和解释数据的新方法,需要更多的范式来适当处理真正复杂的数据,这些数据需要预处理,并且在存储、传输和处理方面面临计算挑战。”
波士顿大学研讨会承诺将以更大的数据科学界广泛访问的形式,作为讨论这些和其他统计学与健康科学交叉领域的前沿主题的论坛。
注册参加这个免费的研讨会。它对公众开放,可以亲自或在线参加。
乔斯抚养长大Dupuis是波士顿大学公共卫生学院生物统计学教授兼系主任。Eric D. Kolaczyk是波士顿大学数学与统计系的教授和数据科学教员。