【译】Science：当大数据遇上公共卫生

2015-05-13 13:00:00

点击标题下「大数据文摘」可快捷关注

?欢迎熟悉外语（含各种“小语种”）的朋友，加入大数据文摘翻译志愿者团队，回复“翻译”和“志愿者”了解详情。

“医疗大数据”专栏诚招：如果您是专业人士并愿意与大家分享，请后台留言，附自我介绍及微信ID，加入我们，一起把这个平台和专栏做得更好。

大数据文摘翻译作品

编译：孙沁(Kiki), 徐丽玲，孙强

欢迎个人转发朋友圈；其他机构或自媒体转载，务必后台留言，申请授权

作者：MuinJ.Khoury，John P.A. Ioannidis

摘自：Science（ 28 November 2014）

导语：通过大规模降低噪声，大数据可以造福全人类

1854年，一场霍乱席卷了整个伦敦。有个叫John Snow的流行病学家(现代流行病学的创始人)，一心要找出霍乱爆发的源头。他历尽千辛万苦，记录了所有受到霍乱影响的房屋位置。经过了漫长且费力地调查，他终于确定了Broad Street上的水泵是这次霍乱爆发的源头，即使那时候他还不知道霍乱是某种Vibro病菌引起的情况下。“如果换做现在，Snow就可以充分利用全球定位系统和流行病规律数据，在短短数小时内解决了问题。” 这是“大数据”在公共卫生领域的潜在影响。

但是大数据的前景也伴随着这样的说法“这一科学方法本身正在变得过时”，随着下一代的计算机的诞生，比如IBM的Watson，基于大规模数据的筛选而提供预测模型。从海量的噪声中分离出真实信号绝非易事，但如果要让信息转化成社会福利。这个挑战必须克服。

术语“大数据”解释为大量的、复杂的、有关联的信息。除了基因和其他“omic”领域，大数据也包括了医疗，环境，金融，地理和社会媒体等领域的信息。大部分数据信息在10年前是不存在的。数据来源持续增加，数据膨胀也将继续升温。大数据通过洞悉疾病的因果来改善公共健康，为精准医疗提供更好的药物靶标，从而改善疾病预测和预防。不仅如此，科学家们将加大该信息的使用去改善他们自己的健康。大数据能够改善我们对健康相关行为的理解（吸烟，酗酒等），同时加速知识扩散的良性循环。

但是“大误差”会扰乱大数据。在2013年，当流感过早地袭击美国的时候，流感相关互联网搜索引擎数据分析过度估计了流感峰值，还没有传统公共卫生监测分析来的准确。更严重的问题是潜在的错误警报，由大规模“疾病结果的推断性关联分析”所引发。自相矛盾的是，当我们能测量更多参数的时候，新“发现”中的错误预测比例也会上升。伪相关和生态谬误也相伴而生。有很多诸如此类的例子，比如“蜜蜂的群落数量和未成年人大麻逮捕率呈负相关”。

通过要求复制研究结果和提高信号的统计显著性，基因组学领域早已着手解决信号与噪声的问题。这就是为什么要运用大规模协作的流行病学研究。对于非基因关联研究，即使使用大规模研究，大量地复制实验和超强信号，由于变量复杂性或者其他偏差所导致的错误预测也有可能发生。大数据的优势是找到关联，而不是解释这些关联的意义。找到关联信号仅仅是第一步。

就连John Snow也要先设定一个有理有据的假设，要弄清楚从何处着手，比如，选什么样的数据进行检验。如果他所用的只是一大堆乱糟糟的数据，他也许会找到类似蜜峰群落和大麻逮捕率间的伪关联而告终。关键在于，Snow“做了实验”。他移除了水泵的手柄，明显地降低了霍乱的传播，也因此从关联转移到因果关系和有效性的寻找验证。

如何能让大数据在提升健康和预防疾病方面发挥更大的作用？答案是：必须有更强的流行病学研究基础。大数据分析目前主要是基于网络上随机的人群样本或信息。当用完美的测量数据（如基因序列）和低质量的测量数据（如行政发布的健康数据）来寻找关联性，研究的准确性将会因为最弱的关联而降低。大数据是自然观察的数据，充斥着许多偏差，如选择性偏差、混杂因素和缺乏代表性数据。大数据分析应该使用具有良好流行病学特征和代表性的人群。这种流行病学方法已经很好地应用于基因组学领域，也可以推广到其他类型的大数据研究。

大数据研究需要有一个很好的知识整合方法，可以整合包括在某个学科或跨学科领域中的反复证明过的已知的和未知的知识。需要进行知识管理、知识整合和知识转化。数据注释还可以通过机器学习算法来辅助。例如ClinGen项目，建立集中的临床注释的基因资源用于更好地解释基因组的多态性和优化基因组在实践中应用。还有新基金，如NIH资助的Biomedical Data to Knowledge基金，将研发这个领域新的工具。

另一个需要解决的重要问题是大数据是一个假设产生(hypothesis-generating)机器，即使在建立了强关联后，评估健康相关效用的证据仍然是必须的（如评估健康益处和害处的平衡）。利用基因组和大数据信息做研究必须使用随机临床试验和其他试验设计。急救医学中是否可以应用大数据关联分析，仍然需要进一步的干预性研究进行论证。是否可以作为预测工具也需要进一步论证。换个说法，我们应该拥抱（不是逃离）循证医学原则。我们应该从临床多样性（证明大数据和疾病之间的强关联）转向临床有效性（回答“谁在乎who cares”健康影响问题）。

与基因组学研究领域一样，基于大数据的扩展性转化医学研究计划将会使研究比原来更深入。在基因组学研究领域，大多数发表的研究既包括基础医学研究也包括健康相关检测和干预的临床前研究。在这些研究之后，需要实现从实验室到临床的转化。但目前在现实世界中进行验证、评估、实施、政策、沟通和预后研究的只占公开发表研究的 1%不到。要从大数据中获益需要“大局(Big Data)”视角。

将大数据引入到公共卫生领域的事业才刚刚起步。如果我们能够整合较强的流行病学研究基础、有力的知识整合方法、遵循循证医学的原则，扩展转换医学的规模和计划，会将大数据带到正确的道路上来。

【译者简介】

有意联系译者，请给“大数据文摘”后台留言，附自我介绍及微信ID，谢谢！

孙沁(Kiki): 北美留学五年，现Emory University生物统计硕士在读。对Clinical trails，Cancer Prevention, HIV等Public Health的领域很感兴趣，毕业后希望在Pharmaceutical, Biotechnological Hospital 或者 Health-care Industries做数据分析，也想尝试医疗健康方向的咨询工作(Life Science Consulting Firm)。希望结交对医疗数据有兴趣的朋友，也希望大家帮忙推荐此方向的实习和工作机会给我。

徐丽玲: 北京大学预防医学学士, 复旦大学流行病学硕士，现任上海长宁卫生信息中心项目主管，负责区域卫生信息化建设相关工作。

【医疗大数据栏目介绍】

2015年2月7日“医疗大数据专栏”正式成立。随着基因芯片及DNA测序技术的发展，生物医疗大数据迅猛发展，既是大数据技术发展的原动力，也是大数据技术的受益者。大数据文摘2013年7月成立，我们专注数据，每日坚持分享优质内容，从未间断，我们努力为读者和志愿者打造一个分享和交流平台。作为大数据文摘的志愿者群，我们中有不少人从事医疗大数据相关工作，关心医疗大数据的发展，愿意通过这个专栏，和大家一起分享医疗大数据的点点滴滴。

如果您是专业人员，愿意与大家分享，请加入我们，我们把这个平台和专栏做得更好。精准医疗的革命时代到来了，让我们一起关注医疗大数据技术的发展。

【主编介绍】

有意联系译者的朋友，请给“大数据文摘”后台留言，附自我介绍及微信ID，谢谢。

孙强，资深生物信息专家，现在服务于美国国立癌症研究所，从事癌症基因组数据库管理工作。热爱大数据，加入大数据文摘志愿者行列一年有余，愿以文会友，广结大数据善缘。旅居美国多年，现在定居于大华府地区。

读过的学校：山东大学，中科院植物所，加大洛杉矶分校( UCLA )

生活过的城市：淄博，济南，北京，洛杉矶，华盛顿

其他爱好：足球，钓鱼，打牌

大数据格言：big data is better data
数据分析, 数据挖掘, 大数据, 流行病

风险提示及免责条款

市场有风险，投资需谨慎。本文不构成个人投资建议，也未考虑到个别用户特殊的投资目标、财务状况或需要。用户应考虑本文中的任何意见、观点或结论是否符合其特定状况。据此投资，责任自负。

本文来自互联网用户投稿，该文观点仅代表作者本人，不代表本站立场，不承担相关法律责任。如若转载，请注明出处。 如若内容造成侵权/违法违规/事实不符，请点击【内容举报】进行投诉反馈！