导读 一项新的研究表明,可以利用机器学习和统计学来解决长期阻碍代谢组学领域发展的问题:不同地点收集的数据存在巨大差异。我们并不总是知道变...
一项新的研究表明,可以利用机器学习和统计学来解决长期阻碍代谢组学领域发展的问题:不同地点收集的数据存在巨大差异。
“我们并不总是知道变异的来源,”西雅图华盛顿大学医学院麻醉学和疼痛医学教授丹尼尔·拉夫特里(Daniel Raftery)说。“这可能是因为受试者的基因、饮食和环境暴露程度不同。也可能是样本收集和处理的方式不同。”
拉夫特里和他的研究同事想看看机器学习(一种使用计算机算法处理大量历史数据并识别数据模式的人工智能形式)是否可以减少来自不同站点的数据之间的这种差异,而不掩盖重要的差异。
“我们希望将这些不匹配的数据集放在一起,以便可以比较或合并不同研究的结果以进行进一步分析,”拉夫特里说。
他与张大宝和张敏一起领导了该项目,张大宝和张敏曾在普渡大学工作,现在是加州大学欧文分校公共卫生学院的流行病学和生物统计学教授。刘丹妮,博士普渡大学的学生,是这篇论文的主要作者,该论文发表在《美国国家科学院院刊》上。