首页 > 资讯 > 科技 > 正文
2022-11-12 12:48

“暗物质就在那里”:人工智能在生命科学中的阻碍

Madrona Venture Group智能应用峰会上的生命科学小组成员。从左起:赛勒斯生物技术公司首席执行官卢卡斯·尼冯,微软研究员乔 nathan Carlson, Deepcell首席执行官Maddison Masaeli,以及Madrona风险合伙人Chris Picardo。(GeekWire图片/夏洛特·舒伯特)

生命科学家面临着一个数据问题:信息碎片化、孤立化和不完整。这阻碍了我们充分利用人工智能技术。

上周,在西雅图由Madrona Venture Group主办的智能应用峰会上,一组研究人员讨论了在生命科学领域采用人工智能工具所面临的挑战。

人工智能正在改变科技公司从产品销售到包裹路由等方方面面的工作方式。新的人工智能“基础”模型,如GPT-3和DALL-E,可以生成新的句子或图像,是使用从互联网上提取的大量训练集构建的。

但在生命科学领域,“数据的标准化非常具有挑战性,”小组成员、Deepcell的首席执行官Maddison Masaeli说。Deepcell是一家对单细胞进行可视化分析和分类的初创公司。

Masaeli说,细胞生物学信息受到样本收集、存储和处理差异的困扰,阻碍了数据集之间的比较。她说:“从收集样本到得到图像,有几十个步骤会导致数据的变化。”

并非所有的生命科学数据都杂乱无章。例如,蛋白质结构在标准化数据库中以标准化的方式表示。这使得DeepMind的AlphaFold和华盛顿大学的RoseTTAFold的训练成为可能,这两个人工智能工具最近破解了预测蛋白质折叠的长期难题。最近,华盛顿大学发布了ProteinMPPN,一种人工智能驱动的蛋白质设计工具。

但即使是蛋白质,很多信息也被隐藏在一堵墙后面。西雅图蛋白质设计初创公司Cyrus Biotechnology的首席执行官卢卡斯·尼文(Lucas Nivon)说,Cyrus与大型制药公司接洽,希望分享它们关于抗体结构的数据库,这是许多治疗的基础。在不同的公司,数以万计的这样的结构被封存起来。

Nivon表示,这些公司都对共享数据很感兴趣,并讨论了共享专有结构的机制。尼冯说:“可以说,没有人想成为第一个牵头投资者。”

今年夏天,塞勒斯与亚马逊网络服务(Amazon Web Services)和其他合作伙伴一起创建了一个开源蛋白质设计非营利组织OpenFold,该组织目前正在与潜在合作伙伴讨论分享这种抗体结构数据的问题。

“暗物质就在旁边。它就在那里,”尼冯说。“每个人都承认这点。”

由华盛顿大学蛋白质设计研究所的人工智能软件制造的蛋白质环。(IPD形象)

专家组成员表示,在技术应用中困扰人工智能建模的可靠性和偏差问题也会影响生命科学,但方式不同。

当人工智能炮制出一个毫无意义的段落时,用户可以立即看到。但如果它产生了错误的诊断或错误的蛋白质结构,就更难评估了,乔纳森·卡尔森(Jonathan Carlson)说,他领导着微软健康未来(Microsoft Health Futures)的生命科学研究和孵化,该公司是这家科技巨头研究部门的一部分。

“我们在生命科学中看到的许多问题不是独特的,但它们非常尖锐,”卡尔森补充说。

测试通过人工智能制造的产品,然后将数据输入模型,理论上听起来很简洁,但在生命科学中,这个过程可能需要很长时间。赛勒斯正在与正在培育新的转基因小鼠的合作者一起测试一些工程蛋白,这个过程可能需要一年多的时间。但尼冯的团队还利用了体外和细胞筛选系统的高通量。

尼冯表示,优化筛选系统的努力将使人工智能模型的珩磨速度更快。他提到了Capsida Biotherapeutics,该公司使用动物模型反复设计和筛选基因治疗设计,收集组织来评估哪些组织能有效地到达体内的正确位置。

研究人员希望更好地将生物数据与临床结果联系起来,但仍有很多障碍,包括保护隐私的需要,Masaeli说。她说:“谷歌没有一种力量能够包含世界上所有的健康数据或生物数据。”

卡尔森设想,未来将有更多的生命科学数据被去标识化,并汇聚成标准化的、相互关联的格式。最终,来自临床试验和动物实验的数据可以有效地反馈到一个网络中,以帮助开发新的假设,并为基础研究打磨问题。

如何实现这一目标是该领域的一个主要问题,卡尔森说:“我们如何在尊重知识产权和隐私的同时开展合作?当我们甚至无法打开数据时,能够建立大型基础模型到底意味着什么?”

相关推荐