全部 自然 健康 生物 人文 日报 科研干货 文献云
深度学习揭示疾病的遗传学根源
来源 : 科学之家   发布时间 : 2015-02-05 10:14

图片说明:Frey的团队使用计算深度学习技术来训练一种系统,这种系统能模拟细胞内的剪接过程(图的左侧)。图案、RNA的二级结构、核小体的位置等性质都可以从DNA序列计算确定(图的右侧),综合这些性质可以检测复杂的模式,而它们再次综合考虑又可以预测DNA序列内的外显子会发生怎样的剪接。将这个系统应用到有或无突变的序列并在计算剪接水平测量改变,以此评估DNA突变的影响。这个过程可以确定很多疾病的潜在的有害突变。Frey的团队将这种系统用于脊髓性肌萎缩、癌症和自闭症,每一种情况都确定了这些疾病之前不知道的遗传学决定因素。图片来源:Graham Johnson and Andrew Delong
 
自2003年基因组测序至今,科学家和医生都在努力回答一个费时费力的问题:什么样的DNA突变会导致疾病?
 
现在多伦多大学(University of Toronto)研发的一种新的计算机模拟技术也许可以告诉我们答案。
 
Brendan Frey教授领导的一个加拿大研究团队首次研发出一种根据活细胞如何读取DNA对遗传突变排序的方法,揭示了任何一个已有突变可能导致疾病的机理。他们使用这种方法发现了自闭症、遗传性癌症和脊髓性肌萎缩(婴儿死亡的一个主要遗传学原因)出人意料的遗传学决定因素。
 
他们的结果发表在2014年12月份的Science杂志上。
 
人类基因组被想象成一本由30亿个字母所组成的神秘的天书。加拿大先进研究所(Canadian Institute for Advanced Research)的高级研究员Frey说:“过去10年,大量的努力都用在在基因组内寻找导致疾病的突变,但是一直缺乏合理的理论研究方法来了解突变为何会导致疾病。这是因为科学家还没有办法了解基因组的文本,以及基因组的突变如何改变其文本。”麻省理工学院(Massachusetts Institute of Technology)生物学家Eric Lander在他的名言中精妙地指出了这一困惑:“基因组,买书容易读书难。”
 
那么Frey的方法是什么呢?我们知道DNA的某些部分,被称为外显子,描述了作为所有活细胞生命控制中心的蛋白。然而直到最近才明白,DNA中还有一些部分被称为内含子,包含了怎样剪切和拼接外显子的指令,决定了将产生哪些蛋白。这种“剪接”(splicing)过程是细胞将DNA转化为蛋白质过程中的关键步骤,而一旦这个过程发生紊乱就会导致许多疾病。
 
许多对于疾病遗传学根源的研究都集中于外显子的突变,但是越来越多的科学家发现,很多疾病并不能用外显子的突变来进行解释。Frey的团队采用了一种完全不同的方法,研究那些提供剪接指令的文本改变,它们大部分都在内含子中。
 
Frey的团队采用了一种称为“深度学习”(deep learning)的新技术,告诉计算机系统扫描一段DNA,阅读指定如何将编码蛋白质的部分剪接到一起的遗传学指令,并确定产生哪些蛋白质。
 
不像其他机器学习方法,深度学习可以搞清楚相当复杂的关系,例如生物学和医学的生命系统中发现的复杂关系。Frey的团队包括了来自多伦多大学应用科学和工程学系(University of Toronto's Faculty of Applied Science & Engineering)、医学系(Faculty of Medicine)和细胞和分子生物学研究Terrence Donnelly中心(Terrence Donnelly Centre for Cellular and Biomolecular Research),以及微软研究院(Microsoft Research)和冷泉港实验室(Cold Spring Harbor Laboratory)的人员。他说:“我们项目的成功依赖于使用最新的深度学习方法,来分析高级的实验生物学数据。我的合作者、研究生和博士后研究员是这个领域一流的专家。”
 
一旦研究人员告诉计算机系统如何阅读基因组文本,Frey的团队就利用它们搜索导致剪接错误的突变。他们发现,这种方法正确地预测了他们深入研究的疾病的94%的遗传学原因,例如脊髓性肌萎缩、和直肠结肠癌,但更重要的是对以前没有研究过的突变做出了精确的预测。
 
接着他们做出了巨大的努力,着重研究一种有复杂遗传学基础的疾病:自闭症谱系障碍。Frey说:“目前只有很少的基因明确涉及自闭症,并且这只占自闭症患者的很小一部分。”
 
经与SickKids医院应用基因组中心(The Centre for Applied Genomics at SickKids)主任、多伦多大学McLaughlin中心(Toronto McLaughlin Centre)主任、高级研究员Stephen Scherer博士合作,Frey的团队比较了自闭症儿童全基因组序列中发现的突变。在用传统方法对蛋白编码区域进行研究后,他们发现没有区别。然而,利用深度学习系统根据改变剪接的程度对突变进行排序时,出现了令人惊讶的结果。
 
Frey说:“当采用我们的方法进行排序时,出现了惊人的结果,揭示了39种新的基因对自闭症敏感性有潜在的作用。”
 
自闭症仅仅是个开始——这种突变索引法已可以用于很多疾病,甚至可以用于不同个体之间的非疾病差异。
 
西班牙巴塞罗那基因调节中心(Center for Genomic Regulation in Barcelona)研究员Juan Valcárcel Juáre博士(没有参与这项研究)说:“在某种程度上,这种方法就像有了一个语言翻译器:使得你可以读懂另一种语言,即使这种语言的所有指令需要你学习其基础语法。这项研究为个体化用药提供了重要的信息,将成为未来基因疗法的关键。”(科学之家,译审:JY Chen)


关注科学之家微信公众号:科学HOME (长按复制) 收取新鲜科学资讯。投稿请点击
下载APP 收藏
相关阅读
遗传 医学
世界各地的研究都表明遗传分析是准确的
人类遗传史揭示女性的优势
DNA"偏好"使某些遗传疾病长期存在
就遗传而言,哺乳动物更像其父亲
点击进入 [ 健康 ] 频道 >
推荐文章
女博士的内心独白:在实验不顺后悔读博时 我遇到了Mr Right
高校去行政化,这块难啃的骨头上到底附了多少肉?
文科博士们,没有打通这五关的心态千万别读博