目前机器学习在生物学领域有应用吗?

发布时间:2017/01/06 18:02:20 投稿: 网友投稿

手机阅读投诉本文

导读: 【zhanfeng的回答(60票)】: 我从一个学习者的角度来回答问题。先讲两篇我读过的综述,再举两个我知道的例子。 两篇综述: 一.Machine learning applications in genetics and genomics : Nature Reviews Genetics : Nature Publishing Group(这个用scihub自...

【zhanfeng的回答(60票)】:

我从一个学习者的角度来回答问题。先讲两篇我读过的综述,再举两个我知道的例子。

两篇综述:

一.Machine learning applications in genetics and genomics : Nature Reviews Genetics : Nature Publishing Group(这个用scihub自己下吧)

这篇综述的生物学背景很强。结合预测转录起始位点(TSS)这个具体的分子生物学问题介绍了机器学习的基本概念,以基因注释(Gene annotation)这个测序技术发展带来的问题为例,介绍了有指导的机器学习,无指导的机器学习以及半指导(semi-supervised)的机器学习。以转录因子结合位点的预测为例介绍了生成模型(generative model)和判别模型(discriminative model)(后者我们最熟悉的是支持向量机)。这篇综述还讲了机器学习在生物学领域应用的挑战:1.结合先验的生物学知识,在模型的准确性之外提高解释性和减少复杂性。结合多种不同来源的数据,如基因表达数据(如micro-arrary,RNASeq),互作数据(蛋白互作,核酸互作,蛋白核酸互作),以及序列数据进行研究而带来的异质性(heterogeneous)问题。2.label skew( 有指导的学习的样本中,两个标签的数据相差过大,比如一个预测强启动子的机器学习步骤,正样本(这个问题中为,已知是强启动子的核酸序列数据集)的数目是1711,负样本(这个问题中为,已知不是强启动子的核酸序列数据集)数目为3000,000.负样本是正样本的2000倍。3.缺失数据的处理。4.选择合适的特征(feture)。5.挖掘出不同来源的样本之间的关联。最典型的就是通过表达数据构建出调控网络出来。二.Machine learning for Big Data analytics in plants http://www.sciencedirect.com/science/article/pii/S1360138514002192

这篇文章是我的老师在Trends in plant science发表的综述,全面的汇总了生物学中的大数据来源与管理,以及代表性的机器学习算法和R中的包,以及机器学习在植物基因组学的应用,搞植物的同学可以参考一下,这两张图对于学机器学习的同学也应该是不错的资源。

两个应用

一.冷冻电镜中的图像处理(推荐大家看下coursera上面的加州理工的冷冻电镜的课程,尤其是Tomography那一节)

关于冷冻电镜的背景大家请看

为什么冷冻电镜 (Cryo-EM) 去年突然火了?是有什么技术突破吗? - 生物学

以及什么是2015年最受科学界关注的新技术? - 知识分子 - 知乎专栏

当然还有The revolution will not be crystallized: a new method sweeps through structural biology : Nature News Comment

根据nature这篇新闻稿,冷冻电镜取得突破性进展主要要归功于两个人:Richard Henderson和Sjors Scheres还有他们所在的实验室:UK Medical Research Council Laboratory of Molecular Biology (LMB)。Richard Henderson和他的同事 Nigel Unwin 在1975年的一片文章(Molecular structure determination by electron microscopy of unstained crystalline specimens)中为冷冻电镜技术做出了奠基性的贡献。而新发展的直接电子探测器使得对大分子的高速动态成像成为可能。新技术带来的大数据使得Sjors Scheres有了在方法学和软件上的突破( Maximum-likelihood Multi-reference Refinement for Electron Microscopy Images,RELION: Implementation of a Bayesian approach to cryo-EM structure determination,这几篇文章都是数据处理的干货,数理功底好的同学可以看看)。

那么,冷冻电镜中的图像处理是如何应用到机器学习的思想与方法的?下面这张图(来自How cryo-EM is revolutionizing structural biology http://www.sciencedirect.com/science/article/pii/S096800041400187X)

展示了在新技术(B)下由冷冻电镜解析出大分子构象的流程,文章中对这张图的说明如下:(i) digital direct-electron detectors yield data of unprecedented quality and allow recording movies during exposure; (ii) computer programs to realign the movie frames may correct for sample movements that are induced by the electron beam; and (iii) powerful classification methods lead to multiple structures from a sample mixture.当然从记录的数据中识别出我们要的大分子成的像,本身就是一个机器学习中的图像识别问题,我就不多说了。新技术的应用机器学习的亮点在体现为下面这张l两张图:

(来自A Bayesian View on Cryo-EM Structure Determination)

我们通过傅里叶变换的方法用计算机重构出粗略的结构模型然后把这个粗略的结构模型与成千上万的成像数据比对,得到每个图像之间的相对位置。通过作者改进的机器学习中常用的贝叶斯方法,将粗略的结构模型调整为新的一个更精确的结构,如此迭代以精炼我们的模型,文章提到对于核糖体的结构的解析他们迭代了25次。这整个的过程就是所谓的取“平均”了,不过是基于机器学习的方法,结合先验的知识来取得“平均”(不是很懂,写的不好,欢迎成像和图像处理方面的专家指正)

总结下这部分有价值的参考文献:

1.How cryo-EM is revolutionizing structural biology http://www.sciencedirect.com/science/article/pii/S096800041400187X很好的综述。

2.RELION: Implementation of a Bayesian approach to cryo-EM structure determination,A Bayesian View on Cryo-EM Structure Determination,数学功底和图像处理功底好的大神们应该会感兴趣3.http://xrm.phys.northwestern.edu/research/pdf_papers/2000/bonnet_advancedimaging_2000.pdf一个机器学习与模式识别在电子显微镜图像处理中应用的综述。

二.基于机器学习的差异网络分析进行的拟南芥胁迫下的转录组研究Machine Learning Based Differential Network Analysis: A Study of Stress-Responsive Transcriptomes in Arabidopsis

这篇文章是我的老师做的。这篇文章的亮点在于

1.在构建共表达网络的时候采用随机森林的方法把未标签的样本中的“noninformative” genes(不表达,持续表达,与胁迫无关的基因)过滤掉了,减少了共表达网络构建的无用信息。

2.与传统的差异网络表达分析不同,在预测与胁迫相关基因时,挑选了网络多个特征进行胁迫先关基因的差异表达基因分析,

3.文章中根据P=0.05作为阈值(饱受诟病的p=0.05....),从统计学意义上只有60%的候选基因可以作为胁迫相关的基因,然而剩下的40%的基因从生物学角度来讲依然可以转录,甚至与胁迫相关。所以文章接下来做了Gene Set Enrichment Analysis 来从一已知数据库中挖掘出预测出来的基因的生物学功能看其是否与胁迫相关,并且区别了不同的胁迫下,对所有胁迫都响应的基因(Stress-Shared)和只对某一胁迫响应的基因(Stress-Specific Gene)

总之,这篇文章对于机器学习比较熟悉的人来说,是他们了解生物学问题的窗口,而对于生物学背景较强的人来说,也是他们在机器学习方法应用于具体的生物问题上的一个进阶。

总结和感想

所谓机器学习就是一种智能的数据挖掘技术,它依据先验的知识建立预测模型来识别大数据中的有用信息。所以只要有大数据和前期积累的先验知识,就有机器学习方法用武之地。说几句与题目无关的话,个人感觉其实这个题目也可以回答学生物的人多学点基础的数学和物理知识有用吗?我觉得是有用的,比如你想搞清楚冷冻电镜成像的原理,你必须懂点物理知识(干涉衍射之类的)还得懂点数学物理方法(如傅里叶变换与它的逆)。当然想要进行机器学习,当然得有统计学和数据的可视化方法的数学基础和计算机编程基础(Python或者R)了。学科之间其实是可以互通有无的,然而这点常常被目光短浅的一些人忽略了,希望关注这个问题的人可以能多从这个角度来学习,思考问题,解决问题。

PS:引用老师的图片已获得许可。这是我们实验室的网站http://bioinfo.nwafu.edu.cn欢迎大家了解我们实验室的工作。

----------修改了排版和图片的bug------2016.3.18-------

关于生物医学图像处理,还可以参看徐葳:生物医学影像处理、分布式系统与数据共享平台

【胡维欣的回答(22票)】:

非常多,几个印象非常深刻的,

1,hmm来学习基因组,

2,回归、分类器来学习mirna、crisper的靶点和效率,

3,贝叶斯方法和生物物理模型(rna 杂交)学习mirna的chipseq数据,预测mirna靶点

4,利用概率图模型来学习具体的基因调控过程,给出非常好的针对实验的预测结果

5,rna-seq中基因表达水平预测是一个generative statisitical model

6,各种clustering

还有好多。。。。

晚上给文献

%%%%%%%%%%%%%%%%%

1,隐马太有名了,自己google一下吧!

2,miRNA的靶点和效率的学习是targetscan,这个应该是svm,TargetScanHuman 7.0

cripser的学习,Xu H, Xiao T, Chen CH, Meyer CA, Wu Q, Wu D, Cong L, Zhang F, Liu JS, Brown M, Liu XS. Sequence determinants of improved CRISPR sgRNA design. Genome Res. 2015;25:(8)1147-57

3,贝叶斯方法和生物物理模型(rna 杂交)学习mirna的chipseq数据,预测mirna靶点

http://www.nature.com/nmeth/journal/v10/n3/full/nmeth.2341.html

4,利用概率图模型来学习具体的基因调控过程,给出非常好的针对实验的预测结果,(应该还有好多MRF,贝叶斯网络的文献,大家自力更生吧)

Iterative experiment design guides the characterization of a light-inducible gene expression circuit

5,rna-seq中基因表达水平预测是一个generative statisitical model

cufflinks http://www.nature.com/nbt/journal/v28/n5/pdf/nbt.1621.pdf

6,各种clustering

这个太多了,举个偏统计的例子,sparse SVD, sparse SVD regression, T-SVD ,PCA

还有这个经典的SVD分解

http://www.pnas.org/content/97/18/10101.full.pdf

补充一点,这些文章,关键都在附件里面。。

【丁阿建的回答(13票)】:

我以前做基因组,只熟悉这个领域。

在基因组和生物信息学领域里,马尔可夫链的方法用的比较多,主要用于做序列的模式提取,比如HMMER工具包和Pfam数据库用于分析蛋白序列的motif、结构域,Inferno工具包和Rfam数据库用于分析RNA结构。另外简单的贝叶斯推算也有一些应用,比如RDP classifier使用特定基因序列的7子串的成分做物种分类。

传统的神经网络没听说过有啥应用。

【周珂的回答(9票)】:

渣渣尝试答一发,在变异的功能预测方面,机器学习是可以加以使用的。

之前上过我校的生物信息学方法课,里面讲到一些有监督分类的方法可以用在变异预测的流程之中。SAPRED是一套预测氨基酸序列突变可能造成影响的系统,这套系统利用SVM进行分类,输入蛋白质氨基酸序列和突变位置,输出变异是否为有害突变。

在这套系统中,蛋白的氨基酸残基频率、蛋白序列的保守性、突变残基是否落在结构不稳定区域、突变残基与附近功能区域的最短距离、突变造成氢键数目的改变、蛋白质是否属于一些重要的家族等很多特征被用于估计变异的影响,在测试中达到了80%以上的预测准确率。

SAPRED网站sapred - SAP Disease-Association Predictor (不知道还有木有在维护了)

参考文献

Ye, Zhi-Qiang, et al. "Finding new structural and sequence attributes to predict possible disease association of single amino acid polymorphism (SAP)." Bioinformatics 23.12 (2007): 1444-1450.

【奥尔良烤翅的回答(9票)】:

谢邀。我自己做的东西主要局限在癌症分子数据,所以尽我所能把机器学习在癌症方面的研究总结一下。

1、对癌症做subtyping

背景:cancer is a set of heteorogeneous diseases. 临床上把癌症分成各个亚型(subtyping)是为了达到更好的治疗效果,提高病人的生存几率(一般看五年存活率)。在人们没有完整的观察过cancer genomics之前,没人知道原来各个patient tumor之间的差别如此大。考虑到分子是表型的基础,人们便考虑把在差别如此大的各个肿瘤划分出一些类型,使得类型内的tumor相似性高而类型之间的相似性低。这样做的好处很多,最直接的就是对那些临床分型没啥用的肿瘤给予治疗支持。

机器学习的主要应用:

我主要看过的文章是TCGA对各个肿瘤的分子数据分析,共性便是利用分子数据做subtyping。机器学习的非监督学习在这里起到巨大作用。一般来说,会按照某一种数据类型比如基因表达数据来做subtyping,也有一些是会将不同数据类型比如表达、甲基化、拷贝数变异等整合起来再做subtyping。因此这里还涉及到how to combine heteorogeneous data的机器学习问题。因此也可以说cancer genomics的发展推动了机器学习的发展。

2、预测病人phenotype

背景:近五六年癌症分子数据研究的中心应该是TCGA(The Cancer Genome Atlas),现在这个项目已经完成了所有病人的测序和数据分析,其生物信息学研究机构GDAC正在抓紧准备发表剩下的文章。TCGA推动了人们对cancer genomics认识的大幅度提高,并且继续引领这方面的研究:他们在考虑如何大规模的将分子数据真正应用到临床上!这将是一次颠覆传统临床医疗的行动,主要在于规模之大、预期目标实现的日子很近。从此,癌症的临床医疗将不会是一门玄学(医生以猜测为主),将在分子数据的指导下完成治疗。期待癌症病人将会大大收益。

机器学习的主要应用:

机器学习的监督学习在这里仍然会有广阔的应用前景。根据已知病人的phenotype和genomic data,构建预测模型,在新的病人上做好预测。癌症治疗的一大领域靶向治疗和这个的思路很像。比方说,乳腺癌中HER2高表达时ERBB2靶位药的标志物,从而我们构建出(ERBB2靶向药有效果,HER2高表达+ERBB2突变)这样一个模型,之后新的病人如果也观察到HER2高表达且ERBB2突变,我们就能预测这一靶向药有效果。说实话我突然忘了这个超级有名的药的名字了,曲妥珠单抗?

3、发现表型相关的癌症分子机制

背景:cancer genomics中的各种alteration一般不太可能是孤立的,因为生物系统中的各个元件都与其他元件共同作用行使功能。生物分子网络的概念就是以此为基础。早期有人用分子网络来预测蛋白质的功能,寻找网络上出现变异的模块(一组互相连接且同时在case-ctrl出现巨大变化的分子节点)等。现在,人们打算用个体癌症分子网络来描述癌症恶化的程度。

机器学习的主要应用:

发挥你的想象吧,网络本就非常适合做机器学习,比如social network方面的各种研究。现在人们对癌症的分子数据领悟到的东西非常多,用网络来做癌症模型,推断癌症的各种过程的机制,就像早期人们利用网络来研究细胞状态等,这可能会给我们带来系统性的认知,人们对癌症的理解将会提升一个层次。

4、基本数据处理和分析

人类观察微观世界一般都采取间接的方式。我们在观察细胞分子这个层次时,只能通过对间接观察到的现象进行建模,从而推断分子所处的状态等。当各种测序技术突飞猛进的发展时,总会带来各种新的挑战,尤其是机器学习的建模或者算法设计。当人们有技术去探测基因表达、突变、拷贝数变异、蛋白质水平等,人们也同样需要合适的方法来measure各种层次的活跃程度。未来人们能测量的东西会更多,所以好好期待吧!

临时想到这么多,能想起来的话继续更新。

【周珂的回答(4票)】:

谢邀。我简单的回答一下,就不去搜索资料啦。机器学习在生物信息学中的应用还是很多的。

比如,我们导师原先博后的课题是基因(蛋白质)功能预测,这个课题也带到了我们课题组,我们还参与写过一本书的章节,Predicting Gene Function Using Omics Data: From Data Preparation to Data Integration. 主要就是介绍各种预测蛋白质功能的算法。后来,我们课题组继续开发算法,参加了CAFA比赛,还取得了比较好的名次。说起CAFA, 其实大家可能对CASP更加熟悉一些,就是蛋白质结构的预测,也会运用到很多机器学习的算法。其实此类比赛还蛮多的。类似的课题还有很多,比如,疾病基因预测,蛋白质活性位点预测等等。其实,找基因表达芯片中的差异表达基因,然后再用这些基因去做样本分类,也是机器学习。

另外,我选修过计算机学院的统计学习与维度约简,其实讲的是概率图理论,probabilistic graph theory,包括Markov链,DBN等等,我自己尝试过运用这些方法来分析二代测序数据中的转录调控的因果关系网络等等。另外,我自己看过一本书,讲的是系统生物学,可能扯的有点远了,它里面主要是讲数学中的动力学模型的。另外我旁听过数学系的课程,讲的是因果分析,LASSO回归等等,这些都在生物信息学中经常用到。

现在测序那么火,post-GWAS分析中,经常会有gene prioritization分析,也算是运用到一些机器学习的方法吧,还有我最近看到的一些文献中,整合疾病表型、基因型等等,来进行医疗诊断的,这个方向和精准医学挂钩,研究的人挺多的。

我没有系统学过机器学习,平时就是通过听各种课程和查询文献,然后软件用的比较多的是WEKA,在我的感觉里面,就是有一个很大的矩阵,每一行是一个样本,每一列是一个feature,最后是分类marker,然后就可以通过各种算法尝试去做feature selection,然后再用剩下的feature构建模型,做个cross-validation,如果ROC好,模型复杂度也不高,就可以了。当然,机器学习里面的监督学习,非监督学习,弱分类器等等概念,虽然多多少少知道一些,没有系统学习过,就不献丑啦~

略吐个槽:现在生物信息学领域做机器学习的人,有些对生物学不太了解,出发点就是纯模型,模型构建的很好,但是没有深挖生物学意义。有些对机器学习又不太了解,又不会选取合适的模型来进行预测。最理想的科研状态是,得到好结果,也能知道为什么是好结果 :)

【Pierce的回答(4票)】:

有一家公司叫做DeepGenomics,开发了一个东西叫做DeepBind,发在了NatureBiotechnology上

Predicting the sequence specificities of DNA- and RNA-binding proteins by deep learning (Predicting the sequence specificities of DNA- and RNA-binding proteins by deep learning : Nature Biotechnology : Nature Publishing Group

还有一篇研究DeepSEA,预测变异对binding什么的影响

Predicting effects of noncoding variants with deep learning–based sequence model (nature.com/nmeth/journa

貌似ENCODE之类的项目也运用了深度学习?搜到一篇综述

Deep learning for regulatory genomics (nature.com/nbt/journal/

【TonyStark的回答(1票)】:

cs.stanford.edu/people/ 搜索你想要的关键词,有汇总的文献

另外我所了解的有BCI,比较感兴趣;其他的生物领域不了解

【周珂的回答(3票)】:

我是学生物信息的,上学期我们系里也开了一门机器学习的课。我感觉在生物领域应用还是很多的,比如通过基因表达的信息预测疾病进展和患者的严重情况(死亡率),通过脑成像数据预测和诊断阿尔兹海默等等。

貌似有一个很大的国际项目叫DREAM Challange,有兴趣的可以看看,官网在这里:homepage - Dream Challenges。大体上就是不同的实验室都提交自己机器学习的算法,比较谁的预测结果最好的。

总体的感觉就是最近这样的应用越来越多,因为生物大数据近几年也是很火的。

【嗣涔的回答(1票)】:

有很多,举个栗子:Compbio.mit.edu

【Dancy的回答(3票)】:

计算生物/生物信息/理论生物这个学科和数量金融还真的挺像的。

大概分为两类:

  • 一类以PDE,随机过程,动态系统等方法为研究工具。
    • 从事这些的一般都是物理/数学背景,用大规模的随机偏微分系统对生物/化学系统进行模拟。
    • 比如细胞中有几千乃至几十亿种分子,他们在整个细胞生命周期中如何演变的,需要建立大规模的连续过程模拟和设计。
    • 可转行为投行的定价Quant,技能点很相似。
  • 一类以统计/机器学习为主。
    • 一类是对生物实验数据进行统计分析,推断做出统计意义上支持的结果。
      • 从事人员以传统统计背景为主。
    • 一类是对生物过程/个体之间的相关性,因果性进行建模,预测和描述,基本上各类型的机器学习问题都可以找到,分类,回归等判别类模型。概率图模型等生成类模型。
      • 从事人员以统计/机器学习背景为主。
      • 转行一般在对冲基金等公司从事金融数据挖掘和分析,尝试预测。
      • 大名鼎鼎的D.E Shaw, 就是计算生物/数学出身。
  • 还有医学图像,医疗信号处理等等方向也可以归类在这个学科。

免责声明:文章由网友投稿投稿,不代表本站的观点和立场!如有问题,请与本站联系。
本周看点
  • Ooho是什么?把水连瓶吃进嘴的黑科技 Ooho是什么?把水连瓶吃进嘴的黑科技

     虽然很多人喝水的时候都是用自己常用的杯子,但是总有一些公开场合或者是外出的时候,我们需要购买矿泉水喝完之后就产生了很多塑料瓶子,为了减少这些难降解的塑料瓶子,有团队发明了Ooho,Ooho是什么?有了Ooho之后人就能把水连瓶吃进嘴...

  • 进击的巨人第二季在哪看(b站)?进击的巨人2 进击的巨人第二季在哪看(b站)?进击的巨人2

     《进击的巨人》第二季的播出不出意料引来了很多人的关注,有不少喜欢这部动漫的人对于进击的巨人2很是期待,但是却不知道进击的巨人第二季在哪看?下面十万个为什么网小编将为你解答进击的巨人第二季在哪看(b站)?进击的巨人2有哪些疑点? ...

  • 美联储是什么机构 美联储加息什么意思 美联 美联储是什么机构 美联储加息什么意思 美联

     北京时间12月15日凌晨3:00,美联储公布利率决议,将联邦基金利率提高25个基点,美联储利率决定上限为0.75%,下限为0.5%。这是时隔几乎整整一年之后,美联储又一次加息。按照美联储的预计,明年还可能进行三次加息。因为美联储加息的问题...

  • 特朗普上台对中国的影响 特朗普对中国的态 特朗普上台对中国的影响 特朗普对中国的态

     充满戏剧效果的2016年美国大选终于落下帷幕,共和党候选人特朗普以黑马之姿杀入美国大...

  • 国际刑警组织有哪些权利 孟宏伟警衔是什么 国际刑警组织有哪些权利 孟宏伟警衔是什么

     在印尼巴厘岛召开的国际刑警组织第85届全体大会上,中国公安部副部长孟宏伟高票当选新一任主席,任期4年!下面为什么网带你看看国际刑警组织有哪些权利 孟宏伟警衔是什么?副总警监 正部级。 孟宏伟当选国际刑警组织主席 比起吃瓜群众看着...