统计学主要应用在什么领域呢?
统计学,包括多元统计学,是生物信息学的数学基础之一;概率论与随机过程理论,如隐马尔科夫链模型(HMM),在生物信息学中有重要应用;其他如用于序列比对的运筹学;蛋白质空间结构预测和分子对接研究中采用的最优化理论;研究DNA超螺旋结构的拓扑学;研究遗传密码和DNA序列的对称性方面的群论等等。 总之,各种数学理论或多或少在生物学研究中起到了相应的作用。但并非所有的数学方法在引入生物信息学中都能普遍成立的,以下以统计学和度量空间为例来说明。生物信息学统计学的悖论数学的发展是伴随悖论而发展的。 对于进化树研究和聚类研究中最显著的悖论莫过于均值了,就说明了要采用常规的均值方法不能将这两类分开,也表...全部
统计学,包括多元统计学,是生物信息学的数学基础之一;概率论与随机过程理论,如隐马尔科夫链模型(HMM),在生物信息学中有重要应用;其他如用于序列比对的运筹学;蛋白质空间结构预测和分子对接研究中采用的最优化理论;研究DNA超螺旋结构的拓扑学;研究遗传密码和DNA序列的对称性方面的群论等等。
总之,各种数学理论或多或少在生物学研究中起到了相应的作用。但并非所有的数学方法在引入生物信息学中都能普遍成立的,以下以统计学和度量空间为例来说明。生物信息学统计学的悖论数学的发展是伴随悖论而发展的。
对于进化树研究和聚类研究中最显著的悖论莫过于均值了,就说明了要采用常规的均值方法不能将这两类分开,也表明均值并不能带来更多的数据的几何性质。那么,如果数据呈现类似的特有分布时,常有的进化树算法和聚类算法(如K-均值)往往会得错误的结论。
统计上存在的陷阱往往是由于对数据的结构缺乏一般性认识而产生的。生物信息学度量空间的假设在生物信息学中,进化树的确立,基因的聚类等都需要引入度量的概念。举例来说,距离上相近或具有相似性的基因等具有相同的功能,在进化树中满足分值最小的具有相同的父系,这一度量空间的前提假设是度量在全局意义下成立。
那么,是否这种前提假设具有普适性呢,我们不妨给出一般的描述:假定两个向量为A,B,其中,则在假定且满足维数间线性无关的前提下,两个向量的度量可定义为:⑴依据上式可以得到满足正交不变运动群的欧氏度量空间,这也是大多数生物信息学中常采用的一般性描述,即假定了变量间线性无关。
然而,这种假设一般不能正确描述度量的性质,尤其在高维数据集时,不考虑数据变量间的非线性相关性显然存在问题,由此,我们可以认为,一个正确的度量公式可由下式给出:⑵上式中采用了爱因斯坦和式约定,描述了变量间的度量关系。
后者在满足⑶时等价于⑴,因而是更一般的描述,然而问题在于如何准确描述变量间的非线性相关性,我们正在研究这个问题。生物信息学统计学习编辑生物信息学中面对的数据量和数据库都是规模很大的,而相对的目标函数却一般难以给出明确的定义。
生物信息学面临的这种困难,可以描述成问题规模的巨大以及问题定义的病态性之间的矛盾,一般从数学上来看,引入某个正则项来改善性能是必然的。以下对基于这一思想产生的统计学习理论,Kolmogorov复杂性和BIC(BayesianInformationCriterion)及其存在的问题给出简要介绍。
支持向量机(SVM)是较热门的一种方法,其研究背景是Vapnik的统计学习理论,是通过最大化两个数据集的最小间隔来实现分类,对于非线性问题则采用核函数将数据集映射至高维空间而又无需显式描述数据集在高维空间的性质,这一方法较之神经方法的好处在于将神经网络隐层的参数选择简化为对核函数的选择,因此,受到广泛的注意。
在生物信息学中也开始受到重视,然而,核函数的选择问题本身是一个相当困难的问题,从这个层次来看,最优核函数的选择可能只是一种理想,SVM也有可能象神经网络一样只是机器学习研究进程中又一个大气泡。
Kolmogorov复杂性思想与统计学习理论思想分别从不同的角度描述了学习的性质,前者从编码的角度,后者基于有限样本来获得一致收敛性。Kolmogorov复杂性是不可计算的,因此由此衍生了MDL原则(最小描述长度),其最初只适用于离散数据,已经推广至连续数据集中,试图从编码角度获得对模型参数的最小描述。
其缺陷在于建模的复杂性过高,导致在大数据集中难以运用。BIC准则从模型复杂性角度来考虑,BIC准则对模型复杂度较高的给予大的惩罚,反之,惩罚则小,隐式地体现了奥卡姆剃刀(OccamRazor)原理,广泛应用于生物信息学中。
BIC准则的主要局限是对参数模型的假定和先验的选择的敏感性,在数据量较大时处理较慢。因此,在这一方面仍然有许多探索的空间。生物信息学讨论总结编辑人类对基因的认识,从以往的对单个基因的了解,上升到在整个基因组水平上考察基因的组织结构和信息结构,考察基因之间在位置,结构和功能上的相互关系。
这就要求生物信息学在一些基本的思路上要做本质的观念转变,本节就这些问题做出探讨和思索。生物信息学启发式方法Simond在人类的认知一书中指出,人在解决问题时,一般并不去寻找最优的方法,而只要求找到一个满意的方法。
因为即使是解决最简单的问题,要想得到次数最少,效能最高的解决方法也是非常困难的。最优方法和满意方法之间的困难程度相差很大,后者不依赖于问题的空间,不需要进行全部搜索,而只要能达到解决的程度就可以了。
正如前所述,面对大规模的序列和蛋白质结构数据集,要获得全局结果,往往是即使算法复杂度为线性时也不能够得到好的结果,因此,要通过变换解空间或不依赖于问题的解空间获得满意解,生物信息学仍需要人工智能和认知科学对人脑的进一步认识,并从中得到更好的启发式方法。
问题规模不同的处理:MarvinMinsky在人工智能研究中曾指出:小规模数据量的处理向大规模数据量推广时,往往并非算法上的改进能做到的,更多的是要做本质性的变化。这好比一个人爬树,每天都可以爬高一些,但要想爬到月球,就必须采用其他方法一样。
在分子生物学中,传统的实验方法已不适应处理飞速增长的海量数据。同样,在采用计算机处理上,也并非依靠原有的计算机算法就能够解决现有的数据挖掘问题。如在序列对齐(sequenceAlignment)问题上,在小规模数据中可以采用动态规划,而在大规模序列对齐时不得不引入启发式方法,如BLAST,FASTA。
生物信息学乐观中的隐扰生物信息学是一门新兴学科,起步于20世纪90年代,至今已进入后基因组时代,在这一领域的研究人员均呈普遍乐观态度,那么,是否存在潜在的隐扰呢不妨回顾一下早期人工智能的发展史,在1960年左右,西蒙曾相信不出十年,人类即可象完成登月一样完成对人的模拟,造出一个与人智能行为完全相同的机器人。
而至今为止,这一诺言仍然遥遥无期。尽管人工智能研究得到的成果已经渗入到各个领域,但对人的思维行为的了解远未完全明了。从本质来看,这是由于最初人工智能研究上定位错误以及没有从认识论角度看清人工智能的本质造成的;从研究角度来看,将智能行为还原成一般的形式化语言和规则并不能完整描述人的行为,期望物理科学的成功同样在人工智能研究中适用并不现实。
反观生物信息学,其目的是期望从基因序列上解开一切生物的基本奥秘,从结构上获得生命的生理机制,这从哲学上来看是期望从分子层次上解释人类的所有行为和功能和致病原因。这类似于人工智能早期发展中表现的乐观行为,也来自于早期分子生物学,生物物理和生物化学的成就。
然而,从本质上来讲,与人工智能研究相似,都是希望将生命的奥秘还原成孤立的基因序列或单个蛋白质的功能,而很少强调基因序列或蛋白质组作为一个整体在生命体中的调控作用。我们因此也不得不思考,这种研究的最终结果是否能够支撑我们对生物信息学的乐观呢?说肯定的话也许为时尚早。
生物信息学总结综上所述,不难看出,生物信息学并不是一个足以乐观的领域,究竟原因,是由于其是基于分子生物学与多种学科交叉而成的新学科,现有的形势仍表现为各种学科的简单堆砌,相互之间的联系并不是特别的紧密。
收起