机器学习的目的是期望能从数据中自动地获得相应的理论,通过采用如推理,模型拟合及从样本中学习,尤其适用于缺乏一般性的理论,噪声模式,及大规模数据集。因此,机器学习形成了与常规方法互补的可行的方法。机器学习使得利用计算机从海量的生物信息中提取有用知识,发现知识成为可能。
机器学习方法在大样本,多向量的数据分析工作中发挥着日益重要的作用,而大量的基因数据库处理需要计算机能自动识别,标注,以避免即耗时又花费巨大的人工处理方法。早期的科学方法观测和假设面对高数据的体积,快速的数据获取率和客观分析的要求已经不能仅依赖于人的感知来处理了。
因而,生物信息学与机器学习相结合也就成了必然。机器学习中最基本的理论框架是建立在概率基础上的,从某种意义来说,是统计模型拟合的延续,其目的均为提取有用信息。机器学习与模式识别和统计推理密切相关。学习方法包括数据聚类,神经网络分类器和非线性回归等等。
隐马尔可夫模型也广泛用于预测DNA的基因结构。研究重心包括:1)观测和探索有趣的现象。ML研究的焦点是如何可视化和探索高维向量数据。一般的方法是将其约简至低维空间,如常规的主成分分析(PCA),核主成分分析(KPCA),独立成分分析(Independentcomponentanalysis),局部线性嵌套(LocallyLinearembedding)。
2)生成假设和形式化模型来解释现象。大多数聚类方法可看成是拟合向量数据至某种简单分布的混合。在生物信息学中聚类方法已经用于microarray数据分析中,癌症类型分类及其他方向中。机器学习也用于从基因数据库中获得相应的现象解释。机器学习加速了生物信息学的进展,也带了相应的问题。
机器学习方法大多假定数据符合某种相对固定的模型,而一般数据结构通常是可变的,在生物信息学中尤其如此,因此,有必要建立一套不依赖于假定数据结构的一般性方法来寻找数据集的内在结构。其次,机器学习方法中常采用黑箱操作,如神经网络和隐马尔可夫模型,对于获得特定解的内在机理仍不清楚。
生物信息学数学问题编辑生物信息学中数学占了很大的比重。