龙空技术网

用于辅助药物发现的深度学习技术

史学调查室 159

前言:

眼前小伙伴们对“逻辑回归算法预测原理”大约比较看重,你们都想要学习一些“逻辑回归算法预测原理”的相关知识。那么小编也在网络上搜集了一些对于“逻辑回归算法预测原理””的相关文章,希望你们能喜欢,各位老铁们快快来学习一下吧!

人类社会进入移动互联网时代以来,各行各业产生的电子数据正以极高速度增长。按照美国国家安全局提供的数据报告,互联网每天会自动生成1825PB的数据总量。

2011年,全球电子数据的总量相比2016年增长了接近九倍,到了2020年,全球数据预计会达到35万亿千兆字节。

伴随电子数据规模的增加,社会对大数据的分析和处理需求也在日益增长。这些极高的处理需求促进了深度学习(DL)等数据密集型机器学习算法的广泛使用。

目前DL在网络游戏、图像和语音识别、自然语言处理以及高级辅助驾驶等广泛应用中取得了巨大成功。可以说,深度学习正在潜移默化地影响人们的日常生活。

在2018年Gartner杂志评选的十大技术趋势中,人工智能技术因其深度学习算法的快速发展,得以排在榜单第一名。在过去十年里,高温超导和平行合成等新实验技术不断发展,促使化合物活性数据和生物医学数据出现了显著增加。

在药物研发领域,最关键的一个问题是如何高效分析大规模的化学数据。

由于数据量越来越庞大,自动化技术也在不断发展,目前将机器学习技术用于药物学的条件越来越成熟。随机森林(RF)、向量机和神经网络(NN)等方法已经长期被用于开发QSAR模型,DL和矩阵分解也开始得到广泛使用。

DL算法可以充分利用持续增加的数据和算力,它和大多数其他机器学习方法之间的区别在于DL神经网络架构具有高度的灵活性。一般DL架构包括全连接前馈网络、卷积神经网络(CNN)和递归神经网络(RNN)。单层NN已经在QSAR建模中使用了很长时间。

随着数据量和计算能力的增长,应用多层前馈网络在生物活性预测中也得到推广适用。一项引人关注的发展是RNN在从头设计的原创领域中得到应用,这种情况在几年前是完全无法想象的。

随着高通量成像设备的应用逐渐普及,CNN模型在计算机视觉领域也取得了显著进展,并发展成生物图像处理领域的重要工具。

深度学习的工作原理

DL作为一种机器学习算法,使用了具有多层非线性处理单元的人工神经网络(ANN)来处理数据。最早的ANN应用可以追溯到1943年,当时Warren McCulloch和Walter Pitts利用一种基于数学和称为阈值逻辑算法开发出了NN计算模型。

现在流行使用的ANN模型的基本结构如图1所示,其灵感来自人类大脑结构。

图1

ANN中有三个基本层:输入层、输出层和隐藏层。由于ANN具有不同的类型,相邻层之间的节点(也被称为神经元)可实现完全连接或部分连接。

输入变量可以从输入节点端获取,数据变量则通过隐藏节点进行变换,最后在输出节点端计算得到输出值。隐藏单元内输出值和输入值之间的相互关系,如图1b所示。

深度学习使用了更多的隐藏层,它和传统ANN之间的区别在于NN的规模和复杂性。受早期计算机硬件的限制,人工神经网络通常只能提供一到两个隐藏层。随着更强大CPU和GPU硬件的发展,DL得以在每一层中使用更多的节点。

与此同时,DL的许多算法也在进步,例如梯度消失问题可以用线性修正单元(ReLU)来避免,数据过度拟合问题可以用dropout和Drop Connect算法解决,大规模输入变量可以引入卷积层和池化层作为网络架构来处理。

目前DL软件包大部分都是开源,数据社区中最流行的深度学习包有Tensor Flow、Caffe、Py Torch、Keras和Theano等算法。最近几年DL流行的各种神经网络架构,如图2所示。

先介绍下完全连接的深度神经网络(DNN),一般DNN具有数个隐藏层,每个隐藏层拥有数百个非线性处理单元(如图2a)。DNN可以读取较大数量的输入特征,同时DNN不同层级中的神经元也可以自动读取各层的数据特征。

图2

另一种神经网络是目前非常流行的CNN模型。它已经广泛用于图像识别(图2b)。

通常CNN具有数个子采样层和卷积层。卷积层则由过滤器(或内核)和小传感域组成。在前向传播过程中,每个过滤器都在输入量的宽度和高度上进行卷积,并计算出过滤器的条目与其在输入量中的传感域之间的点积,最终生成该过滤器的2D特征图。

子采样层的功能是降低特征图的容量。特征图被完全连接成一层,其中相邻层中的神经元会像在传统的ANN中一样都连接起来,以计算出最终的输出值。得益于每个过滤器共享相同的参数,CNN可以大大减少学习的自由参数数量,从而降低了内存的消耗。

ANN的另一种变体(图2c)是RNN。它与前馈NN不同,在同一隐藏层中,相邻层之间的节点可以连接从而构成有向循环。而RNN和语言建模这样的时间相关任务很类似,都可以采用顺序数据作为输入变量。

图2d所示的第四种ANN架构称为自动编码器(AE)。AE是用于无监督学习的NN架构。最近,人们进行了一项系统研究来构建多任务DNN,并将它们的性能与单任务DNN模型进行比较。研究结果证实,多任务模型始终比单任务和RF模型表现更好。

科学家还从ChEMBL中选择了七个数据集,并将DNN模型与一些常用的机器学习方法(例如SVM、RF等)进行了比较。

DNN模型通常包含一个神经网络编码器,它的功能是接收从输入层输入的信息,然后将信息转换,形成数个隐藏单元,最终完成输出层(该输出层必须与输入层具有相同数量的节点)与解码器神经网络的耦合。

深度学习在化合物性质和活性预测中的应用

包括人工神经网络在内的机器学习方法,在化合物活性预测中的应用由来已久。科学家通常优先采用DL方法来解决化学活性的预测问题。

如果化合物由相同数量的分子组成,那么研究人员可以直接使用完全连接的DNN来构建模型。一些团队使用大量二维拓扑描述符在数据集上应用DNN。在总共15个目标数据集中,DNN模型有13个数据集表现出比标准RF方法更优异的性能。

这些优异的性能包括:DNN无需特征选择即可处理数千个描述符;dropout可以避免传统ANN所面临的过度拟合问题;超参数(层数、每层节点数、函数类型等)优化可以使得DNN性能得到最大化利用;多任务DNN模型比单任务模型表现更好。

有些科学家在他们研究中介绍了多任务DNN模型,该模型在包含12000种化合物的数据集上赢得了Tox21挑战,并用于12项高通量毒性测定。

与Dahl的架构类似,DNN使用了dropout和ReLU激活函数。他们使用带有静态描述符(3D、2D描述符、预定义毒物)的大型特征集以及动态生成的扩展连接指纹描述符(ECFP)。这使得DNN能够在训练期间进行自我特征推导。

更有趣的是,仅使用ECFP就可以对DNN模型进行统计关联分析,并且可以识别每个隐藏层中与已知毒物显著相关的子结构。这些基准测试结果证明了多任务DNN与单任务DNN和传统机器学习方法相比的较大优势。

最近,一些其他发布的研究成果进一步支持了这一结论。研究人员构建了多任务DNN,并将它们的性能与单任务DNN模型进行比较。结果表明,多任务模型始终比单任务和RF模型表现更好。

另一项基准研究,将DNN与传统机器学习方法RF、SVM、朴素贝叶斯和逻辑回归方法进行比较,并且用到了蛋白质描述符[即蛋白质化学计量学(PCM)研究]。事实证明,DNN模型是BEDROC(玻尔兹曼增强型接收器操作特性鉴别)方面的最佳模型。

DNN模型也可用于预测药物的药理特性,并利用LINCS项目的转录组数据以及途径信息进行药物再开发。研究表明,DNN模型利用通路和基因水平的信息在预测药物适应症方面实现了高精度的预测,因此它们可用于药物再开发和利用。

受摩根圆形指纹法的启发,科学家提出,神经指纹法可用于构建图卷积模型。该策略的工作流程如图3所示。先读取2D分子结构以形成状态矩阵,包含每个原子的键信息。然后状态矩阵通过单层神经网络进行卷积运算,生成固定长度的向量用于表征分子结构。

图3

深度学习辅助化学分子的从头设计

DL在化学信息学中的另一个有趣应用是通过神经网络生成新的化学分子结构,其中自动编码器(VAE)是一种有效的新方法(如图4)。科学家先用VAE做无监督学习,去映射INC数据库中的化学结构(SMILES字符串),并转换为潜在空间。

完成VAE训练之后,潜在空间中的潜在向量将成为分子结构的连续表示,并且可以通过训练后的VAE以可逆方式转换为SMILES字符串。

有研究人员将VAE作为分子描述符生成器与生成对抗网络(GAN)(一种特殊的NN架构)相结合,设计具有特定抗癌特性的新化学分子,该类化合物据称具有广泛的应用前景。

图4

最近科学家在使用DL算法进行化学反应预测方面取得了一些有希望的成果。

机器学习算法可用于解决两类问题,一种是预测正向反应,在给定一组反应物的情况下预测化合产物,另一种类型是逆合成预测,即给定最终产物,DL可以预测合成该产物所需要的反应步骤。

美国一位科学家借助神经网络分析了美国专利库的15000个反应训练集,并对一组化学反应的候选产物进行预测。这组化学反应被分类到计算模板中,经过模型训练,然后计算化学反应和化学产物的匹配率,最终得到了71.8%准确率数据。

目前基于计算模板的反应预测方法面临覆盖率差和效率低问题,所以有研究小组提出了一种无模板计算方法。与基于反应模板方法相比,这种方法利用Weisfeiler Lehman差异网络对生成的候选反应进行评分,取得了更优异的性能。

无模板方法还可使用350万个反应作为DNN的训练集,将反应预测的准确率提升至97%,将逆合成分析的准确率提升至95%。

在另一项研究中,人们将蒙特卡洛树搜索与策略网络相结合,利用由来自科学文献的1200万个反应组成的训练集对合成物进行预测,数据表明这一系统处理数据的效率相比基于模板方法提升了两倍。

深度学习技术展望

总之,自20世纪90年代后期以来,机器学习一直被应用于药物发现研究,并成为药物发现领域中的有效工具。深度学习算法是目前机器学习技术发展的最新成果。

与其他方法相比,DL具有更加灵活的计算架构,因此可以创建针对特定问题量身定制的NN架构。DL的缺点是通常需要非常庞大的训练集以及对算力的要求极高。

那么DL是否优于其他机器学习方法?目前还难以有效定论。

许多研究成果表明深度学习在某些任务(如图像分析与识别)方面表现出色,并且对于从头设计化学分子和预测化学反应非常有价值。在结构化输入描述符的任务方面,深度学习的表现似乎至少与其他方法旗鼓相当。

最相关的例子是生物活性预测,DL通过多任务学习似乎获得了更好的整体性能。然而,其他机器学习方法也在改进和发展。

一个例子是XG Boost方法,该方法在引入后主导了结构化输入数据的Kaggle竞赛,成为该领域较为领先的技术方法。因此,实践中选择哪种生物活性预测方法可能取决于建模者最熟悉哪种技术。

如果不同的机器学习方法达到大致相同的精度,那么机器学习模型所能达到的极限可能取决于计算使用的数据和数据集,⽽不是所使用的特定算法。

标签: #逻辑回归算法预测原理