背景
由于人工智能模型可以高效地处理数据,如今人工智能在药物生产过程中被普遍使用。现在,有研究使用各种神经网络作为研究分子的定量结构-活性关系 (QSAR) 的一种方式。人工神经网络在基于描述符的分子的 QSAR 分析中非常有效。由于科学和技术领域的进步,已经开发出新技术来表征分子的物理化学性质。 QSAR 正在使用多种架构进行研究,例如卷积神经网络 (CNN)、循环神经网络 (RNN)、反向传播神经网络 (BNN) 等。
人工神经网络最重要的优势是它可以实现的效率和速度预测药物开发早期阶段的毒性。据估计,毒性是导致三分之一候选药物被拒绝的原因,因此化学品中的毒性是药物开发成本高昂的主要原因。几乎所有化合物在过量服用时都是有毒的,如果服用量过少则无毒,但所提出的模型使用帕拉塞尔苏斯公理预测与患者在使用期间相关的剂量下的毒性。
简化分子线性输入系统 (SMILES) 是一种以线性符号形式表示元素的方法,该方法使用美国信息交换标准代码 (ASCII 符号) 描述各种化学分子的结构。 简化的分子输入线输入系统已在多个领域中用作定量结构-性质关系的替代方案。
简化分子线性输入系统符号很容易被计算机读取,因此为机器学习模型提供了一个很好的参数。 SMILES 为 QSAR 分析提供了有效的描述符,因此已被证明是各种化学物质 QSAR 的有效和高效参数。 SMILES 不是像扩展连接表那样的数据结构,因此效率更高。 SMILES 是一种语言形式,带有简单的符号(原子和键符号)。 SMILES 也很紧凑,因此它们占用的空间比其他表示结构少得多。
方法
本文基于对当前可用的各种确定毒性的定量构效关系 (QSAR) 方法的研究进行分析,然后与基于 SMILES 的机器学习模型进行比较以确定毒性。
AI 模型是使用长短期记忆 (LSTM) 架构制作的,这是一种高级形式的递归神经网络 (RNN)。 我们使用 LSTM,因为它提供了序列数据之间最有效的相关性。
我们有类似 RNN 和 LSTM 的架构来查找分子中原子序列之间的关系,以检测它是否有毒。 我们可以研究不同的神经网络架构,如 CNN 或感知模型,但由于在我们的序列数据中找到序列之间的相关性很重要,我们使用了 LSTM。 顺序数据已被编码为二进制数字数组,以便我们的模型工作。 编码后的输入数据通过 LSTM 层,最后传递到密集网络,以使用 sigmoid 函数预测是否有毒。
神经网络
简化分子线性输入系统
长短期记忆 (LSTM) 架构
测试和分析
源代码