龙空技术网

ChemPU中化学合成文献数据库的数字化与验证

自在的走木 398

前言:

今天我们对“c语言文献”可能比较关怀,小伙伴们都需要知道一些“c语言文献”的相关内容。那么小编也在网摘上搜集了一些关于“c语言文献””的相关资讯,希望咱们能喜欢,大家快快来学习一下吧!

ChemPU中化学合成文献数据库的数字化与验证

文章出处:Greig Chisholm, Petrisor-Alin Pirvan, Michael Saleeb, S. Hessam M. Mehr, Ekaterina Trushina, Artem I. Leonov, Graham Keenan, Aamir Khan, Alexander Hammer, Leroy Cronin. Digitization and validation of a chemical synthesis literature database in the ChemPU. Science 2022, 377, 172-180.

摘要:尽管有巨大的潜力,合成化学的自动化在过去几十年里只取得了渐进式的进展。在当代有机合成中,作者提出了一个自动可执行的化学反应数据库的100个分子代表的范围内的反应发现。这些反应包括过渡金属催化的偶联反应、杂环形成、官能团相互转化和多组分反应。反应的化学反应代码或χ DLs已存储在数据库中,用于版本控制、验证、协作和数据挖掘。在这些合成中,数据库中的50多个条目已被下载,并在7个模块化ChemPU中机器人运行,其产率和纯度可与专家化学家获得的结果相媲美。作者还演示了一系列化合物的自动纯化,使用色谱模块无缝耦合到平台,并使用相同的语言编程。

要复制已知的化学反应,必须从文献或数据库中获得方案,以便在实验室中手动运行。然而,并不是所有的文献或数据库条目都可以轻松地复制。这不仅是新分子合成的障碍,也是机器学习高质量数据积累的障碍,而且由于程序编码没有开放标准,也没有广泛报告和纠正失败实验的方法,这一事实加剧了这一障碍。如果一种方法能够清晰地捕获并编码化学合成协议,供自动化系统使用,该系统具有类似于软件和记录失败实验的能力,将会改变该领域。目前,有机合成需要密集、高技能的劳动力,一个典型的合成可能需要多个复杂的单元操作,这些操作很难显式编码。这是因为所需的隐性知识通常与上下文相关,导致发表的文献存在歧义,从而限制了可再现性、自动化或数据挖掘。在某些特定领域如寡肽、寡糖和寡核苷酸化学中,这些限制已经被克服,近年来在更广泛的化学反应自动化方面取得了很大的进展。然而,大多数自动化合成化学平台仍然是特定于任务的,或者在手动工作流程中代表自动化孤岛,但即使是这些平台也有定制的指令集,它们之间或与文献之间没有简单的语义联系。为了充分利用化学合成自动化的潜力并确保程序的可重复性,需要在两个方面取得进展。首先,需要一个真正通用的自动化平台,可以执行所有单元操作;其次,描述这些化学过程的标准化和精确语法对于可靠地捕获给定化学过程的所有关键细节至关重要。这样的代码还必须独立于用于自动化的硬件类型,因此编译后可以在任何兼容的硬件系统上完美地工作。

作者展示了一个工作流的设计、构建和验证,该工作流使作者能够获取从手工操作到在ChemPU化学处理单元中自动运行的全面描述和通用化学描述语言(χDL)的化学合成文献。在ChemPU上运行χDL的过程作者称之为chemputation (类似于计算),是代码和试剂向产品的可靠转换。作者不仅展示了χDL可以在许多不同的ChemPU配置上编译运行,而且还展示了χDL语言编码广泛的合成过程的能力,这些合成过程是有机化学工具箱的代表。总的来说,文献中103种化学性质非常不同的反应已被翻译成可靠的χDL代码,其中53个程序已在硬件上验证,其产率和纯度与文献中相当。这种增加的合成吞吐量在早期版本的ChemPU中是不可能的,因为它不能使用χDL。这也意味着与χDL的开创性论文相比,经过验证的χDL程序的数量有了巨大的提高,也证明了本文所使用的硬件的可靠性有所提高。作者为现有的103个条目设计并建立了一个名为Chemify的χDL数据库,并预计该数据库将迅速扩大;任何人都可以在合适的硬件上运行和验证数据库。这些χDL条目不仅可以在其它自动合成平台和按需生成的材料上实现,还可以收集统计数据,并在需要时建议新的版本。除了直接重复已验证的程序外,每个χDL的底物范围可以通过改变底物和调整反应的关键参数(如温度或时间)逐步扩大,同时保持过程的其余部分不变。因为作者是根据流行程度来选择反应的,结果验证的χDLs集涵盖了大量的常见反应,并构成了整个有机合成工具箱自动化的入口点。此外,通过执行53个高度多样化的化学过程,ChemPU的硬件和软件已经被推向了极限,并展示了一条完全普用性的道路。为此,在硬件库中加入了χDLs支持的flash柱层析系统,取得了关键进展。这意味着ChemPU不仅可以进行反应、工作和浓缩,还可以进行产品的色谱分离,直接按需交付纯化的化合物。为了实现这一点,作者展示了平台可以通过动态的方式反应,响应产品的检测,以收集适当的馏分。

从文献流程到Chemify数据库中验证条目的工作流程如图1所示。与χDL的早期工作相比,重点不是将原始程序文本准确地翻译成χDL,而是实现提供目标分子的化学过程。遵循这种方法,作者不仅可以重现文献,还可以在多个实例中改进流程。化学反应可以在χDL中捕获,χDL将合成步骤表示为物理过程序列,如添加、溶解、蒸发等。χDL框架中目前有44个步骤,每个步骤都有一组完全可定制的参数。在有机合成中,所有十次使用的任务都有一个标准的χDL步骤来表示它们,如抽气及建立惰性的反应气氛或执行液-液分离及萃取。χDL步骤有助于加强对工艺的精确描述,并消除任何模糊性,如抽气及建立惰性的反应气氛的周期数或工艺关键的添加速度。为此,作者使用了基于网络的化学开发环境(ChemIDE),它通过提供文本到χDL的翻译工具来帮助快速生成χDL程序。它使用一个包含所有可用χDL步骤的模板库和一个编辑器,其中单个χDL步骤被表示为图形元素,可以根据需要对其进行编辑和安排。ChemIDE用于本工作中详细介绍了所有χDL程序的生成。

用χDL表达一个化学过程并不能立即解决原始散文指令中缺少信息或模棱两可的问题,但它确实提供了一个明确的路径来关闭它。要做到这一点,可能仍然需要一些工艺开发和迭代,以最大化产率和纯度。对χDL代码ChemPU执行的目标化合物进行适当的分析[核磁共振谱(NMR)、液相色谱质谱或气相色谱质谱]后,对产品的质量和纯度进行评估。必要时对χDL进行改进以提高产率和纯度,然后再次进行实验。χDL的关键优势在于,一旦成功编码了进程,所有在兼容硬件上执行代码的后续用户都可以期望得到相同的结果,而不需要进一步的进程开发。在合格的有形和无形硬件上执行流程所需的所有关键知识现在都包含在χDL中。在这一阶段,该方案可以作为一个经过验证的工艺添加到数据库中,并由目标产品和工艺开发历史的完整描述作为支持。Chemify数据库的一个显著特点是包含工艺开发历史;通过展示不太成功的实验结果,并与最终的成功运行进行对比,突出了过程的关键方面,并可以量化。

图1

Chemify数据库持久地存储χDL过程、实验结果和相关分析的信息。它是一个本地托管的PostgreSQL数据库服务器,包含上面描述的所有验证过的χDL脚本,可以通过ChemIDE (基于web的χDL开发环境)或使用基于Python 3的API来自动查询数据库。此外,为了最终用户体验,ChemIDE还配有显示每个实验的表征参数,如产品规模、产率、状态(转换、验证、失败)和工艺持续时间。用户可以提交、搜索、下载和复制可信的合成。该数据库包含最终验证的合成脚本以及之前的开发版本,这些脚本可能会在不同程度上发挥作用,以较低的产率、足够的纯度提供所需的产品,或由于自动化所需的必要工艺参数描述不足或不正确而导致工艺失败(例如,在液-液分离过程中造成堵塞或形成乳剂)。将失败的或较低产率的实验与成功的特定反应或反应类别的尝试进行比较,可以揭示该过程的关键方面。此外,该数据库还包含已翻译但尚未在合适的自动化平台上执行的χDL条目。对未验证的χDL文件感兴趣的用户可以访问这些文件,并可以选择对它们进行验证。本文报道的χDL程序已经在ChemPU上进行了验证,ChemPU是一个模拟实验室化学家手动操作的化学自动化平台。尽管操作简单直观,但严格的实现意味着平台作为一个有限状态机运行(图2)。它可以处于有限数量的状态之一,并基于良好定义的操作从一个状态转换到下一个状态。这些操作由程序(χDL合成协议)以及传感器反馈[如温度、电导率、压力或紫外线(UV)吸光度]来定义。将χDL合成指令直接映射到状态转换或“单元操作”,突出了χDL中合成过程的严格抽象。此外,χDL过程中定义的状态转换的明确定义对于确保χDL合成的再现性至关重要,包括在ChemPU的不同布局和可能完全不同的合格硬件设置上。

图2

ChemPU状态机由三个逻辑部分组成:物理输入或输出(I/O)、数字I/O和处理单元。处理单元可以根据ChemPU的初始条件或物理和数字I/O的组合(即传感器、过程变量和正在执行的χDL步骤所定义的当前条件)在多个状态之间进行转换。根据调度程序执行χDL步骤会产生一个新的状态,在以后的步骤中发挥作用,并导致物理I/O的物理变化,例如试剂位置的变化,温度的变化,液-液分离中的相边界,或色谱过程中的峰洗脱。调度器利用硬件的图形表示(抽象层)来解释χDL脚本,并为协调的任务编排硬件(例如通过液体处理主干移动液体)。抽象层将硬件设备的位置和连接定义为节点,并包含每个节点上的特定信息,如IP地址和设备的温度限制。图形文件和χDL文件可以被编译成一个执行文件(可执行的χDL或xdlxe),这是平台特有的。将化学过程描述和硬件平台描述严格分离到χDL文件和图形文件中,确保了χDL文件保持平台独立性。它还允许平台如何设计及其确切的物理布局的灵活性。这意味着每个χDL都可以进行版本控制和编译,以便在任何合适的平台上运行,而且ChemPU系统具有高度的模块化、灵活性和可扩展性(图3)。

通过镜像批量合成化学的单元操作,ChemPU代表了一个通用的、可编程的硬件平台,用于执行如上所示的合成化学。由于其模块化特性,该平台可以很容易地进行扩展,单个模块通过液体处理主干进行连接,类似于传统计算机的总线。连接到液体处理骨干(包括泵和阀)是通过一个单一的柔性油管,这使得模块很容易拆卸维护或重新安排优化操作(例如通过分离水和水敏感的部分的过程)。液体处理骨干由一系列注射泵和阀组成。一个典型的主干包括六个;然而,主干很容易收缩或扩大,以适应所需的化学过程的要求。每个阀门有6个位置和7个端口。在液体处理骨干中的每个阀门连接泵,其最近的邻近阀门和废物容器,并可以连接三到四种不同的试剂,溶剂,或硬件模块。模块到主干的连通性由上图以抽象的方式表示。主干的清洗是通过自动清洗程序进行的,用户可以根据不同程序后出现的不同类型的污染进行定义。除了液体处理的主链外,本文报道的ChemPU系统用于执行合成,包括一个反应模块,包括一个通过以太网到串行转换器控制的标准热板,一个用于液-液萃取的分离器,配备一个用于搅拌的顶部搅拌器,以及一个用于相边界检测的电导率传感器;它还包括用于产品沉淀和重结晶的夹套过滤器,许多试剂瓶,旋转蒸发器,和一个可选的色谱系统。

借助chemputation的提取、χDL语言和ChemPU平台,作者开始翻译和自动化有机化学工具箱中的典型反应。有机化学包含了各种各样的变化。尽管有很大程度的变化,大多数反应可以简单地分为十类以下。一些研究分析了不同领域的反应频率,如药物化学、过程化学和全合成。根据主要目标的不同,合成中使用的反应类别的分布有一些显著的差异;例如药物化学研究人员可能更喜欢过渡金属催化的C-C键形成反应,这允许方便地生成大量相关化合物用于生物分析,而现代全合成更依赖于复杂分子骨架组装的复杂环形成反应,并采用尽可能少的步骤。

图3

每一类选择的反应包括公认的经典反应和重要的当代反应,以及一些更非常规的合成转化(图4);查看所有翻译反应的综合列表。所选择的过渡金属催化碳-碳键形成反应包括常用的Suzuki、Heck和Sonogashira偶联,以及立体选择性Carroll重排反应。

无过渡金属C-C成键反应包括Wittig反应、Friedel-Crafts烷基化反应、Aldol和Claisen缩合反应等经典反应。不同类型的杂原子烷基化反应表现为Pd催化的Buchwald-Hartwig偶联、Cu催化的烷基化、杂芳烃的SNAr反应和还原性胺化反应。官能团的相互转化包括Mitsunobu反应、腈形成和酯化反应等。对保护基团的操作包括常见的boc、苄基和tosyl基团。环和杂环的形成既包括Fischer吲哚的经典合成,也包括更奇特的三取代吡啶盐的形成。还原和氧化反应包括传统的氢化物还原、Jones氧化和Pd催化的氢转移反应。最后,多组分反应包括著名的Ugi反应,以及其它比较少见的串联反应和一锅多步流形。这一系列不同的反应涵盖了标准的有机化学工具箱。至关重要的是,进一步的自动化反应只需要将原始合成过程转化为χDL。

图4

一般的程序由20个离散的高级指令组成,如添加、分离和蒸发,有些程序有多达40个这样的指令(图4C)。将这些高级χDL步骤拆分成相应的单元操作(例如,开始搅拌、等待升温及采用抽真空),平均执行了266个操作。所有χDL脚本的成功执行需要在7个不同的系统上执行超过1000个小时。该数据仅包括每个χDL协议最终迭代的操作,包括反应时间,但不包括异步的反应步骤,即两个流程在同一ChemPU硬件上并行运行的步骤,例如与反应同时运行的旋转蒸发器的清洗步骤。在ChemPU上进行的反应的产率通常与经过一段工艺开发后的文献产率相当。这可能需要填补原始协议中的空白,并且对于所有人工或自动化的合成开发都是常见的,或者调整协议中不适合自动化的元素,例如,意外形成的沉淀导致线路堵塞。图5展示了一系列反应,以说明平台的性能,并给出具体的例子来展示已经进行的化学研究的广度。

该体系可耐受潮湿敏感或高反应性试剂,如用于Cu介导氨基甲酸酯烷基化反应生成化合物3的双(三甲基硅基)酰胺(KHMDS),用于甾体雌酮的Friedel-Crafts烷基化反应生成衍生物4的三氟化硼,或用于Fischer吲哚合成化合物6的Eaton试剂(10%五氧化二磷溶液中的甲烷磺酸)。此外,需要惰性气氛的反应在平台上成功地执行,包括Pd催化对映选择性Carroll重排得到化合物5。在作者的ChemPU平台上高效地执行了高达90 mmol规模的反应。方便的是,一旦生成了χDL脚本,特定的反应可以在可用容器尺寸和化学过程(如安全考虑或热质传递)的限制下进行放大或缩小。χDL程序也在平台上成功地执行,该程序可用于由多组分和串联反应产生更复杂的产品。例如,Petasi/Diels-Alder环加成串联反应已被用于快速生成含有多个立体中心的骨架化合物7,在反应库合成中有进一步衍生化的潜力。同样,Cu(I)催化的三组分偶联/Pd(0)催化的环加成串联也成功应用,得到了含有吲哚异喹啉骨架的产物8。

经过验证的χDL程序的底物范围可以通过使用ChemPU生成化合物库来扩大。一个特别有吸引力的前景是使用经过验证的χDL程序来构建用于生物筛选的大型化合物库。这样的库可以方便地访问,只需改变起始材料,而无需对合成脚本进行重大修改;也就是说,一旦建立了一个工艺,它可以作为一个通用工艺应用于许多不同的底物,只需要改变关键参数,如底物、反应溶剂和反应时间。为了证明这种方法,通过多组分Ugi反应合成了一个小型的α-酰基氨基酰胺化合物9a-9d。为此,作者使用了两种不同的异氰化物和两种醛原料的反应物组合,在ChemPU上并行地同时执行多个或“多线程”反应,得到四种结构相关的α-酰基酰胺酰胺产物。进一步扩大使用的反应物集合将迅速扩大产生的产品数量,并允许快速生成更大的库。

为了检验执行χDL程序的一致性和可靠性,作者开始在ChemPU平台上多次重复相同的反应方案。选择丙二酸酯的烷基化反应(得到化合物10)作为重现性研究的合适反应,因为准确的温度控制和添加速度是该过程成功的关键。在初始工艺开发后,获得了验证过的χDL程序脚本,并在12次尝试中成功复制了10次反应方案。这两次故障是由于液-液分离过程中不正确的相界测定引起的;产物可以通过手动重启系统来恢复,但是这里没有这样做。关键的是,χDL程序的执行可靠地提供了一致的产物产率(平均94%,最小89%,标准差2%)和纯度(平均96%,最小94%,标准差1%)。加上生成化合物库的能力,ChemPU可用于自动完成生成多批次相同材料的高重复性工作,或一旦建立初始协议,就可以使用不同的底物重复相同的反应。

该平台的通用性进一步证明了执行多步合成序列的能力。阿托品化合物13,一种用于治疗神经毒剂中毒的抗胆碱能药物,从简单的商业上可获得的起始材料经过4个步骤合成。来自多个来源的单个步骤的合成方案(以及先前报道的用于相关底物的还原方案,但未用于12种底物的合成)已成功转换为χDL程序。高效执行多步骤反应方案的能力,以及可重复执行的良好定义的合成脚本提供的可靠性,重申了该平台在合成有机化学领域的普遍性。

从反应中分离产物化合物的色谱分离是中小型有机合成提纯的主要方法。许多商业上可用的色谱系统用于协助实验室的化学家进行色谱分离。然而,这些系统仍然需要大量的用户交互。例如,原料必须人工上柱,产品馏分必须人工鉴定,从馏分瓶中洗出之后合并。此外,这些商业系统需要在几个不同的阶段进行用户交互,因此将化学家与实验室捆绑在一起,即使只是为了一些琐碎的任务,比如将样品加载到色谱柱上。为了将Buchi Pure C-815色谱系统与ChemPU相集成,需要建立两个辅助硬件单元:一个柱旋转盘,可以在系统上预安装不同的色谱柱,以及一个扩展的馏分塔盘。后者允许由ChemPU回收产品部分。第一个具有自动化难度的操作是将示例加载到列上。实验室化学家通常在样品的干式加载和液体注入之间进行选择。作者的目标是实现与ChemPU的液体处理主干紧密结合的液体注入方法;此外,注液装样法的工艺开发较少,只需要确定合适的溶剂混合物和溶解原料的体积。常规相色谱全自动化的第二个挑战是可靠地选择产品峰。通常,在色谱分离后,化学家需要用薄层色谱、质谱或核磁共振分析单个组分。对于模块的ChemPU集成,作者考虑了几种备选方案。作者发现,考虑弹性光散射探测器对洗脱组分的紫外/可见响应或信号,选择曲线下面积最大的峰在可靠性和灵活性之间的最佳折衷;对于一个给定的良好反应,产物的峰可以正确地识别独立于准确的保留时间。此外,这种方法不依赖于更精细的产品鉴定,如质谱或核磁共振。

图5

一旦该方法被开发出来并在χDL中编码,就可以在ChemPU或图6所示的等效自动化系统上执行。平台控制器通过定义商业色谱单元(中心枢纽)的运行参数,如流量和检测器设置,开始色谱过程。然后执行实际的运行准备工作,如基线修正和柱的平衡。然后,将原料样品溶解,转移到色谱机上,注入柱上。样品注射过程还包括冲洗序列,以尽量减少样品溶解和转移期间材料的损失。一旦样品加载完成,就开始梯度运行。在梯度运行过程中,色谱机连续读取检测器信号并实时发送给ChemPU控制器软件。

然后,ChemPU控制器执行峰值检测并触发色谱机的馏分收集机制。该控制器还保持跟踪分数瓶灌装水平和各种运行参数,如背压积累,溶剂蒸气水平,和梯度溶剂和溶剂废物桶的溶剂水平。如果这些参数中的任何一个超过指定的阈值,则启动一个适当的错误处理例程,以可控的方式暂停色谱分离。当分离运行完成时,产品峰被识别并转移到下一个模块(通常是旋转蒸发器)。原料通常从旋转蒸发器转移到色谱模块,然后将纯化产物从色谱模块返回到旋转蒸发器,因此旋转蒸发器烧瓶在此期间需要清洗。因此,对纯化产品的目标容器实施了可选的清洗程序,并可在色谱分离期间进行。三种反应采用一体化色谱分离。这些色谱分离的过程被χDL捕获,以简洁、易于理解的方式指定每一分钟和关键的细节。因此,在另一个ChemPU或同等的系统上,甚至在商用色谱机上手动复制色谱分离是很容易的。

图6

作者已经展示了化学合成文献如何容易地转换为通用化学代码,可以在任何能够进行化学合成的机器人上运行;唯一的要求是一个间歇反应器,分离器,蒸发器和净化系统。这意味着可能有许多不同的机器人方法将能够使用相同的χDL代码来产生相同的结果。χDL Chemify数据库的使用不仅将促进已发布程序的复制,而且还将为社区提供丰富的验证数据来源,可用于最先进的机器学习,用于反应优化、路线规划、提高安全性,并减少合成的环境影响,同时大大减少了实验室化学家重复众所周知的程序的劳动。

标签: #c语言文献