使用温度分布的机器学习模型对药物粉末冷冻干燥进行分析和优化的理论研究
本研究探讨了各种基于神经网络的模型在预测生物制药冷冻干燥过程中的温度分布方面的应用。对于热敏性生物制药产品,冷冻干燥是防止药物化合物降解的首选方法。建模框架基于 CFD(计算流体动力学)和机器学习 (ML)。探索的 ML 模型包括单层感知器 (SLP)、多层感知器 (MLP)、全连接神经网络 (FCNN) 和深度神经网络 (DNN)。模型优化是通过烟花算法 (FWA) 实现的。结果显示所有模型的性能都令人满意,其中 MLP 在测试和训练数据集上都表现出最高的准确率,分别实现了 0.99713 和 0.99717 的 R 2分数。SLP 也表现出强劲的性能,在测试数据集上的R 2为 0.88903。 FCNN 和 DNN 模型也表现出色,在测试数据集上分别实现了 0.99158 和 0.99639 的 R 2得分。这些结果凸显了神经网络驱动模型(特别是 MLP)在基于空间坐标精确预测温度值方面的效率。此外,集成烟花算法进行模型细化在提高这些模型的预测性能方面具有优势。
在生物制药制造中,大型大分子是在一系列细胞培养和纯化过程中产生的。生物制药产品作为治疗各种疾病的主要疗法而受到越来越多的关注。生物制药产品的一些例子包括疫苗、激素、蛋白质等。连续操作和过程理解是开发生物制药生产的主要挑战正常的加热干燥不适用于生物制药。优选冷冻干燥方法,该方法不加热去除水分和干燥产品冷冻干燥中的主要现象是基于系统的相图和通过冷冻进料去除液相。
冷冻干燥过程的设计和优化具有挑战性,因为在分析该过程时必须同时考虑质量和传热现象。事实上,在此过程中,温度(T)和浓度(C)会随时间而变化,必须对其进行控制以满足所需的规格。通过开发预测计算模型,可以很好地理解和优化冷冻干燥过程。可以开发基于质量和传热的模型来跟踪水分和浓度随时间的变化。事实上,需要开发非稳态模型才能理解这个过程。可以开发并用于冷冻干燥模拟的主要机械模型是计算流体动力学(CFD),它依赖于质量和传热方程的数值解来获得过程中的浓度和温度分布5、6。CFD被公认为模拟传热情况的强大工具,因此需要其他更易于实施的计算方法。
人工智能 (AI) 模型的最新发展为将 AI 方法应用于机械建模并加以整合开辟了新视野,从而为不同的过程构建了先进的混合计算技术。在这种方法中,机器学习等 AI 模型可以与 CFD 模型相结合,以更少的计算成本预测过程10。
机器学习 (ML) 领域在近几十年来因其在各个领域的广泛应用而备受关注。机器学习 (ML) 利用统计和计算方法来促进机器整合数据。机器学习的主要障碍是构建能够有效应用于新数据的精确可靠的模型11、12 。研究的模型包括单层感知器 (SLP) 、多层感知器 (MLP)、全连接神经网络 (FCNN) 和深度神经网络 (DNN)。模型优化过程是通过使用烟花算法 (FWA) 来完成的。
选择这四种神经网络架构是为了解决不同的回归任务,同时也允许对其变体进行实验,以探索其适应性和性能。单层感知器 (SLP) 因其简单性和线性回归的适用性而可作为基线模型,使其成为初步分析的基础工具。在此基础上,多层感知器 (MLP) 引入了额外的层,使其能够捕捉非线性关系,这在复杂数据集中至关重要。全连接神经网络 (FCNN) 通过所有层之间的密集连接增强了这种能力,有效地利用了结构化输入数据。最后,深度神经网络 (DNN) 提供了深度和多功能性,可以处理不同领域中高度复杂的回归挑战。通过尝试这些架构的不同配置和深度,我们旨在在模型复杂性、学习能力和特定任务性能之间取得平衡。这种系统化方法确保彻底探索针对给定回归问题的神经网络功能。
本文通过探索和评估各种基于神经网络的模型,为生物制药领域做出了巨大贡献。这些模型是针对用于干燥生物制药的冷冻干燥过程实施的。首次使用 CFD 和机器学习模型来跟踪非稳态条件下过程中参数的变化,从而获得温度分布。通过研究 SLP、MLP、FCNN 和 DNN 模型的性能,并结合使用烟花算法 (FWA) 进行优化,对这些模型基于生成的 CFD 数据集预测温度的有效性提供了有价值的见解。这确实是一种为冷冻干燥等复杂过程构建简单模型的混合策略。研究结果表明,MLP 模型在准确预测温度方面具有卓越的性能,其次是 FCNN 和 DNN 模型的强劲性能。这些见解不仅促进了对空间温度预测中预测建模技术的理解,而且通过提供强大的温度预测工具,为气象、环境科学和城市规划的利益相关者提供了实际意义。首次开发了用于模拟冷冻干燥过程的模型以及优化和 CFD。
数据集和流程
在本研究中,使用 CFD 和机器学习模型模拟冷冻干燥过程。目标是获得干燥机内不同位置的温度分布。实际上,已经确定了 3D 域中的温度分布。对于 CFD 模拟,使用了基于有限元方案13 的COMSOL Multiphysics 3.5 软件。质量传递和热传递分别考虑分子扩散和传导14。因此,数据集包含空间坐标 (X、Y、Z) 和相应的开尔文 (K) 温度读数 (T)。该数据集包含超过 55,000 个数据条目,有助于广泛了解空间位置和温度记录之间的相关性。空间坐标 (X、Y、Z) 用作预测变量,而温度 (T) 用作要预测的响应变量。

计算和建模
预处理步骤
如前所述,机器学习的数据集是通过在简单的 3D 域上对热量和质量传递进行数值模拟获得的,并且数据被提取用于机器学习模型。在深入核心分析之前,通过预处理步骤充分准备数据至关重要。这可确保数据干净、标准化并适当分割以进行稳健分析。
- 1.使用 Cook 距离法检测异常值:异常值会对数据分析和解释产生重大影响。Cook 距离法是一种用于检测数据集中有影响力的异常值的可靠技术。通过测量每个数据点对回归系数的影响,Cook 距离有助于识别对模型有重大影响的观测值。然后可以进一步检查这些异常值,以确定是否应保留它们或将它们从数据集中删除15。
- 2.使用 Z 分数标准化方法进行标准化:标准化过程对于保持变量的一致尺度至关重要,从而防止任何单个特征由于其量级较大而对分析产生过大影响。一种常用的标准化技术是 Z 分数标准化,其中每个特征都经过一个变换,即减去平均值并除以标准差。上述程序涉及将数据围绕零循环化,同时将标准差设为 1,以便为所有变量建立一致的尺度16。
- 3.将数据集拆分为测试集和训练集:将数据集拆分为训练子集和测试子集对于准确评估预测模型至关重要。随机拆分将 20–80% 的数据分配给测试集,其余数据分配给训练集。