Pharmacy Prod

拉曼光谱和卷积神经网络在细菌实验中的讨论

Author:管理员

讨论

在这项工作中,我们将最先进的深度学习技术应用于嘈杂的拉曼光谱,以识别临床相关细菌及其经验性治疗。正如我们在临床数据集上展示的那样,在我们的数据集上预训练的 CNN 模型可以通过对少量临床分离株进行微调轻松扩展到新的临床环境。我们设想像这里展示的那样的微调过程可能是持续评估和改进部署模型的重要组成部分。我们的模型在此应用于临床相关细菌的识别,只需少量修改即可应用于其他识别问题,例如材料识别,或其他光谱技术,例如核磁共振、红外或质谱。

本研究使用 1 s 的测量时间,对应于比典型报告的细菌光谱低一个数量级的 SNR,同时与典型的拉曼细菌鉴定研究相比,在更多分离物类别上仍实现了可比或更高的鉴定准确度。用于减少测量时间的一个常见的策略是使用等离子体结构,其可以由几个数量级的增加信号强度的表面增强拉曼散射(SERS)11,42,43。SERS 光谱变化很大且难以重现,尤其是在细胞样本上8 , 44,使得开发基于 SERS 的可靠诊断方法变得困难。然而,通过捕捉 SERS 光谱变化广度的数据集,CNN 可以启用一个平台,在几个小时内处理血液、痰液或尿液样本。

与其他无培养方法45相比,包括单细胞测序46、47、48、49和荧光或磁标记50,拉曼光谱具有独特的潜力,可以成为一种不需要专门设计的标签的识别表型的技术,允许易于推广到新的菌株。

为了获得与基于培养方法的治疗建议一样细粒度的治疗建议,需要更大的数据集来涵盖更多耐药性和易感性临床分离株、抗生素敏感性谱、细胞状态以及生长培养基和条件的更大多样性。尽管收集此类数据集超出了学术范围,需要高度自动化的样本制备和数据采集过程,但临床转化仍有希望。同样,应用拉曼-CNN 系统来识别相关生物流体(如全血、痰和尿液)中的病原体的研究是证明该方法作为诊断工具有效性的未来方向。当与这样的自动化系统结合时,这里展示的拉曼-CNN 平台可以快速扫描和识别患者样本中的每个细胞,并一步推荐抗生素治疗,而无需等待培养步骤。这种技术将允许在数小时内对细菌感染进行准确和有针对性的治疗,降低医疗保健成本和抗生素滥用,限制抗菌素耐药性并改善患者预后。

方法

数据集

参考数据集由 30 个细菌和酵母菌分离物组成,包括革兰氏阴性和革兰氏阳性菌的多个分离物,以及念珠菌属。我们还包括来自同一菌株的一对等基因金黄色葡萄球菌,其中一个变体包含甲氧西林 (MRSA)的mecA抗性基因,而另一个不包含 (MSSA) 51(见补充表 1完整的隔离信息)。参考训练数据集包含 30 个参考分离株的 2000 个光谱,以及 3 个测量时间的同基因 MSSA。参考微调和测试数据集均包含 30 个参考分离株中每一个的 100 个光谱。第一个临床数据集由分布在 5 个物种的 30 个患者分离株组成,每个分离株有 400 个光谱。第二个临床数据集由分布在相同 5 个物种中的 25 个患者分离株组成,每个分离株有 100 个光谱。由于光学系统效率的下降,参考微调和测试以及第二个临床数据集的测量时间从 1 秒增加到 2 秒,以保持数据集之间的 SNR 一致。通过使用 PCR (PMID: 19741081) 检测 mecA,对甲氧西林进行第一次基因型检测,从而确定抗生素敏感性。然后在 Microscan Walkaway 仪器(Beckman Coulter, Brea, CA)和 VITEK® 2(Biomérieux, Inc., Durham, NC)上进行表型抗微生物药敏试验。

数据集方差

对于我们的数据集,我们观察到样本内方差很高,如补充图2 中总结的成对光谱差异分析所证明的那样 。对于 30 种分离物中的 19 种,平均而言,至少一种其他分离物的光谱比同一分离物的光谱更相似。例如,当我们按照与粪肠球菌2的相似性对分离株进行排序时(补充图 2 c),还有 8 个其他分离株,其中粪肠球菌2 的光谱与其他分离株的光谱之间的平均差异较小比来自粪肠球菌的两个光谱之间的平均差异 2. 当样本内方差较高时,每个样本的大量光谱可能有助于更好地表示完整的数据分布并导致更高的预测性能。

样品制备

测量前每天在血琼脂平板上培养细菌分离物。在样品制备前,将板用封口膜密封并在 4°C 下储存 20 分钟至 12 小时。存储时间不同,以允许每天多次测量;然而,所有其他样品制备条件在样品之间保持一致。未发现储存时间的差异导致光谱变化大于由于应变或等基因差异引起的光谱变化。所有临床分离株均在具有一致样品制备条件的单独样品中制备。由于测试样本是与用于训练的样本分开制备的,因此我们得出结论,分类不是由于批次效应(例如样本制备的差异)造成的。我们通过悬浮 0 来制备用于测量的样品。 1 a、b)。通过将 200 nm 的金电子束蒸发到显微镜载玻片上来制备基材,这些载玻片使用基础食人鱼进行了预清洁。在测量前让样品干燥 1 小时。

拉曼测量

我们使用 Horiba LabRAM HR Evolution 拉曼显微镜的映射模式测量了干燥样品单层区域的拉曼光谱(图 1a)。使用 13.17 mW 的 633 nm 照明与 300 l/mm 光栅生成具有 1.2 cm -1色散的光谱,以最大化信号强度,同时最小化来自自发荧光的背景信号。使用硅样品进行波数校准。×100 0.9 NA 物镜 (Olympus MPLAN) 产生衍射极限光斑尺寸~直径 1 µm。一个 45 × 45 的离散点图是在点之间以 3 µm 的间距拍摄的,以避免光谱之间的重叠。使用 Biodata 工具箱中提供的 subbackmod Matlab 函数,使用 5 阶多项式拟合对光谱进行单独背景校正(参见补充图 1有关原始和校正光谱的示例)。大多数光谱是在真正的单层上测量的,并且由于衍射限制的激光光斑尺寸(大约是细菌细胞的大小)而产生于 ~1 个细胞。然而,可以在聚集体或多层区域上采集少量光谱。我们通过按信号强度对光谱进行排序并丢弃强度最高的 25 个光谱来排除最有可能是非单层测量的光谱,其中包括强度大于平均值两个标准偏差的所有光谱。我们测量了单层和单细胞,发现单层测量的 SNR 为 2.5 ± 0.7,类似于单细胞测量 (2.4 ± 0.6),同时允许半自动生成大型训练数据集。光谱范围在 381.98 和 1792.4 cm 之间使用 -1,并且光谱被单独标准化以在该光谱范围内从最小强度 0 和最大强度 1 运行。SNR 值的计算方法是将总强度范围除以没有拉曼信号的区域中 20 像素宽窗口的强度范围。

CNN 架构和训练细节

CNN 架构改编自 Resnet 架构37,该架构已在一系列计算机视觉任务中取得广泛成功。它由一个初始卷积层、6 个残差层和一个最终的全连接分类层组成——框图见图 1. 残差层包含每个残差块的输入和输出之间的快捷连接,允许更好的梯度传播和稳定的训练(详见参考文献 37)。每个残差层包含 4 个卷积层,因此网络的总深度为 26 层。初始卷积层有 64 个卷积滤波器,而每个隐藏层有 100 个滤波器。这些架构超参数是通过网格搜索选择的,在隔离分类任务上使用一个训练和验证拆分。我们还试验了简单的 MLP(多层感知器)和 CNN 架构,但发现基于 Resnet 的架构表现最好。

我们首先在 30-isolate 分类任务上训练网络,其中 CNN 的输出是 30 个类别的概率向量,并将最大概率作为预测类别。除了最终分类层中的类数之外,二元 MRSA/MSSA 和二元等基因 MRSA/MSSA 分类器具有与 30-isolate 分类器相同的架构。我们使用 Adam 优化器52在学习率为 0.001、betas (0.5, 0.999) 和批量大小为 10 的所有实验中。 5 个随机选择的训练和验证分割报告了分类精度。我们首先在参考训练数据集上预训练 CNN,然后在参考微调数据集上进行微调,以解决由于光学系统效率下降导致的测量变化。对于 5 个分割中的每一个,我们将微调数据分割为 90/10 训练和验证分割,在训练分割上训练 CNN,并使用验证分割上的准确性来执行模型选择。然后,我们评估并报告从独立培养和准备的样本中收集的测试数据集的测试准确性。二元 MRSA/MSSA 分类器使用相同的程序进行训练和微调。

为参考数据集的测试报告的所有错误值都是 5 个分割的标准偏差值。

虽然大量样本有利于确保数据集的变化,但深度学习方法仍然可以从每个样本的大量示例中受益。当样本内方差很高时,正如我们对数据集所观察到的那样,每个样本的大量光谱可能更好地代表完整分布并导致更高的预测性能。

对于临床分离株,我们首先在 30 个参考分离株的经验性治疗标签上对 CNN 进行预训练。然后,我们使用以下留一病人交叉验证 (LOOCV) 策略来微调 CNN 的参数。共有 5 个物种的 25 个患者分离株。在 5 折中的每一个中,我们将每个物种的 1 名患者分配给测试集,每个物种的 1 名患者分配给验证集,每个物种的其余 3 名患者分配给训练(即微调)集。然后我们使用临床训练集(由 15 名患者的分离株组成)来微调 CNN 参数,并使用验证集(5 名患者分离株)的准确性来进行模型选择。使用下述方法在测试集(5 个患者分离株)上评估每个折叠的测试准确度。

临床鉴定数据分析

为了确定患者分离株,对每个患者分离株的样本测量了 400 个光谱。随机选择这些光谱中的 10 个进行分类。然后选择 10 个光谱分类中最常见的类别作为每个患者隔离的标识,并随机打破联系。在临床数据集上报告的所有错误值都是随机选择 10 个光谱的 10,000 次试验的标准偏差,准确度上限为 100%。对于第二个临床数据集,我们执行相同的程序,除了我们为每个患者分离株从 100 个光谱中选择 10 个,并使用在参考数据集上预先训练并在第一个临床数据集上微调的模型。

基线

在使用逻辑回归 (LR) 和支持向量机 (SVM) 基线的所有实验中,我们首先使用 PCA 将输入维度从 1000 减少到 20 — 该超参数是通过在一次训练和验证中绘制不同设置的测试精度来确定的为 30 个隔离任务拆分并选择一个接近测试精度饱和的值。仅使用前 20 个主成分不仅可以降低计算成本,还可以通过减少数据中的噪声量来提高准确性。对于交叉验证过程的每一部分,我们使用网格搜索为每个模型选择正则化超参数,以实现最佳验证准确度并报告相应的测试准确度。使用训练和微调参考数据集来训练基线模型,LR 和 SVM 达到 57。在 30 级任务中分别为 5% 和 56.8%,在经验治疗任务中分别为 89.0% 和 88.3%。仅使用微调参考数据集,LR 和 SVM 在 30 类任务上分别达到 75.7% 和 74.9%,在经验治疗任务上分别达到 93.3% 和 92.2%。后者的性能更高,因为基线模型不像 CNN 那样受益于额外的训练数据,而是受益于与测试数据的测量条件最匹配的训练数据。


Recommend
Related Product
Online Service
Contact

Hotline

+86-138 0199 7980

Office hour

Monday to Saturday

Company Phone

13801997980

QR Code
OnlineService