人工智能首页 > 深度学习 > 正文

深度学习:用深度学习技术来预测肺癌

2019-08-06 阅读888次

  肺癌有两种主要亚型:腺癌和鳞状细胞癌。能否对这些亚型进行区分极其重要,因为每个亚型都有自己的治疗方案,针对腺癌和鳞状细胞癌的靶向治疗各不相同。尤其是腺癌需要进行基因突变分析;靶向的原发性突变包括表皮生长因子受体(epidermal growth factor receptor,EGFR)、间变性淋巴瘤受体酪氨酸激酶(anapestic lymphoma receptor tyrosine kinase,ALK)、肿瘤蛋白 53(tumor protein 53,TP53)和 KRAS 突变。

  识别这些突变至关重要,因为每种突变都有专门的治疗方法。例如,EGFR 和 ALK 突变已经有了美国食品药品监督管理局(Food and Drug Administration,FDA)批准的靶向治疗。目前分析肺癌组织样本的方法(组织样本的人工目视检查)既详尽,又有时不准确。此外,这种方法也很难区分腺癌和鳞状细胞癌。因此,能够准确分析肺癌组织的自动化机器学习模型将是非常有益的。

  


  每一类的全切片图像(whole-slide images,WSI)数量,其中 LUSC 代表鳞状细胞癌,LUAD 代表腺癌。图片来源:Coudray 等人,论文的原作者。

  肺癌影像数据集

  作者使用了来自 NCI 基因组数据共享平台(Genomic Data Commons,GDC)的数据;他们检索了大约 1700 张全切片图像,其中 609 例为鳞状细胞癌阳性,567 张为腺癌阳性,459 张为正常。他们使用滑窗(sliding-window)算法从这些全切片图像生成了大约 100 万个 512×512 像素的窗口。基本上,他们在整个组织样本上滑动一个假象的“窗口”(可以高达 100000×100000 像素),并将每个窗口用做单独的样本。然后,他们将得到的 100 万个窗口进行分割,其中 70% 用作训练集,15% 用作验证,15% 用作测试集。

  AI 前线注:GDC(Genomic Data Commons)是美国国家癌症研究所(National Cancer Institute,NCI)的研究计划,使命是为癌症研究界提供统一的数据存储库,以便在癌症基因组研究中共享数据,支持精准医学。它包含几个大规模的癌症基因组研究计划的数据,包括 TCGA、OCG。而 OCG 包括两项支持癌症分子鉴定的计划,TARGET 和 CGCI。

  


  使用 Inception v3 进行机器学习

  作者的模型基于 Inception V3 架构,它使用不同内核大小的卷积和最大池化层组成的 Inception 模块。* 你说的这个卷积是什么?我主要讲的是卷积神经网络(convolutional neural networks,CNN);这些神经网络特别擅长图像处理,而这恰好是本文试图要做的事情。

  AI 前线注:Inception V3 是深度神经网络的架构之一,最早由 Google 于 2014 年发布 Inception V1,2015 年发布 Inception V2。Inception V3 在 Inception V2 的基础上用 RMSProp 代替 SGD,替换了一个 7×7 的卷积层为 3×3 的卷积层。具体详情可参阅 What is the difference between Inception V2 and Inception V3? (《Inception V2 与 Inception V3 的区别》:https://datascience.stackexchange.com/questions/15328/what-is-the-difference-between-inception-v2-and-inception-v3

  迁移学习

  


  本文还将迁移学习应用于腺癌和鳞状细胞癌的分类。但什么是迁移学习?迁移学习基本上是一种使用他人模型的方法。神经网络具有层间权重,这些权重有利于模型的实际运行。因此,如果你能得到这些精确的权重,那么你本质上就是复制粘贴模型。这就是所谓的迁移学习——使用他人训练的权重,然后根据你自己的目的对其进行微调。在本例中,作者使用了在 ImageNet 竞赛中表现最佳的权重,并对肺癌数据进行了微调。当然,还有一些其他超参数用于模型,损失函数(交叉熵)、学习率 (0.1)、权重衰减 (0.9)、动量 (0.9) 和优化器(RMSProp)。

  训练

  因为他们有两个不同的任务(预测腺癌和鳞状细胞癌以及预测腺癌切片的基因突变),他们训练了模型的多种变体,在第一项任务中,他们训练模型来预测正常组织与腺癌、鳞状细胞癌。对于第二项任务,他们训练模型来预测每个二元基因突变,而不是作为多类分类器 。这意味着它们的实现允许肺癌组织中的每个 512×512 切片对不止一个基因图片呈阳性。对于这两项任务,他们对模型进行了 500000 次迭代的训练。

  结果

  他们通过几种方法验证了模型的有效性。首先他们将模型与病理学家进行了比较。在独立的测试集上,被模型错误分类的切片中,有 50% 也被病理学家错误分类;而被病理学家错误分类的切片中,有 83% 被模型正确分类。这被视为模型表现与病理学家不相上下的证据。作者还计算了模型对每个基因突变的正确率,发现该模型比彩塑所有的突变要好得多。


随意打赏