利用机器学习对癌症进行检测与分析

科技 06-29 来源： AI火箭营

DNA甲基化在基因表达调控中起重要作用，其修饰可导致癌细胞的产生或抑制。

介绍

机器学习（ML）在医学中的应用现在变得越来越重要。研究人员现在在脑电图分析和癌症检测/分析等应用中使用ML。例如，通过检查诸如DNA甲基化和RNA测序的生物学数据，可以推断哪些基因可以导致癌症以及哪些基因可以反而能够抑制其表达。

本文将向您介绍我如何检查9个关于TCGA肝脏、宫颈癌和结肠癌的不同数据集。所有数据集均由UCSC Xena（加州大学圣克鲁兹分校网站）提供。对于所考虑的3种不同类型的癌症中的每一种，使用三个数据集，其包含关于DNA甲基化的信息（Methylation450k），基因表达RNAseq（IlluminaHiSeq），最后是外显子表达RNAseq（IlluminaHiSeq）。然后根据信息类型而不是癌症对这些数据集进行分组。

我们决定使用这些数据集，因为它们具有共同的所有特征并共享相似数量的样本。

此外，选择这些类型的癌症，因为它们提供了人体基因和染色体特征的不同视图，因为不同的癌症位于身体的不同部位。通过这种方式，在本文练习中获得的分类结果可以推广到其他形式的癌症。

DNA甲基化在基因表达调控中起重要作用，其修饰可导致癌细胞的产生或抑制。

分类

每个数据集都必须进行转置和预处理。在形成最终的三个数据集之后，进行不同类型的癌症之间的分类。为了产生这些结果，使用70％的训练，30％的测试分流比。如表1所示，考虑了许多分类算法。这些结果是利用整个数据集和分类器获得的，旨在正确区分三种不同类型的癌症。

表1

特征提取

对3个给定的数据集进行了主成分分析（PCA），以了解如何仅使用前两个主成分来影响分类精度结果（表2）。PCA旨在减少数据集的维度，同时保留尽可能多的差异。从表2中可以看出，将数据维度降低到仅仅两个特征并不会导致准确性的急剧下降。

表2

图1提供了使用Logistic回归的PCA分类结果，两个轴代表PCA创建的两个主要成分。外显子表达数据集似乎受PCA影响最大，得分最高可达65％。这个结果的原因是不同类之间的主要重叠，如图1（c）所示。

图1

最后，我决定应用另一种特征提取技术，如t-SNE。可以实现该技术以将高维数据可视化到较低维空间中，从而最大化不同类之间的分离。结果显示在图2中，双轴代表由t-SNE设计的两个主要组分。三种不同类型的癌症中的每一种都使用不同的颜色标记（TCGA肝脏= 0，颈椎= 1，结肠= 2）。可以看出，通过图2，t-SNE创建了两个能够很好地分离三个不同类的特征。

图2

特征选择

前面的部分向我们展示了使用整个数据集可以实现非常好的分类结果。使用诸如PCA和t-SNE之类的特征提取技术，已经表明可以降低维数，同时仍然产生可观的分类分数。

由于这些结果，我们绘制一个决策树，用于表示分类中使用的主要特征（具有最大权重的特征），以便仔细查看最重要的特征。由于其在所有三个数据集中的分类性能，我决定使用决策树进行分析。结果可见于图3（DNA甲基化），图4（基因表达）和图5（外显子表达）。

在这些图中的每一个中，不同的癌症类型由不同的颜色表示（TCGA肝脏= 0，颈椎= 1，结肠= 2）。所有三种癌症的特征分布都在树的起始节点中表示。只要我们向下移动每个分支，算法就会尝试使用每个节点图下面描述的特征来最好地分离不同的分布。与分布一起生成的圆圈表示在跟随某个节点之后正确分类的元素的数量，元素的数量越大，圆的大小越大。

为了制作这些图表，我使用了由Terence Parr和Prince Grover创建的dtreeviz.trees库。我决定使用这个库，因为它使我能够可视化树的每个分支中的特征分布。当试图分析类之间的差异并观察算法如何做出其分类决策时，这在生物学范围内尤其重要。

评估

表3提供了在三个不同树的顶部（前两个级别）使用的特征的总结。经过仔细研究，查看在线可用数据库后，为每个功能添加了一系列相关注释（表3）。在cg27427318和chr10：81374338-81375201的情况下，无法找到任何相关信息。

表3

从分析的特征推断出的一些最有趣的结果是：

PFN3已被确定为与cg06105778最接近的基因。根据李邹，丁志杰等人的研究。在2010年，Profilins（Pfns）可能被归类为乳腺癌中的肿瘤抑制蛋白。
根据Noel J. Aherne，Guhan Rangaswamy等人的"Holt-Oram综合征男性前列腺癌：TBX5突变的第一临床关联"，TBX5基因"被认为是上调肿瘤细胞增殖和转移的时候"。突变"[5]。Yu J，Ma X等人的另一项研究。相反，患有TBX5结肠癌的患者存活率低得多。
由Alexa Hryniuk，Stephanie Grainger等人进行的研究。强调"缺失Cdx1导致远端结肠肿瘤发生率显着增加"。

仅使用表3中列出的各个数据集中的特性，我最终决定使用PCA和线性判别分析（LDA）将数据简化为二维，并执行朴素贝叶斯（NB）和支持向量机（SVM）分类，以了解数据的差异程度。表4中提供了结果，表明仅使用数据集中最重要的特征可以获得出色的分类结果（由于噪音降低）。在所有考虑的案例中，保留了83％至99％的原始数据差异。