Page 42 - 南京医科大学学报自然科学版
P. 42

第41卷第12期
               ·1748 ·                           南 京    医 科 大 学 学         报                        2021年12月


                  乳腺癌是女性中最常见的一种恶性肿瘤,同时                          基因表达数据、芯片和微阵列的数据库,从中下载
                                          [1]
              致死率也居于女性癌症第 1 位 。乳房钼靶密度                           数据集GSEGSE38506进行分析,该芯片数据集基于
             (mammographic density,MD)指的是在乳腺钼靶中                 GPL570 平台,共 13 例组织样本,其中包括 6 位低
              整个乳房中致密组织的百分比,乳房中致密区域主                            MD女性以及7 位高MD女性的正常乳腺组织样本。
              要是由成纤维细胞、上皮细胞和结缔组织组成的纤                            1.2  方法
              维腺乳腺组织 。乳腺纤维腺组织在乳腺钼靶上看                            1.2.1 鉴定差异表达基因
                          [2]
              起来很致密,而脂肪则显得稀疏,所以比脂肪组织更                                GEO2R(http://www.ncbi.nlm.nih.gov/geo/geo2r/)
                                                         [3]
              能阻挡 X 射线,因此在乳房钼靶上显示为白色 。                          用于鉴定高 MD 组和低 MD 组的差异表达基因(dif⁃
              致密的乳腺组织的存在极大增加了患乳腺癌的风                             ferentially expressed gene,DEG)。在分析结果中,基
              险 。在1项评估乳房密度为乳腺癌独立危险因素                            因表达的差异用 P 值和差异倍数(fold change,FC)
                [4]
              研究的荟萃分析中,与密集乳房相关的相对风险                             的对数(logFC)表示。此次研究将 P < 0.05 且 |log⁃
              为:密度为50%~74%的乳房为2.92,密度为75%或                      FC|>1 的基因纳入DEG。
              更高的乳房为 4.64 。与低密度乳腺组织相比,致                         1.2.2 DEGs的GO及KEGG信号通路富集分析
                               [5]
              密的乳腺组织还具有更大的 DNA 损伤反应(DDR)                             用 DAVID 数据库(The Database for Annotation,
                                       [6]                                                               [10]
              基因表达和较短的端粒长度 。这些数据表明,MD                           Visualization and Integrated Discovery,v6.8)  对
              的增加与乳腺癌风险的增加之间存在很强的正相                             DEG 进行 GO 和 KEGG 功能注释和富集分析,发掘
              关性。                                               其涉及的相关通路。GO 的功能注释主要分为 3 部
                  近年来,随着高通量技术的发展,基因芯片和                          分,包括生物过程(biological process,BP)、分子功能
              基因测序的运用已成为研究肿瘤疾病必要且高效                             (molecular function,MF)和细胞成分(cellular compo⁃
              的方法。如今是数据共享时代,各大数据库中拥有                            nent,CC)。KEGG 是一个包含关于基因组、生物途
              丰富的基因检测和分析结果,但缺少精确、有效的                            径、疾病和化学物质信息的数据库集合。富集分析
              数据挖掘。越来越多的研究者将目光投到基于生                             的结果以P < 0.05 作为入选标准。
              物信息学来分析各种癌症的分子机制                  [7-8] 。迄今为      1.2.3 PPI网络的构建
              止很多研究表明致密型乳腺与乳腺癌患病风险增                                  使用 STRING 数据库 (https://string⁃db.org)对
                                                                                       [11]
              加有关,但尚未发现一些潜在的差异表达基因,核                            DEG 蛋白质间的相互作用进行分析,构建 DEG 的
              心基因和相关的信号通路,这可能有助于了解高                             PPI 网络。综合得分>0.4 作为相互作用存在的标
              MD增加乳腺癌发生的分子机制,并为高MD乳腺癌                           准。Cytoscape 软件(3.8.0 版)是用于可视化分子相
              患者的治疗提供候选靶点。本研究从美国国立生                             互作用网络的开源生物信息学软件平台                     [12] ,可对
              物技术信息中心(National Center for Biotechnology         STRING 数 据 库 得 到 的 PPI 信 息 进 一 步 构 建 。
              Information,NCBI)基 因 表 达 综 合 数 据 库(NCBI ⁃         MCODE 是Cytoscape中一种用于基于拓扑对给定网
              GEO)(http://www.ncbi.nlm.nih.gov/geo)下载原始的        络进行聚类以发现密集连接区域的插件                   [13] ,可筛选
              微阵列数据集GSE38506并进行分析,以获取高MD                        出PPI网络中最显著的模块。
              和低 MD 的正常女性之间的差异表达基因。随后,                          1.2.4 Hub基因的筛选
              为了确定相关的基因和信号通路,进行了基因本体                                 使用 Cytoscape 的 CytoHubba 插件,用 5 种分类
              论(gene ontology,GO),京都市基因与基因组百科全                  方法来评估核心基因。先筛选出每种方法分值排
              书(Kyoto Encyclopedia of Genes and Genomes,        名前15位的基因,然后根据5种方法重叠的基因筛

              KEGG)富集途径分析和蛋白质相互作用(protein⁃                      选为Hub基因。
              protein interaction,PPI)网络分析。通过生物信息学              1.2.5 Hub基因的预后分析
              研究了正常女性不同 MD 的差异表达基因,为临床                               Breast Cancer Gene⁃Expression Miner(bc⁃GenEx⁃
              治疗和药物靶标发现提供了潜在的生物标志物。                             Miner)数据库是一个收录乳腺癌数据的在线数据挖
                                                                掘 工 具(http://bcgenex.centregauducheau.fr/,v4.5),
              1  资料和方法
                                                                提供了评估乳腺癌基因预后信息,并可将结果绘制
              1.1  资料                                           为生存分析曲线图,分析肿瘤中某特定基因与死亡
                  NCBI的 GEO数据库是一个公共的存储高通量                       时间的关系,结果以 95%置信区间(CI)和危险比来
   37   38   39   40   41   42   43   44   45   46   47