-
胆管癌(cholangiocarcinoma,CCA)起源于肝内或肝外胆管上皮细胞,根据解剖位置分为肝内胆管癌(intrahepatic cholangiocarcinoma,iCCA)、肝门部胆管癌(perihilar cholangiocarcinoma,pCCA)和远端胆管癌(distal cholangiocarcinoma,dCCA)[1-2]。在大多数 CCA 中,pCCA 占 60%~70%,dCCA 占 20%~30%,iCCA占5%~10%。CCA是第二常见的肝胆恶性肿瘤,占所有肝胆恶性肿瘤的 1%~15%[3]。尽管 CCA的平均发病率较低,但CCA的早期诊断和治疗难度较大,患者整体预后较差[4]。最近,iCCA 已成为原发性肝肿瘤相关死亡的主要原因[5]。目前全身药物治疗仅限于晚期或转移性CCA 患者,而手术治疗仅适用于早期CCA 患者,其复发风险高。中晚期 CCA 患者中位生存时间少于 2 年,5 年生存率仅为 10%[3,6]。寻找影响CCA发生和进展的基因驱动因素对于探索分子诊断和靶向治疗具有重要意义[1]。近年来,生物标志物研究在CCA的预测、治疗和预后方面取得了进展[7]。例如,在pCCA和dCCA中已鉴定出 KRAS突变和PRKACB 融合基因,在iCCA中已鉴定出异柠檬酸脱氢酶(IDH)的体细胞突变[8]。此外,诱导型一氧化氮合酶(iNOS)通过炎症依赖性方式参与 CCA的发生。然而,由于遗传异质性强,目前对CCA 分子机制的认识尚不全面,对促进CCA启动和发展的遗传变异的理解仍然是片面的。此外,致癌的关键驱动基因仍然未知[4,9]。因此,研究CCA的发病机制并确定参与CCA发展的枢纽基因仍然是一项重大挑战。
-
基因综合表达数据库(gene expression omnibus, GEO)是一个公共基因表达库,包含超过 94 000 个数据集和超过 200 万个样本[10]。这是一个丰富的资源库,通过适当的方法和工具,可用于整合基因表达数据,用于生物标志物发现[11]、疾病分类或表型比较[12] 等。癌症基因组图谱(TCGA)是一项公共资助项目,主要目的在于对30多个人类癌症的大型队列中的主要致癌基因组改变进行研究。有许多基于 TCGA 的CCA肿瘤学研究[15-16],如Wang等[17] 研究了 lncRNA⁃miRNA⁃mRNAceRNA 网络,并确定了 3 种 lncRNA,即 COL18A1 ⁃ AS1、SLC6A1 ⁃ AS1 和 HULC与CCA 患者的总体存活率显著相关。为了对癌症基因组图谱进行综合分析,在TCGA中应用了依赖于使用微阵列和下一代测序方法的高通量技术[13]。RNA测序(RNAseq)已成为转录组(总RNA) 分析和获取准确链信息的有用工具[14]。RNAseq是一种有利于对差异表达基因相互作用和相关信号通路进行高精度系统综合研究的方法。此外,蛋白质⁃蛋白质相互作用网络(protein⁃protein interaction, PPI)可用于区分中枢基因,这些基因被定义为具有高度连接性的基因,在稳定 PPI 网络结构方面发挥重要作用。
-
本研究旨在通过运用生物信息学方法分析 GEO数据库中基因芯片数据集,发掘CCA的核心基因,为探索CCA的发病机制和潜在治疗靶点提供一定的理论依据。
-
1 资料和方法
-
1.1 资料
-
本研究所使用的基因数据来自基因表达数据库 GEO(https://www.ncbi.nlm.nih.gov/geo/)。从数据库中检索关于人 CCA 相关的数据集,经过筛选,选择了 3 个基因表达谱(GSE32879、GSE45001 和 GSE76297),其中GSE32879和GSE76297分别来自Affymetrix 的GPL6244和GPL14550,GSE45001来自Agilent的GPL14550(表1)。
-
1.2 方法
-
1.2.1 差异表达基因(differentially expressed gene, DEG)的获取
-
使用在线分析工具 GEO2R(https://www.ncbi. nlm.nih.gov/geo/geo2r/)分析上述 3 个数据集中 CCA 样本和正常样本之间的 DEG,以 P < 0.05 且 |log2FC ≥1|的基因被认为是DEG。
-
1.2.2 差异基因的火山图和韦恩图的绘制
-
在线分析使用韦恩图网络工具(bioinformatics. psb.ugent.be/webtools/Venn/)对3个数据集的DEG取交集而获得共有差异基因。
-
1.2.3 DEG的GO和KEGG通路分析
-
GO 分析是功能富集研究的常用方法之一; KEGG是一个被广泛使用的数据库,它存储了大量关于基因组、信号通路、疾病模型和药物等的数据。本研究中DEG的GO注释富集分析和KEGG通路富集分析是通过 DAVID 数据库工具(https://da⁃ vid.ncifcrf.gov/)进行的。P < 0.01和计数≥10认为具有统计学意义。
-
1.2.4 蛋白互作网络和枢纽基因的构建
-
使用检索相互作用基因(STRING)数据库 (http://string⁃db.org/)进行PPI分析。随后,使用Cy⁃ toscape软件(www.cytoscape.org/)对PPI进行可视化,并构建枢纽基因模块。在本研究中,前10个基因被确定为枢纽基因。
-
1.2.5 枢纽基因的表达验证及生存分析
-
运用 GEPIA(http://gepia.cancer ⁃ pku.cn /)对枢纽基因进行表达水平和生存分析。
-
1.2.6 枢纽基因的表达验证
-
通过 RT ⁃ PCR 和 Western blot 检测枢纽基因 SLC2A2在CCA及正常胆管细胞的表达量(SLC2A2⁃F:5′ ⁃GCTGCTCAACTAATCACCATGC ⁃3′;SLC2A2⁃ R:5′⁃TGGTCCCAATTTTGAAAACCCC⁃3′)。
-
1.3 统计学方法
-
SPSS 20 用于数据处理和统计分析。每组 3 个独立重复的数据表示为均数±标准差()。两个独立样本组间比较采用t检验,多组间比较采用方差分析(ANOVA)。生存分析采用Kaplan⁃Meier法并进行Log⁃rank检验,P < 0.05 为差异有统计学意义。
-
2 结果
-
2.1 DEG的筛选
-
使用在线数据库对差异基因进行火山图绘制 (图1A~C)。根据 P < 0.05 和|log2FC|≥1 的标准,从 GSE32879中共鉴定出573个上调和1 167个下调基因;在基因芯片GSE45001中共鉴定出667个上调基因和1 481个下调基因;GSE76297芯片中共鉴定出 416个上调基因和586个下调基因。随后,对3个数据集取交集绘制韦恩图(图1D)。最后,筛选出151个上调基因,50个下调基因,选择上调基因进行后续的分析研究。
-
2.2 DEG的功能富集分析
-
使用DAVID对上调的差异基因进行GO功能和 KEGG 通路富集分析。GO 富集分析主要包括生物学过程(biological process,BP)、细胞组分(cellular component,CC)和分子功能(molecular function,MF) 3 个方面。BP 主要集中在氧化还原反应和药物反应;CC方面,主要作为线粒体、线粒体基质、胞质、外泌体等发挥作用;MF 分析提示 DEG 在肽链内切酶活性和受体结合中发挥作用(图2A)。此外,KEGG 通路分析结果表明差异基因主要集中在代谢、补充凝固级联和过氧化物酶体等信号通路中(图2B)。
-
2.3 PPI网络分析和枢纽基因模块构建
-
使用STRING工具预测DEG之间的蛋白质相互作用,将获得的PPI数据导入Cytoscape软件并运用 CytoHubba 插件计算每个蛋白之间的连接度,筛选出连接度最高的前10名作为枢纽基因(图3)。结果表明,甲酰亚胺基转移酶环脱氨酶(FTCD)连接度最高(为35),其他枢纽基因依次是AGXT、SERPINC1、FETUB、F13B、SLC2A2、APOA1、HGD、PIPOX 和 CAT,连接度分别为 34、28、2、25、25、23、23、22 和 2。所有这些枢纽基因在CCA中均被上调。
-
图1 差异基因火山图及韦恩图
-
Figure1 Differential gene volcano map and Wayne map
-
图2 CCA相关基因的富集分析
-
Figure2 Enrichment analysis of genes associated with CCA
-
2.4 枢纽基因的生存分析
-
为了研究10个潜在枢纽基因的预后价值,使用了GEPIA生物信息学分析平台。共有36例CCA患者可用于总生存期的分析。结果发现,在这些枢纽基因中,有6个枢纽基因的高表达与CCA患者不利的总体生存率有关(图4)。由于TCGA数据库中的 CCA患者仅有36例,因此进行生存统计学分析时生存数据无统计学意义,但总体趋势有差异。
-
2.5 枢纽基因在CCA组织表达与免疫浸润水平
-
肿瘤浸润淋巴细胞影响各种癌症患者的生存。因此,分析与预后相关的枢纽基因表达与6种浸润性免疫细胞(CD8+ T细胞、CD4+ T细胞、B 细胞、树突状细胞、巨噬细胞和中性粒细胞)的关联。分析结果显示在 CCA中,SLC2A2 枢纽基因的表达水平与 B 细胞(r =-041,P =0.014)、CD8 + T 细胞(r =-0.352,P =0.038)、巨噬细胞(r =-0.364,P =0.032)、中性粒细胞( r =-0.15,P <0.001)和树突状细胞(r =-0.45,P =0.006)相关(图5)。
-
图3 差异基因蛋白互作网络分析图
-
Figure3 Differential gene protein interaction network analysis diagram
-
图4 6个胆管癌枢细基因与患者总体生存率分析
-
Figure4 Survival analysis of hub genes in cholangiocarcinoma in TCGA
-
2.6 SLC2A2在CCA细胞系的表达情况
-
为了验证枢纽基因的准确性,选取了 SLC2A2 枢纽基因进行验证,RT ⁃PCR 和 Western blot 显示 SLC2A2 在正常胆管上皮细胞 BEC 细胞系低表达,在 RBE、CCT、9810、QCB⁃939 这 4 种 CCA细胞系中均高表达(图6)。
-
3 讨论
-
CCA是一种异质性疾病,各亚型的组织病理学特征和临床表现均不同。CCA 预后较差,5年生存率不足百分之十[3]。手术切除是治疗CCA的主要方式之一[19],但 CCA复发和内脏转移的可能性极高。目前,临床各种靶向药物及免疫治疗药物飞速发展,但是针对于 CCA 的靶向药物匮乏,因此,对于 CCA进行基础研究,了解CCA的发生发展,将为CCA 的靶向治疗和免疫治疗提供新的方向。
-
整合多个数据集分析已被证明可以提高检测能力。与单个阵列分析相比,集成多个阵列被认为是提高结果可靠性的更好方法[20]。在目前研究中, 3个数据集中的每一个肿瘤组都独立于正常组。
-
本研究中,基于公开数据库进行基因表达和 PPI分析,以确定与CCA相关的潜在关键基因。基于来自GEO数据库的基因表达谱数据筛选出 CCA 和健康人类胆管组织之间的差异基因。本文总共确定了151个上调的 DEG 和 50个下调的 DEG。对上调基因做后续分析发现,上调基因 GO 富集主要富集于 CCA中的氧化还原、药物反应、肽链内切酶活性、受体结合等;KEGG 通路富集分析表明,代谢途径、补充和凝固级联、过氧物酶体在内的通路存在明显富集。PPI 分析最终确定了 6 个枢纽基因 (AGXT、 APOA1、 F13B、 FETUB、 SERPINC1、 SLC2A2)的高表达明显与更低的OS相关,在CCA中起着促进 CCA 发生发展的作用。SERPINA1 和 SERPINC1 是 serpin 家族的成员,研究人员发现 SERPINA1 可改善非小细胞肺癌细胞迁移、集落形成和抗凋亡[21]。而据报道,SERPINC1 的敲低可通过抑制PI3K抑制神经祖细胞增殖/Akt/mTOR 信号通路[22]。APOA1是高密度脂蛋白的主要蛋白质成分,它将多余的胆固醇从器官运送到肝脏进行排泄。 APOA1发挥抗细胞凋亡、抗炎和抗氧化活性,这些活性与肿瘤发生有关[23]。在恶性黑色素瘤的小鼠模型中,APOA1也表现出抗肿瘤作用。然而,在本研究中,确定APOA1在CCA样品中显著增加,表明 APOA1在CCA的发生发展中可能具有潜在的刺激作用,有待进一步研究。易化葡萄糖转运蛋白 2 (SLC2A2)因其对葡萄糖的低亲和力而被视为葡萄糖传感器,抑制 SLC2A2 导致胰岛素分泌受损。研究表明,SLC2A2在HepG2细胞中的表达被SLC2A1 取代,导致营养物质摄取增强和细胞增殖[24]。Fe⁃tuinB(FETUB)是一种糖蛋白,是半胱氨酸蛋白酶抑制剂蛋白家族的一员,尤其是3型半胱氨酸蛋白酶抑制剂之一[25]。半胱氨酸蛋白酶抑素家族基因位于小鼠16号染色体的近端区域和人染色体3q26⁃28 上。虽然研究表明这些基因与凝血、肿瘤发生和血管生成有关[26],但是其具体功能和分子机制还是未知。过氧化氢酶(catalase,CAT)是一种 250 kDa 的四聚体蛋白,由4个相似的亚基组成,每个亚基都包含一个血红素基团[27-28]。CAT在某些组织中高度表达,保护细胞免受过量形成的ROS的影响。CAT的异常表达或活性降低可导致细胞内ROS浓度升高,直接或间接诱发肿瘤发生[29-30]。结果表明,生物过程、细胞成分、分子功能和途径的变化可能在 CCA 的发病机制中起至关重要的作用。本研究结果强调了通过 CCA 中的异常表达来调节这些关键生物学行为的重要性,这需要进一步的实验数据来进行验证。
-
图5 CCA 中HUB基因表达与免疫浸润之间关系
-
Figure5 Relationship between HUB genes expression and immune infiltration in CCA
-
图6 qRT⁃PCR 和 Western blot 检测各细胞系 SLC2A2 表达情况
-
Figure6 The expression of SLC2A2 in each cell line de⁃ tected by qRT⁃PCR and Western blot
-
免疫细胞是人体最重要的防御武器。免疫系统由各种免疫细胞组成,以防止入侵或传染性病原体,并消除受损细胞或癌细胞[31-32]。位于肿瘤微环境中的免疫细胞包括 T 细胞、Tregs、B 调节细胞 (Breg)、NK 细胞、DCs、MDSCs 和巨噬细胞等。肿瘤浸润性T淋巴细胞是免疫系统中重要的效应细胞,可分为CD4+ T细胞(辅助T细胞)和CD8+ T细胞(细胞毒性 T 细胞)。最终,通过数据库进行分析发现SLC2A2枢纽基因与多个免疫细胞的浸润相关。为了验证枢纽基因的准确性,对 SLC2A2 枢纽基因进行了RT⁃PCR和Western blot验证,结果显示SLC2A2 枢纽基因在 CCA 各细胞系的表达均高于正常胆管上皮细胞。
-
本研究分析了GEO和TCGA数据库支持的基于阵列和序列的CCA数据,在CCA中发现多个差异表达的基因和重要途径。基于这些基因进行了一系列分析,可能有助于发现新的CCA发生和发展的分子机制。本研究还有些许不足之处。首先,研究是建立在GEO和TCGA数据库上,数据来源和分析可能存在一些偏倚;其次,研究结果是通过统计学原理和方法所得,虽进行部分实验验证,但仍需进一步探究。
-
参考文献
-
[1] RAZUMILAVA N,GORES G J.Cholangiocarcinoma[J].The Lancet,2014,383(9935):2168-2179
-
[2] ZHANG H,SHEN F,HAN J,et al.Epidemiology and sur⁃ gical management of intrahepatic cholangiocarcinoma[J].Hepat Oncol,2016,3(1):83-91
-
[3] BERGQUIST A,VON SETH E.Epidemiology of cholan⁃ giocarcinoma[J].Best Pract Res Clin Gastroenterol,2015,29(2):221-232
-
[4] HU J,YIN B.Advances in biomarkers of biliary tract can⁃ cers[J].Biomed Pharmacother,2016,81:128-135
-
[5] ESNAOLA N F,MEYER J E,KARACHRISTOS A,et al.Evaluation and management of intrahepatic and extrahe⁃ patic cholangiocarcinoma[J].Cancer,2016,122(9):1349-1369
-
[6] RIZVI S,GORES G J.Emerging molecular therapeutic tar⁃ gets for cholangiocarcinoma[J].J Hepatol,2017,67(3):632-644
-
[7] 唐思敏,邓雪婷,李全朋,等.胆管癌的表观遗传学进展 [J].南京医科大学学报(自然科学版),2018,38(9):1322-1325
-
[8] MERTENS J C,RIZVI S,GORES G J.Targeting cholan⁃ giocarcinoma[J].Biochim Biophys Acta Mol Basis Dis,2018,1864(4 Pt B):1454-1460
-
[9] JUSAKUL A,CUTCUTACHE I,YONG C H,et al.Whole⁃ genome and epigenomic landscapes of etiologically dis⁃ tinct subtypes of cholangiocarcinoma[J].Cancer Discov,2017,7(10):1116-1135
-
[10] BARRETT T,WILHITE S E,LEDOUX P,et al.NCBI GEO:archive for functional genomics data sets ⁃ update [J].Nucleic Acids Res,2013,41(Database issue):D991-D995
-
[11] TORO⁃DOMINGUEZ D,CARMONA⁃SAEZ P,ALARCON⁃RIQUELME M E.Shared signatures between rheumatoid arthritis,systemic lupus erythematosus and Sjogren’s syn⁃ drome uncovered through gene expression meta ⁃ analysis [J].Arthritis Res Ther,2014,16(6):489
-
[12] SANCHEZ ⁃ VALLE J,TEJERO H,IBANEZ K,et al.A molecular hypothesis to explain direct and inverse co⁃mor⁃ bidities between Alzheimer’s disease,glioblastoma and lung cancer[J].Sci Rep,2017,7(1):4474
-
[13] TOMCZAK K,CZERWINSKA P,WIZNEROWICZ M.The Cancer Genome Atlas(TCGA):an immeasurable source of knowledge[J].Contemp Oncol(Pozn),2015,19(1A):A68-A77
-
[14] 杜强,姚义勇,曾刚.基于TCGA数据库分析ASPM在肺腺癌中的表达及临床意义[J].癌变·畸变·突变,2020,32(6):457-463
-
[15] SZKLARCZYK D,FRANCESCHINI A,WYDER S,et al.STRING v10:protein ⁃ protein interaction networks,inte⁃ grated over the tree of life[J].Nucleic Acids Res,2015,43(Database issue):D447-D452
-
[16] ZHENG Y,LONG J,WU L,et al.Identification of hub genes involved in the development of hepatocellular carci⁃ noma by transcriptome sequencing[J].Oncotarget,2017,8(36):60358-60367
-
[17] WANG X,HU K B,ZHANG Y Q,et al.Comprehensive analysis of aberrantly expressed profiles of lncRNAs,miRNAs and mRNAs with associated ceRNA network in cholangiocarcinoma[J].Cancer Biomark,2018,23(4):549-559
-
[18] KIM P,PARK A,HAN G,et al.TissGDB:tissue⁃specific gene database in cancer[J].Nucleic Acids Res,2018,46(D1):D1031-D1038
-
[19] 李相成,江王杰,焦臣宇.肝门部胆管癌根治术式选择与意义[J].中华普外科手术学杂志(电子版),2019,13(6):546-549
-
[20] BUTLER J A,COSGROVE J,ALDEN K,et al.Model ⁃ driven experimentation:a new approach to understand mechanisms of tertiary lymphoid tissue formation,func⁃ tion,and therapeutic resolution[J].Front Immunol,2016,7:658
-
[21] ERCETIN E,RICHTMANN S,DELGADO B M,et al.Clinical significance of SERPINA1 gene and its encoded Alpha1 ⁃ antitrypsin protein in NSCLC[J].Cancers(Ba⁃ sel),2019,11(9):1306
-
[22] XU J,YING Y,XIONG G,et al.Knockdown of serpin pep⁃ tidase inhibitor clade C member 1 inhibits the growth of nasopharyngeal carcinoma cells[J].Mol Med Rep,2019,19(5):3658-3666
-
[23] ZAMANIAN⁃DARYOUSH M,DIDONATO J A.Apolipo⁃ protein A⁃I and Cancer[J].Front Pharmacol,2015,6:265
-
[24] LEI Y,HU Q,GU J.Expressions of carbohydrate response element binding protein and glucose transporters in liver cancer and clinical significance[J].Pathol Oncol Res,2020,26(2):1331-1340
-
[25] OLIVIER E,SOURY E,RUMINY P,et al.Fetuin ⁃ B,a second member of the fetuin family in mammals[J].Bio⁃ chem J,2000,350 Pt 2(Pt 2):589-597
-
[26] HSU S J,NAGASE H,BALMAIN A.Identification of Fetuin ⁃B as a member of a cystatin ⁃like gene family on mouse chromosome16 with tumor suppressor activity[J].Genome,2004,47(5):931-946
-
[27] NAGEM R A,MARTINS E A,GONçALVES V M,et al.Crystallization and preliminary X ⁃ ray diffraction studies of human catalase[J].Acta Crystallogr D Biol Crystal⁃ logr,1999,55(Pt 9):1614-1615
-
[28] ZÁMOCKÝ M,KOLLER F.Understanding the structure and function of catalases:clues from molecular evolution and in vitro mutagenesis[J].Prog Biophys Mol Biol,1999,72(1):19-66
-
[29] HASEGAWA Y,TAKANO T,MIYAUCHI A,et al.Decreased expression of catalase mRNA in thyroid ana⁃ plastic carcinoma[J].Jpn J Clin Oncol,2003,33(1):6-9
-
[30] GLORIEUX C,DEJEANS N,SID B,et al.Catalase over⁃ expression in mammary cancer cells leads to a less aggres⁃ sive phenotype and an altered response to chemotherapy [J].Biochem Pharmacol,2011,82(10):1384-1390
-
[31] TU C,ZENG Z,QI P,et al.Identification of genomic alter⁃ ations in nasopharyngeal carcinoma and nasopharyngeal carcinoma ⁃ derived Epstein ⁃Barr virus by whole ⁃ genome sequencing[J].Carcinogenesis,2018,39(12):1517-1528
-
[32] YI M,CAI J,LI J,et al.Rediscovery of NF⁃κB signaling in nasopharyngeal carcinoma:How genetic defects of NF⁃ κB pathway interplay with EBV in driving oncogenesis?[J].J Cell Physiol,2018,233(8):5537-5549
-
摘要
目的:通过生物信息学的方法挖掘基因综合表达数据库(GEO)中影响胆管癌(cholangiocarcinoma,CCA)发生发展的核心基因,并分析其生物学功能,为CCA的诊断、治疗和评估预后提供理论依据。方法:分析来自GEO数据库中的3个微阵列数据集(GSE32879、GSE45001和GSE76297)。使用GEO2R进行在线差异基因的分析,DAVID进行差异基因的GO 和KEGG 通路分析。使用STRING和Cytoscape进行蛋白互作网络分析(PPI)和枢纽基因(HUB)的筛选。结果:共筛选出151个上调基因,通过PPI筛选出连接度最高的10个基因,分析发现APOA1、AGXT、F13B、FETUB、FERPINC1、SLC2A2这些枢纽基因过度表达与胆管癌的不良预后相关。结论:通过生物信息学探索的枢纽基因可能在胆管癌的发生发展中起着重要作用,并为进一步研究胆管癌的分子机制提供了一定的理论依据。
Abstract
Objective:The study was to excavated the core genes in the GEO database that affect the development of cholangiocarcinoma(CCA)by bioinformatics,and to analyze the biological function to provide theoretical basis for the diagnosis, treatment and prognosis evaluation of CCA. Methods:We analyzed three microarray datasets(GSE32879,GSE45001 and GSE76297) from the Gene Expression Omnibus(GEO). Uning GEO2R for online differential gene analysis,DAVID for differential gene pathway analysis from GO and KEGG,STRING and Cytoscape for Protein-Protein interaction network(PPI)analysis and screening of hub gene. Results:A total of 151 up-regulated genes were screened,and the top 10 most connected genes were selected through PPI analysis, which revealed that APOA1,AGXT,F13B,FETUB,FERPINC1,SLC2A2 were overexpressed and correlated with poor prognosis in cholangiocarcinoma. Conclusion:The hub genes explored by bioinformatics may play an important role in the occurrence and development of cholangiocarcinoma and provide a certain theoretical basis for further research on the molecular mechanisms of cholangiocarcinoma.
Keywords
cholangiocarcinoma ; bioinformation ; gene expression omnibus ; hub gene ; prognosis