Page 25 - 南京医科大学学报自然科学版
P. 25
第41卷第11期 刘天娇,张晶晶,马洁桦,等. 润滑障碍中的lncRNA⁃mRNA共表达网络的构建及功能预测[J].
2021年11月 南京医科大学学报(自然科学版),2021,41(11):1585-1591 ·1587 ·
的位置进行分类得到分布图,直观反映出在已有的 1.2.7 差异基因功能富集分析
参考基因组注释中样品基因组的转录情况。同时, 对显著性差异表达的 mRNA 进行富集分析,以
通过均一性分布图观察 reads 在基因的不同位置分 了解 mRNA 在 LD 中的作用。结合 KEGG orthology
布情况,若分布相对比较均匀,则表明cDNA片段化 based annotation system(KOBAS)数据库对共表达网
的随机性好。 络 中 的 mRNA 进 行 了 通 路(pathway)、疾 病(dis⁃
1.2.4 lncRNA表达量及样品相关性分析 ease)、基因本体学(gene ontology,GO)和KEGG(kyo⁃
新的 lncRNA 预测主要通过基本过滤、编码能 to encyclopedia of genes and genomes)富集分析。利
力过滤等筛选出符合要求的转录本,将筛选所得的 用Benjamini⁃Hochberg进行多重假设检验,校正P值
转录本作为新的 lncRNA 进行后续分析,通过长度 <0.05 被认为富集分析具有统计学意义,根据结果
进行过滤。通过过滤得到了 known lncRNA 及 novol 显示排名前30的通路、疾病和GO富集术语。
lncRNA,合并全部lncRNA以及mRNA得到 lncRNA及
2 结 果
mRNA的全部转录本id,根据转录本id,在total RNA
的表达量分析列表中分别提取 lncRNA 与mRNA 的 2.1 lncRNA及mRNA的差异表达分析
表达量,进行lncRNA部分样品的相关性分析。 通过下一代测序技术,根据|Log2FC|≥2、校正后
1.2.5 差异表达分析 P 值<0.05 的标准筛选出 LD 组和对照组中差异表
使用R语言的edgeR/limma软件包实现对LD组 达的lncRNA以及mRNA(图1)。通过对LD组和对照
和对照组中 lncRNA 以及 mRNA 进行差异表达分 组相关RNA的差异表达分析,共得到499条表达上
析。limma包分析过程中通过比较假设检验来评估 调的 lncRNA 与 337 条表达下调的 lncRNA,以及 1
给定基因集中的基因是否相对于不在集内的基因 582 条 表 达 上 调 的 mRNA 与 633 条 表 达 下 调 的
在差异表达基因的排序中更靠前。再通过基因间 mRNA。后续研究也以这些差异表达的基因为基础
相关性和基因集的规模得到方差膨胀因子,用它调 进行分析。
整基因集检验统计值的方差后,将会返回根据多重 2.2 基于lncRNA与mRNA的共表达网络的构建
假设检验进行了校正的P值。在两个组中,以差异倍 为了探索LD组与对照组差异表达的lncRNA与
数(fold change,FC)绝对值≥2和P值<0.05为标准来 mRNA 之间的关系,使用Cytoscape 软件进一步构建
筛选组间显著差异表达(Differentially expressed,DE) 了共表达网络以可视化 lncRNA 与 mRNA 之间的关
的 DE⁃lncRNA 以及 DE⁃mRNA。同时,以皮尔森相 系(图2)。最终,100个lncRNA与311个mRNA 共同
关系数(Pearson correlation coefficient,PCC)的绝对 参与构建了 lncRNA⁃mRNA 的共表达网络。
值>0.95 及校正后 P 值<0.05 为标准,结合 lncRNA 2.3 共表达网络中mRNA的功能富集分析
和mRNA间的相关性分析筛选具有相关关系的DE⁃ 当共表达结果得到的mRNA数量多于20时,进
lncRNA及DE⁃mRNA。用Circos软件绘制circos图。 行富集分析。本研究对显著关系对中的 mRNA 对
1.2.6 基于DE⁃lncRNA 和DE⁃mRNA的共表达网络 应的基因分别进行了疾病、基因本体学以及通路的
构建 富集分析,并展示了富集分析中排名前30项的富集
基因共表达网络的构建直观地显示了 lncRNA 结果。在疾病富集分析中,发现显著富集到的疾病
和 mRNA 之间的关联性,其基本方法是对差异 包括 Brugada 综合征(Brugada syndrome)、上皮性卵
lncRNA 和 mRNA 的全部样本表达值进行相关性计 巢癌(epithelial ovarian cancer)、肌原纤维肌病(myo⁃
算,筛选出显著相关的 lncRNA⁃mRNA 关系对。通 fibrillar myopathies,MFM)、心肌疾病(muscular dis⁃
过 R 软件中的 corr.test 函数计算基于 DE⁃lncRNA 表 eases)、扩张性心肌病(dilated cardiomyopathy,DCM)
达水平和 DE⁃mRNA 靶向的 PCC 值,采用 Pearson 相 以及骨密度(bone mineral density)等(表1)。而在随
关系数,默认过滤阈值为0.99;假设检验P值校正采 后的 GO 分析中,发现显著富集到的生物过程包括
用holm算法,默认过滤阈值为0.05。默认不考虑同 循 环 系 统 的 发 育(circulatory system development,
种 RNA 类型之间的相关性。以 PCC>0.95 和 P< GO:0072359)、心血管系统的发育(cardiovascular
0.05 为标准,保留有相关关系的 DE⁃lncRNA 和 DE⁃ system development,GO:0072358)以及单个组织发
mRNA 作为后续研究的基础。使用 Cytoscape 软件 育过程(single⁃organism developmental process,GO:
实现lncRNA⁃mRNA共表达网络的可视化。 0044767)等,显著富集到的细胞成分则包括收缩性