Page 25 - 南京医科大学学报自然科学版
P. 25

第41卷第11期        刘天娇,张晶晶,马洁桦,等. 润滑障碍中的lncRNA⁃mRNA共表达网络的构建及功能预测[J].
                 2021年11月                    南京医科大学学报(自然科学版),2021,41(11):1585-1591                      ·1587 ·


                的位置进行分类得到分布图,直观反映出在已有的                            1.2.7 差异基因功能富集分析
                参考基因组注释中样品基因组的转录情况。同时,                                对显著性差异表达的 mRNA 进行富集分析,以
                通过均一性分布图观察 reads 在基因的不同位置分                        了解 mRNA 在 LD 中的作用。结合 KEGG orthology
                布情况,若分布相对比较均匀,则表明cDNA片段化                          based annotation system(KOBAS)数据库对共表达网
                的随机性好。                                            络 中 的 mRNA 进 行 了 通 路(pathway)、疾 病(dis⁃
                1.2.4 lncRNA表达量及样品相关性分析                           ease)、基因本体学(gene ontology,GO)和KEGG(kyo⁃
                    新的 lncRNA 预测主要通过基本过滤、编码能                      to encyclopedia of genes and genomes)富集分析。利
                力过滤等筛选出符合要求的转录本,将筛选所得的                            用Benjamini⁃Hochberg进行多重假设检验,校正P值
                转录本作为新的 lncRNA 进行后续分析,通过长度                        <0.05 被认为富集分析具有统计学意义,根据结果

                进行过滤。通过过滤得到了 known lncRNA 及 novol                 显示排名前30的通路、疾病和GO富集术语。
                lncRNA,合并全部lncRNA以及mRNA得到 lncRNA及
                                                                  2  结 果
                mRNA的全部转录本id,根据转录本id,在total RNA
                的表达量分析列表中分别提取 lncRNA 与mRNA 的                      2.1  lncRNA及mRNA的差异表达分析
                表达量,进行lncRNA部分样品的相关性分析。                               通过下一代测序技术,根据|Log2FC|≥2、校正后
                1.2.5 差异表达分析                                      P 值<0.05 的标准筛选出 LD 组和对照组中差异表
                    使用R语言的edgeR/limma软件包实现对LD组                    达的lncRNA以及mRNA(图1)。通过对LD组和对照
                和对照组中 lncRNA 以及 mRNA 进行差异表达分                      组相关RNA的差异表达分析,共得到499条表达上
                析。limma包分析过程中通过比较假设检验来评估                          调的 lncRNA 与 337 条表达下调的 lncRNA,以及 1
                给定基因集中的基因是否相对于不在集内的基因                             582 条 表 达 上 调 的 mRNA 与 633 条 表 达 下 调 的
                在差异表达基因的排序中更靠前。再通过基因间                             mRNA。后续研究也以这些差异表达的基因为基础
                相关性和基因集的规模得到方差膨胀因子,用它调                            进行分析。
                整基因集检验统计值的方差后,将会返回根据多重                            2.2  基于lncRNA与mRNA的共表达网络的构建
                假设检验进行了校正的P值。在两个组中,以差异倍                               为了探索LD组与对照组差异表达的lncRNA与
                数(fold change,FC)绝对值≥2和P值<0.05为标准来                mRNA 之间的关系,使用Cytoscape 软件进一步构建
                筛选组间显著差异表达(Differentially expressed,DE)           了共表达网络以可视化 lncRNA 与 mRNA 之间的关
                的 DE⁃lncRNA 以及 DE⁃mRNA。同时,以皮尔森相                   系(图2)。最终,100个lncRNA与311个mRNA 共同
                关系数(Pearson correlation coefficient,PCC)的绝对       参与构建了 lncRNA⁃mRNA 的共表达网络。
                值>0.95 及校正后 P 值<0.05 为标准,结合 lncRNA                2.3  共表达网络中mRNA的功能富集分析
                和mRNA间的相关性分析筛选具有相关关系的DE⁃                              当共表达结果得到的mRNA数量多于20时,进
                lncRNA及DE⁃mRNA。用Circos软件绘制circos图。                行富集分析。本研究对显著关系对中的 mRNA 对
                1.2.6  基于DE⁃lncRNA 和DE⁃mRNA的共表达网络                 应的基因分别进行了疾病、基因本体学以及通路的
                构建                                                富集分析,并展示了富集分析中排名前30项的富集
                    基因共表达网络的构建直观地显示了 lncRNA                       结果。在疾病富集分析中,发现显著富集到的疾病
                和 mRNA 之间的关联性,其基本方法是对差异                           包括 Brugada 综合征(Brugada syndrome)、上皮性卵
                lncRNA 和 mRNA 的全部样本表达值进行相关性计                      巢癌(epithelial ovarian cancer)、肌原纤维肌病(myo⁃
                算,筛选出显著相关的 lncRNA⁃mRNA 关系对。通                      fibrillar myopathies,MFM)、心肌疾病(muscular dis⁃
                过 R 软件中的 corr.test 函数计算基于 DE⁃lncRNA 表             eases)、扩张性心肌病(dilated cardiomyopathy,DCM)
                达水平和 DE⁃mRNA 靶向的 PCC 值,采用 Pearson 相               以及骨密度(bone mineral density)等(表1)。而在随
                关系数,默认过滤阈值为0.99;假设检验P值校正采                         后的 GO 分析中,发现显著富集到的生物过程包括
                用holm算法,默认过滤阈值为0.05。默认不考虑同                        循 环 系 统 的 发 育(circulatory system development,
                种 RNA 类型之间的相关性。以 PCC>0.95 和 P<                    GO:0072359)、心血管系统的发育(cardiovascular

                0.05 为标准,保留有相关关系的 DE⁃lncRNA 和 DE⁃                 system development,GO:0072358)以及单个组织发
                mRNA 作为后续研究的基础。使用 Cytoscape 软件                    育过程(single⁃organism developmental process,GO:
                实现lncRNA⁃mRNA共表达网络的可视化。                           0044767)等,显著富集到的细胞成分则包括收缩性
   20   21   22   23   24   25   26   27   28   29   30