Page 31 - 《南京医科大学学报》2026年第1期

P. 31

第46卷第1期杨明哲，陈仁杰. 基于cfDNA多组学模型进行头颈部鳞状细胞癌早期诊断的研
2026年1月究进展［J］. 南京医科大学学报（自然科学版），2026，46（1）：21-30 · 25 ·

中最常见的基因改变之一，其突变频率较高，常与肿境、基因突变、HPV 感染及解剖部位等信息，结合
瘤侵袭性和预后不良相关［28］。此外，有相关研究揭预测模型和临床前研究模型，强化了免疫治疗的
示 PIK3CA、CDKN2A、NOTCH1 等基因也与 HNSCC 作用，为开发更精准的个性化治疗方案提供了科
的发生、发展密切相关［18］。并且，源于 HNSCC 的病学基础，并能够发现新治疗靶点以提高免疫疗法的
毒相关性，在挖掘生物标志物时需基于病毒状态进疗效［36］。随着数据整合策略的进一步优化和标志
行分子分型。Seiwert 等［29］的研究显示，HPV阴性与物组合的不断改进，cfDNA 多组学分析的临床应用
阳性的突变谱截然不同：阴性富集 TP53、CDKN2A、价值将逐步提高。
MLL2、CUL3、NSD1、PIK3CA 等相关的基因突变；阳
4 多组学模型的构建、算法和验证
性则在DDX3X、FGFR2/3中显示出独特的突变。而
Lechner等［30］的研究则表明SSTR2在EB病毒相关的 4.1 多组学模型构建流程
HNSCC中呈现出高频且特异的表达。构建多组学模型的前提是建立起一个针对HNSCC
转录组学：可揭示HNSCC中基因表达的异常模的特异性标志物的筛选标准，旨在从基因组、表观
式，主要包括mRNA、非编码RNA两个方面。例如，组学等多组学维度中筛选出与病因驱动、HPV状态
EGFR 是许多癌症中常见的驱动基因，其过表达与及临床结局密切相关的高价值特征。在此基础上，
肿瘤的增殖、侵袭和治疗耐药密切相关［31］。非编码模型的构建流程通常包含以下环节：首先，要对数
RNA方面，有相关研究表明，HPV E6/E7基因表达是据进行预处理，包括对原始数据的清洗和质控，且
［32］
HPV阳性HNSCC的重要标志物。正确处理数据的配对关系［37］。预处理的方法也应
表观组学：主要涉及HNSCC中DNA甲基化、组适应不同测序方式，以便于下游应用，同时不能过
蛋白修饰、染色质重塑的相关作用。在 HPV 阴性度增加计算负担。其次，在多组学数据中提取各组
HNSCC 中，p16 基因的启动子甲基化较为常见，并的关键特征，例如基因组中的基因突变频率、表观
且这种甲基化与肿瘤抑制基因失活相关。组中的 DNA 甲基化、分子组中的 cfDNA 片段特征
［31］
蛋白质组学：主要表现为HNSCC中关键蛋白表等。为了简化分析流程，减少计算的复杂度，应使
达和功能方面的变化。在 HNSCC 的复发和转移过用特征选择或相关降维技术，例如最小绝对值收
程中，免疫逃逸是一个重要因素，而PD⁃L1的表达被敛与选择算子（least absolute shrinkage and selection
认为是其中的一部分机制。 operator，LASSO）回归、随机森林重要性分析、最大
［33］
3.3 HNSCC相关的cfDNA多组学标志物研究相关最小冗余（maximum relevance minimum redun⁃
在HNSCC的相关研究中，cfDNA的遗传特征和 dancy，mRMR）等，用于筛选最能区分不同类别的特
表观遗传特征可以反映出肿瘤分子的变异。基于征组合。最后，根据筛选出的数据特征选择合适的
基因组学、转录组学、表观组学等多组学整合，在标机器学习和深度学习算法，如随机森林、SVM、梯度
志物的诊断、预测准确率和预测性能等方面可获得提升树（gradient boosting decision trees，GBDT）、神
显著提高。为了实现多组学数据的整合，使 cfDNA 经网络（neural network）等。此外还可以使用超参数
中的遗传信息和表观遗传信息获得充分的发掘，机优化和早停策略来训练和优化模型。
器学习算法得到了广泛应用，旨在构建更加精准的 4.2 关键算法和技术
标志物组合。随机森林（random forest）、支持向量机在多组学模型的构建过程中，机器学习和深度
（support vector machine，SVM）等机器学习算法能够学习算法在其中发挥了重要作用。在机器学习算
高效率处理高维度、多变量的组学数据。而深度学法方面，随机森林算法适用于处理高维数据和非线
习模型，特别是自编码器（autoencoder），则能通过非性关系［38］。SVM 算法可通过最大间隔超平面和支
线性降维，从海量数据中自动学习深层次特征，更持向量选择，在小样本数据中表现优异，并可通过
有效地解决多组学数据整合中的高维度和噪声问调整惩罚参数部分缓解类别不平衡问题［39］。梯度
题［34］。生物网络分析也是一种重要的整合方法。提升树和在其基础上改善的 XGBoost 和 LightGBM
利用该方法，将多组学数据整合后，可以更加全面算法，在处理大规模数据时可使处理效率获得显著
地理解疾病发生发展的分子机制，从而发现新的疾提升［40-41］。而在深度学习方面，其具有的自动特征
病基因、解释基因突变的意义，并识别相关生物标学习能力和处理非线性关系的能力，能够发现数据
志物［35］。多组学通过整合 HNSCC 患者的免疫微环中的复杂结构和关联，适用于多组学数据的融合分

26 27 28 29 30 31 32 33 34 35 36