Page 16 - 《南京医科大学学报社会科学版》2025年第5期

P. 16

南第5期总第130期
南京医科大学学报（社会科学版）京医科大学学报（社会科学版）
· 440 ·
Journal of Nanjing Medical University（Social Sciences）of Nanjing Medical University（Social Sciences） 2025年10月
Journal
［9］
探究，实现对政策主题核心内容的深入剖析。为保性，一致性代表对特定主题进行解释的难易程度。
证文本获取的全面性，参考过往此类研究文献，以困惑度衡量模型对测试数据的预测能力，值越
“养老服务”“公共服务”“养老”“基本养老”等作为低表示模型越好：
关键词，在中国政府网等国家机构网站、北大法宝 æ M N d log P(w | θ ,Ф) ö
d
d,n
及中国知网中检索 2015—2025 年与养老服务相关 Perplexity（D）=exp ç ç ∑ d = 1∑ n = 1 M N ÷ ÷
的政策文本（不包含港澳台地区数据）。为保证所纳 è ∑ d = 1 d ø
入政策文本的准确性和针对性，纳入标准为：①发文 D 是测试数据集，M 是文档总数，Nd是文档 d 中
机构权威，包括中共中央、国务院及其部委等机构；的单词数，wd，n是文档 d 中第 n 个单词，θd是文档 d 的
②内容与养老服务明确相关；③政策类型选取法律、主题分布， Ф 是主题词分布， P（ωd，n| θd， Ф ）是文档 d
规划、意见、通知等文件。排除标准为：①会议讲话、生成单词ωd，n的概率。
工作报告、政策解读等文本；②只出现关键词，无实质主题一致性衡量主题内部词的语义相似性，使
性相关内容的文本；③与其他政策文本重复。用PMI（pointwise mutual information）方法计算。
［5］
（二）研究方法 M L L
Cv= ∑∑∑ PMI(ω L ，ω J )
由于政策法规这类特殊文本的高维词项特性， m = 1 l = 1 j = l + 1
传统的基于相似性度量的分类和聚类等文本挖掘其中，Cv是主题一致性指标，M是主题数，L是每
技术实施后的结果缺乏可解释性，而主题模型则提个主题的前 L 个高频词，PMI（wL，wJ）是词 wL和 wJ的
供了新型语义降维与探索主题结构的新方法［6］。点互信息，衡量两个词的共现关联性。
LDA 主题模型是一种文档主题生成模型，致力于从对主题一致性与主题困惑度进行计算，主题选
政策文本的集合中挖掘隐藏的主题信息特征，对文择区间为 1~11 个，结果如图 1 所示。当主题困惑度
本数据从语义的层次进行挖掘，为揭示文档集合中的为 7 时，困惑度最低且存在拐点，同时，主题一致性
潜在语义结构提供理论指导。通过 LDA 模型，可较高，说明该主题数量适宜。
［7］
以从大量文本数据中自动提取潜在的主题结构，在政 590
策文本分析中，LDA 模型凭借独特的建构方式，能够
580
迅速挖掘政策的核心主题，从而深入理解政策内容的
重点和方向。因此本文采用LDA主题模型进行养老 570
服务领域政策法规原始文本的主题挖掘。困惑度 560
（三）研究设计
1. 文本预处理 550
在构建 LDA 主题模型的过程中，针对政策文本 540
数据集进行预处理是必不可少的步骤。由于文本
530
中包含大量数字、人名、标点符号等对分析无实质
2 4 6 8 10
性贡献的字符，这些元素可能会对模型构成干扰。主题数量
为此，需要实施分词处理，并去除停用词，以提升模
0.44
型的效率和准确性。接着对每条文本进行预处理，
0.42
包括去掉标点符号、数字、英文字母并只保留中文，
0.40
通过词汇切分将词汇切分长度设置为大于等于 2。
最终得到“养老服务”“机构”“养老”“健康”“社区” 一致性 0.38
“社会”“鼓励”“管理”“居家”“老年”“设施”“政策” 0.36
“照护”“民政部”“护理”等词汇。 0.34
2. 主题词选取 0.32
主题数量的选择显著地影响文本的分析效果： 0.30
若主题数量过多，每个主题包含的内容不够充分， 2 4 6 8 10
主题数量
则缺乏足够的代表性，难以抓取到有价值的信息；
若主题数量过少，数据的多样性无法有效捕捉，主图1 困惑度与一致性折线图
题过于宽泛，涵盖多个不同的概念，则模型的解释能
二、结果与分析
力和准确性降低。因此，在实际操作中通常借助困惑
度（perplexity）和一致性（coherence）来确定最佳的主（一）政策文本概况
［8］
题数量。困惑度代表文档归属特定主题的不确定 2015—2025 年，从中国政府网等国家机构网

11 12 13 14 15 16 17 18 19 20 21