Page 16 - 《南京医科大学学报社会科学版》2025年第5期
P. 16
南 第5期 总第130期
南京医科大学学报(社会科学版)京医科大学学报(社会科学版)
· 440 ·
Journal of Nanjing Medical University(Social Sciences)of Nanjing Medical University(Social Sciences) 2025年10月
Journal
[9]
探究,实现对政策主题核心内容的深入剖析。为保 性,一致性代表对特定主题进行解释的难易程度 。
证文本获取的全面性,参考过往此类研究文献,以 困惑度衡量模型对测试数据的预测能力,值越
“养老服务”“公共服务”“养老”“基本养老”等作为 低表示模型越好:
关键词,在中国政府网等国家机构网站、北大法宝 æ M N d log P(w | θ ,Ф) ö
d
d,n
及中国知网中检索 2015—2025 年与养老服务相关 Perplexity(D)=exp ç ç ∑ d = 1∑ n = 1 M N ÷ ÷
的政策文本(不包含港澳台地区数据)。为保证所纳 è ∑ d = 1 d ø
入政策文本的准确性和针对性,纳入标准为:①发文 D 是测试数据集,M 是文档总数,Nd是文档 d 中
机构权威,包括中共中央、国务院及其部委等机构; 的单词数,wd,n是文档 d 中第 n 个单词,θd是文档 d 的
②内容与养老服务明确相关;③政策类型选取法律、 主题分布, Ф 是主题词分布, P(ωd,n| θd, Ф )是文档 d
规划、意见、通知等文件。排除标准为:①会议讲话、 生成单词ωd,n的概率。
工作报告、政策解读等文本;②只出现关键词,无实质 主题一致性衡量主题内部词的语义相似性,使
性相关内容的文本;③与其他政策文本重复 。 用PMI(pointwise mutual information)方法计算。
[5]
(二)研究方法 M L L
Cv= ∑∑∑ PMI(ω L ,ω J )
由于政策法规这类特殊文本的高维词项特性, m = 1 l = 1 j = l + 1
传统的基于相似性度量的分类和聚类等文本挖掘 其中,Cv是主题一致性指标,M是主题数,L是每
技术实施后的结果缺乏可解释性,而主题模型则提 个主题的前 L 个高频词,PMI(wL,wJ)是词 wL和 wJ的
供了新型语义降维与探索主题结构的新方法 [6] 。 点互信息,衡量两个词的共现关联性。
LDA 主题模型是一种文档主题生成模型,致力于从 对主题一致性与主题困惑度进行计算,主题选
政策文本的集合中挖掘隐藏的主题信息特征,对文 择区间为 1~11 个,结果如图 1 所示。当主题困惑度
本数据从语义的层次进行挖掘,为揭示文档集合中的 为 7 时,困惑度最低且存在拐点,同时,主题一致性
潜在语义结构提供理论指导 。通过 LDA 模型,可 较高,说明该主题数量适宜。
[7]
以从大量文本数据中自动提取潜在的主题结构,在政 590
策文本分析中,LDA 模型凭借独特的建构方式,能够
580
迅速挖掘政策的核心主题,从而深入理解政策内容的
重点和方向。因此本文采用LDA主题模型进行养老 570
服务领域政策法规原始文本的主题挖掘。 困惑度 560
(三)研究设计
1. 文本预处理 550
在构建 LDA 主题模型的过程中,针对政策文本 540
数据集进行预处理是必不可少的步骤。由于文本
530
中包含大量数字、人名、标点符号等对分析无实质
2 4 6 8 10
性贡献的字符,这些元素可能会对模型构成干扰。 主题数量
为此,需要实施分词处理,并去除停用词,以提升模
0.44
型的效率和准确性。接着对每条文本进行预处理,
0.42
包括去掉标点符号、数字、英文字母并只保留中文,
0.40
通过词汇切分将词汇切分长度设置为大于等于 2。
最终得到“养老服务”“机构”“养老”“健康”“社区” 一致性 0.38
“社会”“鼓励”“管理”“居家”“老年”“设施”“政策” 0.36
“照护”“民政部”“护理”等词汇。 0.34
2. 主题词选取 0.32
主题数量的选择显著地影响文本的分析效果: 0.30
若主题数量过多,每个主题包含的内容不够充分, 2 4 6 8 10
主题数量
则缺乏足够的代表性,难以抓取到有价值的信息;
若主题数量过少,数据的多样性无法有效捕捉,主 图1 困惑度与一致性折线图
题过于宽泛,涵盖多个不同的概念,则模型的解释能
二、结果与分析
力和准确性降低。因此,在实际操作中通常借助困惑
度(perplexity)和一致性(coherence)来确定最佳的主 (一)政策文本概况
[8]
题数量 。困惑度代表文档归属特定主题的不确定 2015—2025 年,从中国政府网等国家机构网

