Page 16 - 《南京医科大学学报社会科学版》2025年第5期
P. 16

南                                             第5期 总第130期
                                                    南京医科大学学报(社会科学版)京医科大学学报(社会科学版)
              · 440  ·
                                             Journal of Nanjing Medical University(Social Sciences)of Nanjing Medical University(Social Sciences)  2025年10月
                                             Journal
                                                                                                          [9]
               探究,实现对政策主题核心内容的深入剖析。为保                            性,一致性代表对特定主题进行解释的难易程度 。
               证文本获取的全面性,参考过往此类研究文献,以                                困惑度衡量模型对测试数据的预测能力,值越
              “养老服务”“公共服务”“养老”“基本养老”等作为                          低表示模型越好:
               关键词,在中国政府网等国家机构网站、北大法宝                                                 æ  M    N d  log P(w | θ ,Ф) ö
                                                                                                         d
                                                                                                      d,n
               及中国知网中检索 2015—2025 年与养老服务相关                           Perplexity(D)=exp ç ç ∑ d = 1∑ n = 1  M  N  ÷ ÷
               的政策文本(不包含港澳台地区数据)。为保证所纳                                                è       ∑ d = 1  d     ø
               入政策文本的准确性和针对性,纳入标准为:①发文                               D 是测试数据集,M 是文档总数,Nd是文档 d 中
               机构权威,包括中共中央、国务院及其部委等机构;                           的单词数,wd,n是文档 d 中第 n 个单词,θd是文档 d 的
               ②内容与养老服务明确相关;③政策类型选取法律、                           主题分布, Ф 是主题词分布, P(ωd,n| θd, Ф )是文档 d
               规划、意见、通知等文件。排除标准为:①会议讲话、                          生成单词ωd,n的概率。
               工作报告、政策解读等文本;②只出现关键词,无实质                              主题一致性衡量主题内部词的语义相似性,使
               性相关内容的文本;③与其他政策文本重复 。                             用PMI(pointwise mutual information)方法计算。
                                                    [5]
                  (二)研究方法                                                         M  L  L
                                                                              Cv= ∑∑∑ PMI(ω L ,ω J )
                   由于政策法规这类特殊文本的高维词项特性,                                          m = 1 l = 1  j = l + 1
               传统的基于相似性度量的分类和聚类等文本挖掘                                 其中,Cv是主题一致性指标,M是主题数,L是每
               技术实施后的结果缺乏可解释性,而主题模型则提                            个主题的前 L 个高频词,PMI(wL,wJ)是词 wL和 wJ的
               供了新型语义降维与探索主题结构的新方法                        [6] 。  点互信息,衡量两个词的共现关联性。
               LDA 主题模型是一种文档主题生成模型,致力于从                              对主题一致性与主题困惑度进行计算,主题选
               政策文本的集合中挖掘隐藏的主题信息特征,对文                            择区间为 1~11 个,结果如图 1 所示。当主题困惑度
               本数据从语义的层次进行挖掘,为揭示文档集合中的                           为 7 时,困惑度最低且存在拐点,同时,主题一致性
               潜在语义结构提供理论指导 。通过 LDA 模型,可                         较高,说明该主题数量适宜。
                                        [7]
               以从大量文本数据中自动提取潜在的主题结构,在政                                   590
               策文本分析中,LDA 模型凭借独特的建构方式,能够
                                                                         580
               迅速挖掘政策的核心主题,从而深入理解政策内容的
               重点和方向。因此本文采用LDA主题模型进行养老                                   570
               服务领域政策法规原始文本的主题挖掘。                                        困惑度  560
                  (三)研究设计
                   1. 文本预处理                                              550
                   在构建 LDA 主题模型的过程中,针对政策文本                               540
               数据集进行预处理是必不可少的步骤。由于文本
                                                                         530
               中包含大量数字、人名、标点符号等对分析无实质
                                                                                2     4     6     8    10
               性贡献的字符,这些元素可能会对模型构成干扰。                                                    主题数量
               为此,需要实施分词处理,并去除停用词,以提升模
                                                                         0.44
               型的效率和准确性。接着对每条文本进行预处理,
                                                                         0.42
               包括去掉标点符号、数字、英文字母并只保留中文,
                                                                         0.40
               通过词汇切分将词汇切分长度设置为大于等于 2。
               最终得到“养老服务”“机构”“养老”“健康”“社区”                               一致性  0.38
              “社会”“鼓励”“管理”“居家”“老年”“设施”“政策”                               0.36
              “照护”“民政部”“护理”等词汇。                                          0.34
                   2. 主题词选取                                              0.32
                   主题数量的选择显著地影响文本的分析效果:                                  0.30
               若主题数量过多,每个主题包含的内容不够充分,                                            2    4     6     8    10
                                                                                          主题数量
               则缺乏足够的代表性,难以抓取到有价值的信息;
               若主题数量过少,数据的多样性无法有效捕捉,主                                        图1 困惑度与一致性折线图
               题过于宽泛,涵盖多个不同的概念,则模型的解释能
                                                                                二、结果与分析
               力和准确性降低。因此,在实际操作中通常借助困惑
               度(perplexity)和一致性(coherence)来确定最佳的主                   (一)政策文本概况
                     [8]
               题数量 。困惑度代表文档归属特定主题的不确定                                2015—2025 年,从中国政府网等国家机构网
   11   12   13   14   15   16   17   18   19   20   21