当前位置: 首页> 游戏> 手游 > 沈阳建设工程交易网官网_可以进行宣传的网络平台_青岛百度推广优化_做网络优化哪家公司比较好

沈阳建设工程交易网官网_可以进行宣传的网络平台_青岛百度推广优化_做网络优化哪家公司比较好

时间:2025/8/22 12:51:13来源:https://blog.csdn.net/Hou556/article/details/144934398 浏览次数:0次
沈阳建设工程交易网官网_可以进行宣传的网络平台_青岛百度推广优化_做网络优化哪家公司比较好

由于LDA是一个无监督机器学习模型,需要手动输入其主题数,如果主题选择不好,很可能导致最后的结果失真,困惑度(Perplexity)和主题一致性(Coherence)是评估主题模型性能的两个重要指标

一、困惑度(Perplexity)

定义:在信息论中,困惑度用来度量一个概率分布或概率模型预测样本的好坏程度。它也可以用来比较两个概率分布或概率模型,即比较两者在预测样本上的优劣。具体来说,困惑度是句子的概率的倒数,表示对于一篇文章,模型有多不确定它是属于某个主题的。因此,困惑度越低,表示模型对句子的预测越准确,即句子越符合语言的规律。

二、主题一致性(Coherence)

定义:主题一致性是衡量主题模型生成的主题质量的一个重要指标。它反映了主题内部词汇之间的语义关联程度和主题的可解释性。更高的一致性分数表示更好的可解释性,意味着主题更有意义、语义上更连贯。

小结:困惑度越低越好,主题一致性越高越好

三、主题数确定

(1)基于sklearn库确定主题数

Sklearn中的LDA模型自带困惑度lda.perplexity函数输出,但没有一致性输出,具体代码和可视化如下

(2)基于gensim库确定主题数

Genism库需要创建词典和语料库才能进行LDA建模,同时genism库中可以通过CoherenceModel函数计算主题一致性,LdaModel中的log_perplexity 函数计算其模型困惑度

(3) 基于sklearn库代码及结果展示

(4)基于gensim库代码及结果展示

  我是直接用的正大杯的获奖名单进行的分析,所以主题不是特别明显,最后选择主题要综合考量困惑度和一致性,困惑度没有最低,那就选一致性最高,一致性没有最高,那就选困惑度最低,或者取二者的中间。困惑度和一致性只是确定了主题的大致范围,最终也可以通过LDA模型的可视化,看看可视化图有没有重叠,来最终确定LDA的最佳主题数。

关键字:沈阳建设工程交易网官网_可以进行宣传的网络平台_青岛百度推广优化_做网络优化哪家公司比较好

版权声明:

本网仅为发布的内容提供存储空间,不对发表、转载的内容提供任何形式的保证。凡本网注明“来源:XXX网络”的作品,均转载自其它媒体,著作权归作者所有,商业转载请联系作者获得授权,非商业转载请注明出处。

我们尊重并感谢每一位作者,均已注明文章来源和作者。如因作品内容、版权或其它问题,请及时与我们联系,联系邮箱:809451989@qq.com,投稿邮箱:809451989@qq.com

责任编辑: