情报学报  2018, Vol. 37 Issue (3): 305-317    DOI: 10.3772/j.issn.1000-0135.2018.03.008
  情报分析方法与技术 本期目录 | 过刊浏览 | 高级检索 |
共词网络LDA模型的中文短文本主题分析
蔡永明1, 长青2
1. 济南大学商学院,济南 250002;
2. 内蒙古工业大学经济管理学院,呼和浩特 010051
Chinese Short Text Topic Analysis by Latent Dirichlet Allocation Model with Co-word Network Analysis
Cai Yongming1, Chang Qing2
1. Business School, University of Jinan, Jinan 250002;
2. School of Economics and Management, Inner Mongolia University of Technology, Huhhot 010051
全文: PDF (1905 KB)   HTML (1 KB) 
输出: BibTeX | EndNote (RIS)      
摘要 由于短文本的特征稀疏性,传统的LDA或PLSA主题模型分析短文本的效果并不理想。结合社交网络社区发现技术,提出CA-LDA模型(Latent Dirichlet Allocation Model with Co-word network Analysis)。在传统LDA模型的基础上加入共词网络分析,考虑词汇在不同文档间的共现情况,构建词汇社交网络;利用词汇社交网络隐含空间降维的方法,以自同构等价规则,合并在网络中结构特征相同的词汇,在不损失信息的前提下,降低了词汇矩阵稀疏性;考虑词汇搭配关系(网络节点的邻接),以共词网络特征向量中心度调节主题模型中的词汇权重,通过递归累加,提高与重要词汇搭配的词汇的重要性;在传统LDA主题模型吉布斯采样(Gibbs Sampling)过程中,同时增加隐含位置聚类模型的社区发现算法,提高了具有相同搭配关系词汇划分在同一主题下的概率。实验证明该模型在短文本分析中有较好的效果。
服务
把本文推荐给朋友
加入我的书架
加入引用管理器
E-mail Alert
RSS
作者相关文章
蔡永明
长青
关键词 共词网络LDA主题模型(CA-LDA)隐含空间降维自同构等价规则隐含位置聚类    
收稿日期: 2017-05-24     
基金资助:山东省社会科学规划项目“基于复杂网络理论的山东省基础设施系统脆弱性研究”(14CGLJ03)
作者简介: 蔡永明,男,1973年生,博士,副教授,硕士生导师,主要研究数据挖掘、复杂网络;长青,男,1963年生,博士,教授,博士生导师,本文通讯作者,主要研究管理创新、知识管理,E-mail: changqingimut@126.com。
引用本文:   
蔡永明, 长青. 共词网络LDA模型的中文短文本主题分析[J]. 情报学报, 2018, 37(3): 305-317.
Cai Yongming, Chang Qing. Chinese Short Text Topic Analysis by Latent Dirichlet Allocation Model with Co-word Network Analysis. 情报学报, 2018, 37(3): 305-317.
链接本文:  
https://qbxb.istic.ac.cn/CN/10.3772/j.issn.1000-0135.2018.03.008     或     https://qbxb.istic.ac.cn/CN/Y2018/V37/I3/305