基于非线性规划理论的事件主题词过滤方法
高影繁1 , 苏娜2 , 张运良1 , 韩红旗1
1. 中国科学技术信息研究所,北京 100038; 2. 中国科学院科技战略咨询研究院,北京 100190
A Method of Event Subject Words Filtering Based on Nonlinear Programming Theory
GAO Yingfan1 , SU Na2 , ZHANG Yunliang1 , HAN Hongqi1
1. Institute of Scientific and Technical Information of China, Beijing 100038; 2. Institute of Science and Development, Chunese Acaolemy of Science, Beijing 100190
摘要 本文提出一种基于非线性规划理论的突发事件主题词自动过滤方法。首先以左右邻接熵为主题短语的边界识别依据,选出更具信息量的短语作为候选主题词,然后通过将候选主题词回溯原始文档集合的方式过滤掉部分噪声词,最后采用基于非线性规划理论的函数,对抽取到的候选主题词按权重进行排序,选定更具突发事件类别表征能力的主题词。在几个类别突发事件语料上与传统的TF-IDF算法的对比实验结果说明了本文方法的有效性和实用价值。
关键词 :
突发事件 ,
左右邻接熵 ,
噪声词过滤 ,
非线性规划理论
收稿日期: 2017-03-15
基金资助: 国家科技支撑计划项目“面向科技情报分析的信息服务资源开发与支撑技术研究”(2015BAH25F01)
作者简介 : 高影繁,女,1974年生,博士,副研究员,主要研究方向为文本挖掘、知识组织,E-mail:gaoyingf@istic.ac.cn;苏娜,女,1983年生,博士,助理研究员,主要研究方向为计算情报学理论方法与应用,科技评价与科技管理,E-mail: suna@casipm.ac.cn;张运良,1979年生,博士,研究员,主要研究方向为知识组织,E-mail:zhangyl@istic.ac.cn;韩红旗,1971年生,博士,副研究员,主要研究方向为数据挖掘,E-mail:hanhq@isitc.ac.cn。
引用本文:
高影繁, 苏娜, 张运良, 韩红旗. 基于非线性规划理论的事件主题词过滤方法[J]. 情报学报, 2018, 37(1): 61-67.
GAO Yingfan, SU Na, ZHANG Yunliang, HAN Hongqi. A Method of Event Subject Words Filtering Based on Nonlinear Programming Theory. 情报学报, 2018, 37(1): 61-67.
链接本文:
https://qbxb.istic.ac.cn/CN/10.3772/j.issn.1000-0135.2018.01.007 或 https://qbxb.istic.ac.cn/CN/Y2018/V37/I1/61
[1] 范维澄. 国家突发公共事件应急管理中科学问题的思考和建议[J]. 中国科学基金, 2007, 21(2): 71-76. [2] 陈飞, 刘奕群, 魏超, 等. 基于条件随机场方法的开放领域新词发现[J]. 软件学报, 2013, 24(5): 1051-1060. [3] 陈平, 周昌乐, 练睿婷. 一种改进的KEA关键词抽取算法研究[J]. 心智与计算, 2011(2): 48-54. [4] Popescu A M, Nguyen B, Etzioni O.OPINE: Extracting product features and opinions from reviews[C]// Proceedings of HLT/EMNLP on Demonstration. Stroudsburg: Association for Computational Linguistics, 2005: 32-33. [5] 夏天. 词语位置加权TextRank的关键词抽取研究[J]. 现代图书情报技术, 2013(9): 30-34. [6] 陈炯, 张永奎. 基于加权信息论的突发事件新闻主题抽取方法[J]. 计算机应用, 2008, 28(s1): 150-151. [7] 张永奎, 李红娟. 基于类别关键词的突发事件新闻文本分类方法[J]. 计算机应用, 2008, 28(s1): 139-140, 143. [8] 杨建林. 关键词选择策略及其对共词分析的影响[J]. 情报学报, 2014, 33(10): 1083-1090. [9] 金保华,林青,吴怀广. 基于中文关键词提取的预案智能匹配方案[J]. 郑州轻工业学院学报(自然科学版), 2013, 28(2): 78-82, 86. [10] 郑魁, 疏学明, 袁宏永. 网络舆情热点信息自动发现方法[J]. 计算机工程, 2010, 36(3): 4-6. [11] 樊梦佳, 段东圣, 杜翠兰, 等. 统计与规则相融合的领域术语抽取算法[J]. 计算机应用研究, 2016, 33(8): 2282-2285, 2306. [12] Kim K H, Choi S J.Label propagation through minimax paths for scalable semi-supervised learning[J]. Pattern Recognition Letters, 2014, 45: 17-25. [13] Zhu X J, Ghahramani Z, Laffert J.Semi-supervised learning using Gaussian fields and harmonic functions[C]// Proceeding of the 20th International Conference on Machine Learning. Palo Alto: AAAI Press, 2003: 912-919. [14] 孙新, 欧阳童, 严西敏, 等. 基于训练集裁剪的加权K近邻文本分类算法[J]. 情报工程, 2016(6): 8-16. [15] 姚恩瑜, 何勇, 陈仕平. 数学规划与组合优化[M]. 杭州: 浙江大学出版社, 2001: 10. [16] Nemhause G L, Wolsey L A.Integer and combinatorial optimization[M]. New York: John Wiley and Sons, 1999.
[1]
黄晓斌, 张明鑫. 面向重大突发事件的智库应急情报保障研究 [J]. 情报学报, 2022, 41(1): 18-28.
[2]
张海涛, 周红磊, 李佳玮, 张鑫蕊. 信息不完全状态下重大突发事件态势感知研究 [J]. 情报学报, 2021, 40(9): 903-913.
[3]
张海涛, 刘伟利, 栾宇, 刘嫣. 重大突发事件的情景图谱构建 [J]. 情报学报, 2021, 40(9): 924-933.
[4]
张海涛, 李佳玮, 周红磊, 栾宇. 重大突发事件演变机制:认知框架与理论方法 [J]. 情报学报, 2021, 40(9): 914-923.
[5]
吴雪华, 毛进, 陈思菁, 谢豪, 李纲. 突发事件应急行动支撑信息的自动识别与分类研究 [J]. 情报学报, 2021, 40(8): 817-830.
[6]
阳长征. 突发事件中社交媒体用户黏性与情感负荷对信息共生行为影响研究 [J]. 情报学报, 2021, 40(6): 640-655.
[7]
阳长征. 网络空间中情感扩散、信息级联与舆论偏差的内生影响效应研究——基于2015 —2020 年突发事件面板数据动态分析 [J]. 情报学报, 2021, 40(5): 448-461.
[8]
宋英华, 吕龙, 刘丹. 基于组合深度学习模型的突发事件新闻识别与分类研究 [J]. 情报学报, 2021, 40(2): 145-151.
[9]
徐元, 毛进, 李纲. 面向突发事件应急管理的社交媒体多模态信息分析研究 [J]. 情报学报, 2021, 40(11): 1150-1163.
[10]
王芳, 杨京, 徐路路. 面向火灾应急管理的本体构建研究 [J]. 情报学报, 2020, 39(9): 914-925.
[11]
杨峰, 张月琴, 姚乐野. 基于情景相似度的突发事件情报感知实现方法 [J]. 情报学报, 2019, 38(5): 525-533.
[12]
陈思菁, 李纲, 毛进, 巴志超. 突发事件信息传播网络中的关键节点动态识别研究 [J]. 情报学报, 2019, 38(2): 178-190.