基于组合深度学习模型的突发事件新闻识别与分类研究
宋英华1,2 , 吕龙1,2 , 刘丹1,2
1.武汉理工大学中国应急管理研究中心,武汉 430070 2.武汉理工大学安全科学与应急管理学院,武汉 430070
Study on Identification and Classification of Emergency News Based on the Combined Deep Learning Model
Song Yinghua1,2 , Lyu Long1,2 , Liu Dan1,2
1.China Research Center for Emergency Management, Wuhan University of Technology, Wuhan 430070 2.School of Safety Science and Emergency Management, Wuhan University of Technology, Wuhan 430070
摘要 针对突发事件新闻与普通新闻文本中关键词的差异性,以及现有基于深度学习新闻文本的单一性,研究词语间相互关系或词语与类别间相互关系,提出基于双输入组合深度学习的新闻文本分类模型。首先,基于词向量表征词语间关系,离散度向量表征词语与类别间关系;其次,考虑CNN(convolutional neural networks)模型学习局部空间特征信息的优势、LSTM(long short-term memory)模型学习时间序列特征信息的优势和MLP(multilayer perceptron)模型学习词语与类别间关系的优势,构建DCLSTM-MLP(deep convolution long short-term memory neural network with multilayer perceptron)深度学习组合模型;最后,爬取5477条具有词语间相互关系和词语与类别间相互关系的突发事件新闻文本,以及2815条普通新闻,通过实验对比分析组合模型性能。研究结果表明:第一级突发事件识别模型准确率、召回率和综合值均达到99.55%;第二级突发事件分类组合模型准确率达到94.82%,且准确率和召回率的综合值比MLP、Text-CNN、Text-LSTM、CNN-MLP和CLSTM(convolutional long short-term memory neural network)等5种模型分别提高了6.06%、2.36%、2.47%、1.14%和1.79%,该组合模型能够更为精确地实现新闻文本分类任务。
关键词 :
深度学习 ,
突发事件 ,
文本分类 ,
时空特征 ,
重要度
收稿日期: 2019-11-25
基金资助: 国家重点研发计划项目“国家公共安全应急平台”(2018YFC0807000);中央高校基本科研业务费项目“公共安全虚拟现实仿真技术研究”(2019III053GX)。
作者简介 : 宋英华,男,1961年生,博士,教授,博士生导师,研究方向为突发事件应急管理、应急情报分析;吕龙,男,1993年生,硕士研究生,研究方向为深度学习、自然语言处理;刘丹,男,1985年生,博士,副教授,硕士生导师,研究方向为情报数据融合、复杂系统建模与仿真等,E-mail: liudan8575@whut.edu.c;
1 于朝晖. CNNIC发布第44次《中国互联网络发展状况统计报告》[J]. 网信军民融合, 2019(9): 30-31. 2 郑功成. 全面理解党的十九大报告与中国特色社会保障体系建设[J]. 国家行政学院学报, 2017(6): 8-17, 160. 3 国家互联网信息办公室和公安部联合发布《具有舆论属性或社会动员能力的互联网信息服务安全评估规定》[J]. 网信军民融合, 2018(11): 51-53. 4 李文斌, 刘椿年, 陈嶷瑛. 基于特征信息增益权重的文本分类算法[J]. 北京工业大学学报, 2006, 32(5): 456-460. 5 刘海峰, 王元元, 张学仁. 文本分类中一种改进的特征选择方法[J]. 情报科学, 2007, 25(10): 1534-1537. 6 Piskorski J, Tanev H, Atkinson M, et al. Online news event extraction for global crisis surveillance[M]// Transactions on Computational Collective Intelligence V. Heidelberg: Springer, 2011: 182-212. 7 张永奎, 李红娟. 基于类别关键词的突发事件新闻文本分类方法[J]. 计算机应用, 2008, 28(S1): 139-140, 143. 8 毛文娟. 话题跟踪和可视化技术在涉农网络舆情系统中的应用研究[D]. 南京: 南京农业大学, 2012. 9 王强. 基于SVM的突发事件新闻话题跟踪方法研究[D]. 太原: 山西大学, 2009. 10 Collobert R, Weston J. A unified architecture for natural language processing: deep natural networks with multitask learning[C]// Proceedings of the 25th International Conference on Machine Learning. New York: ACM Press, 2008: 160-167. 11 Mikolov T, Sutskever I, Chen K, et al. Distributed representations of words and phrases and their compositionality[C]// Proceedings of the 26th International Conference on Neural Information Processing Systems. Red Hook: Curran Associates, 2013: 3111-3119. 12 Kim Y. Convolutional neural networks for sentence classification[C]// Proceedings of the 2014 Conference on Empirical Methods in Natural Language Processing. Stroudsburg: Association for Computational Linguistics, 2014: 1181. 13 金占勇, 田亚鹏, 白莽. 基于长短时记忆网络的突发灾害事件网络舆情情感识别研究[J]. 情报科学, 2019, 37(5): 142-147, 154. 14 王东波, 高瑞卿, 沈思, 等. 基于深度学习的先秦典籍问句自动分类研究[J]. 情报学报, 2018, 37(11): 1114-1122. 15 刘月, 翟东海, 任庆宁. 基于注意力CNLSTM模型的新闻文本分类[J]. 计算机工程, 2019, 45(7): 303-308, 314. 16 Lai S W, Xu L H, Liu K, et al. Recurrent convolutional neural network for text classification[C]// Proceedings of the Twenty-Ninth AAAI Conference on Artificial Intelligence. Palo Alto: AAAI Press, 2015, 333: 2267-2273. 17 赵容梅, 熊熙, 琚生根, 等. 基于混合神经网络的中文隐式情感分析[J]. 四川大学学报(自然科学版), 2020, 57(2): 264-270. 18 梁志剑, 谢红宇, 安卫钢. 基于BiGRU和贝叶斯分类器的文本分类[J]. 计算机工程与设计, 2020, 41(2): 381-385. 19 金宁, 赵春江, 吴华瑞, 等. 基于BiGRU_MulCNN的农业问答问句分类技术研究[J]. 农业机械学报, 2020, 51(5): 199-206. 20 赵洪. 生成式自动文摘的深度学习方法综述[J]. 情报学报, 2020, 39(3): 330-344.
[1]
黄晓斌, 张明鑫. 面向重大突发事件的智库应急情报保障研究 [J]. 情报学报, 2022, 41(1): 18-28.
[2]
张海涛, 周红磊, 李佳玮, 张鑫蕊. 信息不完全状态下重大突发事件态势感知研究 [J]. 情报学报, 2021, 40(9): 903-913.
[3]
张海涛, 刘伟利, 栾宇, 刘嫣. 重大突发事件的情景图谱构建 [J]. 情报学报, 2021, 40(9): 924-933.
[4]
张海涛, 李佳玮, 周红磊, 栾宇. 重大突发事件演变机制:认知框架与理论方法 [J]. 情报学报, 2021, 40(9): 914-923.
[5]
吴雪华, 毛进, 陈思菁, 谢豪, 李纲. 突发事件应急行动支撑信息的自动识别与分类研究 [J]. 情报学报, 2021, 40(8): 817-830.
[6]
阳长征. 突发事件中社交媒体用户黏性与情感负荷对信息共生行为影响研究 [J]. 情报学报, 2021, 40(6): 640-655.
[7]
黄文彬, 王越千, 步一, 车尚锟. 学术论文子句语义类型自动标注技术研究 [J]. 情报学报, 2021, 40(6): 621-629.
[8]
阳长征. 网络空间中情感扩散、信息级联与舆论偏差的内生影响效应研究——基于2015 —2020 年突发事件面板数据动态分析 [J]. 情报学报, 2021, 40(5): 448-461.
[9]
章成志, 胡少虎, 张颖怡. 通用语料的眼动数据对微博关键词抽取的性能提升探究 [J]. 情报学报, 2021, 40(4): 375-386.
[10]
徐元, 毛进, 李纲. 面向突发事件应急管理的社交媒体多模态信息分析研究 [J]. 情报学报, 2021, 40(11): 1150-1163.
[11]
余传明, 薛浩东, 江一帆. 基于深度交互的文本匹配模型研究 [J]. 情报学报, 2021, 40(10): 1015-1026.
[12]
程齐凯, 李鹏程, 张国标, 陆伟. 学术文本词汇功能识别——基于标题生成策略和注意力机制的问题方法抽取 [J]. 情报学报, 2021, 40(1): 43-52.
[13]
王芳, 杨京, 徐路路. 面向火灾应急管理的本体构建研究 [J]. 情报学报, 2020, 39(9): 914-925.
[14]
周海晨, 郑德俊, 郦天宇. 学术全文本的学术创新贡献识别探索 [J]. 情报学报, 2020, 39(8): 845-851.
[15]
王昊, 邓三鸿, 苏新宁, 官琴. 基于深度学习的情报学理论及方法术语识别研究 [J]. 情报学报, 2020, 39(8): 817-828.