情报学报  2020, Vol. 39 Issue (9): 938-948    DOI: 10.3772/j.issn.1000-0135.2020.09.006
  情报分析方法与技术 本期目录 | 过刊浏览 | 高级检索 |
大规模异构的政府统计报表信息抽取与集成融合研究
赵洪, 王芳
南开大学商学院信息资源管理系,天津 300071
Information Extraction and Integration of Large-scale Heterogeneous Socio-economic Statistical Statements
Zhao Hong, Wang Fang
Department of Information Resources Management, Business School, Nankai University, Tianjin 300071
全文: PDF (4270 KB)   HTML (104 KB) 
输出: BibTeX | EndNote (RIS)      
摘要 政府统计数据作为国家的“战略金矿”,充分挖掘其内在价值,使之更好地服务于政府及公众,已成为当前智慧政务和新型智库发展中大数据系统建设的必然要求。但政府统计报表的半结构化和大规模异构特点,使得统计数据之间无法直接关联及聚合,影响了统计数据资源的深度挖掘与开发。鉴于此,本文针对已有研究的不足,在分析政府统计报表语义构成要素的基础上,结合其信息抽取与集成融合的应用目标,将处理任务分解为表格语义结构解析、表头语义关系识别、数值信息抽取表示、指标术语消冗转换及不一致统计数据消歧等五个逻辑过程,并定义了各过程的作用与主要任务,且研究构建了面向该任务的总体技术框架及其处理流程。大规模真实数据集上的应用结果表明,本研究方法能够较为有效地实现异构型政府统计报表的抽取与集成融合,具备较好的实际价值,同时也为其他基于半结构化表格的大数据建设与应用研究提供参考借鉴。
服务
把本文推荐给朋友
加入我的书架
加入引用管理器
E-mail Alert
RSS
作者相关文章
赵洪
王芳
关键词 政府统计报表异构资源信息抽取集成融合不一致数据消歧    
收稿日期: 2019-10-08     
基金资助:国家社会科学基金重大项目“基于数据共享与知识复用的数字政府智能化治理研究”(20ZDA039);提升政府治理能力大数据应用技术国家工程实验室开放基金重点支持项目“基于NLP和深度学习的大规模政府公文智能处理技术研究”(2018-2020)。
作者简介: 赵洪,男,1986年生,博士研究生,研究方向为机器学习与知识发现,E-mail: zhaohong@mail.nankai.edu.cn。王芳,女,1970年生,博士,教授,博士生导师,主要研究方向为情报学基础理论、政府信息资源管理、网络社会治理、知识发现与情感挖掘。
引用本文:   
赵洪, 王芳. 大规模异构的政府统计报表信息抽取与集成融合研究[J]. 情报学报, 2020, 39(9): 938-948.
Zhao Hong, Wang Fang. Information Extraction and Integration of Large-scale Heterogeneous Socio-economic Statistical Statements. 情报学报, 2020, 39(9): 938-948.
链接本文:  
https://qbxb.istic.ac.cn/CN/10.3772/j.issn.1000-0135.2020.09.006     或     https://qbxb.istic.ac.cn/CN/Y2020/V39/I9/938