情报学报  2023, Vol. 42 Issue (1): 59-73    DOI: 10.3772/j.issn.1000-0135.2023.01.006
  情报技术与应用 本期目录 | 过刊浏览 | 高级检索 |
自动迭代聚类数据集训练的虚假信息识别方法
张均胜1, 孙晓平2, 刘志辉1
1.中国科学技术信息研究所,北京 100038
2.中国科学院计算技术研究所智能信息实验室,北京 100190
Misinformation Identification Method by Automatic Iterative Clustering Data Set for Training
Zhang Junsheng1, Sun Xiaoping2, Liu Zhihui1
1.Institute of Scientific and Technical Information of China, Beijing 100038
2.KL-IIP, Institute of Computing Technology, Chinese Academy of Sciences, Beijing 100190
全文: PDF (6073 KB)   HTML (1 KB) 
输出: BibTeX | EndNote (RIS)      
摘要 随着互联网虚假信息日益泛滥,自动识别虚假信息成为互联网信息治理的迫切需求。互联网上虚假信息伴随新事件不断产生,导致识别虚假信息的有监督统计机器学习模型需要不断更新迭代。每次迭代更新都需要构建新的训练集,以便新的虚假信息能在训练集中得以体现。为此,本研究提出一种动态迭代更新训练集构筑机器学习模型的虚假信息识别方法,设计基于核密度估计的迭代聚类方法对虚假信息数据集进行迭代聚类。在每一个自动得到的聚类中,按比例分别选取训练集样本和测试集样本构造分类器的训练样本集和测试样本集,使新产生事件的样本能够在训练集中得到体现。研究结果显示,基于核密度估计的迭代聚类方法划分数据集训练得到的虚假信息分类器,与随机划分数据集策略相比,能够显著提升虚假信息分类准确度。
服务
把本文推荐给朋友
加入我的书架
加入引用管理器
E-mail Alert
RSS
作者相关文章
张均胜
孙晓平
刘志辉
关键词 聚类核密度估计数据集划分虚假信息识别    
收稿日期: 2021-10-28     
基金资助:中国科学技术信息研究所创新研究基金项目“互联网虚假科技信息识别方法研究”(MS2021-05),“科技论文原创性与新颖性评估方法研究”(MS2022-05)。
作者简介: 张均胜,男,1980年生,博士,研究员,研究方向为情报分析技术,E-mail:zhangjs@istic.ac.cn;孙晓平,男,1973年生,博士,副研究员,研究方向为文本分析;刘志辉,男,1979年生,博士,研究员,研究方向为竞争情报;
引用本文:   
张均胜, 孙晓平, 刘志辉. 自动迭代聚类数据集训练的虚假信息识别方法[J]. 情报学报, 2023, 42(1): 59-73.
Zhang Junsheng, Sun Xiaoping, Liu Zhihui. Misinformation Identification Method by Automatic Iterative Clustering Data Set for Training. 情报学报, 2023, 42(1): 59-73.
链接本文:  
https://qbxb.istic.ac.cn/CN/10.3772/j.issn.1000-0135.2023.01.006     或     https://qbxb.istic.ac.cn/CN/Y2023/V42/I1/59