标点符号在网络中文学术文献识别与检索中的作用
邹永利1 , 王皓2
1. 中山大学资讯管理学院, 广州 510006; 2. 珠海华发集团有限公司,珠海 519020
The Function of Punctuation in the Automatic Identification of Chinese Academic Papers Online
Zou Yongli1 , Wang Hao2
1. School of Information Management, Sun Yat-sen University, Guangzhou 510006; 2. Huafa Group, Zhuhai 519020
摘要 学术文献在网络上的分布日益广泛,探索其识别方法对于提高检索效率具有重要意义。本文针对网络中文学术文献的主要干扰文献——新闻报道,对6906篇学术文献语料和16316篇新闻报道语料进行比较研究,尝试从标点符号的使用方面发现两者的异同,以期为网络中文学术文献的自动识别提供思路。对两个语料库标点符号的使用量、相对使用率、平均使用量和差异量等因素所做统计与比较显示,网络中文学术文献与新闻报道在14种常用标点符号的使用上具有明显差异。我们将所发现的标点符号特征应用到已开发的网络中文学术文献检索系统(NSIRS)中,在原系统中加入标点符号分析模块并进行了检索实验,结果显示标点符号对于网络学术文献的识别具有明显效果,系统的平均相对检准率提高了约6%。
关键词 :
标点符号 ,
学术文献 ,
新闻报道 ,
信息检索 ,
自动识别
收稿日期: 2017-06-27
基金资助: 国家社会科学基金项目“网络中文学术文献的自动识别与检索研究—基于学术文献文体、链接及图文相关度的研究与系统开发”(10BTQ049)
作者简介 : 邹永利,男,1960年生,博士,教授,硕士生导师,主要研究领域为信息检索,E-mail: isszyl@mail.sysu.edu.cn;王皓,女,1991年生,硕士,主要研究领域为信息检索。
[1] 邹永利, 林智昊. 中文学术文献网页的特征[J]. 图书馆论坛, 2011, 31(6): 178-185. [2] 胡德华, 金建彬. 基于网络引文的网络学术资源利用效率研究[J]. 情报科学, 2009, 27(3): 379-383. [3] 安形輝, 池内淳, 石田栄美. 日本語学術論文PDF ファイルの自動判定[J]. Library and Information Science, 2006, 56(2): 43-63. [4] 池内淳, 安形輝, 石田栄美. プーリング手法を用いた学術論文の自動判別実験[C]// 情報処理论会研究報告. 東京: 日本情報処理论会, 2007, 34: 33-40. [5] 石田栄美, 安形輝, 宮田洋輔, et al.構造と構成要素に基づく学術論文の自動判定[J]. 日本図書館情報学会誌, 2014, 60(1): 18-34. [6] Ishita E, Agata T, Ikeuchi A, et al.A search engine for Japanese academic papers[C]// Proceedings of the 10th Annual Joint Conference on Digital Libraries. New York: ACM Press, 2010: 379-380. [7] 邹永利, 何侃, 徐健. 文体特征在网络学术文献检索中的意义与应用[J]. 情报理论与实践, 2008, 31(4): 594-597. [8] 孙坤, 王荣. 当代国外标点符号研究[J]. 当代语言学, 2010, 12(2): 148-162, 190. [9] 邹永利, 颜秀飞. 文体特征与网络中文学术文献的自动识别——学术文献文体与新闻报道文体的比较研究[J]. 情报学报, 2012, 31(2): 160-165. [10] 邹永利, 冯静娴, 郑荟. 学术文献的文体特征及其检索意义——计算机科学文献与相关新闻报道文体的比较研究[J]. 中国图书馆学报, 2014, 40(2): 33-40. [11] 黄光照. 网络中文学术文献搜索中的干扰文献及其特征研究[D]. 广州: 中山大学, 2011. [12] Leighton H V, Srivastava J.First 20 precision among World Wide Web search services (search engines)[J]. Journal of the American Society for Information Science, 1999, 50(10): 870-881.
[1]
梁柱, 沈思, 叶文豪, 王东波. 基于结构内容特征的裁判文书自动推荐研究 [J]. 情报学报, 2022, 41(2): 167-175.
[2]
丁恒, 任卫强, 曹高辉. 基于无监督图神经网络的学术文献表示学习研究 [J]. 情报学报, 2022, 41(1): 62-72.
[3]
周海晨, 郑德俊, 郦天宇. 学术全文本的学术创新贡献识别探索 [J]. 情报学报, 2020, 39(8): 845-851.
[4]
唐琳, 郭崇慧, 陈静锋, 孙磊磊. 基于中文学术文献的领域本体概念层次关系抽取研究 [J]. 情报学报, 2020, 39(4): 387-398.
[5]
阮选敏, 吕冬晴, 成颖, 柯青. 题名标点对我国人文社会科学学术图书被引的影响研究 [J]. 情报学报, 2019, 38(5): 458-472.
[6]
于丰畅, 陆伟. 基于机器视觉的PDF 学术文献结构识别 [J]. 情报学报, 2019, 38(4): 384-390.
[7]
余传明, 蔡林, 胡莎莎, 安璐. 基于深度学习的查询扩展研究 [J]. 情报学报, 2019, 38(10): 1066-1077.
[8]
韩正彪. 国外信息检索系统用户心智模型研究述评与展望 [J]. 情报学报, 2018, 37(7): 668-677.
[9]
孙建军, 裴雷, 蒋婷. 面向学科领域的学术文献语义标注框架研究 [J]. 情报学报, 2018, 37(11): 1077-1086.