基于通用词与术语部件的专利术语抽取
俞琰1,2 , 赵乃瑄1
1. 南京工业大学信息服务部,南京 210009; 2. 东南大学成贤学院计算机工程系,南京 211816
Patent Term Extraction Based on Generic Words and Term Components
Yu Yan1,2 , Zhao Naixuan1
1. Information Service Department, Nanjing Tech University, Nanjing 210009; 2. Computer Science Department, Southeast University Chengxian College, Nanjing 211816
摘要 针对目前专利术语抽取中不能有效地过滤一些高频非术语词串和无法正确抽取低频术语的问题,本文提出基于通用词与术语部件的专利术语抽取方法。该方法首先使用通用词作为切分符选取候选术语;再利用与候选术语有相同术语部件的相似候选术语信息,评估候选术语成为术语的可能性。实验结果表明,与传统的方法相比,提出的方法能够有效地提高专利术语抽取的准确度。
关键词 :
专利文献分析 ,
术语抽取 ,
通用词 ,
术语部件
收稿日期: 2018-02-08
基金资助: 国家社会科学基金一般规划项目“大数据时代支持创新设计的多维度多层次专利文本挖掘研究”(17BTQ059)
作者简介 : 俞琰,女,1972年生,博士,副教授,硕士生导师,主要研究领域为数据挖掘,E-mail: yuyanyuyan2004@126.com;赵乃瑄,女,1967年生,博士,教授,硕士生导师,主要研究领域为知识管理。
[1] Frantzi K, Ananiadou S, Mima H.Automatic recognition of multi-word terms: the C-value/NC-value, method[J]. International Journal on Digital Libraries, 2000, 3(2): 115-130. [2] 周浪, 史树敏, 冯冲, 等. 基于多策略融合的中文术语抽取方法[J]. 情报学报, 2010, 29(3): 460-467. [3] Mandal A, Ghosh K, Pal A, et al.Automatic catchphrase identification from legal court case documents[C]// Proceedings of the 2017 ACM on Conference on Internation and Knowledge Management. New York: ACM Press, 2017: 2187-2190. [4] 徐川, 施水才, 房祥, 等. 中文专利文献术语抽取[J]. 计算机工程与设计, 2013, 34(6): 2175-2179. [5] 张杰, 张海超, 翟东升. 面向中文专利权利要求书的分词方法研究[J]. 现代图书情报技术, 2014, 30(9): 91-98. [6] 杨双龙, 吕学强, 李卓, 等. 中文专利文献术语自动识别研究[J]. 中文信息学报, 2016, 30(3): 111-117. [7] 曾镇, 吕学强, 李卓. 一种面向专利摘要的领域术语抽取方法[J]. 计算机应用与软件, 2016, 33(3): 48-51. [8] 张桂平, 刘东生, 尹宝生, 等. 面向专利文献的中文分词技术的研究[J]. 中文信息学报, 2010, 24(3): 112-116. [9] 周绍钧, 吕学强, 李卓, 等. 基于多策略融合的专利术语自动抽取[J]. 计算机应用与软件, 2015(2):28-32. [10] 丁杰, 吕学强, 刘克会. 基于边界标记集的专利文献术语抽取方法[J]. 计算机工程与科学, 2015, 37(8): 1591-1598. [11] 侯婷, 吕学强, 李卓. 专利术语抽取的层次过滤方法[J]. 现代图书情报技术, 2015, 31(1): 24-30. [12] Vivaldi J, Rodríguez H.Evaluation of terms and term extraction systems: a practical approach[J]. Terminology, 2007, 13(2): 225-248. [13] 韩红旗, 朱东华, 汪雪锋. 专利技术术语的抽取方法[J]. 情报学报, 2011, 30(12): 1280-1285. [14] 韩红旗, 安小米. C-value值和unithood指标结合的中文科技术语抽取[J]. 图书情报工作, 2012, 56(19): 85-89. [15] Spasić I, Greenwood M, Preece A, et al.FlexiTerm: a flexible term recognition method[J]. Journal of Biomedical Semantics, 2013, 4(1): 1-15. [16] Maynard D, Ananiadou S.Identifying terms by their family and friends[C]// Proceeding of the 18th Conference on Computational Linguistics. Stroudsburg: Association for Computational Linguistics, 2000: 530-536. [17] 李超, 王会珍, 朱慕华, 等. 基于领域类别信息C-value的多词串自动抽取[J]. 中文信息学报, 2010, 24(1): 94-99. [18] 刘里, 刘小明. 基于分隔符和上下文术语的领域现象术语抽取[J]. 华南理工大学学报(自然科学版), 2011, 39(7): 146-149. [19] 胡阿沛, 张静, 刘俊丽. 基于改进C-value方法的中文术语抽取[J]. 现代图书情报技术, 2013, 29(2): 24-29. [20] 林自芳, 蒋秀凤. 基于词内部模式的新词识别[J]. 计算机与现代化, 2010(11): 162-164. [21] 刘剑, 唐慧丰, 刘伍颖. 一种基于统计技术的中文术语抽取方法[J]. 中国科技术语, 2014, 16(5): 10-14. [22] 王馨, 王煜, 王亮. 基于新词发现的网络新闻热点排名[J]. 图书情报工作, 2015, 59(6): 68-74. [23] Pecina P, Schlesinger P.Combining association measures for collocation extraction[C]// Proceedings of the COLING/ACL on Main Conference Poster Sessions. Stroudsburg: Association for Computational Linguistics, 2006: 651-658. [24] 杜丽萍, 李晓戈, 于根, 等. 基于互信息改进算法的新词发现对中文分词系统改进[J]. 北京大学学报(自然科学版), 2016, 52(1): 35-40. [25] Zhang W, Yoshida T, Tang X, et al.Improving effectiveness of mutual information for substantival multiword expression extraction[J]. Expert Systems with Applications, 2009, 36(8): 10919-10930. [26] 木合亚提·尼亚孜别克, 古力沙吾利·塔里甫. 哈萨克语IT领域术语识别研究与实现[J]. 中文信息学报, 2016, 3(3): 68-73. [27] Asahara M, Matsumoto Y.Training multi-classifiers for Chinese unknown word detection[J]. Journal of Chinese Language and Computing, 2005, 15(1): 1-12. [28] 岳金媛, 徐金安, 张玉洁. 面向专利文献的汉语分词技术研究[J]. 北京大学学报(自然科学版), 2013, 49(1): 159-164. [29] 李丽双, 党延忠, 张婧, 等. 基于条件随机场的汽车领域术语抽取[J]. 大连理工大学学报, 2013, 53(2): 267-272. [30] 孙晓, 孙重远, 任福继, 等. 基于深层结构模型的新词发现与情感倾向判定[J]. 计算机科学, 2015, 42(9): 208-213. [31] 冯艳红, 于红, 孙庚, 等. 基于词向量和条件随机场的领域术语识别方法[J]. 计算机应用, 2016, 36(11): 3146-3151. [32] 王密平, 王昊, 邓三鸿, 等. 基于CRFs的冶金领域中文专利术语抽取研究[J]. 现代图书情报技术, 2016, 32(6): 28-36. [33] 张华平, 商建云. 面向社会媒体的开放领域新词发现[J]. 中文信息学报, 2017, 31(3): 55-61. [34] 王昊, 王密平, 苏新宁. 面向本体学习的中文专利术语抽取研究[J]. 情报学报, 2016, 35(6): 573-585. [35] Li L, Dang Y, Zhang J, et al.Domain term extraction based on conditional random fields combined with active learning strategy[J]. North American Review, 2012, 174(544): 368-375. [36] da Silva Conrado M, Pardo T A S, Rezende S O. A machine learning approach to automatic term extraction using a rich feature set[C]// Proceedings of the NAACL HLT 2013 Student Research Workshop. Stroudsburg: Association for Computational Linguistics, 2013: 16-23. [37] 吴云芳, 穗志方, 邱利坤, 等. 信息科学与技术领域术语部件描述[J]. 语言文字应用, 2003(4): 34-39. [38] 何燕, 穗志方, 段慧明, 等. 一种结合术语部件库的术语提取方法[J]. 计算机工程与应用, 2006, 42(33): 4-7. [39] 汤青, 吕学强, 李卓, 等. 领域本体术语抽取研究[J]. 现代图书情报技术, 2014, 30(1): 43-50. [40] 夭荣朋, 许国艳, 宋健. 基于改进互信息和邻接熵的微博新词发现方法[J]. 计算机应用, 2016, 36(10): 2772-2776.
[1]
吴俊, 程垚, 郝瀚, 艾力亚尔·艾则孜, 刘菲雪, 苏亦坡. 基于BERT 嵌入BiLSTM-CRF 模型的中文专业术语抽取研究 [J]. 情报学报, 2020, 39(4): 409-418.
[2]
赵洪, 王芳. 理论术语抽取的深度学习模型及自训练算法研究 [J]. 情报学报, 2018, 37(9): 923-938.