|
|
Patent Term Extraction Based on Generic Words and Term Components |
Yu Yan1,2, Zhao Naixuan1 |
1. Information Service Department, Nanjing Tech University, Nanjing 210009; 2. Computer Science Department, Southeast University Chengxian College, Nanjing 211816 |
|
|
Abstract Aiming at the problems that some high-frequency non-term strings cannot be effectively filtered and that low-frequency terms cannot be correctly extracted in patent term extraction, this paper proposes a patent term extraction method based on generic words and term components. The proposed method first takes advantage of generic words to select candidate terms. Then, candidate terms with the same term component as the target candidate term are used to evaluate the target candidate term. Experimental results show that the proposed method can effectively improve the accuracy of patent term extraction, when compared with the traditional methods.
|
Received: 08 February 2018
|
|
|
|
[1] Frantzi K, Ananiadou S, Mima H.Automatic recognition of multi-word terms: the C-value/NC-value, method[J]. International Journal on Digital Libraries, 2000, 3(2): 115-130. [2] 周浪, 史树敏, 冯冲, 等. 基于多策略融合的中文术语抽取方法[J]. 情报学报, 2010, 29(3): 460-467. [3] Mandal A, Ghosh K, Pal A, et al.Automatic catchphrase identification from legal court case documents[C]// Proceedings of the 2017 ACM on Conference on Internation and Knowledge Management. New York: ACM Press, 2017: 2187-2190. [4] 徐川, 施水才, 房祥, 等. 中文专利文献术语抽取[J]. 计算机工程与设计, 2013, 34(6): 2175-2179. [5] 张杰, 张海超, 翟东升. 面向中文专利权利要求书的分词方法研究[J]. 现代图书情报技术, 2014, 30(9): 91-98. [6] 杨双龙, 吕学强, 李卓, 等. 中文专利文献术语自动识别研究[J]. 中文信息学报, 2016, 30(3): 111-117. [7] 曾镇, 吕学强, 李卓. 一种面向专利摘要的领域术语抽取方法[J]. 计算机应用与软件, 2016, 33(3): 48-51. [8] 张桂平, 刘东生, 尹宝生, 等. 面向专利文献的中文分词技术的研究[J]. 中文信息学报, 2010, 24(3): 112-116. [9] 周绍钧, 吕学强, 李卓, 等. 基于多策略融合的专利术语自动抽取[J]. 计算机应用与软件, 2015(2):28-32. [10] 丁杰, 吕学强, 刘克会. 基于边界标记集的专利文献术语抽取方法[J]. 计算机工程与科学, 2015, 37(8): 1591-1598. [11] 侯婷, 吕学强, 李卓. 专利术语抽取的层次过滤方法[J]. 现代图书情报技术, 2015, 31(1): 24-30. [12] Vivaldi J, Rodríguez H.Evaluation of terms and term extraction systems: a practical approach[J]. Terminology, 2007, 13(2): 225-248. [13] 韩红旗, 朱东华, 汪雪锋. 专利技术术语的抽取方法[J]. 情报学报, 2011, 30(12): 1280-1285. [14] 韩红旗, 安小米. C-value值和unithood指标结合的中文科技术语抽取[J]. 图书情报工作, 2012, 56(19): 85-89. [15] Spasić I, Greenwood M, Preece A, et al.FlexiTerm: a flexible term recognition method[J]. Journal of Biomedical Semantics, 2013, 4(1): 1-15. [16] Maynard D, Ananiadou S.Identifying terms by their family and friends[C]// Proceeding of the 18th Conference on Computational Linguistics. Stroudsburg: Association for Computational Linguistics, 2000: 530-536. [17] 李超, 王会珍, 朱慕华, 等. 基于领域类别信息C-value的多词串自动抽取[J]. 中文信息学报, 2010, 24(1): 94-99. [18] 刘里, 刘小明. 基于分隔符和上下文术语的领域现象术语抽取[J]. 华南理工大学学报(自然科学版), 2011, 39(7): 146-149. [19] 胡阿沛, 张静, 刘俊丽. 基于改进C-value方法的中文术语抽取[J]. 现代图书情报技术, 2013, 29(2): 24-29. [20] 林自芳, 蒋秀凤. 基于词内部模式的新词识别[J]. 计算机与现代化, 2010(11): 162-164. [21] 刘剑, 唐慧丰, 刘伍颖. 一种基于统计技术的中文术语抽取方法[J]. 中国科技术语, 2014, 16(5): 10-14. [22] 王馨, 王煜, 王亮. 基于新词发现的网络新闻热点排名[J]. 图书情报工作, 2015, 59(6): 68-74. [23] Pecina P, Schlesinger P.Combining association measures for collocation extraction[C]// Proceedings of the COLING/ACL on Main Conference Poster Sessions. Stroudsburg: Association for Computational Linguistics, 2006: 651-658. [24] 杜丽萍, 李晓戈, 于根, 等. 基于互信息改进算法的新词发现对中文分词系统改进[J]. 北京大学学报(自然科学版), 2016, 52(1): 35-40. [25] Zhang W, Yoshida T, Tang X, et al.Improving effectiveness of mutual information for substantival multiword expression extraction[J]. Expert Systems with Applications, 2009, 36(8): 10919-10930. [26] 木合亚提·尼亚孜别克, 古力沙吾利·塔里甫. 哈萨克语IT领域术语识别研究与实现[J]. 中文信息学报, 2016, 3(3): 68-73. [27] Asahara M, Matsumoto Y.Training multi-classifiers for Chinese unknown word detection[J]. Journal of Chinese Language and Computing, 2005, 15(1): 1-12. [28] 岳金媛, 徐金安, 张玉洁. 面向专利文献的汉语分词技术研究[J]. 北京大学学报(自然科学版), 2013, 49(1): 159-164. [29] 李丽双, 党延忠, 张婧, 等. 基于条件随机场的汽车领域术语抽取[J]. 大连理工大学学报, 2013, 53(2): 267-272. [30] 孙晓, 孙重远, 任福继, 等. 基于深层结构模型的新词发现与情感倾向判定[J]. 计算机科学, 2015, 42(9): 208-213. [31] 冯艳红, 于红, 孙庚, 等. 基于词向量和条件随机场的领域术语识别方法[J]. 计算机应用, 2016, 36(11): 3146-3151. [32] 王密平, 王昊, 邓三鸿, 等. 基于CRFs的冶金领域中文专利术语抽取研究[J]. 现代图书情报技术, 2016, 32(6): 28-36. [33] 张华平, 商建云. 面向社会媒体的开放领域新词发现[J]. 中文信息学报, 2017, 31(3): 55-61. [34] 王昊, 王密平, 苏新宁. 面向本体学习的中文专利术语抽取研究[J]. 情报学报, 2016, 35(6): 573-585. [35] Li L, Dang Y, Zhang J, et al.Domain term extraction based on conditional random fields combined with active learning strategy[J]. North American Review, 2012, 174(544): 368-375. [36] da Silva Conrado M, Pardo T A S, Rezende S O. A machine learning approach to automatic term extraction using a rich feature set[C]// Proceedings of the NAACL HLT 2013 Student Research Workshop. Stroudsburg: Association for Computational Linguistics, 2013: 16-23. [37] 吴云芳, 穗志方, 邱利坤, 等. 信息科学与技术领域术语部件描述[J]. 语言文字应用, 2003(4): 34-39. [38] 何燕, 穗志方, 段慧明, 等. 一种结合术语部件库的术语提取方法[J]. 计算机工程与应用, 2006, 42(33): 4-7. [39] 汤青, 吕学强, 李卓, 等. 领域本体术语抽取研究[J]. 现代图书情报技术, 2014, 30(1): 43-50. [40] 夭荣朋, 许国艳, 宋健. 基于改进互信息和邻接熵的微博新词发现方法[J]. 计算机应用, 2016, 36(10): 2772-2776. |
|
|
|