%A 吴俊, 程垚, 郝瀚, 艾力亚尔·艾则孜, 刘菲雪, 苏亦坡 %T 基于BERT嵌入BiLSTM-CRF模型的中文专业术语抽取研究 %0 Journal Article %D 2020 %J 情报学报 %R 10.3772/j.issn.1000-0135.2020.04.007 %P 409-418 %V 39 %N 4 %U {https://qbxb.istic.ac.cn/CN/abstract/article_286.shtml} %8 2020-04-28 %X 专业术语的识别与自动抽取对于提升专业信息检索精度,构建领域知识图谱发挥着重要基础性作用。为进一步提升中文专业术语识别的精确率和召回率,提出一种端到端的不依赖人工特征选择和领域知识,基于谷歌BERT预训练语言模型及中文预训练字嵌入向量,融合BiLSTM和CRF的中文专业术语抽取模型。以自建的1278条深度学习语料数据为实验对象,该模型对术语提取的F1值为92.96%,相对于传统的浅层机器学习模型(如左右熵与互信息算法、word2vec相似词算法等)和BiLSTM-CRF深度神经网络模型的性能有较为显著的提升。本文也给出了模型应用的具体流程,能够为中文专业术语库的构建提供实践指南。