美国商业管制清单与专利自动映射方法及实证研究
吕璐成1,2 , 韩涛1,2 , 陈芳1 , 王学昭1,2 , 赵亚娟1,2 , 郭世杰1,2
1.中国科学院文献情报中心,北京 100190
2.中国科学院大学经济与管理学院图书情报与档案管理系,北京 100190
Automatic Mapping Method and Empirical Research of U.S. Commerce Control List Data and Patent Data
Lyu Lucheng1,2 , Han Tao1,2 , Chen Fang1 , Wang Xuezhao1,2 , Zhao Yajuan1,2 , Guo Shijie1,2
1.National Science Library, Chinese Academy of Sciences, Beijing 100190
2.Department of Library, Information and Archives Management, School of Economics and Management, University of Chinese Academy of Sciences, Beijing 100190
摘要 为了高效分析中美在美国商业管制清单(Commerce Control List,CCL)记录的管制技术上的差距,针对CCL清单数据非结构化程度高的问题,提出了一种管制清单数据和专利数据的自动映射方法,实现了从专利视角自动揭示中美技术差距。基于文本挖掘的思想,研究制定了管制清单文本规范化流程,提出了基于TF-IDF(term frequency-inverse document frequency)和Word2Vec的管制清单数据与专利数据自动映射方法和效果评价指标。以2019年美国商业管制清单和2018年全球PCT(Patent Cooperation Treaty)专利申请数据为例进行实证研究,通过评估模型效果,最终发现当文本相似度阈值为0.87时,Word2Vec模型的自动映射结果最优,并以此开展技术差距分析。本研究提出的方法能够自动化映射管制清单数据和专利数据并开展情报分析,分析结果具有较高的可解释性,是提升情报分析时效性的有力手段,具有较高的实际应用价值。
关键词 :
商业管制清单 ,
专利数据 ,
文本相似 ,
Word2Vec ,
技术差距
收稿日期: 2021-01-18
基金资助: 中国科学院青年人才项目“基于深度学习的专利所属产业分类”(G180161001)。
作者简介 : 吕璐成,男,1989年生,博士研究生,助理研究员,主要从事专利技术挖掘与创新决策支持研究;韩涛,男,1980年生,博士,研究员,硕士生导师,主要从事智能情报方法研究,E-mail:hant@mail.las.ac.cn;陈芳,男,1981年生,硕士,副研究馆员,主要从事特色情报数据资源建设及出口管制研究;王学昭,1978年生,博士,副研究员,硕士生导师,主要从事战略情报研究;赵亚娟,女,1975年生,博士,研究员,博士生导师,主要从事知识产权情报研究;郭世杰,男,1989年生,博士研究生,助理研究员,主要从事光电科技战略情报研;
引用本文:
吕璐成, 韩涛, 陈芳, 王学昭, 赵亚娟, 郭世杰. 美国商业管制清单与专利自动映射方法及实证研究[J]. 情报学报, 2022, 41(1): 50-61.
Lyu Lucheng, Han Tao, Chen Fang, Wang Xuezhao, Zhao Yajuan, Guo Shijie. Automatic Mapping Method and Empirical Research of U.S. Commerce Control List Data and Patent Data. 情报学报, 2022, 41(1): 50-61.
链接本文:
https://qbxb.istic.ac.cn/CN/10.3772/j.issn.1000-0135.2022.01.006 或 https://qbxb.istic.ac.cn/CN/Y2022/V41/I1/50
1 张建军. 中美技术出口管理法律制度的比较研究[D]. 西安: 西北大学, 2004.
2 彭爽, 张晓东. 论美国的出口管制体制[J]. 经济资料译丛, 2015(2): 24-41.
3 靳风. 美国出口管制体系概览[J]. 当代美国评论, 2018, 2(2): 117-120.
4 祝捷频, 赵蕴华. 基于美国对华技术管制清单的专利分析——以数控系统领域为例[J]. 情报杂志, 2014, 33(11): 46-53.
5 魏简康凯, 宿铮. 美国出口管制改革的竞争情报分析[J]. 情报杂志, 2019, 38(4): 4-8.
6 陈峰. 应对国外对华技术出口限制的竞争情报问题分析[J]. 情报杂志, 2018, 37(1): 9-13, 33.
7 陈峰. 中国实施高技术出口管制需要高度倚重竞争情报[J]. 情报杂志, 2018, 37(8): 1, 5, 37, 2-4.
8 陆天驰, 闵超, 高伊林, 等. 竞争情报视角下的中美人工智能技术领域差距分析——以美国商品管制清单为例[J]. 情报杂志, 2019, 38(11): 25-33.
9 周磊, 杨威, 余玲珑, 等. 美国对华技术出口管制的实体清单分析及其启示[J]. 情报杂志, 2020, 39(7): 23-28.
10 茹丽洁, 张娴. 专利技术相关性研究方法进展评述与展望[J]. 图书情报工作, 2016, 60(6): 128-134, 141.
11 Passing F, Moehrle M G. Measuring technological convergence in the field of smart grids: a semantic patent analysis approach using textual corpora of technologies[C]// Proceedings of the 2015 Portland International Conference on Management of Engineering and Technology. IEEE, 2015: 559-570.
12 曾文, 徐红姣, 李颖, 等. 基于VSM的科技期刊文献与专利文献的相似度计算方法研究[J]. 情报工程, 2016, 2(3): 37-42.
13 徐红姣, 曾文, 张运良. 基于Word2Vec的论文和专利主题关联演化分析方法研究[J]. 情报杂志, 2018, 37(12): 36-42.
14 田创, 赵亚娟. 一种基于相似度的专利与产业类目映射模型——以《国际专利分类》与《国民经济行业分类》为例[J]. 图书情报工作, 2016, 60(20): 123-131.
15 詹文青, 肖国华. 面向技术需求的潜在技术转移专利识别[J]. 情报理论与实践, 2019, 42(5): 117-121, 176.
16 吕璐成, 韩涛, 周健, 等. 基于深度学习的中文专利自动分类方法研究[J]. 图书情报工作, 2020, 64(10): 75-85.
17 Mikolov T, Chen K, Corrado G, et al. Efficient estimation of word representations in vector space[OL]. (2013-09-07). https://arxiv.org/pdf/1301.3781.pdf.
18 吕璐成, 韩涛. AI在图情: 人工智能赋能图情服务——2019年图书馆前沿技术论坛(IT4L)会议综述[J]. 农业图书情报学报, 2020, 32(5): 13-18.
[1]
程秀峰, 邹晶晶, 叶光辉, 夏立新. 融合Word2Vec 的半积累引用共词网络的领域主题演化研究 [J]. 情报学报, 2023, 42(7): 801-815.
[2]
席笑文, 郭颖, 宋欣娜, 王瑾. 基于word2vec 与LDA 主题模型的技术相似性可视化研究 [J]. 情报学报, 2021, 40(9): 974-983.
[3]
郭世杰, 陈芳, 韩涛, 王学昭, 王燕鹏, 吕璐成, 董璐. 基于文本挖掘的中美技术差距分析——以空间技术领域为例 [J]. 情报学报, 2021, 40(8): 806-816.
[4]
熊回香, 李晓敏, 杜瑾. 基于学术关键词与共被引的学者推荐研究 [J]. 情报学报, 2021, 40(7): 725-733.
[5]
陈翔, 黄璐, 倪兴兴, 刘家润, 曹晓丽, 王长天. 基于动态语义网络分析的主题演化路径识别研究 [J]. 情报学报, 2021, 40(5): 500-512.