基于机器学习模型的专利质量预测初探
刘夏1 , 黄灿1 , 余骁锋2
1.浙江大学管理学院知识产权管理研究所,杭州 310058 2.香港科技大学计算机科学及工程学系,香港 999077
Patent Evaluation with a Machine Learning Approach
Liu Xia1 , Huang Can1 , Yu Xiaofeng2
1.Institute for Intellectual Property Management, School of Management, Zhejiang University, Hangzhou 300058 2.Department of Computer Science & Engineering, The Hong Kong University of Science and Technology, Hong Kong 999077
摘要 随着专利数量的迅速增长,如何预测专利质量,已成为企业、政府以及学术界越发关注的问题。传统的统计分析方法虽然对专利质量评估进行了多方面探索,却较少对专利质量进行预测,尤其是充分利用到专利数据的海量样本和持续更新的优势。本文以2010—2011年国家知识产权局受理的共计85万余件专利申请为研究对象,抓取申请文档中以及相关引文的特征信息,搭建完整的随机森林模型,对后续被引情况进行机器学习及预测。除此之外,随机森林对特征重要性的评估结果显示,专利的向前引证专利的特征比该专利本身的特征对后续引证的预测提供了更多有效信息,进一步显示出专利审查中对前引专利检索工作的重要性。同时,文章结尾指出了本文模型的局限性以及今后借助机器学习对专利预测的改进方法。
关键词 :
专利质量 ,
机器学习 ,
随机森林 ,
预测
收稿日期: 2018-10-04
基金资助: 浙江省博士后科研项目择优资助“基于专利存续期和溢价的中国企业专利价值估测和研究”(71402161);“互联网+”嵌入企业协同创新生态系统研究项目(71732008)。
1 世界知识产权组织(WIPO). 2011年世界知识产权指标[R/OL]. 2011. https://www.wipo.int/publications/en/details.jsp?id=236& plang=EN. 2 ReutersThomson. China s IQ (innovation quotient)-trends in patenting and the globalization of Chinese innovation[R/OL]. 2014. https://www.rouse.com/magazine/news/chinas-iq-innovation- quotient-trends-in-patenting-and-the-globalization-of-chinese- innovation/. 3 裴宏, 吴艳. 实施专利质量提升工程加快建设知识产区强国[N/OL]. 知识产权报, 2017, http://www.sipo.gov.cn/zscqgz/1101209.html. 4 郭俊华, 杨晓颖. 专利资助政策的评估及改进策略研究——以上海市为例[J]. 科学学研究, 2010, 28(1): 17-25. 5 龙小宁, 王俊. 中国专利激增的动因及其质量效应[J]. 世界经济, 2015(6): 115-142. 6 张古鹏, 陈向东, 杜华东. 中国区域创新质量不平等研究[J]. 科学学研究, 2011, 29(11): 1709-1719. 7 宋河发, 穆荣平, 陈芳, 等. 基于中国发明专利数据的专利质量测度研究.[J]. 科研管理, 2014, 35 (11): 68-76. 8 杨思思, 戴磊, 郝屹. 专利经济价值度通用评估方法研究[J]. 情报学报, 2018, 37(1): 52-60. 9 李瑞茜, 陈向东. 基于专利共类的关键技术识别及技术发展模式研究[J]. 情报学报, 2018, 37(5): 495-502. 10 郑贵忠, 刘金兰. 基于生存分析的专利有效模型研究[J]. 科学学研究, 2010, 28(11): 1677-1682. 11 乔永忠. 专利维持时间影响因素研究[J]. 科研管理, 2011, 32(7): 143-149. 12 肖冰. 基于法定保护期的专利维持时间影响因素研究[J]. 科学学研究, 2017, 35(11): 1652-1658. 13 刘佩佩, 袁红梅. 专利权无效宣告结果的影响因素探讨——基于药物专利属性的实证研究[J]. 情报学报, 2017, 36(4): 392-400. 14 李华杰, 史丹, 马丽梅. 基于大数据方法的经济研究: 前沿进展与研究综述[J]. 经济学家, 2018(6): 96-104. 15 国家知识产权局.《2016专利统计年报》[R]. 2016. 16 SquicciariniM, DernisH, CriscuoloC. Measuring patent quality[R]. OECD, 2013. 17 BoeingP, MuellerE. Measuring patent quality in cross-country comparison[J]. Economics Letters, 2016, 149: 145-147. 18 LernerJ. The importance of patent scope: An empirical analysis[J]. The RAND Journal of Economics, 1994, 25(2): 319-333. 19 郑素丽, 宋明顺. 专利质量由何决定?——基于文献综述的整合性框架[J]. 科学学研究, 2012, 30(9): 1316-1323. 20 HarhoffD, NarinF, SchererF M, et al. Citation frequency and the value of patented inventions[J]. Review of Economics and statistics, 1999, 81(3): 511-515. 21 NarinF, HamiltonK S, OlivastroD. The increasing linkage between US technology and public science[J]. Research Policy, 1997, 26(3): 317-330. 22 CassimanB, VeugelersR, ZunigaP. In search of performance effects of (in) direct industry science links[J]. Industrial and Corporate Change, 2008, 17(4): 611-646. 23 HarhoffD, SchererF M, K. CitationsVopel, sizefamily, opposition and the value of patent rights[J]. Research Policy, 2003, 32(8): 1343-1363. 24 Van ZeebroeckN. The puzzle of patent value indicators[J]. Economics of Innovation and New Technology, 2011, 20(1): 33-62. 25 HastieT, TibshiraniR, FriedmanJ. Unsupervised learning[M]// The elements of statistical learning. New York: Springer, 2009. 26 MullainathanS, SpiessJ. Machine learning: an applied econometric approach[J]. Journal of Economic Perspectives, 2017, 31(2): 87-106. 27 WooldridgeJ M. Introductory econometrics: A modern approach[M]. Beijing: Tsinghua University Press, 2014.
[1]
陈斯斯, 刘春丽. 论文临床影响力评价及预测指标的实证研究 [J]. 情报学报, 2022, 41(2): 142-154.
[2]
吴雪华, 毛进, 陈思菁, 谢豪, 李纲. 突发事件应急行动支撑信息的自动识别与分类研究 [J]. 情报学报, 2021, 40(8): 817-830.
[3]
马捷, 郝志远. 机器学习视域下融合情感元素的社交网络信息交互度量化分析 [J]. 情报学报, 2021, 40(7): 687-696.
[4]
霍朝光, 董克, 魏瑞斌. 学术影响力预测研究进展述评 [J]. 情报学报, 2021, 40(7): 768-779.
[5]
黄文彬, 王越千, 步一, 车尚锟. 学术论文子句语义类型自动标注技术研究 [J]. 情报学报, 2021, 40(6): 621-629.
[6]
张洋, 林宇航, 侯剑华. 基于融合数据和生命周期的技术预测方法:以病毒核酸检测技术为例 [J]. 情报学报, 2021, 40(5): 462-470.
[7]
陈悦, 宋凯, 刘安蓉, 曹晓阳. 基于机器学习的人工智能技术专利数据集构建新策略 [J]. 情报学报, 2021, 40(3): 286-296.
[8]
曹志鹏, 潘定, 潘启亮. 基于表示学习的双层知识网络链路预测 [J]. 情报学报, 2021, 40(2): 135-144.
[9]
王菲菲, 王筱涵, 徐硕, 芦婉昭, 宋艳辉. 基于三维引文关联网络的潜在知识流动探测——以基因编辑领域为例 [J]. 情报学报, 2021, 40(2): 184-193.
[10]
李冰, 丁堃, 孙晓玲. 企业潜在技术合作伙伴及竞争者预测研究——以燃料电池技术为例 [J]. 情报学报, 2021, 40(10): 1043-1051.
[11]
黄璐, 倪兴兴, 程坷飞, 贾翔. 基于二模网络链路预测的合作者识别方法研究 [J]. 情报学报, 2020, 39(9): 906-913.
[12]
余传明, 李浩男, 安璐. 基于深度学习的领域知识对齐模型研究:知识网络视角 [J]. 情报学报, 2020, 39(5): 521-533.
[13]
林原, 王凯巧, 刘海峰, 许侃, 丁堃, 孙晓玲. 网络表示学习在学者科研合作预测中的应用研究 [J]. 情报学报, 2020, 39(4): 367-373.
[14]
何涛, 王桂芳, 马廷灿. 基于类中心向量的论文作者归属机构自动识别方法研究 [J]. 情报学报, 2019, 38(7): 716-721.
[15]
余传明, 林奥琛, 钟韵辞, 安璐. 基于网络表示学习的科研合作推荐研究 [J]. 情报学报, 2019, 38(5): 500-511.