en
×

分享给微信好友或者朋友圈

使用微信“扫一扫”功能。
参考文献 1
沈君. 知识网络视角的专利技术主题结构分析——以第三代移动通信技术为例[D]. 大连: 大连理工大学, 2012.
参考文献 2
杨超, 朱东华, 汪雪锋, 等. 专利技术主题分析: 基于SAO结构的LDA主题模型方法[J]. 图书情报工作, 2017, 3(61): 86-96.
参考文献 3
许海云, 王振蒙, 胡正银, 等. 利用专利文本分析识别技术主题的关键技术研究综述[J]. 情报理论与实践, 2016, 11(39): 131-137.
参考文献 4
屈鹏, 王惠临. 专利文本分类的基础问题研究[J]. 现代图书情报技术, 2013(3): 38-40.
参考文献 5
ChoiJ, HwangY S. Patent key network anlayisis for improving technology development efficiency[J]. Technological Forecasting & Social Change, 2014, 83: 170-182.
参考文献 6
HuP, HuangM L, XuP, et al. Finding nuggets in IP portfolios: core patent mining through textual temporal analysis[C]// Proceedings of the 21st ACM International Conference on Information and Knowledge Management. New York: ACM Press, 2012: 1819-1823.
参考文献 7
穆秀秀, 郭德斌, 刘伟, 等. 基于核心专利群的专利规避范围界定方法研究[J], 工程设计学报, 2015, 22(2): 116-122.
参考文献 8
祁延莉, 刘西琴. 核心专利识别方法研究[J]. 情报理论与实践, 2016, 39(11): 5-9.
参考文献 9
ChoiC, ParkY. Monitoring the organic structure of technology based on the patent development path[J]. Technology Forecasting & Social Change, 2009, 76(6): 754-768.
参考文献 10
BarberaT D, JimenezS F, CastelloM L. Mapping the importance of the real world: the validity of connectivity analysis of patent citation network[J]. Research Policy, 2011, 40(3): 473-486.
参考文献 11
YangC, ZhuD H, WangX F, et al. Requirement-oriented core technological components’ identification based on SAO analysis[J]. Scientometrics, 2017,112: 1229-1248.
参考文献 12
AlbertM B, AveryD, NarinF, et al. Direct validation of citation counts as indicators of industrially important patents[J]. Research Policy, 1991, 20(3): 251-259.
参考文献 13
HarhoffD, NarinF, SchererF M, et al. Citation frequency and the value of patented invention[J]. Review of Economics and Statistics, 1999, 81(3): 511-515.
参考文献 14
彭爱东. 基于同被引分析的专利分类方法及相关问题探讨[J]. 情报科学, 2008, 26(11): 1676-1684.
参考文献 15
HaS H, LiuW N, HuneCho, et al. Technological advances in the fuel cell vehicle: Patent Portfolio management[J]. Technological Forecasting & Social Change, 2015, 100: 277-289.
参考文献 16
ManeK K, BörnerK. Mapping topics and topic bursts in PNAS[J]. Proceedings of the National Academy of Sciences of the United States of America, 2004, 101: 5287-5290.
参考文献 17
侯婷, 吕学强, 李卓, 等. 面向专利技术主题分析的技术主题获取[J]. 情报理论与实践, 2015, 38(5): 126-140.
目录 contents

    摘要

    领域重要的技术特征词在技术主题网络中具有关键核心作用,研究对比从核心专利数据集中抽取的技术特征词相对于全数据集的效率,进而探讨基于引文网络的核心专利集筛选策略对技术主题识别所产生的影响。本文借鉴了专利引用强度指标和引用滞后性特征对核心专利集进行两步筛选,研究对比核心专利集与全数据集抽取的主题特征词在词云规模、词频覆盖率、阈值选择以及技术主题划分的差异。实证分析发现,利用核心专利集抽取技术特征词有助于提升技术主题识别的效率和准确性,且基于核心专利集聚类生成的技术主题网络与领域全集的主题覆盖率较大,能够有效简化技术网络中的技术主题,更加便于专家对技术主题进行归纳与总结。

    Abstract

    Technical feature words are considered to play a key role in technology networks. This study compares the efficiency of technical feature words extracted from the core patent dataset with those of the whole dataset and discusses the impact of core patent screening on the identification of technology features based on citation networks. This study applies the patent citation intensity indicator and citation time lag into patent screening of core patent documents in two steps. Furthermore, the differences between core documents and whole documents were identified in terms of word cloud, word frequency coverage, threshold selection, and division of technical topics. An empirical analysis on the biomedicine applications of graphene indicates that the feature words extracted from the core patent dataset help increase recognition efficiency and accuracy, and the technology co-classification network generated from the core dataset is more focused than the one generated from the whole network; this effectively simplifies data cleaning and also aids topic identification and expert interpretation.

  • 1 引 言

    1

    目前,专利技术主题分析的基本思路源于共词分析:基于专利文本抽取技术特征词,构建主题词间关系的共现矩阵,以此为基础进行聚类分析,以描述技术内容之间的联系与主题结构变[1]。在实际分析中该方法面临诸多挑战:专利文本自动化处理结果的清洗与解读工作量巨[2],词频较高且趋于稳定的主题词不能揭示技术新趋[3],术语来源与选择策略将对聚类或文本分类的结果产生显著的影[4]。在文献调研中发现,国内外相关学[5,6,7]尝试基于核心专利文献数据作为抽取专利语义特征的目标集合,以提升特征选取的效率,并强调了领域重要的技术特征词在技术专利网络中的关键作用。本项目将尝试基从核心专利文献出发,探讨与分析核心数据集中的技术特征词相对于全数据集的效率,进而探讨基于引文网络的核心专利集筛选策略对技术主题识别所产生的影响。

    核心专利技术在技术研发与商业竞争中具有重要的意义,它不仅包括了取得重大技术突破或改进的关键性技术节点,还可能是行业内重点关注的技术或涉诉热点。目前专利分析中识别核心重要专利的方法较[8],主要是基于专利指标的衡量方法,大量研[9,10]认为专利引文信息能衡量专利技术价值、协助技术规避设计,基于引文关系的技术网络更有助于挖掘核心技术要[11]。因此,为了获取领域重要的技术特征词和对后续技术发展具有重要影响的技术要素,专利被引情况将是筛选重点专利文献集合的主要衡量指标,但目前所采用的被引频次统[12,13]还存在争议和局限性,主要表现在因时间跨度不同,利用绝对被引频次来衡量文献的重要性不合[14]

  • 2 核心专利集筛选规则及步骤

    2

    为了克服以上问题,本文借鉴了Ha[15]提出的基于专利引文网络的专利引用强度指标,如图1所示,P1被P3、P4和P6引用,频次均为1(表示为C1,3=C1,4=C1,6=1),若C1,j=0,则j取值1、2、5、7、8、9;以此类推,直接引用可表示为:Cij=1,间接引用可表示为:若Cij≠1,但是Ci,k=1且Ck,j=1,则Pi和Pj呈现间接引用关系。

    图1                            专利引文网络示例

    图1 专利引文网络示例

    利用线性关系公式专利引文强度表达式为:若n>0,则V(P)=n+βinV(Qi);若n=0,则V(P)=0,其中V(P)代表专利P的引用强度,n代表专利直接被引频次,Qi代表1n项施引专利。

    第一步:基于引用重要性计算专利引用强度指标。在专利引用强度公式中,将直接引用和间接引用的参数权重β,分别设置取值为0、0.3、0.5、0.7、1,分别计算专利强度值取并集。当β=1时,直接引用与间接引用同等重要;当β=0时,专利引用强度仅计算了直接引用的情况。

    第二步:为了克服引用滞后性(即越早申请的专利,专利引用率越高),对该领域所有专利集被引情况进行描述统计分析,按照所选取的核心专利集的专利引用率大于申请同年专利引用最大标准差的规则筛选获得核心专利集。

  • 3 数据来源及核心专利集筛选结果

    3

    为了探讨并验证重点专利集的选择策略对技术主题分析效果可能产生的影响,本文将基于石墨烯在生物医药领域的应用作为研究对象,基于DII数据库构造检索式获取900项专利全数据集A,检索日期为2017年6月7日。基于Derwent Data Analyzer分别对全数据集A和核心专利集B的专利题名和摘要进行自然语言处理分别抽取并清理出词和短语,对于两种方案筛选出的关键词集合进行对比分析,以揭示两种方案在技术主题识别上的差异。

    根据德温特DII数据库检索石墨烯在生物医药领域的应用相关专利数据900项,获取每项专利的被引频次以及被引专利数据,收集专利直引和间接引用的专利数据。利用编程计算专利引用强度指标V(P),分别取β间接引用的参数权重0、0.3、0.5、0.7、1,计算Top 100的专利引用强度指标V(P)在不同的引用权重下的值(图2),5种不同情形取并集获得119项核心专利集清单。研究发现,不同引用权重下,专利引用强度值呈现差异化,但5种情况中,同时入选5种情形的专利共计92项,占比77%,因此,尽管所选取的专利直接引用与间接引用计算权重不同,但专利引用重要性的判断基本一致。

    2018天府论坛 核心专利集筛选策略及其对技术主题识别的影响 李姝影 魏瑞斌 20181119 修改摘要(new)/media/12be2592-80a8-438a-975e-b7e5c5b5952f-image002.png
    2018天府论坛 核心专利集筛选策略及其对技术主题识别的影响 李姝影 魏瑞斌 20181119 修改摘要(new)/media/12be2592-80a8-438a-975e-b7e5c5b5952f-image003.png

    图2 不同参数权重下专利引用强度(部分)(待续)

    为了克服引用滞后性,所选取的核心专利集的专利引用率大于申请同年专利引用最大标准差。根据专利被引的平均值、标准差、极大值和极小值等描述性统计(表1),如果一项专利申请年为2009年,它的引文频次如果大于10.53,即可被认为是核心专利,反之亦然。基于此原则筛选119项核心专利集,最终获得了86项。

    表1 专利20092016被引情况描述性统计

    申请年专利数量引用均值标准差均值的95%置信区间上限极大值极小值
    200957.22.68310.53126
    2010203.853.7035.58120
    2011412.412.8373.31130
    2012814.365.4025.55210
    2013962.534.3553.41230
    20141411.824.9922.65380
    20152250.746.6351.61980
    201628500.0590.0110
    表1                    专利2009—2016被引情况描述性统计
  • 4 核心专利集对技术主题识别的影响

    4

    专利技术主题识别方法往往是基于专利文献抽取专利文献标题、摘要及技术要点中的技术特征词,利用文本预处理和专家判读选择获得主题词,建立技术主题词之间共现关联关系,从而聚类获得技术主题。从方法层面来说,技术主题识别方法的优化主要体现在主题词获取与选择、共现矩阵的构建以及聚类分析四个方[16]。相对于全数据集,从重要专利数据集中抽取的技术特征词是否具有优势还需要进行对比分析,因此,本文探索研究了基于重要专利集筛选对技术特征词抽取效率以及技术主题划分两个方面的影响,分别对两个集合抽取的技术特征词的覆盖率、词云规模、重合率,共现和共类网络的特征、主题网络进行了对比分析。

  • 4.1 核心专利集对技术特征词抽取效率的影响

    4.1
  • 1) 核心专利集中高频词的覆盖率较高,词云规模适中

    1)

    专利文献因文本词源特征不同,所抽取的主题词所表征技术特征词在粒度与权重上均存在差异,例如,标题往往揭示单一技术主[17],标题词源的技术特征词的数量往往少于摘要。其次,主题词阈值选取存在主观意识,当技术特征词达到一定数量级时,高频核心词作为热点主题词一般会受到更高的关注度,而易忽略阈值较低的低频主题词、突发主题[16],当核心专利集范围较小时,所提取的技术特征词是否覆盖了中低高频将是考虑的重要问题。

    首先,如图3所示,核心集摘要所抽取的词云规模最为适中,相对于全数据集标题所抽取的词云来说更为丰富,也适当地减少了全数据集摘要词云清洗的工作量,也可能减少低频或突发词因阈值设置所产生的损失。其次,如表2所示,核心集所抽取的摘要特征词基本上能够覆盖全数据集85%的高频词、54%的中频词以及21%的低频词,而两者的共现词对达到2209个,占核心集词集的88%,这表明相对于全数据集来说,核心集词的覆盖率和选取效率较高

    脚注
    高频词:词频大于100。② 中频词:词频大于等于10,小于等于100。③ 低频词:词频小于10。
    图3                            不同词源词云可视化对比

    图3 不同词源词云可视化对比

    表2 核心集与全数据集获取特征词共现情况

    摘要题目
    合计高频中频低频合计高频词中频词低频词
    全数据集6594353182444171531223471162
    核心集2514376011876292023269
    两者共现词对220930198692226016137107
    共现词数覆盖率34%85%54%21%17%73%40%9%
  • 2) 选取的词频阈值越大,核心与全数据集关键词重合率越高

    2)

    利用词频阈值的方法分别选取核心专利集合和全数据集的关键词,统计所筛选的关键词共现的数量,发现两个集合选取的关键词集合具有较高的重合率,绝大多数重合率大于0.5。如图4所示,从移动平均线来看,重合率随阈值增长稳定上升趋势较为显著,即在筛选同样数量的关键词时,所选取的共现阈值越小,关键词重合率越低,共现阈值越大,关键词重合率越高。

    图4                            核心集与全数据集阈值设置与重合率的关系

    图4 核心集与全数据集阈值设置与重合率的关系

  • 4.2 核心专利集对技术主题划分的影响

    4.2
  • 1) 技术共现网络差异不显著

    1)

    以分析石墨烯生物医药领域专利的德温特专利分类代码的共现分析为例。首先,利用CiteSpace将Derwent Innovations Index的数据进行转换;导入BibExcel进行数据预处理,得到net和vec文件;导入Pajek和VOSviewer进行可视化。图5和图6分别获得并对比核心集合和全数据集的技术共类网络。从共现关系网络来看(表3),从两个数据集所形成的共现关系网络的指标来看,两者的共现网络结构并无显著差异。其次,通过对比两者之间德温特专利分类代码的覆盖率来看(表4),核心集共现分类号占全数据集分类号整体数量的38%,但从技术主题社团分类上来说,核心集共现分类号能够揭示技术主题分类中最重要的技术分类信息。因此,我们认为全集相对于核心集来说揭示的主题信息更为丰富,但在数据量达到一定的数量级时,极难区分主题之间的边界;虽然核心专利集所揭示的主题信息较少,相对简单的技术网络便于区分不同的技术主题社团的边界,便于技术主题分析结论的解读与分析。

    表3 核心集和全数据集德温特专利分类共现关系网络的指标情况

    文献集合点度中心性中介中心性接近中心性
    核心集共现网络0.44870.16660.4639
    全数据集共现网络0.57180.20730.5651
    全数据集(频次大于10)共现网络0.55910.24160.5558
    表3                    核心集和全数据集德温特专利分类共现关系网络的指标情况
  • 2) 技术主题区分度较高

    2)

    为了探索2种数据集选词策略对技术主题划分的影响,本项目采用LDA全概率生成模型,对2种专利集进行主题划分,实验分别将主题划分为10类(表5),对每一类中的特征词的分布概率进行分析对比。发现相对于全集来说,核心集技术主题的特征词的分布概率较高。通过Derwent Innovation的专利地图功能对全集A进行主题地图聚类,基于专家判读对比全集聚类后的技术地图,分析发现,如图7所示,核心集的技术关键词覆盖了大部分全集的技术主题。

    表4 核心集和全数据集德温特专利分类共现情况

    社团核心集全集全集(频次大于10)
    1a26,a81,a85,a95,a97,d16,d21,d25,f06,g03,s05,x27(红色)a13,a96,b02,b03,b04,b06,b07,c02,d16,d22,f04,J01,m11,m26,m29,p21,p34,p51,q66,q71,q75,s03,v06,x25(红色)a82,a96,b02,b03,b04,b05,b06,b07,c02,c06,d16,d22,f04,g02,j02,i01,i02,m13,m14,p21,p31,p32,p34,p42,p73,q71,q75,s05,v06(红色)
    2b07,e36,j04,i03,m11,m26,m29,p51,s03,x25(绿色)a12,a14,a18,a21,a23,a28,a32,a35,a83,a84,a92,g02,p81,x12(绿色)a89,c03,d15,e16,e17,e32,e36,e37,g04,j04,k07,i02,i03,m22,p53,s04,s06,u11,u12,u15,x15,x16,x26(绿色)
    3b04,f09,u11,u14,x15,x16(蓝色)a82,a88,b05,c03,c06,g02,i01,i02,m13,m14,p31,p32,p42,p73,s06,u11,u12,u14,v08,w01,x15,x24(蓝色)a12,a14,a18,a21,a23,a25,a32,a35,a92,g02,p81(蓝色)
    4a96,b05,d22,p32(黄色)a89,d15,e16,e17,e32,e36,e37,f09,g04,j04,k07,i02,i03,m22,p53,v05,x16,x26(黄色)A28,a83,a84,a85,a87,a94,f01,f02,m11,f06,m26,m29,p51,q66,x12,x25,(黄色)
    5a82,a84,g02(紫色)a11,a26,a85,a87,a94,a95,a97,d13,d21,d25,f01,f02,f06,g03,x27(紫色)A11,a26,a95,a81,a97,d13,d21,d25,g03,x27(紫色)
    表4                    核心集和全数据集德温特专利分类共现情况
    2018天府论坛 核心专利集筛选策略及其对技术主题识别的影响 李姝影 魏瑞斌 20181119 修改摘要(new)/alternativeImage/12be2592-80a8-438a-975e-b7e5c5b5952f-F006.jpg
    2018天府论坛 核心专利集筛选策略及其对技术主题识别的影响 李姝影 魏瑞斌 20181119 修改摘要(new)/alternativeImage/12be2592-80a8-438a-975e-b7e5c5b5952f-F007.jpg

    图5 核心集和全数据集德温特专利分类共现关系网络对比图6 全数据集德温特专利分类共现关系网络(选择频次大于10次的类)

    表5 石墨烯生物医药领域10类主题-特征词分布

    类别核心集全集
    10.587*"device"+0.329*"surface"+0.011*"carbon"+0.011*"having"+0.007*"pour"+0.007*"composition"+0.007*"material"+0.007*"polymer"+0.007*"oxide"+0.007*"agent"0.029*"provided"+0.023*"device"+0.019*"feeding+0.015*"plate"+0.015*"filter"+0.013*"pond"+0.011*"connected"+0.011*"chain"+0.010*"upper"+0.010*"platform"
    20.498*"oxide"+0.215*"agent"+0.184*"composition"+0.042*"copper"+0.024*"production"+0.009*"device"+0.004*"carbon"+0.004*"material"+0.004*"surface"+0.004*"having"0.014*"resin"+0.011*"ultrasonic"+0.010*"polyethylene"+0.010*"quantum"+0.009*"compound"+0.008*"carrying"+0.008*"cooling"+0.008*"added"+0.008*"reaction"+0.008*"mixed"
    30.481*"agent"+0.393*"pour"+0.041*"production"+0.017*"surface"+0.011*"composition"+0.011*"oxide"+0.011*"having"+0.009*"material"+0.008*"device"+0.005*"carbon"0.023*"nanoparticles"+0.020*"modified"+0.011*"drug"+0.010*"glycol"+0.009*"metal"+0.008*"group"+0.008*"carrier"+0.007*"nanomaterial"+0.007*"cell"+0.007*"resin"
    40.254*"copper"+0.224*"manufacturing"+0.175*"having"+0.143*"oxide"+0.094*"pour"+0.044*"surface"+0.023*"carbon"+0.017*"production"+0.007*"material"+0.007*"composition"0.022*"quantum"+0.012*"dispersion"+0.011*"based"+0.011*"anti"+0.011*"ultrasonic"+0.010*"resin"+0.009*"dots"+0.009*"filtering"+0.008*"leveling"+0.008*"ultrasonically"
    50.747*"production"+0.064*"carbon"+0.051*"material"+0.014*"oxide"+0.014*"composition"+0.014*"manufacturing"+0.014*"device"+0.014*"agent"+0.014*"surface"+0.014*"pour"0.018*"polymer"+0.015*"particles"+0.013*"monomer"+0.011*"metal"+0.008*"preferably"+0.008*"hydrogel"+0.008*"conductive"+0.007*"chloride"+0.007*"sheet"+0.007*"salt"
    60.288*"production"+0.280*"copper"+0.175*"pour"+0.091*"surface"+0.088*"manufacturing"+0.025*"composition"+0.017*"polymer"+0.010*"oxide"+0.007*"material"+0.007*"having"0.017*"metal"+0.010*"structure"+0.010*"preferably"+0.009*"magnesium"+0.009*"step"+0.009*"alloy"+0.008*"scaffold"+0.008*"polymer"+0.007*"bone"+0.007*"zinc"
    70.434*"carbon"+0.385*"composition"+0.132*"surface"+0.010*"oxide"+0.008*"pour"+0.007*"polymer"+0.006*"agent"+0.003*"material"+0.003*"device"+0.003*"having"0.039*"fiber"+0.013*"quantum"+0.012*"cellulose"+0.012*"drug"+0.011*"liquid"+0.010*"zinc"+0.009*"glass"+0.009*"film"+0.007*"cloth"+0.007*"yarn"
    80.710*"material"+0.122*"carbon"+0.066*"manufacturing"+0.062*"device"+0.010*"surface"+0.006*"oxide"+0.005*"composition"+0.005*"production"+0.003*"polymer"+0.003*"agent"0.021*"copper"+0.015*"foil"+0.012*"film"+0.011*"membrane"+0.011*"protein"+0.011*"nanostructure"+0.010*"second"+0.009*"cell"+0.008*"region"+0.008*"metal"
    90.697*"having"+0.156*"agent"+0.021*"surface"+0.013*"carbon"+0.013*"pour"+0.013*"composition"+0.013*"oxide"+0.013*"device"+0.013*"material"+0.013*"polymer"0.020*"film"+0.019*"substrate"+0.018*"polymer"+0.016*"protein"+0.012*"cell"+0.012*"membrane"+0.011*"cells"+0.010*"preferably"+0.010*"magnetic"+0.007*"selected"
    100.876*"polymer"+0.042*"carbon"+0.018*"composition"+0.009*"oxide"+0.009*"manufacturing"+0.006*"pour"+0.006*"device"+0.006*"material"+0.006*"surface"+0.006*"agent"0.018*"magnetic"+0.018*"device"+0.015*"conductive"+0.012*"electrode"+0.010*"light"+0.010*"fiber"+0.010*"resin"+0.007*"detecting"+0.007*"fluorescent"+0.006*"probe"
  • 5 结 语

    5

    本文在前人筛选核心专利集的基础上,从两个方面分析与探讨了核心专利集筛选策略对技术主题识别的影响。主要研究发现包括:在核心重要专利集合基础上,抽取的技术特征词中高频词的覆盖率较高,词云规模适中;如果所选取的词频阈值设置越大时,核心集与全数据集关键词重合率越高,基于核心集的技术特征词抽取的效率较高;核心集与全集的技术共现关系网络差异不显著;核心集技术主题特征词分布概率、技术主题区分度较高。因此,我们认为,利用核心专利集抽取技术特征词有助于提升技术主题识别的效率和准确性,且基于核心专利集聚类生成的技术主题,对领域全集技术主题的覆盖率较大,能够有效简化技术网络中的技术主题,而不用担心因词频阈值选择而损失的技术特征词信息、新的技术主题趋势等,更加便于专家对技术主题进行归纳与总结。

    图7                            基于Derwent Innovation生成全集专利地图

    图7 基于Derwent Innovation生成全集专利地图

  • 参考文献

    • 1

      沈君. 知识网络视角的专利技术主题结构分析——以第三代移动通信技术为例[D]. 大连: 大连理工大学, 2012.

    • 2

      杨超, 朱东华, 汪雪锋, 等. 专利技术主题分析: 基于SAO结构的LDA主题模型方法[J]. 图书情报工作, 2017, 3(61): 86-96.

    • 3

      许海云, 王振蒙, 胡正银, 等. 利用专利文本分析识别技术主题的关键技术研究综述[J]. 情报理论与实践, 2016, 11(39): 131-137.

    • 4

      屈鹏, 王惠临. 专利文本分类的基础问题研究[J]. 现代图书情报技术, 2013(3): 38-40.

    • 5

      Choi J, Hwang Y S. Patent key network anlayisis for improving technology development efficiency[J]. Technological Forecasting & Social Change, 2014, 83: 170-182.

    • 6

      Hu P, Huang M L, Xu P, et al. Finding nuggets in IP portfolios: core patent mining through textual temporal analysis[C]// Proceedings of the 21st ACM International Conference on Information and Knowledge Management. New York: ACM Press, 2012: 1819-1823.

    • 7

      穆秀秀, 郭德斌, 刘伟, 等. 基于核心专利群的专利规避范围界定方法研究[J], 工程设计学报, 2015, 22(2): 116-122.

    • 8

      祁延莉, 刘西琴. 核心专利识别方法研究[J]. 情报理论与实践, 2016, 39(11): 5-9.

    • 9

      Choi C, Park Y. Monitoring the organic structure of technology based on the patent development path[J]. Technology Forecasting & Social Change, 2009, 76(6): 754-768.

    • 10

      Barbera T D, Jimenez S F, Castello M L. Mapping the importance of the real world: the validity of connectivity analysis of patent citation network[J]. Research Policy, 2011, 40(3): 473-486.

    • 11

      Yang C, Zhu D H, Wang X F, et al. Requirement-oriented core technological components’ identification based on SAO analysis[J]. Scientometrics, 2017,112: 1229-1248.

    • 12

      Albert M B, Avery D, Narin F, et al. Direct validation of citation counts as indicators of industrially important patents[J]. Research Policy, 1991, 20(3): 251-259.

    • 13

      Harhoff D, Narin F, Scherer F M, et al. Citation frequency and the value of patented invention[J]. Review of Economics and Statistics, 1999, 81(3): 511-515.

    • 14

      彭爱东. 基于同被引分析的专利分类方法及相关问题探讨[J]. 情报科学, 2008, 26(11): 1676-1684.

    • 15

      Ha S H, Liu W N, Cho Hune, et al. Technological advances in the fuel cell vehicle: Patent Portfolio management[J]. Technological Forecasting & Social Change, 2015, 100: 277-289.

    • 16

      Mane K K, Börner K. Mapping topics and topic bursts in PNAS[J]. Proceedings of the National Academy of Sciences of the United States of America, 2004, 101: 5287-5290.

    • 17

      侯婷, 吕学强, 李卓, 等. 面向专利技术主题分析的技术主题获取[J]. 情报理论与实践, 2015, 38(5): 126-140.

李姝影

机 构:中国科学院成都文献情报中心,成都 610041

Affiliation:Chengdu Library and Information Center, Chinese Academy of Sciences, Chengdu 610041

邮 箱:lisy@clas.ac.cn

作者简介:李姝影,女,1987年生,博士,助理研究员,主要研究领域为专利分析与计量,E-mail:lisy@clas.ac.cn

张鑫

机 构:中国科学院成都文献情报中心,成都 610041

Affiliation:Chengdu Library and Information Center, Chinese Academy of Sciences, Chengdu 610041

作者简介:张鑫,男,1989年生,硕士,助理研究员,主要研究领域为知识计算

许轶

机 构:中国科学院成都文献情报中心,成都 610041

Affiliation:Chengdu Library and Information Center, Chinese Academy of Sciences, Chengdu 610041

作者简介:许轶,女,1983年生,硕士,助理研究员,主要研究领域为专利情报分析

许海云

机 构:中国科学院成都文献情报中心,成都 610041

Affiliation:Chengdu Library and Information Center, Chinese Academy of Sciences, Chengdu 610041

作者简介:许海云,女,1982年生,博士,副研究员,主要研究领域为情报计量学理论与实践

张娴

机 构:中国科学院成都文献情报中心,成都 610041

Affiliation:Chengdu Library and Information Center, Chinese Academy of Sciences, Chengdu 610041

作者简介:张娴,女,1973年生,博士,研究员,主要研究领域为科技政策情报研究与专利情报

朱月仙

机 构:中国科学院成都文献情报中心,成都 610041

Affiliation:Chengdu Library and Information Center, Chinese Academy of Sciences, Chengdu 610041

作者简介:朱月仙,女,1983年生,硕士,副研究员,主要研究领域为专利情报分析。

魏瑞斌

角 色:责任编辑

Role:Executive editor

2018天府论坛 核心专利集筛选策略及其对技术主题识别的影响 李姝影 魏瑞斌 20181119 修改摘要(new)/alternativeImage/12be2592-80a8-438a-975e-b7e5c5b5952f-F001.jpg
2018天府论坛 核心专利集筛选策略及其对技术主题识别的影响 李姝影 魏瑞斌 20181119 修改摘要(new)/media/12be2592-80a8-438a-975e-b7e5c5b5952f-image002.png
2018天府论坛 核心专利集筛选策略及其对技术主题识别的影响 李姝影 魏瑞斌 20181119 修改摘要(new)/media/12be2592-80a8-438a-975e-b7e5c5b5952f-image003.png
申请年专利数量引用均值标准差均值的95%置信区间上限极大值极小值
200957.22.68310.53126
2010203.853.7035.58120
2011412.412.8373.31130
2012814.365.4025.55210
2013962.534.3553.41230
20141411.824.9922.65380
20152250.746.6351.61980
201628500.0590.0110
2018天府论坛 核心专利集筛选策略及其对技术主题识别的影响 李姝影 魏瑞斌 20181119 修改摘要(new)/alternativeImage/12be2592-80a8-438a-975e-b7e5c5b5952f-F004.jpg
摘要题目
合计高频中频低频合计高频词中频词低频词
全数据集6594353182444171531223471162
核心集2514376011876292023269
两者共现词对220930198692226016137107
共现词数覆盖率34%85%54%21%17%73%40%9%
2018天府论坛 核心专利集筛选策略及其对技术主题识别的影响 李姝影 魏瑞斌 20181119 修改摘要(new)/alternativeImage/12be2592-80a8-438a-975e-b7e5c5b5952f-F005.jpg
文献集合点度中心性中介中心性接近中心性
核心集共现网络0.44870.16660.4639
全数据集共现网络0.57180.20730.5651
全数据集(频次大于10)共现网络0.55910.24160.5558
社团核心集全集全集(频次大于10)
1a26,a81,a85,a95,a97,d16,d21,d25,f06,g03,s05,x27(红色)a13,a96,b02,b03,b04,b06,b07,c02,d16,d22,f04,J01,m11,m26,m29,p21,p34,p51,q66,q71,q75,s03,v06,x25(红色)a82,a96,b02,b03,b04,b05,b06,b07,c02,c06,d16,d22,f04,g02,j02,i01,i02,m13,m14,p21,p31,p32,p34,p42,p73,q71,q75,s05,v06(红色)
2b07,e36,j04,i03,m11,m26,m29,p51,s03,x25(绿色)a12,a14,a18,a21,a23,a28,a32,a35,a83,a84,a92,g02,p81,x12(绿色)a89,c03,d15,e16,e17,e32,e36,e37,g04,j04,k07,i02,i03,m22,p53,s04,s06,u11,u12,u15,x15,x16,x26(绿色)
3b04,f09,u11,u14,x15,x16(蓝色)a82,a88,b05,c03,c06,g02,i01,i02,m13,m14,p31,p32,p42,p73,s06,u11,u12,u14,v08,w01,x15,x24(蓝色)a12,a14,a18,a21,a23,a25,a32,a35,a92,g02,p81(蓝色)
4a96,b05,d22,p32(黄色)a89,d15,e16,e17,e32,e36,e37,f09,g04,j04,k07,i02,i03,m22,p53,v05,x16,x26(黄色)A28,a83,a84,a85,a87,a94,f01,f02,m11,f06,m26,m29,p51,q66,x12,x25,(黄色)
5a82,a84,g02(紫色)a11,a26,a85,a87,a94,a95,a97,d13,d21,d25,f01,f02,f06,g03,x27(紫色)A11,a26,a95,a81,a97,d13,d21,d25,g03,x27(紫色)
2018天府论坛 核心专利集筛选策略及其对技术主题识别的影响 李姝影 魏瑞斌 20181119 修改摘要(new)/alternativeImage/12be2592-80a8-438a-975e-b7e5c5b5952f-F006.jpg
2018天府论坛 核心专利集筛选策略及其对技术主题识别的影响 李姝影 魏瑞斌 20181119 修改摘要(new)/alternativeImage/12be2592-80a8-438a-975e-b7e5c5b5952f-F007.jpg
类别核心集全集
10.587*"device"+0.329*"surface"+0.011*"carbon"+0.011*"having"+0.007*"pour"+0.007*"composition"+0.007*"material"+0.007*"polymer"+0.007*"oxide"+0.007*"agent"0.029*"provided"+0.023*"device"+0.019*"feeding+0.015*"plate"+0.015*"filter"+0.013*"pond"+0.011*"connected"+0.011*"chain"+0.010*"upper"+0.010*"platform"
20.498*"oxide"+0.215*"agent"+0.184*"composition"+0.042*"copper"+0.024*"production"+0.009*"device"+0.004*"carbon"+0.004*"material"+0.004*"surface"+0.004*"having"0.014*"resin"+0.011*"ultrasonic"+0.010*"polyethylene"+0.010*"quantum"+0.009*"compound"+0.008*"carrying"+0.008*"cooling"+0.008*"added"+0.008*"reaction"+0.008*"mixed"
30.481*"agent"+0.393*"pour"+0.041*"production"+0.017*"surface"+0.011*"composition"+0.011*"oxide"+0.011*"having"+0.009*"material"+0.008*"device"+0.005*"carbon"0.023*"nanoparticles"+0.020*"modified"+0.011*"drug"+0.010*"glycol"+0.009*"metal"+0.008*"group"+0.008*"carrier"+0.007*"nanomaterial"+0.007*"cell"+0.007*"resin"
40.254*"copper"+0.224*"manufacturing"+0.175*"having"+0.143*"oxide"+0.094*"pour"+0.044*"surface"+0.023*"carbon"+0.017*"production"+0.007*"material"+0.007*"composition"0.022*"quantum"+0.012*"dispersion"+0.011*"based"+0.011*"anti"+0.011*"ultrasonic"+0.010*"resin"+0.009*"dots"+0.009*"filtering"+0.008*"leveling"+0.008*"ultrasonically"
50.747*"production"+0.064*"carbon"+0.051*"material"+0.014*"oxide"+0.014*"composition"+0.014*"manufacturing"+0.014*"device"+0.014*"agent"+0.014*"surface"+0.014*"pour"0.018*"polymer"+0.015*"particles"+0.013*"monomer"+0.011*"metal"+0.008*"preferably"+0.008*"hydrogel"+0.008*"conductive"+0.007*"chloride"+0.007*"sheet"+0.007*"salt"
60.288*"production"+0.280*"copper"+0.175*"pour"+0.091*"surface"+0.088*"manufacturing"+0.025*"composition"+0.017*"polymer"+0.010*"oxide"+0.007*"material"+0.007*"having"0.017*"metal"+0.010*"structure"+0.010*"preferably"+0.009*"magnesium"+0.009*"step"+0.009*"alloy"+0.008*"scaffold"+0.008*"polymer"+0.007*"bone"+0.007*"zinc"
70.434*"carbon"+0.385*"composition"+0.132*"surface"+0.010*"oxide"+0.008*"pour"+0.007*"polymer"+0.006*"agent"+0.003*"material"+0.003*"device"+0.003*"having"0.039*"fiber"+0.013*"quantum"+0.012*"cellulose"+0.012*"drug"+0.011*"liquid"+0.010*"zinc"+0.009*"glass"+0.009*"film"+0.007*"cloth"+0.007*"yarn"
80.710*"material"+0.122*"carbon"+0.066*"manufacturing"+0.062*"device"+0.010*"surface"+0.006*"oxide"+0.005*"composition"+0.005*"production"+0.003*"polymer"+0.003*"agent"0.021*"copper"+0.015*"foil"+0.012*"film"+0.011*"membrane"+0.011*"protein"+0.011*"nanostructure"+0.010*"second"+0.009*"cell"+0.008*"region"+0.008*"metal"
90.697*"having"+0.156*"agent"+0.021*"surface"+0.013*"carbon"+0.013*"pour"+0.013*"composition"+0.013*"oxide"+0.013*"device"+0.013*"material"+0.013*"polymer"0.020*"film"+0.019*"substrate"+0.018*"polymer"+0.016*"protein"+0.012*"cell"+0.012*"membrane"+0.011*"cells"+0.010*"preferably"+0.010*"magnetic"+0.007*"selected"
100.876*"polymer"+0.042*"carbon"+0.018*"composition"+0.009*"oxide"+0.009*"manufacturing"+0.006*"pour"+0.006*"device"+0.006*"material"+0.006*"surface"+0.006*"agent"0.018*"magnetic"+0.018*"device"+0.015*"conductive"+0.012*"electrode"+0.010*"light"+0.010*"fiber"+0.010*"resin"+0.007*"detecting"+0.007*"fluorescent"+0.006*"probe"
2018天府论坛 核心专利集筛选策略及其对技术主题识别的影响 李姝影 魏瑞斌 20181119 修改摘要(new)/alternativeImage/12be2592-80a8-438a-975e-b7e5c5b5952f-F008.jpg

图1 专利引文网络示例

图2 不同参数权重下专利引用强度(部分)(待续)

图2 不同参数权重下专利引用强度(部分)(待续)

表1 专利20092016被引情况描述性统计

图3 不同词源词云可视化对比

表2 核心集与全数据集获取特征词共现情况

图4 核心集与全数据集阈值设置与重合率的关系

表3 核心集和全数据集德温特专利分类共现关系网络的指标情况

表4 核心集和全数据集德温特专利分类共现情况

表5 石墨烯生物医药领域10类主题-特征词分布

图7 基于Derwent Innovation生成全集专利地图

image /

无注解

无注解

无注解

无注解

无注解

无注解

无注解

无注解

无注解

无注解

无注解

无注解

无注解

  • 参考文献

    • 1

      沈君. 知识网络视角的专利技术主题结构分析——以第三代移动通信技术为例[D]. 大连: 大连理工大学, 2012.

    • 2

      杨超, 朱东华, 汪雪锋, 等. 专利技术主题分析: 基于SAO结构的LDA主题模型方法[J]. 图书情报工作, 2017, 3(61): 86-96.

    • 3

      许海云, 王振蒙, 胡正银, 等. 利用专利文本分析识别技术主题的关键技术研究综述[J]. 情报理论与实践, 2016, 11(39): 131-137.

    • 4

      屈鹏, 王惠临. 专利文本分类的基础问题研究[J]. 现代图书情报技术, 2013(3): 38-40.

    • 5

      Choi J, Hwang Y S. Patent key network anlayisis for improving technology development efficiency[J]. Technological Forecasting & Social Change, 2014, 83: 170-182.

    • 6

      Hu P, Huang M L, Xu P, et al. Finding nuggets in IP portfolios: core patent mining through textual temporal analysis[C]// Proceedings of the 21st ACM International Conference on Information and Knowledge Management. New York: ACM Press, 2012: 1819-1823.

    • 7

      穆秀秀, 郭德斌, 刘伟, 等. 基于核心专利群的专利规避范围界定方法研究[J], 工程设计学报, 2015, 22(2): 116-122.

    • 8

      祁延莉, 刘西琴. 核心专利识别方法研究[J]. 情报理论与实践, 2016, 39(11): 5-9.

    • 9

      Choi C, Park Y. Monitoring the organic structure of technology based on the patent development path[J]. Technology Forecasting & Social Change, 2009, 76(6): 754-768.

    • 10

      Barbera T D, Jimenez S F, Castello M L. Mapping the importance of the real world: the validity of connectivity analysis of patent citation network[J]. Research Policy, 2011, 40(3): 473-486.

    • 11

      Yang C, Zhu D H, Wang X F, et al. Requirement-oriented core technological components’ identification based on SAO analysis[J]. Scientometrics, 2017,112: 1229-1248.

    • 12

      Albert M B, Avery D, Narin F, et al. Direct validation of citation counts as indicators of industrially important patents[J]. Research Policy, 1991, 20(3): 251-259.

    • 13

      Harhoff D, Narin F, Scherer F M, et al. Citation frequency and the value of patented invention[J]. Review of Economics and Statistics, 1999, 81(3): 511-515.

    • 14

      彭爱东. 基于同被引分析的专利分类方法及相关问题探讨[J]. 情报科学, 2008, 26(11): 1676-1684.

    • 15

      Ha S H, Liu W N, Cho Hune, et al. Technological advances in the fuel cell vehicle: Patent Portfolio management[J]. Technological Forecasting & Social Change, 2015, 100: 277-289.

    • 16

      Mane K K, Börner K. Mapping topics and topic bursts in PNAS[J]. Proceedings of the National Academy of Sciences of the United States of America, 2004, 101: 5287-5290.

    • 17

      侯婷, 吕学强, 李卓, 等. 面向专利技术主题分析的技术主题获取[J]. 情报理论与实践, 2015, 38(5): 126-140.