摘要面向大数据环境下的数据治理和名称规范建设,针对机构名称数据多样性和复杂性特征,尝试采用共现视角和异质网络挖掘方法,探究数据驱动的机构名称归一化,可提高文献网络构建、挖掘和应用质量。从共现视角的机构识别方法层面上,构建一级机构-二级机构-三级机构三重异质共现网络模型;将机构名称归一化问题转化为异质共现网络挖掘问题,构建基于元路径的机构名称归一化框架模型;系统化地设计基于元路径的拓扑特征和识别工具,通过异质共现网络的文本属性、地理属性和关系属性挖掘,识别隐性语义关系。以2008—2018年上海交通大学WoS(Web of Science)文献题录数据机构名称归一化为例,实验结果验证了该方法的有效性。
杨昭. 基于元路径的机构名称归一化研究[J]. 情报学报, 2020, 39(10): 1069-1080.
Yang Zhao. Meta-path-Based Research on Institution Name Normalization. 情报学报, 2020, 39(10): 1069-1080.
1 贾君枝, 曾建勋, 李捷佳, 等. 科研机构名称归一化实现[J]. 图书情报工作, 2018, 62(13): 103-110. 2 张建勇, 钱力, 于倩倩, 等. 科研实体名称规范的研究与实践[J]. 数据分析与知识发现, 2019, 3(1): 27-37. 3 赵星. 信息网络关键节点对之删除判定[J]. 中国图书馆学报, 2018, 44(5): 47-58. 4 Leydesdorff L. What can heterogeneity add to the scientometric map? Steps towards algorithmic historiography[M]// Débordements. Paris: Presses des Mines, 2010: 283-289. 5 孙艺洲, 韩家炜. 异构信息网络挖掘: 原理和方法[M]. 段磊, 朱敏, 唐常杰, 译. 北京: 机械工业出版社, 2017: 3-7. 6 French J C, Powell A L, Schulman E, et al. Automating the construction of authority files in digital libraries: A case study[C]// Proceedings of International Conference on Theory and Practice of Digital Libraries. Heidelberg: Springer, 1997: 55-71. 7 Yu W, Yesupriya A, Wulf A, et al. An automatic method to generate domain-specific investigator networks using PubMed abstracts[J]. BMC Medical Informatics and Decision Making, 2007, 7: 17. 8 Guo H L, Zhu H J, Guo Z L, et al. Address standardization with latent semantic association[C]// Proceedings of the 15th ACM SIGKDD International Conference on Knowledge Discovery and Data Mining. New York: ACM Press, 2009, 6: 1155-1163. 9 Jonnalagadda S R, Topham P. NEMO: Extraction and normalization of organization names from PubMed affiliations[J]. Journal of Biomedical Discovery and Collaboration, 2010, 5: 50-75. 10 张晋辉, 刘清. 基于推理机的SCI地址字段数据清洗方法设计[J]. 情报科学, 2010, 28(5): 741-746. 11 Jiang Y, Zheng H T, Wang X M, et al. Affiliation disambiguation for constructing semantic digital libraries[J]. Journal of the American Society for Information Science and Technology, 2011, 62(6): 1029-1041. 12 Morillo F, Aparicio J, González-Albo B, et al. Towards the automation of address identification[J]. Scientometrics, 2013, 94(1): 207-224. 13 Cuxac P, Lamirel J C, Bonvallot V. Efficient supervised and semi-supervised approaches for affiliations disambiguation[J]. Scientometrics, 2013, 97(1): 47-58. 14 杨波, 杨军威, 阎素兰. 基于规则的机构名规范化研究[J]. 现代图书情报技术, 2015(6): 57-63. 15 杨瑞仙, 毛一雷. 面向知识评价的我国科研机构命名识别方法研究[J]. 情报杂志, 2015, 34(7): 179-183. 16 孙海霞, 王蕾, 吴英杰, 等. 科技文献数据库中机构名称匹配策略研究[J]. 数据分析与知识发现, 2018, 2(8): 88-97. 17 何涛, 王桂芳, 马廷灿. 基于类中心向量的论文作者归属机构自动识别方法研究[J]. 情报学报, 2019, 38(7): 716-721. 18 叶鹰. 图书情报学的学术思想与技术方法及其开新[J]. 中国图书馆学报, 2019, 45(2): 15-25. 19 余传明, 周丹. 情感词汇共现网络的复杂网络特性分析[J]. 情报学报, 2010, 29(5): 906-914.