en
×

分享给微信好友或者朋友圈

使用微信“扫一扫”功能。
参考文献 1
刘易斯·芒福德. 城市发展史: 起源、演变和前景[M]. 北京: 中国建筑工业出版社, 2005: 75.
参考文献 2
BanyaiM, GloverT D. Evaluating research methods on travel blogs[J]. Journal of Travel Research, 2012, 51(3): 267-277.
参考文献 3
Marine-RoigE, ClavéS A. A detailed method for destination image analysis using user-generated content[J]. Information Technology & Tourism, 2016, 15(4): 341-364.
参考文献 4
KöltringerC, DickingerA. Analyzing destination branding and image from online sources: A web content mining approach[J]. Journal of Business Research, 2015, 68(9): 1836-1843.
参考文献 5
GrandiR, NeriF. Sentiment analysis and city branding[M]// New Trends in Databases and Information Systems. Heidelberg: Springer, 2014: 339-349.
参考文献 6
WongC U I, QiS. Tracking the evolution of a destination s image by text-mining online reviews-the case of Macau[J]. Tourism Management Perspectives, 2017, 23: 19-29.
参考文献 7
Villena-RománJ, CobosA L, CristóbalJ C G. TweetAlert: Semantic analytics in social networks for citizen opinion mining in the city of the future[C]// UMAP Workshops, 2014.
参考文献 8
YanW, SunJ H. Research and development of city image media monitoring system[C]// Proceedings of the International Conference on Management and Service Science. Los Alamitos: IEEE Computer Society Press, 2009: 1-4.
参考文献 9
LiG, ChenJ. Study on the city image network monitoring system based on opinion-mining[C]// Proceedings of the 2nd International Conference on Networking and Digital Society. Los Alamitos: IEEE Computer Society Press, 2010, 2: 134-138.
参考文献 10
WeilerA, GrossniklausM, SchollM H. Situation monitoring of urban areas using social media data streams[J]. Information Systems, 2016, 57: 129-141.
参考文献 11
Armonk. IBM helps cities worldwide measure public social sentiment on critical issues[EB/OL]. IBM News Room. (2012-09-13) [2018-05-30]. https://www-03.ibm.com/press/us/en/pressrelease/38816.wss.
参考文献 12
瑞意趋势·政企形象监测. 大数据整合与挖掘[EB/OL]. (2018-05-29) [2018-05-30]. http://www.trends-china.com/cityimagemonitoring.html.
参考文献 13
BenedettoF, TedeschiA. Big data sentiment analysis for brand monitoring in social media streams by cloud computing[M]// Sentiment Analysis and Ontology Engineering. Heidelberg: Springer, 2016: 341-377.
参考文献 14
AbburuS, BabuG S. A frame work for web information extraction and analysis[J]. International Journal of Computers & Technology, 2013, 7(2): 574-579.
参考文献 15
SchmunkS, HöpkenW, FuchsM, et al. Sentiment analysis: Extracting decision-relevant knowledge from UGC[M]// Information and Communication Technologies in Tourism 2014. Heidelberg: Springer, 2013: 253-265.
参考文献 16
LaiL S L, ToW M. Content analysis of social media: A grounded theory approach[J]. Journal of Electronic Commerce Research, 2015, 16(2): 138.
参考文献 17
MikolovT, ChenK, CorradoG, et al. Efficient estimation of word representations in vector space[OL]. https://arxiv.org/pdf/1301.3781.pdf.
参考文献 18
陈鑫. 基于行块分布函数的通用网页正文抽取[EB/OL]. (2010-11-15) [2018-06-11]. https://wenku.baidu.com/view/2b5c9793d-aef5ef7ba0d3cb5.html.
参考文献 19
MankuG S, JainA, Das SarmaA. Detecting near-duplicates for web crawling[C]// Proceedings of the 16th International Conference on World Wide Web. New York: ACM Press, 2007: 141-150.
参考文献 20
CheW X, LiZ H, LiuT. LTP: A Chinese language technology platform[C]// Proceedings of the 23rd International Conference on Computational Linguistics: Demonstrations. Stroudsburg: Association for Computational Linguistics, 2010: 13-16.
参考文献 21
HowNet[EB/OL]. (2018-06-14) [2018-06-15]. http://www.keenage.com/.
参考文献 22
台湾大学自然语言处理实验室. NTUSD[EB/OL]. (2018-06-14) [2018-06-15]. http://nlg.csie.ntu.edu.tw/.
参考文献 23
徐琳宏, 林鸿飞, 潘宇, 等. 情感词汇本体的构造[J]. 情报学报, 2008, 27(2): 180-185.
参考文献 24
陈晓东. 基于情感词典的中文微博情感倾向分析研究[D]. 武汉: 华中科技大学, 2012: 31.
参考文献 25
韩忠明, 张玉沙, 张慧, 等. 有效的中文微博短文本倾向性分类算法[J]. 计算机应用与软件, 2012, 29(10): 89-93.
目录 contents

    摘要

    对大量网络信息进行分析,准确评估城市网络形象,有助于城市管理者发现城市治理短板,主动塑造城市品牌形象。首先,本文对国内外城市网络形象监测的相关研究情况进行了评述;在此基础上,提出了系统设计思路及框架;接着,对系统关键技术及核心功能的实现过程进行了详细阐述;最后给出了系统应用实例。本文所构建的城市网络形象监测系统能够较为准确地对城市网络形象进行评估,能帮助政府发现城市治理中存在的问题,为城市品牌形象的塑造提供决策支持。

    Abstract

    The assessment of a city s network image through the analysis of a large amount of network information can help city managers find urban governance shortcomings and actively shape the city s image. First, this article reviews the research status of urban network image monitoring nationally and abroad. Consequently, a system design concept and framework are proposed. Subsequently, the key technology and core function implementation process of the system are elaborated. Finally, a system application example is provided. The city network image monitoring system constructed in this paper can accurately assess the city network image, help the government identify problems in city governance, and provide decision support for shaping the city s brand.

  • 1 引 言

    城市形象是人们对城市的主观印象,是通过大众传媒、个人经历、人际传播、记忆以及环境等因素的共同作用而形成[1],是城市软实力的重要组成部分。良好的城市形象不仅有利于提高城市居民的幸福感、归属感和自豪感,同时也有利于城市开展招商引资、旅游开发、规划建设、人才引进等工作。以往,政府部门和学者对城市形象的监测和分析主要是利用内容分析法、叙事分析法对收集的数据(一般被分析的数据大概在几十篇至上百篇左右)进行手工加工处理,然后对城市形象进行总体把握和研[2]。但是,随着互联网的发展和新媒体的兴起,有关城市形象的信息数量迅猛增长,散布在各种网络媒介中,如新闻、博客、论坛、微博、微信等,仅仅依靠人力和传统方法来收集、加工、整理、分析海量城市形象数据已无法完成。为此,如何对大量的网络信息进行分析,全面而准确地评估城市网络形象?如何让城市管理者发现城市治理短板?如何积极主动塑造城市品牌形象?这些问题的解决,对于提升政府决策能力,完善部门服务水平,维护城市网络形象具有重要现实意义。

    鉴于此,本文根据政府部门对城市网络形象监测的实际需求,提出了一套自动化城市网络形象监测系统设计方案,并依据该方案对系统进行了实施。本文首先对国内外相关研究情况进行评述,分析了当前城市形象监测系统的不足;而后,介绍了所构建的城市形象监测系统设计思路与框架,并对系统关键技术、核心功能的实现过程进行了详细阐述,包括数据的采集、过滤、整理、存储,评价指标体系的建立、特征词的筛选、特征词表的建立,情感分析的技术、方法,信息可视化的技术、方法等;接着,给出了系统应用实例;最后,总结了系统存在的不足并对未来研究工作进行展望。本文所构建的城市网络形象监测系统能够较为准确地对目标城市网络形象进行评估,能帮助政府部门发现城市治理中存在的问题,能为城市品牌形象的塑造提供决策支持。

  • 2 相关研究

    如何从海量网络信息中提炼出与城市形象有关的信息,如何在大数据时代运用先进的分析技术来测度城市形象,这些问题已引起了国内外学者的关注。Marine-Roig[3]提出了一套半自动化的城市旅游形象分析方法,该方法实现了对海量旅游博客和游客评论的分析,内容包括网络数据采集、整理、清洗、转换、分析等一系列步骤,并以加泰罗尼亚为例对该分析方法进行验证,结果表明该方法具有很好的适用性和有效性。Költringer[4]提出了一套自动化Web内容挖掘方法用于城市旅游形象分析,该方法采用了数据挖掘和自然语言处理技术,包括关键词分析、情感分析、对应分析等,文章通过评估维也纳城市旅游形象,验证了该方法的可行性。类似地,Grandi[5]、Wong[6]也从各自的角度提出了城市网络形象的大数据分析方法。

    除了方法的创新,不少学者也尝试构建了城市网络形象监测系统。Villena-Román[7]就构建了一套可配置的、实时的Twitter城市数据监测系统,该系统的设计目标是帮助城市管理者快速掌握Twitter上公民对城市公共服务的态度、意见和看法等,从而帮助政府部门了解市民诉求,制定决策方案。Yan[8]设计开发了一套城市媒体形象监测系统,该系统通过预先设计好的指标体系,对媒体中的城市形象信息进行采集、过滤、分析、计算等一系列步骤,最终实现城市形象的自动评估。Li[9]采用意见挖掘技术,集成数据采集、文本分类、主题抽取、情感分析等一系列流程,构建了城市形象网络监测系统。Weiler[10]设计了一种钟面可视化方法,对社交媒体中的数据进行监测,从时间和空间两个维度,展示城市区域中发生的事件及其情感。

    目前,商用城市网络形象监测系统有IBM公司的智慧城市智能操作中心(Intelligent Operations Center for Smarter Cities)系统和瑞意趋势(EverTrends)政企形象监测系统。IBM公司的城市网络形象监测系统采用先进的统计分析和自然语言处理技术对社交媒体中的舆情进行监测,帮助政府部门发现城市负面舆情及管理问题,系统甚至还可以预测舆情传播趋[11]。瑞意趋势政企形象监测系统是瑞意趋势公司与上海社会科学院合作开发的系统,该系统可以及时有效地采集城市相关信息,并根据预设的指标体系对城市形象进行诊断,为维护城市网络形象提供决策支[12]

    总体来看,利用自动化语义分析技术来监测和分析城市网络形象已成为当前国内外研究的趋势。为了快速判断公民对城市形象的态度、意见倾向,情感分析技术更是成为相关研究的标[13]。如今,城市形象监测和评估研究,在数据采集、数据处理、数据展示、反映管理弊病等方面取得了一定的进展,但也存在一定的局限,总结起来包括以下两方面:①城市形象评价指标体系专指性不强,易造成指标数据精度下降,影响评价结果准确性,不利于政府部门有针对性地开展治理工作。例如,设置“商业文明”这一指标,该指标概念宽泛、专指性差、内容繁多,若不在其下设置二级指标,则容易造成该指标下出现大量歧义、无关文本,产生数据噪音,导致分析结果不理想,难以指导部门开展相关工作。②情感分析粒度较粗,大多采用正向、负向、中立来对文本情感倾向进行标注,未考虑不同词汇的情感强烈程度,分析精度有待进一步提高。

    综上所述,如何建立一套切实可行的城市网络形象自动评价指标体系,如何将词汇的情感强度纳入情感分析过程中,以提高情感分析精度,从而实现准确评价城市网络形象,有效捕捉和识别城市管理问题,便成为本文研究重点。

  • 3 系统思路与框架

  • 3.1  系统思路

    如今,研究人员已提出了许多从网络资源中抽取知识的思路和方法。例如,Abburu[14]给出了一个包含三步骤的Web数据抽取和分析框架,即定位资源、采集数据、分析数据。Schmunk[15]设计了一个五阶段的文本分析方法,包括资源的选择与收集、文本预处理、文本挖掘、模型评估、模型使用。Lai[16]提出了一个四阶段的社会媒体分析方法论:确定分析目标和范围、数据收集、数据转换、结果解释。

    本文参照Lai[16]的四阶段分析方法论,根据监测系统的任务要求,提出包含确定目标和范围、指标设计、数据收集、数据转换、结果解释五个步骤的系统构建思路。首先,本系统构建目标是对城市网络形象进行监测,帮助政府部门了解城市网络形象,掌握城市治理中存在的问题,为城市形象维护提供决策支持。系统分析范围是与目标城市网络形象有关的网络文本信息。其次,指标设计要满足系统性、科学性、可测量、可量化、自动化评分的要求,同时,还需构建与指标相对应的特征词表、同义词表,为城市网络形象的自动评价做准备。再次,数据收集主要面向网络中的公开信息源,范围包括新闻、论坛、微博、微信、博客。接下来进行数据转换,包括正文抽取、文本排重、文本分句、文本分词、词性标注、依存句法分析、特征匹配、情感分析、指标打分等一系列步骤。最后完成结果解释,利用可视化技术对分析结果进行展示。

  • 3.2  系统框架

    依据上述思路及系统的需求和功能,本文提出了城市网络形象监测系统框架,该框架由专家介入模块、信息采集模块、信息预处理模块、信息分析模块和信息可视化模块五部分组成。具体系统框架如图1所示。

    图1
                            城市网络形象监测系统框架

    图1 城市网络形象监测系统框架

  • 3.2.1  专家介入模块

    专家介入模块是本系统实现智能监测和评价的基础,该模块包含两方面内容:一方面是通过专家调查建立城市网络形象评价指标体系,并依据建立好的指标体系构建相应的特征词集;另一方面是依靠专家智慧对语料库中的情感词进行人工标注,构建情感词典以支持后续情感分析。另外,专家介入模块还需对已建立好的评价指标体系、特征词集、情感词典进行管理和维护。

  • 3.2.2  信息采集模块

    信息采集模块主要负责对网络信息资源进行采集,包括新闻、论坛、博客、微博、微信。采集模块的功能有URL去重、网页爬取和正文抽取。采集好的信息将存入网络信息资源数据库,以备进一步处理。

  • 3.2.3  信息预处理模块

    信息预处理模块的作用是对信息采集模块获取的信息进行加工,将处理好的信息存入分析数据库,为后续分析做准备。该模块的功能有文本排重、文本分句、文本分词、词性标注、依存句法分析和特征匹配。

  • 3.2.4  信息分析模块

    信息分析模块主要负责对完成预处理的数据进行分析,包括对文本进行情感分析,对指标进行自动化打分,以及对分析数据库中的文本进行关键词提取,统计关键词词频。信息分析结果是后续信息可视化的基础。

  • 3.2.5  信息可视化模块

    信息可视化模块主要负责将分析结果向用户进行展示。该模块的功能有地理分布展示、情感趋势分析、信息来源分析、指标得分展示、关键词云展示、热度趋势分析等。

  • 4 关键技术与功能

  • 4.1  评价指标体系

    开展自动化城市网络形象监测,首先需要建立城市网络形象评价指标体系,并确定各指标的权重,而后依据指标体系确定各指标下的特征词,以及与特征词具有相似意义的同义指示词,这样对城市网络形象的评价就转化为对指标体系中的指标进行打分,而各指标的得分又是根据含有特征词的语句所获得的情感值得分进行加总平均加权后而得来的。可见,指标体系、特征词集及同义指示词集就成了本系统自动化评价的基础。

  • 4.1.1  评价指标及权重确定

    党的十九大报告明确指出,中国特色社会主义事业总体布局是“五位一体”,即经济建设、政治建设、文化建设、社会建设、生态文明建设。基于此,本文将五位一体的五个方面作为城市网络形象评价指标体系的一级指标。而后,在文献调研、专家咨询、实际需要和统计检验基础上,最终确定了16个二级指标和33个三级指标。

    指标的权重确定采用主观赋权法,即根据专家经验进行主观判断取得权数,然后再对指标进行综合评估。主观赋权法有层次分析法、德尔菲法等。由于城市网络形象的评价指标较多,数据量大,层次分析法达到一致性要求较高,因此本文采用德尔菲法来确定各指标权重,即专家对指标进行多轮打分,多次反馈,确定权重,确保专家意见的充分反映和最终结论的可靠。通过对10位领域专家三轮调查,使得专家对各指标权重的意见达到基本一致,最终确定的评价指标体系及对应权重如表1所示。

    表1 城市网络形象评价指标体系及权重

    目标层一级指标权重二级指标权重三级指标权重
    城市网络形象评价指标体系A1经济建设0.25B1城乡建设0.40C1道路建设0.35
    C2供水建设0.25
    C3电网建设0.15
    C4城乡规划0.25
    B2创业就业0.20C5创业环境0.35
    C6就业状况0.65
    B3生活质量0.20C7居住情况0.35
    C8收入状况0.65
    B4市场消费0.20C9消费信息0.50
    C10消费便捷0.50
    A2政治建设0.18B5依法行政0.40C11行政机关0.40
    C12政法机关0.60
    B6党风政风0.40C13廉洁情况0.50
    C14服务水平0.50
    B7民主建设0.20C15信息公开0.20
    C16问题处理0.50
    C17民意回应0.30
    A3文化建设0.15B8文化基础设施0.40C18文化基础设施1.00
    B9社会价值观0.60C19好人好事0.20
    C20公共秩序0.40
    C21文明行为0.40
    A4社会建设0.17B10社会保障0.30C22医疗保障0.60
    C23养老保障0.40
    B11教育教学0.20C24教学环境0.60
    C25师德师风0.40
    B12公共交通0.10C26公共交通1.00
    B13社会安全0.40C27社会治安0.60
    C28食品安全0.40
    A5生态文明建设0.25B14空气质量0.30C29空气质量1.00
    B15水体质量0.30C30水体质量1.00
    B16城市卫生0.40C31垃圾处理0.30
    C32地面清洁0.40
    C33绿地保护0.30
  • 4.1.2  特征词集及同义指示词表构建

    构建特征词集的目的是使城市网络形象指标打分可以在特征词集的指导下完成。这些特征词代表了其对应的评价指标所涉及的范围。例如,“C22医疗保障”这一评价指标,其特征词有医院、医务人员、医药费、医疗服务、医患关系等,这些特征词就反映了医疗保障这一评价指标所涉及的评价范围。通过对含有这些特征词的语句进行情感分析,就得到了最细粒度的指标分值。特征词的确定过程比较简单,首先由系统分析人员根据设计的指标体系提出每个指标的候选特征词集,而后通过与领域专家的反复交流,确定最终的特征体系。

    确定了特征词集,接下来便是要构建特征词的同义指示词表。由于有关城市网络形象的特征词数量繁多,达533个,且语料来自于网络文本,语言的规范性不强,因此不能简单地利用现有的同义词表,如《同义词词林》来对特征词进行扩充。为此,本文采用《同义词词林》结合Word2vec词向量模[17]的方法,从海量网络文本中寻找与特征词相关联的词汇,来扩充完善现有的特征词集。主要步骤包括:①采用《同义词词林》对特征词集进行初步扩充,生成初始同义指示词表;②利用网络爬虫采集网络文本,构建城市网络形象语料集(共69万篇文档,2.01GB);③对语料集中的文本进行分词;④Word2vec模型训练;⑤将特征词集和初始同义指示词表中的词逐个输入Word2vec训练好的模型,生成关联词汇列表,由领域专家对关联词汇列表中的词进行筛选,最终确定同义指示词表,共4436个词汇。表2是最终确定的特征词集和同义指示词表片段。

    表2 特征词集和同义指示词表片段

    指标特征词同义指示词
    C22医疗保障医院病房、病床、诊室、诊所、门诊、急诊、挂号、药房、输液室、治疗室、注射室、候诊厅、内科、外科、儿科、骨科、妇产科、妇科、牙科、皮肤科、口腔科、耳鼻喉科、眼科、卫生院、手术台、救护车
    医务人员医生、护士、大夫、医护人员
    医药费治疗费、手术费、药费、挂号费、诊疗费、体检费、回扣
    医疗服务看病、就医、就诊、复诊、住院、复查、治病、治疗、手术、医治、医德、医托、医腐、行医、输液、输血、体检、打疫苗、转院
    医患关系医患、医疗纠纷
  • 4.2  网络文本采集

    网络文本采集主要负责对目标城市有关的网络文本进行抓取。该模块利用HTMLParser文档解析器,集成HTTPClient编程工具包,实现了对目标数据源的采集。为了防止重复抓取情况的发生,本文采用了布隆过滤器(bloom filter)来过滤采集过程中出现的重复URL。同时,哈尔滨工业大学陈鑫编写的通用网页正文抽取算[18]被用于网页正文抽取。采集数据源主要考虑信息全面、访问量大、技术可行的网站,包括百度新闻、新浪博客、百度贴吧、天涯论坛、新浪微博、腾讯微信等。每天,采集程序会根据预先设置好的城市关键词,定时进入各大网站的搜索页面进行搜索,对搜索结果进行抓取并存储至网络信息资源数据库,以备后续的处理和分析。

  • 4.3  文本信息预处理

    文本信息预处理主要是对采集的文本信息进行过滤、转换。首先,为了保证分析数据库中数据的唯一性(相同数据会导致重复评价情况出现),需要对网络信息资源数据库中的文本进行排重。本系统采用SimHash语义指纹算法对文本排重,该算法具有计算效率高、占用内存小的特点,是文本排重最常用的方[19]。其次,为了使评价结果更为准确,本文采用句子级别的情感分析,即对文章中包含特征词的句子进行情感分析,因此就需要对采集的文本进行分句。该过程首先用句号替换文本中的非句号句子终结符,而后依据句号对所有文章进行分句。接着,哈工大社会计算与信息检索研究中心提供的ltp4j自然语言处理工具[20]被用于文本分词、词性标注和依存句法分析。此步骤中,在4.1.2节构建的特征词集和同义指示词表将以用户字典的形式添加至自然语言处理工具包,以帮助提高分词的精确性。最后,利用4.1.2节构建的特征词集和同义指示词表对分好词的句子进行特征匹配,对包含特征词和同义指示词的句子予以保留,存入分析语料库,其他的舍去。这样,整个文本信息预处理步骤就完成了。

  • 4.4  文本信息分析

    文本信息分析是城市网络形象监测系统的核心,该模块的功能包括对分析数据库中存储的句子进行情感分析,依据情感分析的结果对城市网络形象指标进行打分,以及对与每个指标相关联的文本进行关键词提取和排序。

  • 4.4.1  情感分析

    文本情感分析需要构建情感词典、否定词表、程度副词表及确定情感计算规则。

  • 1)情感词典的构建

    目前,国内已有不少学者尝试构建了中文情感词典,其中,比较知名的有知网(HowNet)中文情感词[21]、台湾大学NTSUD简体中文情感词[22]以及大连理工大学中文情感词汇本体[23]。由于前两部词典只给出了情感词的情感倾向,即正、负倾向,并未给出词汇的情感强烈程度;考虑到本系统对情感分析精度的要求,本文采用具备词汇情感强度的大连理工大学中文情感词汇本体库作为系统的基础情感词典。该词典共含有情感词27466个,不但对词语的褒贬倾向进行了标注,而且还将词汇的情感强烈程度划分为1、3、5、7、9五档。

    确定了基础情感词典,还要对网络情感词语及微博表情符号进行录入,以扩展情感词典的适用范围。网络情感词语的确定采用机器辅助过滤加人工审核筛选策略,具体步骤包括:①对4.3节生成的分析数据库中的句子进行分词、词性标注,保留句子中的名词、动词和形容词,统计各保留词语词频,去除已出现在基础情感词典中的词语;②在剩下的词语中筛选出带有情感色彩的词语,人工确定词语的情感极性和情感强度。为了保证情感词语标注的质量,由5位硕士研究生分别对词语进行情感极性判断,取人数最多的情感极性作为词语的最终情感极性,词语的情感强度数值则是对5位硕士研究生分别给出的情感强度值求平均得来。最终扩充入基础情感词典的网络情感词语共4685个。微博表情符号共录入86个,情感强度统一取5。本系统情感词典共收录情感词32237个。

  • 2)否定词表的构建

    被否定词修饰的情感词其情感极性会反转,即当一个否定词修饰正面情感词时,该词汇原本表达的正面情感就会转变成负面情感,反之则反。因此,在对文本进行情感分析时,必须要考虑否定词的修饰作用。本文根据文献[24]给出的否定词表,结合实际情况,构建了一张包含29个词、权值为 -1的否定词表,如表3所示。

    表3 否定词表

    不、没、无、非、莫、弗、毋、勿、未、否、别、無、休、不曾、未必、没有、不要、难以、不再、未曾、并非、未尝、决非、绝非、不准、不应、尚未、毫不、不至于
  • 3)程度副词表的构建

    程度副词对情感词的修饰或限制会使其情感强度加强或减弱,因此,在情感分析时除了要考虑否定词对情感词的修饰作用,同时也要考虑程度副词对情感词的修饰或限制作用。本文根据文献[25],结合实际情况构建了一张包含219个词的程度副词表,如表4所示。

    表4 程度副词表

    程度程度副词个数
    2百分之百、倍加、备至、不得了、不堪、不可开交、不亦乐乎、不折不扣、彻头彻尾、充分、到头、地地道道、非常、极、极度、极端、极其、极为、截然、尽、惊人地、绝、绝顶、绝对、绝对化、刻骨、酷、满、满贯、满心、莫大、奇、入骨、甚为、十二分、十分、十足、死、最、无可估量、至极、无与伦比、卓绝、举国、全国、滔天、透、完全、完完全全、万、万般、万分、万万、无比、无可估量、无以复加、要命、要死、异常、逾常、之极、之至、至极、卓绝、最为66
    1.8不为过、超、超额、超外差、超微结构、超物质、出头、浮、过、过度、过分、过火、过劲、过了头、过猛、过热、过甚、过头、过于、过逾、何止、何啻、开外、苦、老、偏、强、溢、忒、很、很是、坏、老大、甚、实在、太甚、特、尤、尤其、尤为、尤以、痛、无度、已极、已甚、贼、佼佼47
    1.5不过、不少、不胜、惨、沉、沉沉、出奇、大为、多加、多么、分外、格外、足、足足、强、尤甚、何等、颇为、太、特别、着实、多多、够瞧的、够戗、好不、好、可、良、颇、远、曷、碜32
    1.2大不了、多、更、更加、更进一步、更为、还、还要、较、较比、较为、进一步、愈加、越发、大不了、那般、那么、那样、如斯、益、益发、逾、愈、愈发、愈来愈、愈益、远远、越发、越加、越来越、越是、这般、这样33
    0.8点点滴滴、多多少少、怪、好生、还、或多或少、略、略加、略略、略微、略为、蛮、稍、稍稍、稍微、稍为、稍许、挺、相当19
    0.5半点、不大、不丁点儿、不甚、不怎么、聊、没怎么、轻度、弱、丝毫、微、相对、未免、些、些微、些小、一点、一点儿、一些、有点、有点儿、有些22
  • 4)情感计算规则

    构建好了情感词典、否定词表、程度副词表即可对分析数据库中的句子进行情感计算。在语法上,程度副词或否定词往往与具有情感倾向的形容词或动词构成状中结构关系,因此,对于句子中存在程度副词、否定词修饰情感词的情况,可以利用哈工大语言技术平台LTP对句子进行依存句法分析,提取句子中的状中结构关系(ADV关系),而后对提取的关系进行情感计算。具体的情感计算规则如图2所示。

    图2
                            情感计算规则

    图2 情感计算规则

    其中,当句子中出现程度副词修饰情感词时,情感词情感强度计算公式为

    Ow=Ma×Sw
    (1)

    式中,Sw为句子中w情感词的情感强度,Ma为程度副词a的权值,Ow为经过程度副词修饰后情感词w的情感强度。

    当句子中出现否定词修饰情感词时,情感词情感极性反转,情感词情感强度计算公式为

    Ow=-1n×Sw
    (2)

    式中,Sw为句子中w情感词的情感强度,n为对于情感词w而言否定词出现的次数,Ow为经过否定词修饰后情感词w的情感强度。

    由于每句话出现的情感词数量不同,情感强烈程度不一,如果只是简单加总每句话情感词的情感强度来计算句子情感值,就有可能出现情感词数量越多,情感值越大的情况。为此,在计算句子情感值时需要进行归一化处理,使得所有句子的情感值都投射到[0,1]区间,具体计算公式为

    Os=i=1nOij=1k|Oj|
    (3)

    式中,n为句子中包含的情感极性为正的情感词数量,Oi为第i个情感极性为正的情感词情感强度,式中k为句子中包含的情感词数量,Oj为第j个情感词的情感强度。Os为句子s的情感值。

    根据情感计算规则计算得到的句子情感强度Os,将会出现下列三种情况:

    Os0Os<0.5Os=0.50.5<Os1

    根据Os的得分不同,可以识别出含有特征词或同义指示词的句子的情感倾向为负面、中性或是正面。

    为了验证本文提出的情感计算规则的准确性,本文从分析数据库中抽取了5000条句子进行人工标注,构建实验数据集。由5名硕士研究生对句子的主观情感倾向进行判断,将句子标注为正面、中性、负面三类,标注完成后再由1名硕士研究生对标注结果进行统计,以票数最多的情感倾向作为句子的最终情感倾向,这样就避免了标注过程中出现的不一致现象。随后利用准确率、召回率和F-测度值(表5)对实验结果进行测评。实验结果如表6所示。

    表5 准确率、召回率和F-测度值

    名称准确率召回率F-测度值
    公式ρ=ab×100%r=ac×100%F-Measure=2ρrρ+r

    注:a为判断为正面、中性或负面情感且判断正确的数目;b为判断为正面、中性或负面情感的数目(即包含判断正确的数目也包含不正确的数目);c为实验数据中正面、中性或负面的数目;ρ为准确率;r为召回率;F-Measure为F-测度值。

    表6 情感分析实验结果

    准确率/%召回率/%F-测度值
    正面73.872.473.1
    中性72.175.673.8
    负面74.671.973.2

    实验结果显示,本文所采用的情感计算规则获得的最高准确率为74.6%,平均准确率为73.5%,取得了一定效果,基本满足实际分析要求。

  • 4.4.2  指标打分

    指标打分是在情感分析基础上,对4.1.1节确定的指标体系进行打分,从而实现城市网络形象的评价。具体计算方法为

    Oi=s=1nOsn
    (4)

    式中,n为分析数据库中第i个3级指标下的句子总数,Os为句子s的情感值,Oi为第i个3级指标的情感值平均分,也即该指标的初始得分。通过将初始得分与指标对应权重相乘,即得到该指标的最终得分。城市网络形象综合得分、1级指标得分、2级指标得分则是根据各下层指标得分加权加总而求得。

  • 4.4.3  关键词提取

    关键词提取主要是为后续关键词云的生成提供数据支撑。具体的提取步骤有:①采用ltp4j自然语言处理工具包对分析数据库中的语句进行文本分词、词性标注;②用停用词典过滤语句中的停用词,保留语句中的名词、动词、形容词;③统计保留词语在语句中出现的词频,并存入数据库,以备后续信息可视化使用。

  • 4.5  信息可视化

    本系统采用阿里巴巴公司开发的DataV数据可视化开发工具来创建城市网络形象监测信息图表。该工具集成了地理信息图、曲线图、饼状图、关键词云、数据仪表盘等多种常用统计图表,支持在线API接入及动态请求,能满足大数据实时计算和监控需求,是一款专业化的可视化开发工具。通过DataV本系统共构建了地理分布、趋势分析、来源分析、指标得分、关键词云、热度分析6个主要的数据展示模块。

  • 1)地理分布

    地理分布主要展现了城市各区域的网络形象得分。每个区域的分值计算方法是:①在网络信息资源数据库中查找包含区域关键词的文章,构成初始分析文档集;②对文档集进行信息预处理及信息分析得到各区域的指标综合得分;③按分值大小在地图上由深至浅进行展示。

  • 2)趋势分析

    趋势分析展现了近12个月城市网络形象综合得分的变动情况。

  • 3)来源分析

    来源分析利用多维饼图来展现城市网络形象综合得分基础数据来源分布。

  • 4)指标得分

    指标得分展示了城市网络形象各一级指标的得分。

  • 5)关键词云

    关键词云对被分析文本集中词频排名前50位的关键词进行展示,词频越高,关键字字号越大。

  • 6)热度分析

    热度分析展现了近12个月,各月参与城市网络形象分析的语句数量。

  • 5 系统应用实例

    本系统以贵州省贵阳市作为目标监测城市,监测时间为2017年3月至2018年2月,共采集到与贵阳市相关的网络信息资源3673746篇,经过文本预处理最终参与分析的数据达131755条。系统前台大屏展示界面如图3所示。

    图3
                            系统前台大屏展示界面

    图3 系统前台大屏展示界面

    从图3可以看到,2018年2月,系统共分析贵阳市网络形象数据10034条,网络形象综合得分为71.85分;其中息烽县在地图上的颜色最深,表明该区网络形象综合得分最高,为79.47分。从城市网络形象情感占比翻牌器可以看到,所有分析数据中,正面情感数据占比14.29%,负面情感数据占比16.67%,中性情感数据占比69.04%。从指标得分图可以看到,1级指标中,得分最高的为文化建设,最低的为社会建设。从趋势图可以看到近12个月贵阳市网络形象综合得分走势平稳,各月得分变化不大。从关键词云可以看到,在分析数据中,出现最多的词汇为高铁。从来源分布可以看到,分析数据主要来源于微博,其次是百度新闻,最后是新浪博客。从热度趋势图可以看到,各月热度较为平稳,9月热度有小幅波动。

    通过图3的大屏展示界面,系统分析员能对贵阳市的整体网络形象概况有个大致的了解,但是想要深入分析问题、探索数据背后的成因,则需要借助后台管理功能来实现。图4是各指标得分明细,通过该图,分析人员能详细掌握各指标得分。图5是综合信息查询平台,在该页面,分析人员可以通过选定评价指标、设定情感得分范围、数据录入日期等查询选项来对分析数据进行查询,从而更好地捕捉和识别城市治理中的问题。

    图4
                            指标得分明细

    图4 指标得分明细

    图5
                            综合信息查询平台

    图5 综合信息查询平台

  • 6 总结与讨论

    本文根据政府部门对城市网络形象管理的需求,设计并实现了城市网络形象监测系统。该系统具备自动采集、自动分析、自动评价、可视化等功能,可以帮助政府部门管理人员了解城市网络形象概况,发现城市治理中的问题。通过对该系统实际运行情况分析,发现情感分析的准确率、召回率有待进一步提高,评价体系有待进一步扩充和完善,文本信息检索和语义聚合功能有待增加。因此,本系统的后续研究工作将围绕以下三个方面展开:①提高情感分析的性能;②完善评价体系,尝试引入或构造城市网络形象本体,增强评价体系的系统性和逻辑性;③增加信息检索和语义聚合等功能,提高系统中文本信息的利用率。

  • 参 考 文 献

    • 1

      刘易斯·芒福德. 城市发展史: 起源、演变和前景[M]. 北京: 中国建筑工业出版社, 2005: 75.

    • 2

      Banyai M, Glover T D. Evaluating research methods on travel blogs[J]. Journal of Travel Research, 2012, 51(3): 267-277.

    • 3

      Marine-Roig E, Clavé S A. A detailed method for destination image analysis using user-generated content[J]. Information Technology & Tourism, 2016, 15(4): 341-364.

    • 4

      Költringer C, Dickinger A. Analyzing destination branding and image from online sources: A web content mining approach[J]. Journal of Business Research, 2015, 68(9): 1836-1843.

    • 5

      Grandi R, Neri F. Sentiment analysis and city branding[M]// New Trends in Databases and Information Systems. Heidelberg: Springer, 2014: 339-349.

    • 6

      Wong C U I, Qi S. Tracking the evolution of a destination s image by text-mining online reviews-the case of Macau[J]. Tourism Management Perspectives, 2017, 23: 19-29.

    • 7

      Villena-Román J, Cobos A L, Cristóbal J C G. TweetAlert: Semantic analytics in social networks for citizen opinion mining in the city of the future[C]// UMAP Workshops, 2014.

    • 8

      Yan W, Sun J H. Research and development of city image media monitoring system[C]// Proceedings of the International Conference on Management and Service Science. Los Alamitos: IEEE Computer Society Press, 2009: 1-4.

    • 9

      Li G, Chen J. Study on the city image network monitoring system based on opinion-mining[C]// Proceedings of the 2nd International Conference on Networking and Digital Society. Los Alamitos: IEEE Computer Society Press, 2010, 2: 134-138.

    • 10

      Weiler A, Grossniklaus M, Scholl M H. Situation monitoring of urban areas using social media data streams[J]. Information Systems, 2016, 57: 129-141.

    • 11

      Armonk. IBM helps cities worldwide measure public social sentiment on critical issues[EB/OL]. IBM News Room. (2012-09-13) [2018-05-30]. https://www-03.ibm.com/press/us/en/pressrelease/38816.wss.

    • 12

      瑞意趋势·政企形象监测. 大数据整合与挖掘[EB/OL]. (2018-05-29) [2018-05-30]. http://www.trends-china.com/cityimagemonitoring.html.

    • 13

      Benedetto F, Tedeschi A. Big data sentiment analysis for brand monitoring in social media streams by cloud computing[M]// Sentiment Analysis and Ontology Engineering. Heidelberg: Springer, 2016: 341-377.

    • 14

      Abburu S, Babu G S. A frame work for web information extraction and analysis[J]. International Journal of Computers & Technology, 2013, 7(2): 574-579.

    • 15

      Schmunk S, Höpken W, Fuchs M, et al. Sentiment analysis: Extracting decision-relevant knowledge from UGC[M]// Information and Communication Technologies in Tourism 2014. Heidelberg: Springer, 2013: 253-265.

    • 16

      Lai L S L, To W M. Content analysis of social media: A grounded theory approach[J]. Journal of Electronic Commerce Research, 2015, 16(2): 138.

    • 17

      Mikolov T, Chen K, Corrado G, et al. Efficient estimation of word representations in vector space[OL]. https://arxiv.org/pdf/1301.3781.pdf.

    • 18

      陈鑫. 基于行块分布函数的通用网页正文抽取[EB/OL]. (2010-11-15) [2018-06-11]. https://wenku.baidu.com/view/2b5c9793d-aef5ef7ba0d3cb5.html.

    • 19

      Manku G S, Jain A, Das Sarma A. Detecting near-duplicates for web crawling[C]// Proceedings of the 16th International Conference on World Wide Web. New York: ACM Press, 2007: 141-150.

    • 20

      Che W X, Li Z H, Liu T. LTP: A Chinese language technology platform[C]// Proceedings of the 23rd International Conference on Computational Linguistics: Demonstrations. Stroudsburg: Association for Computational Linguistics, 2010: 13-16.

    • 21

      HowNet[EB/OL]. (2018-06-14) [2018-06-15]. http://www.keenage.com/.

    • 22

      台湾大学自然语言处理实验室. NTUSD[EB/OL]. (2018-06-14) [2018-06-15]. http://nlg.csie.ntu.edu.tw/.

    • 23

      徐琳宏, 林鸿飞, 潘宇, 等. 情感词汇本体的构造[J]. 情报学报, 2008, 27(2): 180-185.

    • 24

      陈晓东. 基于情感词典的中文微博情感倾向分析研究[D]. 武汉: 华中科技大学, 2012: 31.

    • 25

      韩忠明, 张玉沙, 张慧, 等. 有效的中文微博短文本倾向性分类算法[J]. 计算机应用与软件, 2012, 29(10): 89-93.

陈璟浩

机 构:广西大学公共管理学院,南宁 530004

Affiliation:School of Public Policy and Management, Guangxi University, Nanning 530004

邮 箱:jhchen114@qq.com

作者简介:陈璟浩,男,1985年生,博士,讲师,研究方向为情报分析、网络舆情、数据挖掘,E-mail:jhchen114@qq.com

曾桢

机 构:贵州财经大学信息学院,贵阳 550025

Affiliation:School of Information, Guizhou University of Finance and Economics, Guiyang 550025

作者简介:曾桢,男,1982年生,博士,副教授,研究方向为信息系统、数据挖掘

李纲

机 构:武汉大学信息资源中心,武汉 430072

Affiliation:Center for the Studies of Information Resources of Wuhan University, Wuhan 430072

作者简介:李纲,男,1966年生,长江学者特聘教授,研究方向为情报分析、信息系统、数据挖掘。

魏瑞斌

角 色:责任编辑

Role:Executive editor

1000-0135.2019.03.008/alternativeImage/96970e1b-d3b2-44b2-99d8-b9fcb3e41846-F001.jpg
目标层一级指标权重二级指标权重三级指标权重
城市网络形象评价指标体系A1经济建设0.25B1城乡建设0.40C1道路建设0.35
C2供水建设0.25
C3电网建设0.15
C4城乡规划0.25
B2创业就业0.20C5创业环境0.35
C6就业状况0.65
B3生活质量0.20C7居住情况0.35
C8收入状况0.65
B4市场消费0.20C9消费信息0.50
C10消费便捷0.50
A2政治建设0.18B5依法行政0.40C11行政机关0.40
C12政法机关0.60
B6党风政风0.40C13廉洁情况0.50
C14服务水平0.50
B7民主建设0.20C15信息公开0.20
C16问题处理0.50
C17民意回应0.30
A3文化建设0.15B8文化基础设施0.40C18文化基础设施1.00
B9社会价值观0.60C19好人好事0.20
C20公共秩序0.40
C21文明行为0.40
A4社会建设0.17B10社会保障0.30C22医疗保障0.60
C23养老保障0.40
B11教育教学0.20C24教学环境0.60
C25师德师风0.40
B12公共交通0.10C26公共交通1.00
B13社会安全0.40C27社会治安0.60
C28食品安全0.40
A5生态文明建设0.25B14空气质量0.30C29空气质量1.00
B15水体质量0.30C30水体质量1.00
B16城市卫生0.40C31垃圾处理0.30
C32地面清洁0.40
C33绿地保护0.30
指标特征词同义指示词
C22医疗保障医院病房、病床、诊室、诊所、门诊、急诊、挂号、药房、输液室、治疗室、注射室、候诊厅、内科、外科、儿科、骨科、妇产科、妇科、牙科、皮肤科、口腔科、耳鼻喉科、眼科、卫生院、手术台、救护车
医务人员医生、护士、大夫、医护人员
医药费治疗费、手术费、药费、挂号费、诊疗费、体检费、回扣
医疗服务看病、就医、就诊、复诊、住院、复查、治病、治疗、手术、医治、医德、医托、医腐、行医、输液、输血、体检、打疫苗、转院
医患关系医患、医疗纠纷
不、没、无、非、莫、弗、毋、勿、未、否、别、無、休、不曾、未必、没有、不要、难以、不再、未曾、并非、未尝、决非、绝非、不准、不应、尚未、毫不、不至于
程度程度副词个数
2百分之百、倍加、备至、不得了、不堪、不可开交、不亦乐乎、不折不扣、彻头彻尾、充分、到头、地地道道、非常、极、极度、极端、极其、极为、截然、尽、惊人地、绝、绝顶、绝对、绝对化、刻骨、酷、满、满贯、满心、莫大、奇、入骨、甚为、十二分、十分、十足、死、最、无可估量、至极、无与伦比、卓绝、举国、全国、滔天、透、完全、完完全全、万、万般、万分、万万、无比、无可估量、无以复加、要命、要死、异常、逾常、之极、之至、至极、卓绝、最为66
1.8不为过、超、超额、超外差、超微结构、超物质、出头、浮、过、过度、过分、过火、过劲、过了头、过猛、过热、过甚、过头、过于、过逾、何止、何啻、开外、苦、老、偏、强、溢、忒、很、很是、坏、老大、甚、实在、太甚、特、尤、尤其、尤为、尤以、痛、无度、已极、已甚、贼、佼佼47
1.5不过、不少、不胜、惨、沉、沉沉、出奇、大为、多加、多么、分外、格外、足、足足、强、尤甚、何等、颇为、太、特别、着实、多多、够瞧的、够戗、好不、好、可、良、颇、远、曷、碜32
1.2大不了、多、更、更加、更进一步、更为、还、还要、较、较比、较为、进一步、愈加、越发、大不了、那般、那么、那样、如斯、益、益发、逾、愈、愈发、愈来愈、愈益、远远、越发、越加、越来越、越是、这般、这样33
0.8点点滴滴、多多少少、怪、好生、还、或多或少、略、略加、略略、略微、略为、蛮、稍、稍稍、稍微、稍为、稍许、挺、相当19
0.5半点、不大、不丁点儿、不甚、不怎么、聊、没怎么、轻度、弱、丝毫、微、相对、未免、些、些微、些小、一点、一点儿、一些、有点、有点儿、有些22
1000-0135.2019.03.008/alternativeImage/96970e1b-d3b2-44b2-99d8-b9fcb3e41846-F002.jpg
名称准确率召回率F-测度值
公式ρ=ab×100%r=ac×100%F-Measure=2ρrρ+r
准确率/%召回率/%F-测度值
正面73.872.473.1
中性72.175.673.8
负面74.671.973.2
1000-0135.2019.03.008/alternativeImage/96970e1b-d3b2-44b2-99d8-b9fcb3e41846-F003.jpg
1000-0135.2019.03.008/alternativeImage/96970e1b-d3b2-44b2-99d8-b9fcb3e41846-F004.jpg
1000-0135.2019.03.008/alternativeImage/96970e1b-d3b2-44b2-99d8-b9fcb3e41846-F005.jpg

图1 城市网络形象监测系统框架

表1 城市网络形象评价指标体系及权重

表2 特征词集和同义指示词表片段

表3 否定词表

表4 程度副词表

图2 情感计算规则

表5 准确率、召回率和F-测度值

表6 情感分析实验结果

图3 系统前台大屏展示界面

图4 指标得分明细

图5 综合信息查询平台

image /

无注解

无注解

无注解

无注解

无注解

无注解

a为判断为正面、中性或负面情感且判断正确的数目;b为判断为正面、中性或负面情感的数目(即包含判断正确的数目也包含不正确的数目);c为实验数据中正面、中性或负面的数目;ρ为准确率;r为召回率;F-Measure为F-测度值。

无注解

无注解

无注解

无注解

  • 参 考 文 献

    • 1

      刘易斯·芒福德. 城市发展史: 起源、演变和前景[M]. 北京: 中国建筑工业出版社, 2005: 75.

    • 2

      Banyai M, Glover T D. Evaluating research methods on travel blogs[J]. Journal of Travel Research, 2012, 51(3): 267-277.

    • 3

      Marine-Roig E, Clavé S A. A detailed method for destination image analysis using user-generated content[J]. Information Technology & Tourism, 2016, 15(4): 341-364.

    • 4

      Költringer C, Dickinger A. Analyzing destination branding and image from online sources: A web content mining approach[J]. Journal of Business Research, 2015, 68(9): 1836-1843.

    • 5

      Grandi R, Neri F. Sentiment analysis and city branding[M]// New Trends in Databases and Information Systems. Heidelberg: Springer, 2014: 339-349.

    • 6

      Wong C U I, Qi S. Tracking the evolution of a destination s image by text-mining online reviews-the case of Macau[J]. Tourism Management Perspectives, 2017, 23: 19-29.

    • 7

      Villena-Román J, Cobos A L, Cristóbal J C G. TweetAlert: Semantic analytics in social networks for citizen opinion mining in the city of the future[C]// UMAP Workshops, 2014.

    • 8

      Yan W, Sun J H. Research and development of city image media monitoring system[C]// Proceedings of the International Conference on Management and Service Science. Los Alamitos: IEEE Computer Society Press, 2009: 1-4.

    • 9

      Li G, Chen J. Study on the city image network monitoring system based on opinion-mining[C]// Proceedings of the 2nd International Conference on Networking and Digital Society. Los Alamitos: IEEE Computer Society Press, 2010, 2: 134-138.

    • 10

      Weiler A, Grossniklaus M, Scholl M H. Situation monitoring of urban areas using social media data streams[J]. Information Systems, 2016, 57: 129-141.

    • 11

      Armonk. IBM helps cities worldwide measure public social sentiment on critical issues[EB/OL]. IBM News Room. (2012-09-13) [2018-05-30]. https://www-03.ibm.com/press/us/en/pressrelease/38816.wss.

    • 12

      瑞意趋势·政企形象监测. 大数据整合与挖掘[EB/OL]. (2018-05-29) [2018-05-30]. http://www.trends-china.com/cityimagemonitoring.html.

    • 13

      Benedetto F, Tedeschi A. Big data sentiment analysis for brand monitoring in social media streams by cloud computing[M]// Sentiment Analysis and Ontology Engineering. Heidelberg: Springer, 2016: 341-377.

    • 14

      Abburu S, Babu G S. A frame work for web information extraction and analysis[J]. International Journal of Computers & Technology, 2013, 7(2): 574-579.

    • 15

      Schmunk S, Höpken W, Fuchs M, et al. Sentiment analysis: Extracting decision-relevant knowledge from UGC[M]// Information and Communication Technologies in Tourism 2014. Heidelberg: Springer, 2013: 253-265.

    • 16

      Lai L S L, To W M. Content analysis of social media: A grounded theory approach[J]. Journal of Electronic Commerce Research, 2015, 16(2): 138.

    • 17

      Mikolov T, Chen K, Corrado G, et al. Efficient estimation of word representations in vector space[OL]. https://arxiv.org/pdf/1301.3781.pdf.

    • 18

      陈鑫. 基于行块分布函数的通用网页正文抽取[EB/OL]. (2010-11-15) [2018-06-11]. https://wenku.baidu.com/view/2b5c9793d-aef5ef7ba0d3cb5.html.

    • 19

      Manku G S, Jain A, Das Sarma A. Detecting near-duplicates for web crawling[C]// Proceedings of the 16th International Conference on World Wide Web. New York: ACM Press, 2007: 141-150.

    • 20

      Che W X, Li Z H, Liu T. LTP: A Chinese language technology platform[C]// Proceedings of the 23rd International Conference on Computational Linguistics: Demonstrations. Stroudsburg: Association for Computational Linguistics, 2010: 13-16.

    • 21

      HowNet[EB/OL]. (2018-06-14) [2018-06-15]. http://www.keenage.com/.

    • 22

      台湾大学自然语言处理实验室. NTUSD[EB/OL]. (2018-06-14) [2018-06-15]. http://nlg.csie.ntu.edu.tw/.

    • 23

      徐琳宏, 林鸿飞, 潘宇, 等. 情感词汇本体的构造[J]. 情报学报, 2008, 27(2): 180-185.

    • 24

      陈晓东. 基于情感词典的中文微博情感倾向分析研究[D]. 武汉: 华中科技大学, 2012: 31.

    • 25

      韩忠明, 张玉沙, 张慧, 等. 有效的中文微博短文本倾向性分类算法[J]. 计算机应用与软件, 2012, 29(10): 89-93.