摘要
探索突发事件网络舆情主题转变节点,并据此展开多阶段网络舆情风险评估,对精准处置突发事件网络舆情危机、提供动态舆情引导策略具有重要参考意义。本文提出一种突发事件情境下网络舆情主题转变路径识别及多阶段风险评估方法。首先,融合RoBERTa(robustly optimized BERT pretraining approach)模型提出时序语义-共词网络,并基于Louvain-CFDP(clustering by fast search and find of density peaks)算法进行网络社区主题发现;其次,提出主题状态转变检测模型,据此生成主题转变路径,识别并分析多类型转变路径及其风险波动特征。以“日本核污染水排海”事件为例进行实证分析,识别事件发展型、情绪集聚型及衍生事件型3种转变路径类型,分别对这3种类型路径的特点、风险特征及差异进行分析。研究结果表明,本文提出的主题转变路径及风险评估研究方法能够完整、全面地展现突发事件在社交媒体上的话题转变,为管理部门快速锁定高风险话题,制定精准、有效的舆情风险引导方案提供借鉴与参考。
0 引 言
自2020年以来,受全球突发公共卫生事件、部分地区山火及极端自然灾害等事件激增的影
用户对突发事件的关注点变化及其可能引起的舆情风险可映射于事件舆情主题的演变发展过程中。通过探索舆情主题间的生长、继承、融合等状态的转变,可识别用户关注点随突发事件进展而发生转移的基本规律;通过探索突发事件在社交媒体传播发酵过程中的阶段性风险变化,可进一步明晰舆情风险随突发事件进展产生的波动性趋势。目前,有学者侧重于基于舆情主题内容、公众情感变化等进行舆情演化研
基于此,本文旨在解决以下3个研究问题:①如何精准抽取舆情主题并提高舆情主题识别质量?②如何构建主题状态转变检测模型以深入探索主题随事件发酵而出现的状态及规模转变?③如何基于主题转变视角,构建舆情风险评估指标体系进行阶段性风险评估与差异性特征分析?基于上述问题,本文提出了融合RoBERTa(robustly optimized BERT pretraining approach)的时序语义-共词网络,以提高主题识别的准确性与完整性;提出主题状态转变检测模型,以生成主题转变路径;并在此基础上提出阶段性舆情风险评估方法,以期动态揭示突发事件下舆情风险的阶段性波动特征,实现突发事件网络舆情走向的精准把握与针对性风险管控。
1 相关研究
1.1 主题转变的相关研究
不同社交媒体用户往往会针对同一事件发表不同的观点,而随着事件的持续性发酵或反转,用户信息交互行为增加,话题流与讨论内容往往也随之发生变化,从而出现主题转
梳理相关文献发现,当前有关主题转变的相关研究并不完善,研究内容主要涉及主题转变测度研究、转变检测模型构建及主题转变特征揭示等方面。其中,主题转变测度研究是一大研究分支,学者们基于情感分析、区域划分、突变-融合等多维视角构建VSM(vector space model)向量空间模型、漂移指数等,从而实现主题转变测度研究。例如,Topal
不难发现,国内外学者针对主题转变进行了有益探讨,但当前多数研究仍侧重于基于语义相似性、情感分类的主题转变测度研究,对于连续阶段内相邻主题间基于内容转移、数量结构变化等状态转变的研究不甚明晰,缺乏结构严谨的主题状态转变检测模型支持,进而影响对突发事件下网络舆情信息流走向的精准把握及舆论引导策略的有效选择。
1.2 网络舆情风险评估相关研究
网络舆情通常具有公众关注度高、讨论量大、负面舆情占比大、部分意见领袖传播影响力大等特
上述研究均以突发事件网络舆情风险为研究对象,提出突发事件情境下网络舆情风险识别、评估及分级模型,侧重于突出突发事件网络舆情风险的整体性趋向。本文认为,突发事件所引发的网络舆情风险会随着事件的发展、转变而发生阶段性波动,其风险程度、特征等也并非一成不变。因此,本文提出从突发事件网络舆情发展路径视角出发,分析在连续时间窗口下网络舆情风险的阶段性变化,细粒度探究网络舆情风险的波动趋势及其产生波动的具体原因,为相关部门掌握最新舆论动向、适时进行舆论引导提供助力。
2 研究框架
本文所构建的研究框架如

图1 突发事件下网络舆情主题转变路径及其风险评估研究框架图
2.1 数据获取及路径阶段划分
本文选取新浪微博社交媒体上针对某一特定突发事件的用户评论文本作为原始数据集。由于用户评论存在随意性与随机性,存在较多噪声信息,因此,首先,对所收集的原始数据集进行预处理与降噪处理,主要包括删除用户评论无效数据、删除数据集中无效链接、删除数据集中的重复项、依据突发事件构建专用停用词库并去除数据集中停用词等。其次,提取原始数据集中的用户ID(identity)、发帖内容、发帖时间、点赞数、评论数、转发数、用户名等特征项用于后续主题识别。最后,根据社交媒体平台下事件信息传播的特点,本文依据生命周期理论,通过识别社交媒体用户评论数量变化及标志性事件,将整个事件划分为潜伏、爆发、波动和平息4个发展阶段。
2.2 融合RoBERTa的时序语义-共词网络及社区主题发现
2.2.1 融合RoBERTa的时序语义-共词网络
共词网络虽然在一定程度上体现了关键词间的共现强度,但未充分考虑关键词之间的语义关联关系,从而影响了最终主题状态转变测度的准确性。基于当前RoBERTa模型在训练过程中表现出比BERT(bidirectional encoder representations from transformers)等模型更强的语义交互能力与迁移能
首先,构建时序高频共词网络,具体如下。依据数据集中各文本发布的时间对文本进行切片处理,获得各时间切片内的数据集;运用停用词表与jieba分词工具对文本进行分词,运用TF-IDF(term frequency - inverse document frequency)算法对关键词共现频率进行计算,按照词频权重取前20%高频关键词,构建以关键词为节点、词间共现关系为连边、共现频次为连边权重的无向加权关键词共现网络。将各时间切片下的共词网络连接,从而形成时序高频共词网络。
其次,依据
(1) |
进行上述共现词对间的边权计算;而后对RoBERTa深度学习模型进行预训练,将上述高频关键词转化为词向量后,依据
(2) |
计算共现词对间的语义相似性;依据
(3) |
将高频共现词对边权与基于RoBERTa的高频关键词间语义相似性进行融合,将其结果作为高频关键词词对间的综合边权,从而生成时序语义-共词网络。为避免过大或过小权重值,本文采用Tanimoto系数对二者计算结果进行融合。
在式(1)~
2.2.2 基于Louvain-CFDP算法的社区主题发现
本节结合Louvain社区发现算法与CFDP(clustering by fast search and find of density peaks)算法从时序语义-共词网络中识别社区,从而发现主题并对其命名。由于本文构建的时序语义-共词网络为加权网络且规模较大,因此,本文选择具有更高搜索效率及可扩展性的Louvain社区发现算法进行社区识别,并结合CFDP算法量化核心节点实现社区命名。
首先,利用Louvain算法识别各动态语义网络中的社区。Louvain算
(4) |
其中,表示网络中节点i和节点j之间的连接权重;和分别表示节点i和节点j的度数;m表示网络中所有连接边的总数量;为指示函数,当节点i和节点j同属一个社区时,其值为1,否则为0;和分别表示节点i和节点j所属的社区。模块度Q的取值范围为[0,1],其取值越接近1,表明网络社群结构划分越好,社群内部节点间联系越紧密。
其次,运用CFDP算
(5) |
(6) |
其中,表示节点i与节点j间的距离是否大于等于提前设定的截断距离,若,则=0,若,则=1;表示节点间距离,依据节点i是否为局部密度最大点进行分类计算。
基于
2.3 主题状态转变检测及主题转变路径生成
依据相关研究成
在主题转变中,本文以两个主题间共有特征词的热度概率值表征主题间内容转移概
(7) |
主题Ti向Tj转移的概率值为
(8) |
其中,表示共有特征词在社区网络中的词频;表示特征词在社区网络中的密度权重,由
当主题Ti与Tj间共有特征词在两个话题下的热度越接近时,转移概率P越无限接近于0.5;当主题与Ti与Tj间共有特征词热度<时,说明主题Tj涵盖了Ti下的大部分内容,主题Ti向Tj发生转移,转移概率趋近于1。因此,本文设置0.5作为主题转移的阈值,大于阈值时,则认为主题发生了转移。进一步地,考虑主题Ti与Tj所在社区Ci与Cj的总节点数为对应主题的数量结构,最终提出了主题状态转变检测模型,如

图2 主题状态转变检测模型
由
依据
2.4 基于主题转变路径的多阶段舆情风险评估
相较于以往基于事件整体视角的网络舆情风险指标体系构建,本文更侧重于研究网络舆情传播不同阶段中针对各舆情主题的风险测度。因此,基于信息生态学理
维度 | 编码 | 指标 | 指标说明 |
---|---|---|---|
舆情信 | U11 | 舆情热度值 | 某一舆情主题下的有效评论总数(即删除机器人评论、相关度极低评论后的总评论数) |
U12 | 舆情内容关注度 | 某一舆情主题下的所有特征词svj热度之和 | |
U13 | 微博内容情感相似度 | 该舆情主题下各微博内容情感相似性测度的均值 | |
U14 | 舆情信息扩散度 | 在该生命周期阶段内,某一舆情主题下微博数占该阶段总微博数的比值 | |
舆情传播载 | U21 | 网络媒体参与度 | 某一舆情主题下网络媒体进行社交媒体发文次数与总微博量的比值 |
U22 | 官方媒体干预程度 | 某一舆情主题下官方机构进行社交媒体发文干预的次数 | |
U23 | 舆情传播速度 | 某一舆情主题下总微博数量与主题持续时间的比值 | |
用户主 | U31 | 用户参与程度 | 某一舆情主题下所有微博评论总转发量 |
U32 | 用户情感极化程度 | 某一舆情主题下用户情感类型中占比最小的用户数量与占比最大的用户数量的比值 | |
U33 | 负向情感引导程度 | 发布带有负向情感博文的认证微博用户占总认证微博用户的比值 |
具体如下:①在舆情信息维度中,舆情热度值及舆情内容关注度指标主要用于判别舆情爆发程度,舆情热度及内容关注度的增加往往伴随着的舆情风险的逐步递增;微博内容情感相似度指标主要用以判别舆情内容所传递的用户情感差异性大小,同一主题下微博内容情感相似度越低,表明该主题受争议越大,并伴随着舆情风险的逐步递增;舆情信息扩散度指标主要通过计算某一阶段内该主题的舆情场占比用以判别该主题的传播效果,舆情信息扩散度指标较高则表明信息扩散速度较快,由此容易引起由信息失控带来的舆情风险。②在舆情传播载体维度中,网络媒体参与度和舆情传播速度指标主要用于判别舆情的受关注度,网络媒体等媒介传播次数越多、频率越高,表明该事件的用户关注度越大,舆情风险则进一步扩大;官方媒体干预程度指标主要用来衡量官方机构在舆情事件中的介入程度和影响力,官方机构通过及时发布官方立场和信息增加对于事件的干预程度,引导公众理性对待事件,减少恐慌和不良情绪,从而降低网络舆情风险。③在用户主体维度中,用户参与程度指标反映了用户对于舆情的具体参与度,用户参与程度的提高使舆情在社交媒体上的传播速度进一步加快,一定程度上增加了社会分裂和对立风险;用户情感极化程度及负向情感引导程度指标衡量了用户极端情绪及负向情绪强烈程度,用户主体间出现情感多极化或负向情绪倾向及引导程度越高,说明整体舆论方向越多且内容越复杂,一定程度上也加剧了舆情的不稳定性风险。
指标体系确定后,本文运用熵权法对各项指标进行定权。与易受主观因素影响的赋权法相比,熵权法具有较强的客观性,因此,其计算结果也更具有客观性。具体而言,首先,构建各阶段下全部主题Y关于各项网络舆情风险指标uij的计算结果矩阵,即
(9) |
其次,对应各指标熵值Tu的计算公式为
(10) |
则最终指标权重wu的计算公式为
(11) |
因此,主题n下舆情风险ER计算公式为
(12) |
(13) |
3 实证分析
2023年8月24日,日本政府启动福岛第一核电站核污染水排海,引发了国际社会热
3.1 数据获取及演化阶段划分
本文以国内最大的社交平台新浪微博为数据库,以“日本核污染水排放”为关键词,采集2023年8月20日—2023年9月22日的原创性微博共计145233条,获取内容包括用户ID、微博内容、点赞数、评论数、转发数、发布时间、地址IP等元数据。依据2.1节对收集的微博数据进行预处理及清洗,最终获得有效数据104702条。微博发布信息在时间序列上的分布特征如

图3 “日本核污染水排放”事件信息传播趋势
依据
3.2 事件时序语义-共词网络构建及社区主题发现
3.2.1 事件时序语义-共词网络构建
依据“日本核污染水排放”事件具体内容,首先,本文构建了相应的去停用词词典、同义词替换词典,对上述4个时间切片的数据集进行降噪、表情数据处理、分句等预处理;而后,依据事件专有名词构建了强制分词词典,运用jieba分词对数据进行精准分词;进一步地,本文运用TF-IDF算法提取文本关键词并计算其对应权重,提取TF-IDF权重值排序前20%的关键词为高频关键词,以构建高频共词网络;在此基础上,本文依据上述前20%关键词TF-IDF权重值及关键词词对间的共现次数,对关键词词对间的共现权重依照

图4 事件时序语义-共词网络图
在
为验证所构建网络性能,本文从复杂网络连通性、平稳性及影响力传播特性方面,分别以高频共词网络及时序语义-共词网络为研究对象,调用NetworkX计算上述指标
网络类型 | 网络连通性 | 网络平稳性 | 影响力传播 | |
---|---|---|---|---|
加权介数中心性 | 度中心性 | 连边权重极差 | PageRank值 | |
高频共词网络 | 0.14 | 0.3143 | 0.9709 | 0.39 |
时序语义-共词网络(本文) | 0.59 | 0.6920 | 0.6416 | 0.85 |
由
3.2.2 事件社区主题发现
本文调用Python程序中Louvain算法对各阶段数据进行社区划分。为进一步检测3.2.1节构建的时序语义-共词网络的优越性,分别运用Louvain算法对该事件下构建的高频共词网络与基于RoBERTa的语义网络做社区划分,并依据
网络类型 | 社区网络平均度 | 平均鲁棒性 | 网络模块度Q | 社区数量 |
---|---|---|---|---|
高频共词网络 | 0.2121 | 15.3 | 0.0924 | 3 |
基于RoBERTa的语义网络 | 23.5640 | 33.0 | 0.2215 | 7 |
时序语义-共词网络(本文) | 39.1319 | 49.0 | 0.5225 | 8 |
由
最终,基于
演化阶段 | 社区节点数 | 社区占比(%) | 主题编号-社区主题 | 基于CFDP算法的高节点密度关键词 |
---|---|---|---|---|
阶段一:潜伏阶段 | 715 | 6.42 | T11-日本渔联抵制核污染水排海 | 渔业、联合会、理解、全国、西村、产业、当地、全渔联、坚持、消息 |
4742 | 42.56 | T12-日本政府正式决定福岛核污染水排海 | 日本、排海、核污染水、岸田文雄、福岛、日本政府、核电站、排放、海洋、安全 | |
721 | 6.47 | T13-核污染水排海引起海洋环境污染问题 | 反对、抵制、入海、污染、日货、地下水、核辐射、超标、生不如死、器官、枯竭 | |
4964 | 44.55 | T14-国内公众谴责日本核污染水排海 | 漠视、不要、安全性、绝不能、担心、严重、忧虑、合法性、国际、损害 | |
阶段二:爆发阶段 | 5407 | 23.71 | T21-24日起日本开始核污染水排海 | 海里、技术、过程、专家、放射性元素、辐射、生态、科学、海洋、放射性 |
302 | 1.32 | T22-日本核污水57天将污染半个太平洋 | 太平洋、沿海、评估、洋流、国际原子能机构、排污、海域、联合国、10年、扩散 | |
4155 | 18.22 | T23-日本核污染水排放引发国内民众抵制 | 福岛、影响、污染、全渔联、愤怒、问题、民众、健康、岸田文雄、视察 | |
240 | 1.05 | T24-东电承认超6成储存核污水放射物超标 | 浓度、总量、超标、公关、首相、持续、政府、全部排、排放量、东京电力公司 | |
4212 | 18.47 | T25-国际多方坚决反对日本强推核污染水排海 | 停止、利益、谴责、国际、决定、启动、坚决、民众、必要、健康 | |
2974 | 13.04 | T26-日本进口食品安全性问题引发热议 | 我国、海鲜、抢购、安全、进口、水产品、暂停、措施、海关总署、食盐 | |
1078 | 4.73 | T27-韩国出现恐慌性囤盐等抵制措施 | 湖盐、恐慌、关注、销售、生产、矿盐、海产品、水产、食盐、盐业 | |
4436 | 19.45 | T28-福岛周边海水采样检测,海洋环境被污染 | 证据、检测仪、多次、净化、循环、影响、地震、核污染水、环保、排放 | |
阶段三:波动阶段 | 3391 | 26.74 | T31-日本核污染水排海已超过6100吨 | 反对、污染、安全、健康、政府、利益、全球、质疑、造成、停止 |
971 | 7.66 | T32-日本首相岸田文雄因核污水排海问题被检举 | 岸田文雄、排出、核电站、放射性物质、东京电力公司、检测、海水、残留、浓度、海域 | |
3778 | 29.79 | T33-中韩多国民众发表意愿反对核污染水排海 | 人民、担忧、利益、受害者、停止、国际原子能机构、共同、国际、强烈、危害 | |
1898 | 14.97 | T34-日本就中国暂停进口水产品向WTO提交文件 | 累计、排放量、批评、普遍、不负责任、WTO、紧急措施、会议、放射性、大使馆 | |
1318 | 10.39 | T35-核污水排海韩国已出现连锁反应,李在明宣布无限期绝食 | 进口、购买、保障、韩国、原产地、海鲜、水产品、渔民、自私自利、受损 | |
1324 | 10.44 | T36-日本反对他国直接海水取样独立检测 | 日本、核污染水、排海、福岛、核辐射、排放量、富士山、风险、检测、海洋 | |
阶段四:平息阶段 | 1634 | 19.87 | T41-日本核污染水排海引发一系列生态问题热议 | 增加、日本、富士山、人权、岸田文雄、旅游、排海、核污染水、生态、旅游 |
1619 | 19.69 | T42-日本强推排污入海遭各方强烈反对,日本国内出现抗议集会 | 影响、国家、污染、社会、人类、海洋、太平洋、保护、造成、核污染 | |
1188 | 14.45 | T43-日本开始准备核污染水第二轮排海 | 出口、排入、海啸、第二次、预计、海域、第二轮、水产品、跟进、呼吁 | |
1568 | 19.07 | T44-日本海鲜滞销,日本官员呼吁民众每人多吃5只扇贝 | 农林水产、北海道、严重、水产品、扇贝、福岛、日本政府、渔业、禁止、出口 | |
1579 | 19.20 | T45-韩国在野党党首李在明绝食多天,受到韩国多方密切关注 | 尹锡悦、李在明、继续、停止、示威、住院、韩国、绝食抗议、道歉、健康状况 | |
634 | 7.71 | T46-福岛核污水排海国际监测并未邀请中国 | 中方、监测、行为、回应、国际原子能机构、国际、发布、分析、检测、拒绝 |
3.3 事件主题状态转变检测及主题转变路径生成
以

图5 主题状态转移概率矩阵
依据
阶段 | 主题转移概率 | 社区数量结构 | 主题状态转变检测 | 阶段 | 主题转移概率 | 社区数量结构 | 主题状态转变检测 | ||
---|---|---|---|---|---|---|---|---|---|
阶段一 | 阶段二 | 阶段一 | 阶段二 | ||||||
T11 | T21 | 0 | — | T21合并T12、T14,主题生长 | T11 | T25 | 0.0303 | — | T25主题收缩 |
T12 | 0.8648 | C12<C21 | T12 | 0.4438 | — | ||||
T13 | 0.1776 | — | T13 | 0.0976 | — | ||||
T14 | 0.5215 | C14<C21 | T14 | 0.4790 | C14>C25 | ||||
T11 | T22 | 0 | — | T22主题新生 | T11 | T26 | 0.0042 | — | T26主题收缩 |
T12 | 0 | T12 | 0.2501 | — | |||||
T13 | 0 | T13 | 0.1206 | — | |||||
T14 | 0 | T14 | 0.5600 | C14>C26 | |||||
T11 | T23 | 0 | — | T12、T14主题分裂,收缩成为新主题T23 | T11 | T27 | 0 | — | T27合并T12、T13、T14,主题生长 |
T12 | 0.5829 | C12>C23 | T12 | 0.9651 | C12>C27 | ||||
T13 | 0 | — | T13 | 0.6487 | C13<C27 | ||||
T14 | 0.8500 | C14>C23 | T14 | 0.8234 | C14>C27 | ||||
T11 | T24 | 0 | — | T12、T13主题分裂,收缩成为新主题T24 | T11 | T28 | 0 | — | T12、T14主题分裂,收缩成为新主题T28 |
T12 | 0.9728 | C12>C24 | T12 | 0.8693 | C12>C28 | ||||
T13 | 0.5524 | C13>C24 | T13 | 0.2083 | — | ||||
T14 | 0 | — | T14 | 0.5704 | C14>C28 |
相应地,本文构建了动态时序下的主题转变路径,如

图6 “日本核污染水排放”事件主题转变路径
由
3.4 事件多阶段网络舆情风险评估
本文依据2.4节构建的多阶段网络舆情风险评估指标体系(
路径编号 | 路径类型 | 多阶段风险值 | 风险波动性特征 |
---|---|---|---|
1 | 事件发展型路径 | 0.9336→0.7886→0.6144→0.6452 | 呈现阶段性递减波动趋势 |
2 | 事件发展型路径 | 0.6523→0.5641→0.4011→0.3809 | 呈现阶段性递减波动趋势 |
3 | 情绪集聚型路径 | 0.6523→0.8391→0.4015→0.3813 | 呈现倒U形波动趋势 |
4 | 情绪集聚型路径 | 0.6523→0.4362→0.8109→0.3784 | 呈现S形波动趋势 |
5 | 衍生事件型路径 | 0.6523→0.6357→0.5386→0.3953 | 呈现阶段性平稳发展趋势 |
依据多阶段风险值计算结果,本文对不同类型路径的风险波动特征进行归纳总结。各类型主题转变路径因其主题内容差异,呈现不同的风险波动性特征,其中,①事件发展型路径因其主要内容多围绕突发事件的当前进展展开,因此在起始阶段该类型路径风险值较高,随着时间推移与官方和民间的多方干预,其风险值呈现阶段性递减波动趋势,但整体风险值相较于其他类型路径而言仍处于较高水平状态;②情绪集聚型路径风险值在突发事件传播过程中发生较大波动,往往随着新生主题的出现、原主题的较大转变而上升,呈现倒U形、S形风险波动;③衍生事件型路径受用户关注度不高,且发生时间较短,因此,其各阶段风险值整体处于较低状态,各阶段风险值呈现阶段性平稳发展趋势。
同时,本文对上述5条主题转变路径在各阶段的一级指标舆情信息U1、舆情传播载体U2及用户主体U3展开对比分析,如

图7 主题转变路径一级指标风险值分析
本文进一步对各类型路径与其一级指标间的显著性进行分析,以揭示二者间深度关联关系。本文对3种路径类型中的3项一级指标进行组间单因素方差分析(analysis of variance,ANOVA),结果如
检验 | 路径组别 | 对比路径组别 | 舆情信息指标U1 | 舆情传播载体指标U2 | 用户主体指标U3 | |||
---|---|---|---|---|---|---|---|---|
平均值差值 | 显著性 | 平均值差值 | 显著性 | 平均值差值 | 显著性 | |||
邦弗伦尼 | 1 | 2 | 0.099 | 0.048 | 0.00614 | 0.842 | 0.03491 | 0.01584 |
3 | -0.104 | 0.017 | 0.01881 | 0.991 | 0.14978 | 0.01874 | ||
2 | 1 | -0.099 | 0.048 | -0.00614 | 0.842 | -0.03491 | 0.01584 | |
3 | -0.203 | 0.019 | 0.01267 | 0.776 | 0.11486 | 0.01919 | ||
3 | 1 | 0.104 | 0.017 | -0.01881 | 0.991 | -0.14978 | 0.01874 | |
2 | 0.203 | 0.019 | -0.01267 | 0.776 | -0.11486 | 0.01919 |
注: “路径组别”及“对比路径组别”的序号1、2、3分别对应事件发展型路径、情绪集聚型路径、衍生事件型路径。
依据
4 结论与展望
本文建立了融合RoBERTa的时序语义-共词网络,借助Louvain-CFDP算法基于各网络进行了社区主题识别,在此基础上运用所构建的主题状态转变检测模型对主题转变状态进行检测,并据此生成主题转变路径;基于本文构建的网络舆情风险识别指标体系识别出各类型转变路径的多阶段风险值,揭示了各转变路径风险来源、波动性特征。在实证分析中,本文以“日本核污染水排放”事件为例,识别了该突发事件情境下的事件发展型路径、情绪集聚型路径及衍生事件型路径3种路径类型,并针对这3种类型路径的风险值进行计算,分别对事件发展型路径、情绪集聚型路径和衍生事件型路径的路径特点、风险波动特点及其波动原因进行简要分析,从舆情发展阶段性视角揭示事件舆情风险变化,为建立完善的网络舆情感知和响应机制提供参考,从而有效实现对事件发展脉络的准确把握与网络舆情应急防范的精准处理。未来研究拟结合信息生态学理论、风险理论等,从信息环境、信息技术等更多维度实现风险指标的识别与量化,以提高多阶段风险指标体系构建的完整性。
致谢
感谢武汉大学图书情报国家级实验教学示范中心为本文提供实验支持!
参 考 文 献
李玥琪, 王晰巍, 王楠阿雪, 等. 突发事件下社交媒体网络舆情风险识别及预警模型研究[J]. 情报学报, 2022(10): 1085-1099. [百度学术]
曾子明, 孙守强, 李青青. 基于融合策略的突发公共卫生事件网络舆情多模态负面情感识别[J]. 情报学报, 2023, 42(5): 611-622. [百度学术]
Xiao Q, Li Y P, Luo F, et al. Analysis and assessment of risks to public safety from unmanned aerial vehicles using fault tree analysis and Bayesian network[J]. Technology in Society, 2023, 73: 102229. [百度学术]
Jiang Y C, Liang R C, Zhang J, et al. Network public opinion detection during the coronavirus pandemic: a short-text relational topic model[J]. ACM Transactions on Knowledge Discovery from Data, 2022, 16(3): Article No.52. [百度学术]
杨欣谊, 王伟, 朱恒民. 基于时序共词网络的社交平台话题检测与演化研究[J]. 情报学报, 2023, 42(5): 585-597. [百度学术]
Mullick A, Bhandari A, Niranjan A, et al. Drift in online social media[C]// Proceedings of the 9th IEEE Annual Information Technology, Electronics and Mobile Communication Conference. Piscataway: IEEE, 2018: 302-307. [百度学术]
许烨婧, 黄微, 郭苏琳, 等. 多媒体网络舆情话题衍进追踪态势及机理解析[J]. 情报理论与实践, 2020, 43(12): 156-162. [百度学术]
Sun Y C, Loparo K. Topic shift detection in online discussions using structural context[C]// Proceedings of the 43rd IEEE Annual Computer Software and Applications Conference. Piscataway: IEEE, 2019: 948-949. [百度学术]
朱恒民, 钱莉, 杨欣谊, 等. 网络舆情话题漂移路径研究[J]. 情报杂志, 2022, 41(6): 108-113, 119. [百度学术]
Topal K, Koyuturk M, Ozsoyoglu G. Emotion-and area-driven topic shift analysis in social media discussions[C]// Proceedings of the 2016 IEEE/ACM International Conference on Advances in Social Networks Analysis and Mining. Piscataway: IEEE, 2016: 510-518. [百度学术]
陈虹枢, 宋亚慧, 金茜茜, 等. 动态主题网络视角下的突破性创新主题识别: 以区块链领域为例[J]. 图书情报工作, 2022, 66(10): 45-58. [百度学术]
黄畅, 郭文忠, 郭昆. 基于双向量模型的自适应微博话题追踪方法[J]. 小型微型计算机系统, 2019, 40(6): 1203-1209. [百度学术]
Chen B, Ding Y, Ma F. Mapping the semantic word shifts in topics in the field of information retrieval[C]// Proceedings of the 16th International Conference on Scientometrics and Informetrics. Cham: Springer, 2017: 1335-1341. [百度学术]
Chen B T, Ding Y, Ma F C. Semantic word shifts in a scientific domain[J]. Scientometrics, 2018, 117(1): 211-226. [百度学术]
徐璐璐, 杨嘉乐, 康乐乐. 医学信息领域人工智能技术的主题漂移与未来展望——基于JCR 26本医学信息期刊文本的命名实体识别[J]. 现代情报, 2022, 42(10): 163-176. [百度学术]
谢丹琳, 胡锡晟, 杨卫书. 企业网络舆情事件可视化分析及危机公关策略研究——以“海天酱油事件”为例[J]. 科技情报研究, 2024, 6(1): 90-101. [百度学术]
李桂华, 张秋东, 林思妍. 社会诉求数据在“情景-应对”型应急决策中的应用研究[J]. 信息资源管理学报, 2023, 13(5): 79-91. [百度学术]
张军玲. 我国网络舆情信息挖掘研究综述[J]. 情报科学, 2016, 34(11): 167-172. [百度学术]
邓建高, 吴灵铭, 齐佳音, 等. 基于信息关联的负面网络舆情风险分级与预测研究[J]. 情报科学, 2022, 40(1): 38-43. [百度学术]
吴琦, 李阳. 融入领域风险词典的社会安全事件网络舆情风险评估研究[J]. 情报理论与实践, 2024, 47(6): 175-183. [百度学术]
Huang X, Jin H D, Zhang Y. Risk assessment of earthquake network public opinion based on global search BP neural network[J]. PLoS One, 2019, 14(3): e0212839. [百度学术]
田世海, 于越, 邓舒予. 突发公共事件多情景下的网络舆情危机预警研究[J]. 情报理论与实践, 2023, 46(1): 132-140. [百度学术]
Cao L X, Wei G, Su J. Public opinion spread risk assessment model on third-party payment rough network[J]. Applied Soft Computing, 2020, 95: 106532. [百度学术]
Peng B H, Zheng C Y, Wei G, et al. Risk assessment method on haze networks public opinion based on intuitionistic fuzzy choquet integral[J]. International Journal of Fuzzy Systems, 2022, 24(6): 2858-2872. [百度学术]
何丽, 柳岚清, 刘杰, 等. 融合问题分类与RoBERTa的答案选择方法[J]. 数据分析与知识发现, 2024, 8(8/9): 157-167. [百度学术]
程秀峰, 邹晶晶, 叶光辉, 等. 融合word2vec的半积累引用共词网络的领域主题演化研究[J]. 情报学报, 2023, 42(7): 801-815. [百度学术]
Huang W C, Li L Q, Liu H Y, et al. Defense resource allocation in road dangerous goods transportation network: a Self-Contained Girvan-Newman Algorithm and Mean Variance Model combined approach[J]. Reliability Engineering & System Safety, 2021, 215: 107899. [百度学术]
Guan J Y, Li S, He X X, et al. Clustering by fast detection of main density peaks within a peak digraph[J]. Information Sciences, 2023, 628: 504-521. [百度学术]
王艺霖, 肖媛媛, 左鹏飞, 等. 基于改进聚类算法的交通事故多发点识别方法[J]. 计算机应用研究, 2023, 40(10): 2993-2999. [百度学术]
Fienberg S E. An iterative procedure for estimation in contingency tables[J]. The Annals of Mathematical Statistics, 1970, 41(3): 907-917. [百度学术]
陈苗苗, 安璐. 突发传染病情境下社会化问答平台用户角色形成及转变——以知乎平台为例[J]. 图书情报工作, 2022, 66(12): 68-81. [百度学术]
郭宇, 张传洋, 张海涛, 等. 危机管理视角下突发事件舆情主题演化与治理分析[J]. 图书情报工作, 2022, 66(8): 113-121. [百度学术]