使用Chrome浏览器效果最佳,继续浏览,你可能不会看到最佳的展示效果,

确定继续浏览么?

复制成功,请在其他浏览器进行阅读

突发事件网络舆情主题转变路径及其风险评估

  • 周炜 1,2
  • 安璐 1,2,3
  • 韩瑞莲 2
1. 武汉大学信息资源研究中心,武汉 430072; 2. 武汉大学信息管理学院,武汉 430072; 3. 武汉大学数据智能研究院,武汉 430072

最近更新:2024-11-21

DOI: 10.3772/j.issn.1000-0135.2024.10.008

  • 全文
  • 图表
  • 参考文献
  • 作者
  • 出版信息
EN
目录contents

摘要

探索突发事件网络舆情主题转变节点,并据此展开多阶段网络舆情风险评估,对精准处置突发事件网络舆情危机、提供动态舆情引导策略具有重要参考意义。本文提出一种突发事件情境下网络舆情主题转变路径识别及多阶段风险评估方法。首先,融合RoBERTa(robustly optimized BERT pretraining approach)模型提出时序语义-共词网络,并基于Louvain-CFDP(clustering by fast search and find of density peaks)算法进行网络社区主题发现;其次,提出主题状态转变检测模型,据此生成主题转变路径,识别并分析多类型转变路径及其风险波动特征。以“日本核污染水排海”事件为例进行实证分析,识别事件发展型、情绪集聚型及衍生事件型3种转变路径类型,分别对这3种类型路径的特点、风险特征及差异进行分析。研究结果表明,本文提出的主题转变路径及风险评估研究方法能够完整、全面地展现突发事件在社交媒体上的话题转变,为管理部门快速锁定高风险话题,制定精准、有效的舆情风险引导方案提供借鉴与参考。

0 引 言

自2020年以来,受全球突发公共卫生事件、部分地区山火及极端自然灾害等事件激增的影[

1],由突发事件引起的社交媒体用户大规模讨论、观点表达冲突、情绪极化等极易引发网络舆情危机。突发事件自身破坏性强、危害性大、影响范围广等特性叠加社交媒体网络自由度大、交互性强等特征,在一定程度上加剧了舆情传播的复杂性与不确定性,对社会稳定与发展造成不利影[2]。不同网络用户针对同一突发事件往往存在不同的关注点,且个人观点及情感也会随事件发展而变化。因此,在纷繁复杂的网络信息中,识别用户在突发事件发展不同阶段所关注的热点主题转变,动态监测由该事件引起的舆情风险阶段性变化,是相关部门精准捕捉舆情风险点、提前部署干预措施的必要前提。

用户对突发事件的关注点变化及其可能引起的舆情风险可映射于事件舆情主题的演变发展过程中。通过探索舆情主题间的生长、继承、融合等状态的转变,可识别用户关注点随突发事件进展而发生转移的基本规律;通过探索突发事件在社交媒体传播发酵过程中的阶段性风险变化,可进一步明晰舆情风险随突发事件进展产生的波动性趋势。目前,有学者侧重于基于舆情主题内容、公众情感变化等进行舆情演化研[

3-5],对于主题间演化关系仅依据相似性计算、相关利益者连接等方法进行识别,忽略了对舆情主题的精准研判与识别、主题间内容与结构等状态转变的关注,由此可能导致主题间演化关系识别泛化,在一定程度上加剧了主题间的割裂感,难以为后续精准研判突发事件的发展与转变提供助力。此外,对于突发事件的风险评估多基于整体性视角进行风险分级,缺乏对事件发展各阶段的风险变化的把握,可能导致对舆情风险波动的可解释性不强,难以为精准构建网络舆情风险治理模型提供参考。

基于此,本文旨在解决以下3个研究问题:①如何精准抽取舆情主题并提高舆情主题识别质量?②如何构建主题状态转变检测模型以深入探索主题随事件发酵而出现的状态及规模转变?③如何基于主题转变视角,构建舆情风险评估指标体系进行阶段性风险评估与差异性特征分析?基于上述问题,本文提出了融合RoBERTa(robustly optimized BERT pretraining approach)的时序语义-共词网络,以提高主题识别的准确性与完整性;提出主题状态转变检测模型,以生成主题转变路径;并在此基础上提出阶段性舆情风险评估方法,以期动态揭示突发事件下舆情风险的阶段性波动特征,实现突发事件网络舆情走向的精准把握与针对性风险管控。

1 相关研究

1.1 主题转变的相关研究

不同社交媒体用户往往会针对同一事件发表不同的观点,而随着事件的持续性发酵或反转,用户信息交互行为增加,话题流与讨论内容往往也随之发生变化,从而出现主题转[

6]。主题转变的研究由主题演化相关研究衍生而[7],但不同于以往主要基于文本相似性计算的主题演化研[8],主题转变研究更侧重于识别该主题与相邻主题间的差异性特[9],因而更有助于实现对各类信息流变化的捕捉,从而满足多方需求。

梳理相关文献发现,当前有关主题转变的相关研究并不完善,研究内容主要涉及主题转变测度研究、转变检测模型构建及主题转变特征揭示等方面。其中,主题转变测度研究是一大研究分支,学者们基于情感分析、区域划分、突变-融合等多维视角构建VSM(vector space model)向量空间模型、漂移指数等,从而实现主题转变测度研究。例如,Topal[

10]从情感及区域两个维度探究文章性社交媒体评论中的话题转移现象,并识别了评论情感水平、话题领域等因素对话题转移的影响;陈虹枢[11]采取余弦相似度计算相邻时间窗口主题语义相关度,并以该相似度矩阵的上四分位、中位数为阈值构建主题状态界定模型,对各阶段主题状态进行定量测度;黄畅[12]提出基于词嵌入和VSM向量空间模型的双向量模型自适应微博话题追踪方法,有效识别了话题发展所产生的漂移,实现了相关话题的实时跟踪。在主题转变检测模型构建研究中,Sun[8]在利用会话结构丰富上下文信息的基础上,提出了一种利用词嵌入构建每个评论-帖子对语义关联的话题转移检测模型;杨欣谊[5]借鉴GED(group evolution discovery)模型构建话题演化事件检测模型,识别了主题间的生长、合并等多种转变状态。在更微观的主题转变特征揭示研究中,陈柏彤等基于论文数据集识别了不同主题间的语义词迁移模式,并分析了迁移过程所代表的语义转[13],其后续研究进一步从主题层面和语境层面两个角度考察了同一语义词的转变,以揭示主题演化的特[14];徐璐璐[15]采用命名实体对医学信息领域人工智能技术进行识别,深入揭示其主题漂移特征与演化趋势。

不难发现,国内外学者针对主题转变进行了有益探讨,但当前多数研究仍侧重于基于语义相似性、情感分类的主题转变测度研究,对于连续阶段内相邻主题间基于内容转移、数量结构变化等状态转变的研究不甚明晰,缺乏结构严谨的主题状态转变检测模型支持,进而影响对突发事件下网络舆情信息流走向的精准把握及舆论引导策略的有效选择。

1.2 网络舆情风险评估相关研究

网络舆情通常具有公众关注度高、讨论量大、负面舆情占比大、部分意见领袖传播影响力大等特[

16]。网络舆情风险评估主要通过一系列技术手段,捕捉由事件本身、用户在社交媒体平台中所遇到的多重舆论信息及社会诉[17],实现对事件舆情风险监测与跟踪的过[18]。目前,有关网络舆情风险评估方法的研究内容较为丰富,常用方法主要包括指标评估体系、机器学习模型、应用数学模型等。在建立指标评估体系时,不少学者基于信息生态学理[1]、舆情生命周期理论等考虑网络舆情特[19]、事件源特[20],构建系统的评价指标体系,从而对突发事件严重性进行评估;在基于机器学习模型研究中,学者多采用全局搜索BP(back propagation)神经网[21]、动态贝叶斯模[22]等方法揭示突发事件网络舆情演化过程,以实现事件风险监测与预警分级;在基于应用数学模型研究中,学者主要采用博弈论节点选择模型及搜索算[23]、直觉模糊Choquet积[24]等方法,实现网络舆情风险点识别及风险等级的评估。

上述研究均以突发事件网络舆情风险为研究对象,提出突发事件情境下网络舆情风险识别、评估及分级模型,侧重于突出突发事件网络舆情风险的整体性趋向。本文认为,突发事件所引发的网络舆情风险会随着事件的发展、转变而发生阶段性波动,其风险程度、特征等也并非一成不变。因此,本文提出从突发事件网络舆情发展路径视角出发,分析在连续时间窗口下网络舆情风险的阶段性变化,细粒度探究网络舆情风险的波动趋势及其产生波动的具体原因,为相关部门掌握最新舆论动向、适时进行舆论引导提供助力。

2 研究框架

本文所构建的研究框架如图1所示,主要包括4个阶段。

fig

图1  突发事件下网络舆情主题转变路径及其风险评估研究框架图

2.1 数据获取及路径阶段划分

本文选取新浪微博社交媒体上针对某一特定突发事件的用户评论文本作为原始数据集。由于用户评论存在随意性与随机性,存在较多噪声信息,因此,首先,对所收集的原始数据集进行预处理与降噪处理,主要包括删除用户评论无效数据、删除数据集中无效链接、删除数据集中的重复项、依据突发事件构建专用停用词库并去除数据集中停用词等。其次,提取原始数据集中的用户ID(identity)、发帖内容、发帖时间、点赞数、评论数、转发数、用户名等特征项用于后续主题识别。最后,根据社交媒体平台下事件信息传播的特点,本文依据生命周期理论,通过识别社交媒体用户评论数量变化及标志性事件,将整个事件划分为潜伏、爆发、波动和平息4个发展阶段。

2.2 融合RoBERTa的时序语义-共词网络及社区主题发现

2.2.1 融合RoBERTa的时序语义-共词网络

共词网络虽然在一定程度上体现了关键词间的共现强度,但未充分考虑关键词之间的语义关联关系,从而影响了最终主题状态转变测度的准确性。基于当前RoBERTa模型在训练过程中表现出比BERT(bidirectional encoder representations from transformers)等模型更强的语义交互能力与迁移能[

25],本文提出构建融合RoBERTa的时序语义-共词网络,在考量关键词词对间共现强度的基础上,通过训练深度学习模型增加共现词对间语义相似性的考量。

首先,构建时序高频共词网络,具体如下。依据数据集中各文本发布的时间对文本进行切片处理,获得各时间切片内的数据集;运用停用词表与jieba分词工具对文本进行分词,运用TF-IDF(term frequency - inverse document frequency)算法对关键词共现频率进行计算,按照词频权重取前20%高频关键词,构建以关键词为节点、词间共现关系为连边、共现频次为连边权重的无向加权关键词共现网络。将各时间切片下的共词网络连接,从而形成时序高频共词网络。

其次,依据

SimFreq(vi,vj)=coFreq(vi,vj)unFreq(vi,vj)-coFreq(vi,vj) (1)

进行上述共现词对间的边权计算;而后对RoBERTa深度学习模型进行预训练,将上述高频关键词转化为词向量后,依据

      SimVec(vi,vj)=cos (vi,vj)=vi·vj|vi|·|vj|=                              n=1nwinwjnn=1nwin2n=1nwjn2 (2)

计算共现词对间的语义相似性;依据

Sim(vi,vj)=α·SimFreq(vi,vj)+(1-α)·SimVec(vi,vj) (3)

将高频共现词对边权与基于RoBERTa的高频关键词间语义相似性进行融合,将其结果作为高频关键词词对间的综合边权,从而生成时序语义-共词网络。为避免过大或过小权重值,本文采用Tanimoto系数对二者计算结果进行融合。

在式(1)~式(3)中,SimFreq(vi,vj)表示基于共现关系的边权值;coFreq(vi,vj)表示词汇vivj的共现频次;unFreq(vi,vj)表示词汇vivj的频次总和;Freq(vi)表示词汇vi的频率;SimVec(vi,vj)表示基于RoBERTa模型的词汇语义相似度;vi=(wi1,wi2,,win)表示经RoBERTa模型训练出的词向量;Sim(vi,vj)表示融合相似度;α表示调节因子,其决定了共现相似度和语义相似度间的最优比例关系。

2.2.2 基于Louvain-CFDP算法的社区主题发现

本节结合Louvain社区发现算法与CFDP(clustering by fast search and find of density peaks)算法从时序语义-共词网络中识别社区,从而发现主题并对其命名。由于本文构建的时序语义-共词网络为加权网络且规模较大,因此,本文选择具有更高搜索效率及可扩展性的Louvain社区发现算法进行社区识别,并结合CFDP算法量化核心节点实现社区命名。

首先,利用Louvain算法识别各动态语义网络中的社区。Louvain算[

26]的原理是依据模块度Q值增加的方向,将一个社区的节点不断移至另一个社区,直至Q值达到峰值。该算法具有效率高、大规模处理的特点。其中,网络模块度Q值的函[27]表征为

Q=12mij(Aij-kikj2m)δ(Ci,Cj) (4)

其中,Aij表示网络中节点i和节点j之间的连接权重;kikj分别表示节点i和节点j的度数;m表示网络中所有连接边的总数量;δ(Ci,Cj)为指示函数,当节点i和节点j同属一个社区时,其值为1,否则为0;CiCj分别表示节点i和节点j所属的社区。模块度Q的取值范围为[0,1],其取值越接近1,表明网络社群结构划分越好,社群内部节点间联系越紧密。

其次,运用CFDP算[

28-29]对社区网络节点密度进行计算。CFDP算法是一种通过网络节点间密度和距离来确定聚类中心的一种快速搜索聚类算法,该算法的核心是确定网络的聚类中心,聚类中心应当符合高密度和远距离两个条[28]。具体而言,高密度是指该点周围的数据点数量越多,密度越高;远距离是指该点到密度更高的点的距离越远,越有可能成为聚类中心。具体表示为

ρi=jχ(d(i,j)-dc) (5)
δi=minj:ρj>ρi d(i,j),     if  j, s.t.  ρi<ρjmaxρi>ρj d(i,j),     otherwise             (6)

其中,χ(x)表示节点i与节点j间的距离d(i,j)是否大于等于提前设定的截断距离dc,若d(i,j)dc,则χ(x)=0,若d(i,j)<dc,则χ(x)=1;δi表示节点间距离,依据节点i是否为局部密度最大点进行分类计算。

基于式(5)式(6),筛选出密度及距离均显著大于其他点的节点作为核心节点,并按照距离筛选出与该节点有紧密关联的若干节点,依据节点内容对该社区进行主题命名。

2.3 主题状态转变检测及主题转变路径生成

依据相关研究成[

30],本文将相邻时间切片下主题TiTj之间的转变状态分为7种,即新生、消亡、持续、生长、收缩、合并与分裂。本文提出通过计算主题状态转移概率计算并考虑主题数量结构变化,即社区所包含节点数的比较,建立主题状态转变检测模型以量化判断相邻时间切片下主题间的转变状态。

在主题转变中,本文以两个主题间共有特征词的热度概率值表征主题间内容转移概[

9]。假设主题TiTj为相邻时间切片的两个主题,且Ti出现时间早于Tj,二者共有特征词集合SV={sv1,sv2,,svn},则特征词svm在主题Ti中的热度概率值为

hot(svm,Ti)=m=1nfreq(svm,Ci)ρm  (7)

主题TiTj转移的概率值为

P(TiTj)=hot(SV,Tj)hot(SV,Ti)+hot(SV,Tj) (8)

其中,freq(svm,Ci)表示共有特征词svm在社区网络Ci中的词频;ρm表示特征词svm在社区网络Ci中的密度权重,由式(5)计算得到;hot(SV,Ti)表示共有特征词在主题Ti中的热度。

当主题TiTj间共有特征词在两个话题下的热度越接近时,转移概率P越无限接近于0.5;当主题与TiTj间共有特征词热度hot(SV,Ti)<hot(SV,Tj)时,说明主题Tj涵盖了Ti下的大部分内容,主题TiTj发生转移,转移概率P(TiTj)趋近于1。因此,本文设置0.5作为主题转移的阈值,大于阈值时,则认为主题发生了转移。进一步地,考虑主题TiTj所在社区CiCj的总节点数为对应主题的数量结构,最终提出了主题状态转变检测模型,如图2所示。

fig

图2  主题状态转变检测模型

图2可知,对于相邻时间切片下的主题TiTj,首先,比较转移概率P(TiTj)是否大于阈值0.5,若大于阈值,则说明共同特征词与主题Tj重合度较高,主题由TiTj转移;其次,判断针对同一Tj,是否存在唯一Ti满足P(TiTj)0.5,若Ti不唯一,则进入右侧分支;最后,比较主题TiTj的数量结构,即所对应社区CiCj中节点数绝对值,当|Ci||Cj|时,说明主题Ti发生了分裂,收缩成为了新的主题Tj。该过程说明了主题Tj继承了前一阶段主题Ti的部分内容,同时产生了一小部分的新内容。

依据图2建立的主题状态转变检测模型,判断每个主题的转变状态,并对整个事件的主题转变路径进行可视化。本文以2.2.2节基于社区网络生成的主题为节点,以图2中主题间主题转变状态检测结果为节点间联系,将相邻时间切片内的主题以有向线段进行连接,构建最终的动态主题转变路径。

2.4  基于主题转变路径的多阶段舆情风险评估

相较于以往基于事件整体视角的网络舆情风险指标体系构建,本文更侧重于研究网络舆情传播不同阶段中针对各舆情主题的风险测度。因此,基于信息生态学理[

31]、风险传播理论等内容,为准确刻画舆情风险的阶段性变化特征,本文舍弃在各阶段内保持不变的整体性指标变量(如事件持续时间等)及主观性较强的定性测度指标(如事件危害级别、事件敏感度等),采用更为直观的连续积累型变量和相对增长型变量,建立基于舆情信息、传播载体及用户主体三维度的舆情风险评估指标体系,具体指标设计及测度如表1所示。

表1  多阶段网络舆情风险评估指标体系
维度编码指标指标说明
舆情信[1,19]U1 U11 舆情热度值 某一舆情主题下的有效评论总数(即删除机器人评论、相关度极低评论后的总评论数)
U12 舆情内容关注度 某一舆情主题下的所有特征词svj热度之和
U13 微博内容情感相似度 该舆情主题下各微博内容情感相似性测度的均值
U14 舆情信息扩散度 在该生命周期阶段内,某一舆情主题下微博数占该阶段总微博数的比值
舆情传播载[19]U2 U21 网络媒体参与度 某一舆情主题下网络媒体进行社交媒体发文次数与总微博量的比值
U22 官方媒体干预程度 某一舆情主题下官方机构进行社交媒体发文干预的次数
U23 舆情传播速度 某一舆情主题下总微博数量与主题持续时间的比值
用户主[31-32]U3 U31 用户参与程度 某一舆情主题下所有微博评论总转发量
U32 用户情感极化程度 某一舆情主题下用户情感类型中占比最小的用户数量与占比最大的用户数量的比值
U33 负向情感引导程度 发布带有负向情感博文的认证微博用户占总认证微博用户的比值

具体如下:①在舆情信息维度中,舆情热度值及舆情内容关注度指标主要用于判别舆情爆发程度,舆情热度及内容关注度的增加往往伴随着的舆情风险的逐步递增;微博内容情感相似度指标主要用以判别舆情内容所传递的用户情感差异性大小,同一主题下微博内容情感相似度越低,表明该主题受争议越大,并伴随着舆情风险的逐步递增;舆情信息扩散度指标主要通过计算某一阶段内该主题的舆情场占比用以判别该主题的传播效果,舆情信息扩散度指标较高则表明信息扩散速度较快,由此容易引起由信息失控带来的舆情风险。②在舆情传播载体维度中,网络媒体参与度和舆情传播速度指标主要用于判别舆情的受关注度,网络媒体等媒介传播次数越多、频率越高,表明该事件的用户关注度越大,舆情风险则进一步扩大;官方媒体干预程度指标主要用来衡量官方机构在舆情事件中的介入程度和影响力,官方机构通过及时发布官方立场和信息增加对于事件的干预程度,引导公众理性对待事件,减少恐慌和不良情绪,从而降低网络舆情风险。③在用户主体维度中,用户参与程度指标反映了用户对于舆情的具体参与度,用户参与程度的提高使舆情在社交媒体上的传播速度进一步加快,一定程度上增加了社会分裂和对立风险;用户情感极化程度及负向情感引导程度指标衡量了用户极端情绪及负向情绪强烈程度,用户主体间出现情感多极化或负向情绪倾向及引导程度越高,说明整体舆论方向越多且内容越复杂,一定程度上也加剧了舆情的不稳定性风险。

指标体系确定后,本文运用熵权法对各项指标进行定权。与易受主观因素影响的赋权法相比,熵权法具有较强的客观性,因此,其计算结果也更具有客观性。具体而言,首先,构建各阶段下全部主题Y关于各项网络舆情风险指标uij的计算结果矩阵,即

Y=y1×u11y2×u11yp×u11 y1×u33 y2×u33       yp×u33 (9)

其次,对应各指标熵值Tu的计算公式为

Tu=-j=1pyp×uiji=1quijlog yp×uiji=1quij (10)

则最终指标权重wu的计算公式为

wu=1-Tuu=1q(1-Tu) (11)

因此,主题n下舆情风险ER计算公式为

ERtopic n=u=13wu×ERu (12)
ERu=v=1mwuv×Uuv (13)

3 实证分析

2023年8月24日,日本政府启动福岛第一核电站核污染水排海,引发了国际社会热

。日本国内民众,以及中国、韩国、联合国等多方就核污染水过滤、水产产品安全性、环境污染等议题展开激烈讨论。本文以该事件为例进行分析与验证。

3.1  数据获取及演化阶段划分

本文以国内最大的社交平台新浪微博为数据库,以“日本核污染水排放”为关键词,采集2023年8月20日—2023年9月22日的原创性微博共计145233条,获取内容包括用户ID、微博内容、点赞数、评论数、转发数、发布时间、地址IP等元数据。依据2.1节对收集的微博数据进行预处理及清洗,最终获得有效数据104702条。微博发布信息在时间序列上的分布特征如图3所示。

fig

图3  “日本核污染水排放”事件信息传播趋势

依据图3,本文将数据集划分为4个时间切片,具体如下:Ⅰ. 潜伏阶段(8月20日—8月21日),该阶段发帖数极少,处于“日本核污染水排放”事件初期;Ⅱ. 爆发阶段(8月22日—8月28日),该阶段微博发帖量激增且达到整个事件的最高峰,而后快速回落;Ⅲ. 波动阶段(8月29日—9月13日),该阶段发帖量随“李在明绝食”“核污染水检测”等多起事件发酵而出现较大波动;Ⅳ. 平息阶段(9月14日—9月22日),该阶段话题热度下降,日均发帖量在1000以下。

3.2 事件时序语义-共词网络构建及社区主题发现

3.2.1 事件时序语义-共词网络构建

依据“日本核污染水排放”事件具体内容,首先,本文构建了相应的去停用词词典、同义词替换词典,对上述4个时间切片的数据集进行降噪、表情数据处理、分句等预处理;而后,依据事件专有名词构建了强制分词词典,运用jieba分词对数据进行精准分词;进一步地,本文运用TF-IDF算法提取文本关键词并计算其对应权重,提取TF-IDF权重值排序前20%的关键词为高频关键词,以构建高频共词网络;在此基础上,本文依据上述前20%关键词TF-IDF权重值及关键词词对间的共现次数,对关键词词对间的共现权重依照式(1)进行计算,并标准化处理。其次,输入所提取的阶段一(图4)中全部关键词对RoBERTa模型进行预训练,计算其他阶段的关键词词对语义相似性。最后,依据式(3)建立最终的“日本核污染水排放”事件时序语义-共词网络,如图4所示。在确定式(3)参数α时,本文将α依次从0增加至1(步长为0.05),经过多次实验,发现将高频共词网络参数取值为0.4、基于RoBERTa的语义网络参数取值为0.6时,时序语义-共词网络构建效果最好。

fig

图4  事件时序语义-共词网络图

图4中,每个节点代表一个关键词,节点大小表征该关键词的TF-IDF权重值大小,节点间连线代表关键词词对间的综合权重,连线粗细依据综合权重值进行划分。对比图4中4个阶段的高频关键词共现网络可知,“日本”“核污染水”“排海”等关键词始终贯穿于事件的4个阶段,同时由于事态发展的蔓延,不同阶段所表现出的关注点有较大差异,体现在“东京电力公司”“海鲜”“核电站”等阶段性关键词的综合权重上。

为验证所构建网络性能,本文从复杂网络连通性、平稳性及影响力传播特性方面,分别以高频共词网络及时序语义-共词网络为研究对象,调用NetworkX计算上述指标[

33]并进行归一化处理,对比结果如表2所示。

表2  网络特征表现对比分析(以阶段二为例)
网络类型网络连通性网络平稳性影响力传播
加权介数中心性度中心性连边权重极差PageRank值
高频共词网络 0.14 0.3143 0.9709 0.39
时序语义-共词网络(本文) 0.59 0.6920 0.6416 0.85

表2可知,相较于高频共词网络,本文构建的时序语义-共词网络加权介数中心性与度中心性有明显提升,这表明该网络删除了部分无意义低频关键词与高频常用词,使得网络节点重要度整体提升。网络连边权重极差有所降低,表明网络边权重趋向均衡,网络均衡性及稳定性得到提升。

3.2.2 事件社区主题发现

本文调用Python程序中Louvain算法对各阶段数据进行社区划分。为进一步检测3.2.1节构建的时序语义-共词网络的优越性,分别运用Louvain算法对该事件下构建的高频共词网络与基于RoBERTa的语义网络做社区划分,并依据式(4)对网络模块度Q、网络平均鲁棒性、社区数量等社区类指标进行计算分析,具体结果如表3所示。

表3  基于社群划分结果的网络结构对比分析(以阶段二为例)
网络类型社区网络平均度平均鲁棒性网络模块度Q社区数量
高频共词网络 0.2121 15.3 0.0924 3
基于RoBERTa的语义网络 23.5640 33.0 0.2215 7
时序语义-共词网络(本文) 39.1319 49.0 0.5225 8

表3可知,以阶段二为例,本文构建的时序语义-共词网络在社区划分时社区网络平均度和平均鲁棒性较高,表明社区网络均衡,结构性优异。网络模块度Q提高,社区划分数量增加,社区主题划分结果精准性进一步提高。

最终,基于式(5)式(6)筛选出各阶段社区高节点密度关键词,并以此确定各社区主题,结果如表4所示。

表4  各阶段社区主题划分结果
演化阶段社区节点数社区占比(%)主题编号-社区主题基于CFDP算法的高节点密度关键词
阶段一:潜伏阶段 715 6.42 T11-日本渔联抵制核污染水排海 渔业、联合会、理解、全国、西村、产业、当地、全渔联、坚持、消息
4742 42.56 T12-日本政府正式决定福岛核污染水排海 日本、排海、核污染水、岸田文雄、福岛、日本政府、核电站、排放、海洋、安全
721 6.47 T13-核污染水排海引起海洋环境污染问题 反对、抵制、入海、污染、日货、地下水、核辐射、超标、生不如死、器官、枯竭
4964 44.55 T14-国内公众谴责日本核污染水排海 漠视、不要、安全性、绝不能、担心、严重、忧虑、合法性、国际、损害
阶段二:爆发阶段 5407 23.71 T21-24日起日本开始核污染水排海 海里、技术、过程、专家、放射性元素、辐射、生态、科学、海洋、放射性
302 1.32 T22-日本核污水57天将污染半个太平洋 太平洋、沿海、评估、洋流、国际原子能机构、排污、海域、联合国、10年、扩散
4155 18.22 T23-日本核污染水排放引发国内民众抵制 福岛、影响、污染、全渔联、愤怒、问题、民众、健康、岸田文雄、视察
240 1.05 T24-东电承认超6成储存核污水放射物超标 浓度、总量、超标、公关、首相、持续、政府、全部排、排放量、东京电力公司
4212 18.47 T25-国际多方坚决反对日本强推核污染水排海 停止、利益、谴责、国际、决定、启动、坚决、民众、必要、健康
2974 13.04 T26-日本进口食品安全性问题引发热议 我国、海鲜、抢购、安全、进口、水产品、暂停、措施、海关总署、食盐
1078 4.73 T27-韩国出现恐慌性囤盐等抵制措施 湖盐、恐慌、关注、销售、生产、矿盐、海产品、水产、食盐、盐业
4436 19.45 T28-福岛周边海水采样检测,海洋环境被污染 证据、检测仪、多次、净化、循环、影响、地震、核污染水、环保、排放
阶段三:波动阶段 3391 26.74 T31-日本核污染水排海已超过6100吨 反对、污染、安全、健康、政府、利益、全球、质疑、造成、停止
971 7.66 T32-日本首相岸田文雄因核污水排海问题被检举 岸田文雄、排出、核电站、放射性物质、东京电力公司、检测、海水、残留、浓度、海域
3778 29.79 T33-中韩多国民众发表意愿反对核污染水排海 人民、担忧、利益、受害者、停止、国际原子能机构、共同、国际、强烈、危害
1898 14.97 T34-日本就中国暂停进口水产品向WTO提交文件 累计、排放量、批评、普遍、不负责任、WTO、紧急措施、会议、放射性、大使馆
1318 10.39 T35-核污水排海韩国已出现连锁反应,李在明宣布无限期绝食 进口、购买、保障、韩国、原产地、海鲜、水产品、渔民、自私自利、受损
1324 10.44 T36-日本反对他国直接海水取样独立检测 日本、核污染水、排海、福岛、核辐射、排放量、富士山、风险、检测、海洋
阶段四:平息阶段 1634 19.87 T41-日本核污染水排海引发一系列生态问题热议 增加、日本、富士山、人权、岸田文雄、旅游、排海、核污染水、生态、旅游
1619 19.69 T42-日本强推排污入海遭各方强烈反对,日本国内出现抗议集会 影响、国家、污染、社会、人类、海洋、太平洋、保护、造成、核污染
1188 14.45 T43-日本开始准备核污染水第二轮排海 出口、排入、海啸、第二次、预计、海域、第二轮、水产品、跟进、呼吁
1568 19.07 T44-日本海鲜滞销,日本官员呼吁民众每人多吃5只扇贝 农林水产、北海道、严重、水产品、扇贝、福岛、日本政府、渔业、禁止、出口
1579 19.20 T45-韩国在野党党首李在明绝食多天,受到韩国多方密切关注 尹锡悦、李在明、继续、停止、示威、住院、韩国、绝食抗议、道歉、健康状况
634 7.71 T46-福岛核污水排海国际监测并未邀请中国 中方、监测、行为、回应、国际原子能机构、国际、发布、分析、检测、拒绝

表4展示了各阶段社区主题及其对应的社区节点、社区占比及高密度节点关键词。“日本核污染水排放”事件涉及的主题主要包括日本核污染水排海进度、国际多方对此事表态、公众情绪激烈、生态环境保护等。以阶段二为例,该阶段共检测出8个社区主题,包括由核污染水排海所引发的放射性物质检测超标、国内民众情绪高涨、周边各国与其矛盾激化、水产品安全热议等系列主题,涵盖公众情绪、食品安全、国际局势等多个维度,高密度节点关键词与实际事件对应度高。

3.3 事件主题状态转变检测及主题转变路径生成

表4中划分的各阶段主题为节点,依据式(7)式(8)计算相邻阶段内各主题间的转移概率,如图5所示。图5展示了4个相邻阶段间各主题状态转移概率矩阵。其中,各矩阵横坐标为前一阶段的主题编号,纵坐标为后一阶段的主题编号,横纵坐标交叉节点为两个主题间状态转移概率,状态转移概率值越大,则节点越大,颜色越深。整体而言,对比矩阵横坐标上各主题转移概率,可推测各主题向下一阶段演变的可能性。如图5a所示,T11列主题转移概率均小于阈值0.5,T12列主题转移概率更高,出现0.9728、0.9651等高概率值,说明在阶段二,T12发生了主题内容及状态转变,而主题T11没有更多进展;对比矩阵纵坐标上各主题转移概率,可确定该主题与上一阶段主题的关联性强弱,如图5a中,主题T27与T12、T13、T14间状态转移概率均大于0.5,表明主题T27由上述3个主题融合而来,且T27与T12内容状态转变最相关。

fig

图5  主题状态转移概率矩阵

依据表4各阶段社区主题生长结构及图5主题转移概率矩阵和阈值,按照图2主题状态转变检测模型设定,最终的主题状态转变检测结果如表5所示。

表5  主题状态转变检测结果(以阶段一到阶段二主题转变为例)
阶段主题转移概率社区数量结构主题状态转变检测阶段主题转移概率社区数量结构主题状态转变检测
阶段一阶段二阶段一阶段二
T11 T21 0 T21合并T12、T14,主题生长 T11 T25 0.0303 T25主题收缩
T12 0.8648 C12<C21 T12 0.4438
T13 0.1776 T13 0.0976
T14 0.5215 C14<C21 T14 0.4790 C14>C25
T11 T22 0 T22主题新生 T11 T26 0.0042 T26主题收缩
T12 0 T12 0.2501
T13 0 T13 0.1206
T14 0 T14 0.5600 C14>C26
T11 T23 0 T12、T14主题分裂,收缩成为新主题T23 T11 T27 0 T27合并T12、T13、T14,主题生长
T12 0.5829 C12>C23 T12 0.9651 C12>C27
T13 0 T13 0.6487 C13<C27
T14 0.8500 C14>C23 T14 0.8234 C14>C27
T11 T24 0 T12、T13主题分裂,收缩成为新主题T24 T11 T28 0 T12、T14主题分裂,收缩成为新主题T28
T12 0.9728 C12>C24 T12 0.8693 C12>C28
T13 0.5524 C13>C24 T13 0.2083
T14 0 T14 0.5704 C14>C28

相应地,本文构建了动态时序下的主题转变路径,如图6所示。各阶段主题依据表5主题状态转变检测结果实现生长、合并、分裂等动态转变。

fig

图6  “日本核污染水排放”事件主题转变路径

表5图6可知,多阶段下不同主题间的转变状态较为复杂。结合完整的主题转变路径及各阶段主题内容与关键词(表4),本文共识别出主题转变路径23条,大致可将主题转变路径分为3种类型。①事件发展型路径。该类型路径从客观角度强调突发事件的发生与进展,主题间转移概率极高,多出现主题合并、生长等状态转变。例如,路径1(T12→T21→T31→T43)从客观角度上阐释了日本政府自决定排放核污染水起的整体事件进展,路径2(T14→T28→T36→T46)阐释了核污染水中放射性物质监测进程。②情绪集聚型路径。该类型路径主要围绕该事件下公众情绪变化展开,主题间转移概率相对较低,多出现主题分裂、收缩等状态转变。例如,路径3(T14→T25→T32→T44)阐释了该事件下国内民众的情绪波动及变化,路径4(T14→T27→T35→T45)阐释了韩国政府及民众对核污染水排海事件应对。③衍生事件型路径。该类型路径主要强调由突发事件引发的次生事件与衍生事件,主题间转移概率同样较低,主题状态转变类型多样。例如,路径5(T14→T23→T34→T44)阐释了由于核污染水排放引起的水产品安全话题。

3.4 事件多阶段网络舆情风险评估

本文依据2.4节构建的多阶段网络舆情风险评估指标体系(表1)进行多阶段舆情风险评估计算,并依据计算结果进行风险波动性特征分析。因篇幅有限,本文以上述路径1~路径5为例进行后续实验,其阶段性风险评估计算结果如表6所示。

表6  各类型转变路径阶段性风险评估
路径编号路径类型多阶段风险值风险波动性特征
1 事件发展型路径 0.9336→0.7886→0.6144→0.6452 呈现阶段性递减波动趋势
2 事件发展型路径 0.6523→0.5641→0.4011→0.3809 呈现阶段性递减波动趋势
3 情绪集聚型路径 0.6523→0.8391→0.4015→0.3813 呈现倒U形波动趋势
4 情绪集聚型路径 0.6523→0.4362→0.8109→0.3784 呈现S形波动趋势
5 衍生事件型路径 0.6523→0.6357→0.5386→0.3953 呈现阶段性平稳发展趋势

依据多阶段风险值计算结果,本文对不同类型路径的风险波动特征进行归纳总结。各类型主题转变路径因其主题内容差异,呈现不同的风险波动性特征,其中,①事件发展型路径因其主要内容多围绕突发事件的当前进展展开,因此在起始阶段该类型路径风险值较高,随着时间推移与官方和民间的多方干预,其风险值呈现阶段性递减波动趋势,但整体风险值相较于其他类型路径而言仍处于较高水平状态;②情绪集聚型路径风险值在突发事件传播过程中发生较大波动,往往随着新生主题的出现、原主题的较大转变而上升,呈现倒U形、S形风险波动;③衍生事件型路径受用户关注度不高,且发生时间较短,因此,其各阶段风险值整体处于较低状态,各阶段风险值呈现阶段性平稳发展趋势。

同时,本文对上述5条主题转变路径在各阶段的一级指标舆情信息U1、舆情传播载体U2及用户主体U3展开对比分析,如图7所示。为提高可视化程度,本文以不同条纹区分不同类型路径风险值。

fig

图7  主题转变路径一级指标风险值分析

本文进一步对各类型路径与其一级指标间的显著性进行分析,以揭示二者间深度关联关系。本文对3种路径类型中的3项一级指标进行组间单因素方差分析(analysis of variance,ANOVA),结果如表7所示。依据ANOVA及邦弗伦尼检验结果分析得出以下结论:①3种类型的主题转变路径与舆情信息U1指标间存在显著差异(P<0.05),与舆情传播载体U2指标间无显著差异(P>0.05),与用户主体U3指标间存在显著差异(P<0.05);②事件发展型路径下的舆情信息U1指标显著高于情绪集聚型路径下的舆情信息U1指标(差值为0.099),衍生路径型路径下的舆情信息U1指标显著高于情绪集聚型路径下的舆情信息U1指标(差值为0.203);③事件发展型路径下的用户主体U3指标显著高于衍生事件型路径下的用户主体U3指标(差值为0.14978),情绪集聚型路径下的用户主体U3指标显著高于衍生事件型路径下的用户主体U3指标(差值为0.11486)。

表7  路径类型与指标间显著性检验
检验路径组别对比路径组别舆情信息指标U1舆情传播载体指标U2用户主体指标U3
平均值差值显著性平均值差值显著性平均值差值显著性
邦弗伦尼 1 2 0.099 0.048 0.00614 0.842 0.03491 0.01584
3 -0.104 0.017 0.01881 0.991 0.14978 0.01874
2 1 -0.099 0.048 -0.00614 0.842 -0.03491 0.01584
3 -0.203 0.019 0.01267 0.776 0.11486 0.01919
3 1 0.104 0.017 -0.01881 0.991 -0.14978 0.01874
2 0.203 0.019 -0.01267 0.776 -0.11486 0.01919

注:  “路径组别”及“对比路径组别”的序号1、2、3分别对应事件发展型路径、情绪集聚型路径、衍生事件型路径。

依据图7表7的计算结果,本文认为,相较于情绪集聚型路径,事件发展型、衍生事件型等围绕事件本身发展的路径风险往往来源于舆情信息内容热度及其受关注程度,其原因可能是在重大突发事件下,时间的紧迫性与事件的突发性迫使用户主体更聚焦于事件本身的发展与走向,用户主体的及时性观点及情感倾向也紧紧围绕事件本身展开,没有过度发酵,舆情信息指标U1在3项一级指标中的绝对占比也验证了上述推理。情绪集聚型路径风险往往源于用户主体,且呈现起始阶段风险值较低,后续阶段风险值波动的倒U形波动,其原因可能是该类型路径起初往往滞后于事件发展型、衍生事件型路径,在后续较长时间内用户才得以充分交流,从而进一步引发了用户主体对于事件本身更深刻的思考与理性的情感转变,用户主体指标U2在该类型路径下维持在较高水平,体现了情绪集聚型路径的自身特点。

4 结论与展望

本文建立了融合RoBERTa的时序语义-共词网络,借助Louvain-CFDP算法基于各网络进行了社区主题识别,在此基础上运用所构建的主题状态转变检测模型对主题转变状态进行检测,并据此生成主题转变路径;基于本文构建的网络舆情风险识别指标体系识别出各类型转变路径的多阶段风险值,揭示了各转变路径风险来源、波动性特征。在实证分析中,本文以“日本核污染水排放”事件为例,识别了该突发事件情境下的事件发展型路径、情绪集聚型路径及衍生事件型路径3种路径类型,并针对这3种类型路径的风险值进行计算,分别对事件发展型路径、情绪集聚型路径和衍生事件型路径的路径特点、风险波动特点及其波动原因进行简要分析,从舆情发展阶段性视角揭示事件舆情风险变化,为建立完善的网络舆情感知和响应机制提供参考,从而有效实现对事件发展脉络的准确把握与网络舆情应急防范的精准处理。未来研究拟结合信息生态学理论、风险理论等,从信息环境、信息技术等更多维度实现风险指标的识别与量化,以提高多阶段风险指标体系构建的完整性。

致谢

感谢武汉大学图书情报国家级实验教学示范中心为本文提供实验支持!

参 考 文 献

1

李玥琪, 王晰巍, 王楠阿雪, . 突发事件下社交媒体网络舆情风险识别及预警模型研究[J]. 情报学报, 2022(10): 1085-1099. [百度学术] 

2

曾子明, 孙守强, 李青青. 基于融合策略的突发公共卫生事件网络舆情多模态负面情感识别[J]. 情报学报, 2023, 42(5): 611-622. [百度学术] 

3

Xiao Q, Li Y P, Luo F, et al. Analysis and assessment of risks to public safety from unmanned aerial vehicles using fault tree analysis and Bayesian network[J]. Technology in Society, 2023, 73: 102229. [百度学术] 

4

Jiang Y C, Liang R C, Zhang J, et al. Network public opinion detection during the coronavirus pandemic: a short-text relational topic model[J]. ACM Transactions on Knowledge Discovery from Data, 2022, 16(3): Article No.52. [百度学术] 

5

杨欣谊, 王伟, 朱恒民. 基于时序共词网络的社交平台话题检测与演化研究[J]. 情报学报, 2023, 42(5): 585-597. [百度学术] 

6

Mullick A, Bhandari A, Niranjan A, et al. Drift in online social media[C]// Proceedings of the 9th IEEE Annual Information Technology, Electronics and Mobile Communication Conference. Piscataway: IEEE, 2018: 302-307. [百度学术] 

7

许烨婧, 黄微, 郭苏琳, . 多媒体网络舆情话题衍进追踪态势及机理解析[J]. 情报理论与实践, 2020, 43(12): 156-162. [百度学术] 

8

Sun Y C, Loparo K. Topic shift detection in online discussions using structural context[C]// Proceedings of the 43rd IEEE Annual Computer Software and Applications Conference. Piscataway: IEEE, 2019: 948-949. [百度学术] 

9

朱恒民, 钱莉, 杨欣谊, . 网络舆情话题漂移路径研究[J]. 情报杂志, 2022, 41(6): 108-113, 119. [百度学术] 

10

Topal K, Koyuturk M, Ozsoyoglu G. Emotion-and area-driven topic shift analysis in social media discussions[C]// Proceedings of the 2016 IEEE/ACM International Conference on Advances in Social Networks Analysis and Mining. Piscataway: IEEE, 2016: 510-518. [百度学术] 

11

陈虹枢, 宋亚慧, 金茜茜, . 动态主题网络视角下的突破性创新主题识别: 以区块链领域为例[J]. 图书情报工作, 2022, 66(10): 45-58. [百度学术] 

12

黄畅, 郭文忠, 郭昆. 基于双向量模型的自适应微博话题追踪方法[J]. 小型微型计算机系统, 2019, 40(6): 1203-1209. [百度学术] 

13

Chen B, Ding Y, Ma F. Mapping the semantic word shifts in topics in the field of information retrieval[C]// Proceedings of the 16th International Conference on Scientometrics and Informetrics. Cham: Springer, 2017: 1335-1341. [百度学术] 

14

Chen B T, Ding Y, Ma F C. Semantic word shifts in a scientific domain[J]. Scientometrics, 2018, 117(1): 211-226. [百度学术] 

15

徐璐璐, 杨嘉乐, 康乐乐. 医学信息领域人工智能技术的主题漂移与未来展望——基于JCR 26本医学信息期刊文本的命名实体识别[J]. 现代情报, 2022, 42(10): 163-176. [百度学术] 

16

谢丹琳, 胡锡晟, 杨卫书. 企业网络舆情事件可视化分析及危机公关策略研究——以“海天酱油事件”为例[J]. 科技情报研究, 2024, 6(1): 90-101. [百度学术] 

17

李桂华, 张秋东, 林思妍. 社会诉求数据在“情景-应对”型应急决策中的应用研究[J]. 信息资源管理学报, 2023, 13(5): 79-91. [百度学术] 

18

张军玲. 我国网络舆情信息挖掘研究综述[J]. 情报科学, 2016, 34(11): 167-172. [百度学术] 

19

邓建高, 吴灵铭, 齐佳音, . 基于信息关联的负面网络舆情风险分级与预测研究[J]. 情报科学, 2022, 40(1): 38-43. [百度学术] 

20

吴琦, 李阳. 融入领域风险词典的社会安全事件网络舆情风险评估研究[J]. 情报理论与实践, 2024, 47(6): 175-183. [百度学术] 

21

Huang X, Jin H D, Zhang Y. Risk assessment of earthquake network public opinion based on global search BP neural network[J]. PLoS One, 2019, 14(3): e0212839. [百度学术] 

22

田世海, 于越, 邓舒予. 突发公共事件多情景下的网络舆情危机预警研究[J]. 情报理论与实践, 2023, 46(1): 132-140. [百度学术] 

23

Cao L X, Wei G, Su J. Public opinion spread risk assessment model on third-party payment rough network[J]. Applied Soft Computing, 2020, 95: 106532. [百度学术] 

24

Peng B H, Zheng C Y, Wei G, et al. Risk assessment method on haze networks public opinion based on intuitionistic fuzzy choquet integral[J]. International Journal of Fuzzy Systems, 2022, 24(6): 2858-2872. [百度学术] 

25

何丽, 柳岚清, 刘杰, . 融合问题分类与RoBERTa的答案选择方法[J]. 数据分析与知识发现, 2024, 8(8/9): 157-167. [百度学术] 

26

程秀峰, 邹晶晶, 叶光辉, . 融合word2vec的半积累引用共词网络的领域主题演化研究[J]. 情报学报, 2023, 42(7): 801-815. [百度学术] 

27

Huang W C, Li L Q, Liu H Y, et al. Defense resource allocation in road dangerous goods transportation network: a Self-Contained Girvan-Newman Algorithm and Mean Variance Model combined approach[J]. Reliability Engineering & System Safety, 2021, 215: 107899. [百度学术] 

28

Guan J Y, Li S, He X X, et al. Clustering by fast detection of main density peaks within a peak digraph[J]. Information Sciences, 2023, 628: 504-521. [百度学术] 

29

王艺霖, 肖媛媛, 左鹏飞, . 基于改进聚类算法的交通事故多发点识别方法[J]. 计算机应用研究, 2023, 40(10): 2993-2999. [百度学术] 

30

Fienberg S E. An iterative procedure for estimation in contingency tables[J]. The Annals of Mathematical Statistics, 1970, 41(3): 907-917. [百度学术] 

31

陈苗苗, 安璐. 突发传染病情境下社会化问答平台用户角色形成及转变——以知乎平台为例[J]. 图书情报工作, 2022, 66(12): 68-81. [百度学术] 

32

郭宇, 张传洋, 张海涛, . 危机管理视角下突发事件舆情主题演化与治理分析[J]. 图书情报工作, 2022, 66(8): 113-121. [百度学术] 

33

康瑞, 牟睿聆, 李凌海, . 航空器场面滑行关键路径识别与抗毁性研究[J]. 重庆理工大学学报(自然科学), 2024, 38(2): 181-188. [百度学术] 

责任编辑 魏瑞斌) [百度学术]