en
×

分享给微信好友或者朋友圈

使用微信“扫一扫”功能。
参考文献 1
熊回香. 面向Web3.0的大众分类研究[D]. 武汉: 华中师范大学, 2011.
参考文献 2
代玉梅. 自媒体的传播学解读[J]. 新闻与传播研究, 2011(5): 4-11.
参考文献 3
PimentelM A F, CliftonD A, CliftonL, et al. A review of novelty detection[J]. Signal Processing, 2014, 99: 215-249.
参考文献 4
MarkouM, SinghS. Novelty detection: a review—part 2: neural network based approaches[J]. Signal Processing, 2003, 83(12): 2499-2521.
参考文献 5
微信. 2017微信数据报告[EB/OL]. [2018-06-09]. http://mp.weixin.qq.com/s/CDh91V9RIcVlAyRoiCOI0Q.
参考文献 6
苏正. 微信用户获取信息质量的满意度调查分析[D]. 郑州: 郑州大学, 2017.
参考文献 7
Merriam-Webster. Novelty[EB/OL]. [2018-06-09]. https://www.merriam-webster.com/dictionary/novelty.
参考文献 8
SebastiãoR, GamaJ, RodriguesP P, et al. Monitoring incremental histogram distribution for change detection in data streams[C]// Proceedings of the Second International Workshop on Knowledge Discovery from Sensor Data. Heidelberg: Springer, 2010: 25-42.
参考文献 9
FariaE R. Novelty detection in data streams[J]. Artificial Intelligence Review, 2016, 45(2): 235-269.
参考文献 10
PernerP. Concepts for novelty detection and handling based on a case-based reasoning process scheme[J]. Engineering Applications of Artificial Intelligence, 2009, 22(1): 86-91.
参考文献 11
KligerM, FleishmanS. Novelty detection with GAN[OL]. https://arxiv.org/abs/1802.10560.
参考文献 12
邢美凤, 过仕明. 文本内容新颖度探测研究综述[J]. 情报科学, 2011, 239(7): 1098-1103.
参考文献 13
沈阳. 一种基于关键词的创新度评价方法[J]. 情报理论与实践, 2007, 30(1): 125-127.
参考文献 14
ZhaoL, ZhangM, MaS. The nature of novelty detection[J]. Information Retrieval, 2006, 9(5): 521-541.
参考文献 15
AllanJ, WadeC, BolivarA. Retrieval and novelty detection at the sentence level[C]// Proceedings of the 26th Annual International ACM SIGIR Conference on Research and Development in Information Retrieval. New York: ACM Press, 2003: 314-321.
参考文献 16
KweeA T, TsaiF S, TangW. Sentence-level novelty detection in English and Malay[M]// Advances in Knowledge Discovery and Data Mining. Heidelberg: Springer, 2009: 40-51.
参考文献 17
KourisI N, MakrisC H, TsakalidisA K. Using information retrieval techniques for supporting data mining[J]. Data & Knowledge Engineering, 2005, 52(3): 353-383.
参考文献 18
TsaiF S, TangW, ChanK L. Evaluation of novelty metrics for sentence-level novelty mining[J]. Information Sciences, 2010, 180(12): 2359-2374.
参考文献 19
SpinosaE J, GamaJ. Novelty detection with application to data streams[J]. Intelligent Data Analysis, 2009, 13(3): 405-422.
参考文献 20
HautamakiV, KarkkainenI, FrantiP. Outlier detection using k-nearest neighbour graph[C]// Proceedings of the 17th International Conference on Pattern Recognition. Los Alamitos: IEEE Computer Society Press, 2004: 430-433.
参考文献 21
逯万辉, 谭宗颖. 学术成果主题新颖性测度方法研究——基于Doc2Vec和HMM算法[J]. 数据分析与知识发现, 2018(3): 22-29.
参考文献 22
FuX Y, Ch ngE, AickelinU, et al. An improved system for sentence-level novelty detection in textual streams[C]// Proceedings of the 3rd International Conference on Smart Sustainable City and Big Data. IET, 2016.
参考文献 23
BlanchardG, LeeG, ScottC. Semi-supervised novelty detection[J]. Journal of Machine Learning Research, 2010, 11: 2973-3009.
参考文献 24
de FariaE R, de Leon Ferreira Carvalho A C P, GamaJ. MINAS: multiclass learning algorithm for novelty detection in data streams[J]. Data Mining and Knowledge Discovery, 2016, 30(3): 640-680.
参考文献 25
余骞, 彭智勇, 洪亮, 等. 基于用户邻域和主题的新颖性Web社区推荐方法[J]. 软件学报, 2016, 27(5): 1266-1284.
参考文献 26
CichoszP, JagodzińskiD, MatysiewiczM, et al. Novelty detection for breast cancer image classification[J]. Proceedings of the SPIE, 2016, 10031: Article ID 1003135.
参考文献 27
MarchiE, VesperiniF, SquartiniS, et al. Deep recurrent neural network-based autoencoders for acoustic novelty detection[J]. Computational Intelligence and Neuroscience, 2017, 2017: Article ID 4694860.
参考文献 28
RichterC, RoyN. Safe visual navigation via deep learning and novelty detection[C]// Proceedings of Robotics Science and Systems, 2017.
参考文献 29
SocherR, PerelyginA, WuJ Y, et al. Recursive deep models for semantic compositionality over a sentiment treebank[C]// Proceedings of the 2013 Conference on Empirical Methods in Natural Language Processing. Association for Computational Linguistics, 2013: 1631-1642.
参考文献 30
TsaiF S, ZhangY. D2S: Document-to-sentence framework for novelty detection[J]. Knowledge and Information Systems, 2011, 29(2): 419-433.
参考文献 31
LeQ, MikolovT. Distributed representations of sentences and documents[OL]. https://arxiv.org/pdf/1405.4053.pdf.
参考文献 32
SocherR, ChenD, ManningC D, et al. Reasoning with neural tensor networks for knowledge base completion[C]// Proceedings of the International Conference on Neural Information Processing Systems. Granada: Curran Associates Inc, 2013: 926-934.
参考文献 33
搜狗. 微信搜索[EB/OL]. [2018-06-29]. http://weixin.sogou.com/weixin.
参考文献 34
TsaiM F, ChenH H. Some similarity computation methods in novelty detection[J]. Proceedings of TREC, NIST Special Publication: SP, 2002, 18(1): 655-660.
目录 contents

    摘要

    自媒体平台内容同质化问题日益严重,导致用户难以从中获取新颖优质的信息,因此对其文章内容进行新颖度评估就显得尤为重要。本文以微信公众号文章为例,提出了一种自媒体平台文章的新颖度评估方法,该方法利用非监督的句级Doc2Vec语言模型构建文本向量,基于递归张量神经网络构建新颖度测度模型,进而通过模型训练求解并量化评估文章的新颖度。本文从微信公众平台自动采集4,628篇文章开展实证研究,首先设置不同的张量切片数量进行对照实验,综合新颖度分布特征和训练时间计算最优参数,然后通过计算文档相似度验证了文章的新颖度和相似度之间的线性回归关系。该实验结果证明了本方法具有较强的可行性和有效性,从深度学习的视角拓展和丰富了文本新颖度评估的研究,也为自媒体平台的新颖话题探测和前沿知识发现提供了支撑。

    Abstract

    The problem of content homogeneity in We-Media platforms is becoming increasingly serious, making it difficult for users to obtain high-quality information. Therefore, it is particularly important to evaluate the novelty of We-Media articles. Taking the articles of WeChat Subscription as an example, this paper proposes a novelty evaluation method for articles on We-Media platforms, using an unsupervised sentence level Doc2Vec language model to construct the text vector, and establishes a novelty evaluation model to quantify articles’ novelty based on the recursive neural tensor network. This paper automatically collected 4,628 articles from WeChat Subscription to conduct an empirical research. First, a number of different tensor slices were selected to conduct contrastive experiments, and the optimal parameters were obtained by combining the feature of novelty distribution and training time. Subsequently, the linear regression relationship between novelty and similarity was discovered and then verified by calculating the similarity of the documents. The experimental results demonstrate the feasibility and effectiveness of this approach. This paper expands and enriches the research on document novelty evaluation from the perspective of deep learning. It also supports the novel topic detection and frontier knowledge discovery of We-Media platforms.

  • 1 引 言

    1

    当今Web 2.0时代,社会化媒体和移动互联网技术的迅猛发展改变了人们获取信息的方式,“去中心化”、高度交互性和精细划分成为这一时期信息生产和传播的显著特[1]。各类自媒体平台,如微信、微博等已悄然成为公众发布信息和获取信息的重要渠道。自媒体平台具有较高的开放程度,但信息发布的门槛较低、审查不严,信息生产者素质良莠不[2],致使信息失时、失真、冗余的现象广泛存在,也使用户难以便捷地获取最新的信息。因此如何有效测度信息新颖度成为自媒体进一步发展中亟待解决的问题,同时也引起了学界的关注和重视。大规模文本内容具有内涵丰富、表达多样、价值稀疏的特点,现有的针对文本新颖度评估的方法存在一定的局限性,如通过聚类或近邻算法构建的评估模型无法有效表达和处理高维数据,而概率统计方法的准确性和效果则受训练集和特征集的规模和质量的限[3]。部分学者采用了改进的机器学习算法,其性能和效果极大依赖于语料库标注的质量,对算法选择和参数设定也较为敏[4],国内鲜有相关模型的实证研究和检验,模型的复杂性也使深度推广十分困难。

    微信公众号是一类重要的自媒体载体,截至2017年11月,微信官方公布的月活跃微信公众号数量为350万个,月活跃粉丝数达到了7.97亿[5],微信已经成为国内最大的自媒体平台之一。但微信公众号内容的同质化问题也饱受诟病,主要体现在微信用户经常收到重复信息,对微信公众号内容的多样性并不满[6]。然而,目前针对中文微信公众号的新颖度量化评估鲜有研究。因此,本文以微信公众号文章为研究对象,以深度学习语言模型Doc2Vec和递归张量神经网络(Recursive Neural Tensor Networks, 简称RNTN)为基础量化计算文章的新颖度,实验结果证明了该方法的有效性及可行性。

    本文第2节概括了新颖度的概念以及国内外关于新颖度测度研究的进展,并指出了现有研究的不足;第3节详述了如何构建句级公众号文章的文本向量以及利用递归张量神经网络训练文档新颖度;第4节利用实验对本文所提出的方法进行实验验证分析;第5节总结了本文内容,分析了本文所提出的新颖度评估方法的优势及不足并对该研究方向进行展望。

  • 2 相关研究

    2
  • 2.1 新颖度的概念及内涵

    2.1

    新颖度一直是信息评测和知识发现领域的重点研究内容。早在2002年,文本检索会议(Text Retrieval Conference,简称TREC)就把从评测系统中发现新颖信息作为重要研究目标。新颖度(Novelty)来源于拉丁文“novus”,韦氏词典的定义认为其是一种强调与已有事物不同的性质,表达一种新颖程度的状[7]。基于这样的理解,众多学者对新颖度的探测(Novelty Detection)进行了定义,Sebastião[8]认为新颖度探测是对新概念进行识别,捕捉发生在已知概念和噪音信息基础上的变化;Faria[9]指出新颖度探测强调识别出未标注的实例。在学习系统的相关研究中,新颖度探测关注的是对未知情况的发[10],用于确定相关输入是否来源于已知集合与特定的[11]。更具体地,国内学者提出文本内容的新颖度评估一般是指在特定的文档集中,通过对比新文档与已有文档之间的内容冗余度,确定新产生的文本内容是否新[12]。由此可知,国内外学者普遍认为新颖度是一个相对的概念,即信息内容在某一信息集合中的差异化程度。

  • 2.2 传统的新颖度评估方法

    2.2

    通过文献调研发现,国内外众多学者对新颖度评估做了不少有益的研究和探索。一方面基于文本内容特征进行统计计算,如沈[13]通过分析关键词句的频度、被用户检索的频率等衡量科学文献的创新度;Zhao[14]关注了两个不同句子间的重叠度(Overlap),计算了“形似”和“意似”两个方面的重叠性;Allan[15]在新颖挖掘中采用了计算新词数的方法,以识别出新颖度高的句子。另一方面主要通过计算文档相似性来探测新颖度,如余弦距离是被最早用于句子新颖度探测的度量之[15],甚至被用在如马来语等其他以字母为基础的语言的新颖度探测工作中,并取得了良好的效[16];Kouris[17]学者则将Jaccrad相似度应用到两个不同集合的差异比较中以得出新颖度评分。在此基础上,Tsai[18]学者构建了兼顾“余弦相似度”等对称性度量和“新词数”等非对称性度量的综合新颖度评测框架。另外,同样基于距离的聚类方法也得到了广泛使用,如Spinosa[19]用标准聚类方法识别未知概念,Hautamaki[20]学者利用k近邻算法捕捉距离图中远离正常集合的“新颖点”等。

  • 2.3 基于改进机器学习的新颖度评估方法

    2.3

    近年来,基于机器学习的新颖度评估方法进一步发展起来。逯万辉[21]学者通过Doc2Vec和HMM计算文本内容特征因子,以对学术成果主题的新颖度进行度量。Fu[22]构建了一个基于TF-IDF和局部敏感哈希(Locality-Sensitive Hashing)算法的文本流新颖内容侦测系统,并通过谷歌新闻的数据集进行了实证检验。与传统的二分类不同,Blanchard[23]通过半监督学习算法实现了对未知新颖分布的识别,同时其方法对高维数据有良好的适应性。de Faria[24]设计的应用于数据流的“MINAS”方法将新颖度检测视为一个多值问题,并实现了新颖模式的自动更新和扩展。此外,新颖度的评估也被应用到不同领域,相关实践工作得到越来越多学者的关注,如余骞[25]学者提出了一种通过多阶邻域交互计算实现向用户推荐新颖度社区的方法“Novel Rec”;Cichosz[26]学者从新颖度探测的视角出发,结合聚类和单类支持向量机算法构建检测模型,对乳腺癌图片数据进行识别;Marchi[27]学者则构建了基于深度循环神经网络的声学新颖度探测模型;新颖度探测技术甚至被应用到优化机器人的导航功能[28]

    综上所述,现有的新颖度探测研究已初具规模,国外研究也已取得较为丰硕的理论和实践成果。但从总体上看,在新颖度的评估问题上各派学者还没有形成较为统一的理论方法,尤其基于深度学习算法对文本内容进行新颖度评测仍鲜有研究。而国内有关新颖度评估的研究还处在探索和起步阶段,尤其对于中文文本的新颖度评估缺乏评测的指标及方法。因此,本文以微信公众号文章作为研究对象,提出了一种自媒体平台文章的新颖度评估方法,该方法利用非监督的句级Doc2Vec语言模型构建文本向量,基于递归张量神经网络构建新颖度测度模型,进而通过模型训练求解并量化评估文章的新颖度。

  • 3 利用RNTN评估微信公众号文章的新颖度

    3

    深度学习发展至今,在文本分类、特征提取、情感分析、图像识别等领域已有广泛应用。张量神经网络模型(Neural Tensor Network,NTN)从单个词语的角度构造语义向量空间,难以正确解释长文本的含义,而且可能会导致维数灾难,目前的组合性语义向量空间又依赖大量的标记数据。而RNTN能模拟节点的动态时序行为,能够处理任意长度的输入序列,适合输入和输出数据有相关关系的训练任[29]。RNTN最早被用于解决长文本的情感分类问题,而微信公众号文章也多属于长文本,且文本长度没有固定的范围,因此利用RNTN模型测度公众号文章的新颖度具有可行性。

    鉴于张量网络在处理实体关系计算上的优势,本文利用非线性的新颖度语义测度函数训练文档集合,通过待测度文档与文档集合之间的实体关系交互生成张量层的新颖度特征,最后将新颖度特征进行线性组合并归一化处理,输出文档的新颖度值。该评估方法包含两个阶段:首先利用语言模型技术Doc2Vec构建公众号文章的文本向量,即用数字的形式表示公众号文章的文本特征;其次把文本向量作为RNTN的输入层数据,通过RNTN模型训练公众号文章的新颖度,通过Sigmoid函数归一化处理并计算新颖度值。

  • 3.1 公众号文章的新颖度语义测度函数

    3.1

    本文2.1节已经介绍了有关新颖度概念及内涵的相关研究。本文的研究对象聚焦于微信公众号文章,其新颖度是指在文本语义内容层面,某一文档与已有文本集从相似性、异质性和冗余性等维度量化计算出的差异化程度。Tsai[30]学者认为,在文档新颖度检测中,句子级别的测度比文档级别的测度在冗余精度和冗余召回方面有着更出色的表现,并给出了文档新颖度的计算量化定义:

    N o v e l R a t e s = n u m ( n o v e l _ s t e n t e n c e s r e t r i e v e d b y s y s t e m ) n u m ( a l l s e n t e n c e s )
    (1)

    即系统识别的新颖句子数量与文档中总句子数量的比值。该定义将一篇文档视为若干个无关联的句子构成,明确了新颖度的量化表示方法,但却割裂了句子的有向结构,并不能体现句子的语义顺序。本文参考了这种从句子维度评估新颖度的方法,并进行了语义有效性层面的改进:

    N o v e l R a t e = S i g m o i d n o v e l t y ( ( n s 1 , s 2 ) , s 3 ) , , s n )
    (2)

    式中, ( ( n s 1 , s 2 ) , s 3 ) , , s n ) 是由句子构成的文档树,其数据结构为二元解析树。将文档树作为RNTN模型训练的输入结构,保证了句子序列的有向性。

  • 3.2 构建公众号文章的文本向量

    3.2

    在本文的新颖度评估方法中,文本向量化表示是十分重要的环节,后续步骤中的新颖度模型训练需要依靠文本向量作为输入层数据,文本向量与公众号文章的语义拟合程度对RNTN的训练过程的有着很大影响。文本向量化一般通过Doc2Vec模[31]实现。Doc2Vec利用非监督的学习算法获得文本的向量表示,充分考虑了词在文本中的位置和词的上下文信息,并将词映射到对应的特征向量,形成了词之间的特征矩阵,减少了文本向量化过程中的信息损耗,其侧重点是将文档高质量地映射到低维连续向量,但没有计算文档之间的相关关系,其准确率依赖于语料库的大小和文档的数量。本文从句子角度测度微信公众号文章的新颖度,为了提升模型训练性能,在Doc2Vec模型的基础上添加了句级向量进行强化改进,利用有向句子序列构建文档的向量表示。

  • 3.2.1 句级Doc2Vec

    3.2.1

    本文提出的句级Doc2Vec模型如图1所示,以Doc2Vec为基础添加句级向量增强文本的特征表示效果。给定长度为 M 的文档 D = { d 1 , d 2 , , d M } ,对于任意 d m D , d m 的构成成分是句子序列 s m ,即 d m = { s m 1 , s m 2 , , s m n } ,每个句子的构成成分是词序列 w t ,因此文档 d m 的文本向量可用如下模型进行表示:

    D m = s m 1 s m n = { w m , 1,1 , w m , 1,2 , , w ( m , 1 , | w t | 1 ) } { w m , n , 1 , w m , n , 2 , , w ( m , n , | w t | n ) }
    (3)

    式中, m n 代表了第m篇文档及文档中的第n个句子, | w t | n 代表了第n个句子中的词序列长度。句级Doc2Vec模型分为两层:第一层是从词的上下文环境获取句子的向量表示,与Doc2Vec模型相比,该阶段需要将文档切割成句子,并将句子中的每个词映射到词汇矩阵,从而根据上下文环境的词序列预测当前词的向量值;第二层是从句子的上下文环境中获取文档的向量表示,其输入层需要添加文档向量,并通过文档向量和邻近句子作为特征输入,迭代更新文档中的每个句子向量。

    图1
                            句级Doc2Vec模型

    图1 句级Doc2Vec模型

  • 3.2.2 构建公众号文章的句级文本向量

    3.2.2

    在Doc2Vec原模型中,输出层利用softmax分类器进行词分布预测,公式如下:

    P w t | w t - k , , w t + k = e y w t i e y i
    (4)

    参考该方法,本文把句子向量 s t 作为词分布预测的参数,利用层次化的softmax模拟预测词 w m 的分布概率:

    p w m | w m - n , , w m + n ; s t = x w m e f ( x ) x e f ( x )
    (5)

    式中, f ( x ) 表示输出层中元素 x 的值,其计算方式为

    f x = b + U h w m - n , , w m + n ; s x ; W , S
    (6)

    式中, U 表示映射层到输出层的转移矩阵,进一步优化目标函数,句子的概率分布为

    1 T m = n T - n p w m | w m - n , , w m + n ; s t
    (7)

    在获得句子的向量表示之后,通过建立文档级的语言模型,基于句子序列的向量表示来预测文档向量。其具体思路是把上下文句子和文档特征作为输入层数据预测当前句子的概率分布。文档 d m 中的句子序列 { s m 1 , s m 2 , , s m n } 以及当前语句 s m t ,其概率模型可以用最大化的对数似然概率进行表示:

    y s m t = s m t d m l o g p ( s m t | s m t - k , , s m t - 1 , s m t + 1 , s m t + k , d m )
    (8)

    综合以上,可以梳理出句级Doc2Vec的实现算法:

    算法:句级Doc2Vec模型

    输入:文档集合 D = { d 1 , d 2 , , d M } ;参数:句级向量维度 k s 、文档向量维度 k d 、学习次数: N s N d

    输出:文档向量模型 V = { v d 1 , v d 2 , , v d m }

    步骤:

    (1)遍历文档集合中的词,建立数据字典vocab

    (2)切割文档集合中的句子,建立句子矩阵 { s m n } m 为文档序号, n 文句子序号

    (3)随机初始化 k s 维句子向量模型,构建huffman树,向句子中的词分配huffman码

    (4)for n = 1 to N s do:

    (5) for s j i in { s m n } do:

    (6) 标记 s j i 的当前词,以及当前词的邻近词序列

    (7) 遍历当前词节点到huffman树root节点:

    (8) 计算误差向量,更新当前词向量、中间节点向量、临近词向量

    (9) End for

    (10) End for

    (11) for n = 1 to N d do:

    (12) for d i in D do:

    (13) 标记 d i 的当前句 s j i ,以及当前句子的邻近句子序列

    (14) 利用公式(8)计算 s j i 的概率分布

    (15) 更新文档向量 v d i

    (16) End for

    (17)End for

  • 3.3 微信公众号文章的新颖度评估

    3.3
  • 3.3.1 RNTN训练过程

    3.3.1

    Socher[29]在解决文本库中情绪检测任务时提出了RNTN。该模型在使用词向量作为特征输入的基础上,增加了解析树(Parse Tree)同步表示整个文档的语义,解析树利用递归的方式不断地吸收文档中的词作为新节点,随着解析树的层次不断增加,文档语义的表示也更加丰富。解析树以二元树作为基本的数据结构,每个节点都可以通过向量进行描述,并使用基于同一张量的合成函数计算树中高维度节点的向量,其结构如图2所示。

    图2
                            解析树的节点计算

    图2 解析树的节点计算

    单一张量层的形式如图3所示,可以表示为:

    h = v 1 v 2 T V [ 1 : d ] ; h i = v 1 v 2 T V i v 1 v 2
    (9)

    式中, V [ 1 : d ] R ( 2 d × 2 d × d ) 是双线性乘积的张量切片, h h i 分别代表张量层和张量切片i的张量积输出。

    图3
                            RNTN张量层示意图

    图3 RNTN张量层示意图

  • 3.3.2 新颖度建模

    3.3.2

    在神经网络模型中,神经张量网络(NTN)利用双线性的张量层(Tenser Layer)可在任意维度上关联两个实体向量,因此NTN模型通常用于计算两个实体之间的关系[32]

    g e 1 , R , e 2 = u R T f ( e 1 T W R 1 : k e 2 + V R e 1 e 2 + b R )
    (10)

    类似的,RNTN模型可以通过张量积计算输入向量之间的相关关系,引申到单个文档与其他文档的新颖度关系测度中,即将文档集 D 中的候选文档 d i 的新颖度映射为 d i 和其他文档的张量积。具体做法是通过语料库训练RNTN张量层中的新颖度语义测度函数,产生新颖度指标并通过标准层(Standard Layer)筛选,最后根据sigmoid函数输出文档的最终新颖度值,其公式为

    N o v e l t y ( d i | D ) = f ( v d i W 1 : k [ v d 1 , v d 2 , , v d m ] )
    (11)

    式中, [ v d 1 , v d 2 , , v d m ] R m · m 是文档的初步向量表示, W 1 : k R m · m · k 是张量切片, f ( * ) 是隐层激活函数。

  • 3.3.3 解析树构建与新颖度训练

    3.3.3

    如图4所示,本文将基于句级Doc2Vec向量作为解析树输入层数据,构建二元解析树结构作为文档的初步表示向量。张量切片把文档初步向量作为输入,文档 d i 和文档集 D 之间的相关关系H的非线性计算公式为

    图4
                            基于RNTN的新颖度模型

    图4 基于RNTN的新颖度模型

    H = h 1 T · · · h z T = f ( v d i W 1 [ v d 1 , v d 2 , , v d m ] ) · · · f ( v d i W k [ v d 1 , v d 2 , , v d m ] )
    (12)

    文档解析树构建方式如图5所示。树中的叶子结点由单个句子向量组成,根节点是文档的完整语义表示。文档解析树递归到 P i 元素时,合成函数需要节点向量 S i 和当前root节点 P i - 1 作为输入,并产生一个新的root节点 P i ,直到将文档中的所有句向量吸收到解析树中。文档解析树的节点计算方式见公式(11),解析树初始化时,利用 S 2 S 1 作为输入向量计算得到 P 1 ,然后通过 P n - 1 S n 迭代计算得到 P n

    P n = f P n - 1 , S n = f P n - 1 S n T S P n - 1 S n W P n - 1 S n n > 1 f S 2 , S 1 = f S 2 S 1 T S S 2 S 1 W S 2 S 1 n = 1
    (13)

    式中, W R k × 2 k S R k × 2 k × 2 k 是训练过程中合成函数的参数, S 代表张量切片矩阵,由若干张量切片 S [ i ] R k × 2 k 组成。

    在模型训练阶段,我们用二元解析树中的节点 P i 训练softmax分类器,进而得到k维的新颖度分布:

    y [ P i ] = s o f t m a x ( W n × P i )
    (14)

    式中, W n 是新颖度评分矩阵。为了最大化正确预测概率,最小化节点新颖度分布 y [ P i ] 与目标分布 t [ P i ] 交叉熵误差,一篇文档的新颖度误差参数 θ = ( S , M , W , W n ) 定义为

    E θ = i j t [ P i ] j l o g ( y [ P i ] j ) + λ | | θ | | 2
    (15)
    图5
                            句级文档解析树

    图5 句级文档解析树

  • 4 实证研究

    4
  • 4.1 实验准备

    4.1
  • 4.1.1 数据来源

    4.1.1

    本文基于搜狗搜索引擎的微信接[33]自主开发了微信公众号文章的分布式爬虫,采用了标题关键词检索的方式,将数据科学领域的7组热门技术词汇作为候选关键词,分别是“大数据”、“人工智能/AI”、“数据挖掘/数据分析”、“深度学习/机器学习”、“自然语言处理/NLP”、“云计算”、“互联网/移动互联网”。在去除噪声数据后,累计采集到951个公众号的4628篇文章,其中原创文章1162篇,文章的发布时间跨度为2014年7月—2018年4月。本文以文章发布的时间戳为阈值,划分训练集和测试集,具体情况见表1

    表1 实验数据集

    序号关键词训练集训练集时间域测试集测试集时间域
    1大数据470

    (2016-12-25,

    2018-04-14 )

    118

    (2018-04-14,

    2018-04-17 )

    2人工智能/AI680

    (2017-11-17,

    2018-04-11)

    271

    (2018-04-11,

    2018-04-17)

    3数据挖掘/数据分析392

    (2014-07-25,

    2018-03-29)

    98

    (2018-03-29,

    2018-04-17)

    4深度学习/机器学习826

    (2016-03-01,

    2018-03-19)

    207

    (2018-03-19,

    2018-04-17)

    5自然语言处理/NLP224

    (2015-01-30,

    2018-04-11)

    56

    (2018-04-11,

    2018-04-17)

    6云计算424

    (2015-11-07,

    2018-04-01)

    107

    (2018-04-01

    2018-04-17)

    7互联网/移动互联网487

    (2017-03-06,

    2018-04-17)

    122

    (2018-04-17,

    2018-04-17)

    表1
                    实验数据集

    此外,由于微信公众号文章包含图片、视频、音频等多媒体信息,还需用正则表达式过滤多媒体内容标签,保留文章文本部分。通过数据清洗去除干扰数据后,还需经过分词、去停用词处理,剔除语义无关词,降低语义稀疏问题对文本建模造成的影响。

  • 4.1.2 实验环境

    4.1.2

    本次实验采用了CPU型号为Intel(R) i5-2310(主频2.9 GHz)的主机,内存为16 GB,操作系统是Win10 64位专业版;软件方面采用了Python2.7作为主要编程语言,PyCharm 2017为集成开发环境,编码过程中用到的第三方开源工具包如Tensor Flow、Gensim、Numpy等。

  • 4.2 实验结果及分析

    4.2
  • 4.2.1 不同张量区间的新颖度分布

    4.2.1

    按照上述研究方法和实验思路,本文选取3649篇微信公众号文章作为RNTN模型的训练集和新颖度语义参照集合,并将剩余的979篇文档作为测试集。本实验将张量的切片数量区间设置为[1,30]进行了多组实验。

    新颖度的分布区间随切片数量的变化趋势如图6所示。当切片数量小于等于5时,公众号文章之间的相关关系没有拟合,新颖度分布区间集中于0.05~0.30之间;当切片数量大于10时,公众号文章之间的新颖度差异化特征逐渐显露出来,新颖度整体分布区间扩展到0.05~0.75之间,符合正态分布趋势;当切片数量大于等于18时,公众号文章的新颖度分布趋势开始稳定。当切片数量继续增加时,拟合效果没有显著变化,新颖度值区间为0.15~0.75。

    图6
                            新颖度分布区间随张量切片数量的变化趋势

    图6 新颖度分布区间随张量切片数量的变化趋势

    由图7可知,随着切片数量的增加,实验的训练时间呈指数级增长,当切片数量为1~5时,训练时间分别为0.045 h、0.055 h、0.070 h、0.076 h和0.078 h;当切片数量达到12时,训练时间超过1 h;此后当切片数量分别为14、16、18、20和30时,训练时间分别为1.430 h、1.600 h、2.015 h、3.180 h与10.140 h。当张量切片达到18时,测试集的新颖度分布与训练时间之间达到最优状态。

    图7
                            新颖度的分布区间随切片数量的变化趋势

    图7 新颖度的分布区间随切片数量的变化趋势

    当张量切片数量设置为18时,测试集中所有公众号文章的新颖度分布如图8所示,新颖度的端点值分别是0.163和0.723。经统计超过70%的文章新颖度值在0.31~0.63,众数峰值出现在0.59左右。本文在对比研究时选取0.5作为新颖度标准阈值,则微信公众号新颖性文章占比为43.52%。

    图8
                            slices=18时的新颖度的分布区间

    图8 slices=18时的新颖度的分布区间

    2,3分别列举了切片数量为18时,新颖度排名最高和最低的公众号文章样例。

    表2 新颖度排名最高的公众号(Top10

    排名文档编号标题新颖度值
    13432互联网所带来的焦虑,我们有权利选择拒绝0.723161489
    23116人工智能画的人体艺术,你猜画成什么样?0.694738477
    33457没听过区块链?你可能对互联网金融知之有限!0.681097031
    4273【人工智能女友】0.674442232
    53156当大数据时代来临,新购享领衔“互联网+”分享经济模式。0.667257488
    6544云计算使服务更高效!大数据让城市更智慧!0.652912915
    74407深度学习的研究方向: 你会为AI转型么?0.64980042
    8529【数据分析】理科类近三年广东高考分数线汇总 | 本科二批0.645396024
    91287大数据,零隐私 | 冬吴音频0.644786149
    101026云计算,大数据,物联网,视频看完就明白了0.635998487
    表2
                    新颖度排名最高的公众号(Top10)

    表3 新颖度排名最低的公众号文章

    排名文档编号标题新颖度值
    13641AI复盘003:2018-04-15,轩vs弈城网友0.163249016
    2921AI教程/3D的饼干人0.166252196
    31825大数据时代网络安全保护意识更加全面0.17273736
    43411大数据透露的美国真相0.186896563
    54109博鳌AI彻底火了!有巨头说未来公司都是AI+,却有AI翻译抽风了!0.186923385
    64617人工智能 电力升级 | 互联网助力智慧能源0.188402534
    741748个深度学习方面的最佳实践0.200529814
    81846大数据告诉你,孩子最渴望什么样的教育?0.201455832
    91939人工智能应用新模式,安防机器人强势来袭0.226280451
    101540“互联网+医疗健康”让百姓从容就医0.227902293
    表3
                    新颖度排名最低的公众号文章
  • 4.2.2 微信公众号文章的新颖度与相似度的相关分析

    4.2.2

    学者Tsai[34]认为在新颖度测度任务中,新颖度可以通过过滤高于一定阈值的关键词和主题相关词进行求解,在此基础上通过余弦相似度实现了文本的新颖度测度模型(Novelty Detector),并利用英文语料数据验证了这一方法的有用性。

    为了验证中文语料数据的新颖度与相似度的关系,本文采用了余弦相似度计算实验作为对照。余弦相似度也称为余弦距离,是指利用向量夹角的余弦值度量两个个体的差异性。本节实验选取了测试集中的200篇文章作为样本,依次遍历训练集的公众号文章计算最大余弦相似度,并以张量切片数量设置为18时的新颖度值作为对比参照,其实验结果如图9所示,公众号文章的新颖度和相似度呈现显著的负相关关系。

    图9
                            微信公众号文章相似度与新颖度的相关关系

    图9 微信公众号文章相似度与新颖度的相关关系

    4和表5分别呈现了测试集中余弦相似度最高与最低的前10篇文章,以及利用RNTN模型训练得到的该数据集新颖度排名。实验发现,当文章的余弦相似度值较高时,新颖度值相对较低;当余弦相似度值较低时,新颖度值相对较高。其中在相似度值最高的10篇文章中,新颖度排名(降序)位于前10位的有8个;在相似度值排名(降序)前10位的文章中,新颖度值位于前10位的有10个,进而验证了相似度与新颖度负相关关系的假设。

    表4 相似度排名前10的公众号文章

    文档编号标题余弦相似度新颖度值相似度排名

    新颖度排名

    (降序)

    3641AI复盘003:2018-04-15,轩vs弈城网友0.8073010.16324911
    4109博鳌AI彻底火了!有巨头说未来公司都是AI+,却有AI翻译抽风了!0.7891490.18692325
    4617人工智能 电力升级|互联网助力智慧能源0.7882770.18840336
    921AI教程/3D的饼干人0.7843070.16625242
    1825大数据时代网络安全保护意识更加全面0.7394730.17273753
    1846大数据告诉你,孩子最渴望什么样的教育?0.7391880.20145668
    3411大数据透露的美国真相0.733860.18689774
    41748个深度学习方面的最佳实践0.7242920.2005389
    1939人工智能应用新模式,安防机器人强势来袭0.7034690.22628911
    1540“互联网+医疗健康”让百姓从容就医0.6964240.2279021012
    表4
                    相似度排名前10的公众号文章

    表5 相似度(降序)排名前10的公众号文章

    文档编号标题余弦相似度新颖度值相似度排名(降序)新颖度排名
    3116人工智能画的人体艺术,你猜画成什么样?0.1739950.69473812
    3432互联网所带来的焦虑,我们有权利选择拒绝0.1906640.72316121
    3156当大数据时代来临,新购享领衔“互联网+”分享经济模式。0.2083350.66725735
    1026云计算,大数据,物联网,视频看完就明白了0.2120650.635998410
    3457没听过区块链?你可能对互联网金融知之有限!0.2135200.68109753
    4407深度学习的研究方向: 你会为AI转型么?0.2226700.62891367
    544云计算使服务更高效!大数据让城市更智慧!0.2347620.65291276
    273【人工智能女友】0.2363640.67444284
    529【数据分析】理科类近三年广东高考分数线汇总 | 本科二批0.2444640.64539698
    1287大数据,零隐私 | 冬吴音频0.2556350.644786109
    表5
                    相似度(降序)排名前10的公众号文章
  • 4.2.3 微信公众号文章的新颖度与相似度的回归关系

    4.2.3

    为了进一步验证新颖度和相似度是否存在回归关系,本章节将公众号文章 d i 的新颖度值 n i 和相似度值 s i 组建为观测样本 ( n i , s i ) 并通过线性回归分析方法进行计算。其结果如图10所示,实验发现公众号文章的新颖度和相似度之间存在一元线性回归关系,因此对于二者可建立线性回归方程。经计算,回归方程的常数项参数 α β 的值分别为0.9233和-1.1008,拟合优度为R² = 0.9485。

    图10
                            文本相似度与文档新颖度的线性关系

    图10 文本相似度与文档新颖度的线性关系

  • 5 结语与展望

    5

    针对自媒体平台的文章新颖度量化评估问题,本文提出了一种基于递归张量神经网络的文本内容新颖度评估方法。具体而言,该方法利用句级文本向量构建了文本的语言模型,基于向量表示了微信公众号文章的语义,引入了递归张量神经网络模型,利用解析树表示句级文本向量作为神经网络的输入层数据,随后利用张量层自动抽取并计算文本的新颖度指标,最终通过归一化处理计算出新颖度值。本文通过实验验证了该方法的有效性,其流程主要包括语料库构建、文本向量表示以及模型训练三个重要环节。同时本文设置了多组对照实验对比RNTN模型中不同张量切片数量对实验性能的影响,通过观察新颖度的区间分布以及训练时间的变化情况,实验表明切片数量为18时,实验性能最佳。此外,本文还通过回归分析验证了微信公众号文章的新颖度和相似度存在着负相关及线性回归关系,并通过R² 检验得出相关强度为0.9485。

    与传统的基于统计或机器学习的新颖度测度方法相比,本文采用的无监督深度学习算法避免了实验性能对手工标注数据集准确率的依赖,同时本方法的主要优势在于:在Doc2Vec语言模型的基础上,添加了句级文本向量作为中间层向量,利用句级向量构建微信公众号文章的向量模型能够更加充分地表示文章的语义特征。但是由于目前没有成熟的自媒体平台文章的新颖度标注语料库,无法从实验结果的精度、召回率、F1值等常用指标对本方法的性能进行精确评估。同时本文仅选取了微信公众号的少量文章作为实验样本,而自媒体平台的内容形式多元,因此实验数据具有一定的局限性。而新颖度应是一个动态概念,因此拓展实验样本数量及类型、通过将时间节点纳入动态评估指标以优化模型等将是未来研究的努力方向。

  • 参 考 文 献

    • 1

      熊回香. 面向Web3.0的大众分类研究[D]. 武汉: 华中师范大学, 2011.

    • 2

      代玉梅. 自媒体的传播学解读[J]. 新闻与传播研究, 2011(5): 4-11.

    • 3

      Pimentel M A F, Clifton D A, Clifton L, et al. A review of novelty detection[J]. Signal Processing, 2014, 99: 215-249.

    • 4

      Markou M, Singh S. Novelty detection: a review—part 2: neural network based approaches[J]. Signal Processing, 2003, 83(12): 2499-2521.

    • 5

      微信. 2017微信数据报告[EB/OL]. [2018-06-09]. http://mp.weixin.qq.com/s/CDh91V9RIcVlAyRoiCOI0Q.

    • 6

      苏正. 微信用户获取信息质量的满意度调查分析[D]. 郑州: 郑州大学, 2017.

    • 7

      Merriam-Webster. Novelty[EB/OL]. [2018-06-09]. https://www.merriam-webster.com/dictionary/novelty.

    • 8

      Sebastião R, Gama J, Rodrigues P P, et al. Monitoring incremental histogram distribution for change detection in data streams[C]// Proceedings of the Second International Workshop on Knowledge Discovery from Sensor Data. Heidelberg: Springer, 2010: 25-42.

    • 9

      Faria E R. Novelty detection in data streams[J]. Artificial Intelligence Review, 2016, 45(2): 235-269.

    • 10

      Perner P. Concepts for novelty detection and handling based on a case-based reasoning process scheme[J]. Engineering Applications of Artificial Intelligence, 2009, 22(1): 86-91.

    • 11

      Kliger M, Fleishman S. Novelty detection with GAN[OL]. https://arxiv.org/abs/1802.10560.

    • 12

      邢美凤, 过仕明. 文本内容新颖度探测研究综述[J]. 情报科学, 2011, 239(7): 1098-1103.

    • 13

      沈阳. 一种基于关键词的创新度评价方法[J]. 情报理论与实践, 2007, 30(1): 125-127.

    • 14

      Zhao L, Zhang M, Ma S. The nature of novelty detection[J]. Information Retrieval, 2006, 9(5): 521-541.

    • 15

      Allan J, Wade C, Bolivar A. Retrieval and novelty detection at the sentence level[C]// Proceedings of the 26th Annual International ACM SIGIR Conference on Research and Development in Information Retrieval. New York: ACM Press, 2003: 314-321.

    • 16

      Kwee A T, Tsai F S, Tang W. Sentence-level novelty detection in English and Malay[M]// Advances in Knowledge Discovery and Data Mining. Heidelberg: Springer, 2009: 40-51.

    • 17

      Kouris I N, Makris C H, Tsakalidis A K. Using information retrieval techniques for supporting data mining[J]. Data & Knowledge Engineering, 2005, 52(3): 353-383.

    • 18

      Tsai F S, Tang W, Chan K L. Evaluation of novelty metrics for sentence-level novelty mining[J]. Information Sciences, 2010, 180(12): 2359-2374.

    • 19

      Spinosa E J, Gama J. Novelty detection with application to data streams[J]. Intelligent Data Analysis, 2009, 13(3): 405-422.

    • 20

      Hautamaki V, Karkkainen I, Franti P. Outlier detection using k-nearest neighbour graph[C]// Proceedings of the 17th International Conference on Pattern Recognition. Los Alamitos: IEEE Computer Society Press, 2004: 430-433.

    • 21

      逯万辉, 谭宗颖. 学术成果主题新颖性测度方法研究——基于Doc2Vec和HMM算法[J]. 数据分析与知识发现, 2018(3): 22-29.

    • 22

      Fu X Y, Ch ng E, Aickelin U, et al. An improved system for sentence-level novelty detection in textual streams[C]// Proceedings of the 3rd International Conference on Smart Sustainable City and Big Data. IET, 2016.

    • 23

      Blanchard G, Lee G, Scott C. Semi-supervised novelty detection[J]. Journal of Machine Learning Research, 2010, 11: 2973-3009.

    • 24

      de Faria E R, de Leon Ferreira Carvalho A C P, Gama J. MINAS: multiclass learning algorithm for novelty detection in data streams[J]. Data Mining and Knowledge Discovery, 2016, 30(3): 640-680.

    • 25

      余骞, 彭智勇, 洪亮, 等. 基于用户邻域和主题的新颖性Web社区推荐方法[J]. 软件学报, 2016, 27(5): 1266-1284.

    • 26

      Cichosz P, Jagodziński D, Matysiewicz M, et al. Novelty detection for breast cancer image classification[J]. Proceedings of the SPIE, 2016, 10031: Article ID 1003135.

    • 27

      Marchi E, Vesperini F, Squartini S, et al. Deep recurrent neural network-based autoencoders for acoustic novelty detection[J]. Computational Intelligence and Neuroscience, 2017, 2017: Article ID 4694860.

    • 28

      Richter C, Roy N. Safe visual navigation via deep learning and novelty detection[C]// Proceedings of Robotics Science and Systems, 2017.

    • 29

      Socher R, Perelygin A, Wu J Y, et al. Recursive deep models for semantic compositionality over a sentiment treebank[C]// Proceedings of the 2013 Conference on Empirical Methods in Natural Language Processing. Association for Computational Linguistics, 2013: 1631-1642.

    • 30

      Tsai F S, Zhang Y. D2S: Document-to-sentence framework for novelty detection[J]. Knowledge and Information Systems, 2011, 29(2): 419-433.

    • 31

      Le Q, Mikolov T. Distributed representations of sentences and documents[OL]. https://arxiv.org/pdf/1405.4053.pdf.

    • 32

      Socher R, Chen D, Manning C D, et al. Reasoning with neural tensor networks for knowledge base completion[C]// Proceedings of the International Conference on Neural Information Processing Systems. Granada: Curran Associates Inc, 2013: 926-934.

    • 33

      搜狗. 微信搜索[EB/OL]. [2018-06-29]. http://weixin.sogou.com/weixin.

    • 34

      Tsai M F, Chen H H. Some similarity computation methods in novelty detection[J]. Proceedings of TREC, NIST Special Publication: SP, 2002, 18(1): 655-660.

王平

机 构:武汉大学信息资源研究中心,武汉 430072

Affiliation:Center for Studies of Information Resources, Wuhan University, Wuhan 430072

邮 箱:wangping@whu.edu.cn

作者简介:王平,男,1981年生,副教授,主要研究领域为信息质量、文本挖掘等,E-mail:wangping@whu.edu.cn

侯景瑞

机 构:武汉大学信息管理学院,武汉 430072

Affiliation:School of Information Management, Wuhan University, Wuhan 430072

作者简介:侯景瑞,男,1993年生,硕士研究生,主要研究领域为数据挖掘与知识组织

吴任力

机 构:武汉大学信息管理学院,武汉 430072

Affiliation:School of Information Management, Wuhan University, Wuhan 430072

作者简介:吴任力,男,1994年生,硕士研究生,主要研究领域为信息资源管理、数据挖掘。

车 尧

角 色:责任编辑

Role:Executive editor

1000-0135-2019-02-159/alternativeImage/e2d7c9ba-ce86-4a85-b265-8a4e1ca14162-F001.jpg
1000-0135-2019-02-159/alternativeImage/e2d7c9ba-ce86-4a85-b265-8a4e1ca14162-F002.jpg
1000-0135-2019-02-159/alternativeImage/e2d7c9ba-ce86-4a85-b265-8a4e1ca14162-F003.jpg
1000-0135-2019-02-159/alternativeImage/e2d7c9ba-ce86-4a85-b265-8a4e1ca14162-F004.jpg
1000-0135-2019-02-159/alternativeImage/e2d7c9ba-ce86-4a85-b265-8a4e1ca14162-F005.jpg
序号关键词训练集训练集时间域测试集测试集时间域
1大数据470

(2016-12-25,

2018-04-14 )

118

(2018-04-14,

2018-04-17 )

2人工智能/AI680

(2017-11-17,

2018-04-11)

271

(2018-04-11,

2018-04-17)

3数据挖掘/数据分析392

(2014-07-25,

2018-03-29)

98

(2018-03-29,

2018-04-17)

4深度学习/机器学习826

(2016-03-01,

2018-03-19)

207

(2018-03-19,

2018-04-17)

5自然语言处理/NLP224

(2015-01-30,

2018-04-11)

56

(2018-04-11,

2018-04-17)

6云计算424

(2015-11-07,

2018-04-01)

107

(2018-04-01

2018-04-17)

7互联网/移动互联网487

(2017-03-06,

2018-04-17)

122

(2018-04-17,

2018-04-17)

1000-0135-2019-02-159/alternativeImage/e2d7c9ba-ce86-4a85-b265-8a4e1ca14162-F006.jpg
1000-0135-2019-02-159/alternativeImage/e2d7c9ba-ce86-4a85-b265-8a4e1ca14162-F007.jpg
排名文档编号标题新颖度值
13432互联网所带来的焦虑,我们有权利选择拒绝0.723161489
23116人工智能画的人体艺术,你猜画成什么样?0.694738477
33457没听过区块链?你可能对互联网金融知之有限!0.681097031
4273【人工智能女友】0.674442232
53156当大数据时代来临,新购享领衔“互联网+”分享经济模式。0.667257488
6544云计算使服务更高效!大数据让城市更智慧!0.652912915
74407深度学习的研究方向: 你会为AI转型么?0.64980042
8529【数据分析】理科类近三年广东高考分数线汇总 | 本科二批0.645396024
91287大数据,零隐私 | 冬吴音频0.644786149
101026云计算,大数据,物联网,视频看完就明白了0.635998487
排名文档编号标题新颖度值
13641AI复盘003:2018-04-15,轩vs弈城网友0.163249016
2921AI教程/3D的饼干人0.166252196
31825大数据时代网络安全保护意识更加全面0.17273736
43411大数据透露的美国真相0.186896563
54109博鳌AI彻底火了!有巨头说未来公司都是AI+,却有AI翻译抽风了!0.186923385
64617人工智能 电力升级 | 互联网助力智慧能源0.188402534
741748个深度学习方面的最佳实践0.200529814
81846大数据告诉你,孩子最渴望什么样的教育?0.201455832
91939人工智能应用新模式,安防机器人强势来袭0.226280451
101540“互联网+医疗健康”让百姓从容就医0.227902293
1000-0135-2019-02-159/alternativeImage/e2d7c9ba-ce86-4a85-b265-8a4e1ca14162-F008.jpg
1000-0135-2019-02-159/alternativeImage/e2d7c9ba-ce86-4a85-b265-8a4e1ca14162-F009.jpg
文档编号标题余弦相似度新颖度值相似度排名

新颖度排名

(降序)

3641AI复盘003:2018-04-15,轩vs弈城网友0.8073010.16324911
4109博鳌AI彻底火了!有巨头说未来公司都是AI+,却有AI翻译抽风了!0.7891490.18692325
4617人工智能 电力升级|互联网助力智慧能源0.7882770.18840336
921AI教程/3D的饼干人0.7843070.16625242
1825大数据时代网络安全保护意识更加全面0.7394730.17273753
1846大数据告诉你,孩子最渴望什么样的教育?0.7391880.20145668
3411大数据透露的美国真相0.733860.18689774
41748个深度学习方面的最佳实践0.7242920.2005389
1939人工智能应用新模式,安防机器人强势来袭0.7034690.22628911
1540“互联网+医疗健康”让百姓从容就医0.6964240.2279021012
文档编号标题余弦相似度新颖度值相似度排名(降序)新颖度排名
3116人工智能画的人体艺术,你猜画成什么样?0.1739950.69473812
3432互联网所带来的焦虑,我们有权利选择拒绝0.1906640.72316121
3156当大数据时代来临,新购享领衔“互联网+”分享经济模式。0.2083350.66725735
1026云计算,大数据,物联网,视频看完就明白了0.2120650.635998410
3457没听过区块链?你可能对互联网金融知之有限!0.2135200.68109753
4407深度学习的研究方向: 你会为AI转型么?0.2226700.62891367
544云计算使服务更高效!大数据让城市更智慧!0.2347620.65291276
273【人工智能女友】0.2363640.67444284
529【数据分析】理科类近三年广东高考分数线汇总 | 本科二批0.2444640.64539698
1287大数据,零隐私 | 冬吴音频0.2556350.644786109
1000-0135-2019-02-159/alternativeImage/e2d7c9ba-ce86-4a85-b265-8a4e1ca14162-F010.jpg

图1 句级Doc2Vec模型

图2 解析树的节点计算

图3 RNTN张量层示意图

图4 基于RNTN的新颖度模型

图5 句级文档解析树

表1 实验数据集

图6 新颖度分布区间随张量切片数量的变化趋势

图7 新颖度的分布区间随切片数量的变化趋势

表2 新颖度排名最高的公众号(Top10

表3 新颖度排名最低的公众号文章

图9 微信公众号文章相似度与新颖度的相关关系

图8 slices=18时的新颖度的分布区间

表4 相似度排名前10的公众号文章

表5 相似度(降序)排名前10的公众号文章

图10 文本相似度与文档新颖度的线性关系

image /

无注解

无注解

无注解

无注解

无注解

无注解

无注解

无注解

无注解

无注解

无注解

无注解

无注解

无注解

无注解

  • 参 考 文 献

    • 1

      熊回香. 面向Web3.0的大众分类研究[D]. 武汉: 华中师范大学, 2011.

    • 2

      代玉梅. 自媒体的传播学解读[J]. 新闻与传播研究, 2011(5): 4-11.

    • 3

      Pimentel M A F, Clifton D A, Clifton L, et al. A review of novelty detection[J]. Signal Processing, 2014, 99: 215-249.

    • 4

      Markou M, Singh S. Novelty detection: a review—part 2: neural network based approaches[J]. Signal Processing, 2003, 83(12): 2499-2521.

    • 5

      微信. 2017微信数据报告[EB/OL]. [2018-06-09]. http://mp.weixin.qq.com/s/CDh91V9RIcVlAyRoiCOI0Q.

    • 6

      苏正. 微信用户获取信息质量的满意度调查分析[D]. 郑州: 郑州大学, 2017.

    • 7

      Merriam-Webster. Novelty[EB/OL]. [2018-06-09]. https://www.merriam-webster.com/dictionary/novelty.

    • 8

      Sebastião R, Gama J, Rodrigues P P, et al. Monitoring incremental histogram distribution for change detection in data streams[C]// Proceedings of the Second International Workshop on Knowledge Discovery from Sensor Data. Heidelberg: Springer, 2010: 25-42.

    • 9

      Faria E R. Novelty detection in data streams[J]. Artificial Intelligence Review, 2016, 45(2): 235-269.

    • 10

      Perner P. Concepts for novelty detection and handling based on a case-based reasoning process scheme[J]. Engineering Applications of Artificial Intelligence, 2009, 22(1): 86-91.

    • 11

      Kliger M, Fleishman S. Novelty detection with GAN[OL]. https://arxiv.org/abs/1802.10560.

    • 12

      邢美凤, 过仕明. 文本内容新颖度探测研究综述[J]. 情报科学, 2011, 239(7): 1098-1103.

    • 13

      沈阳. 一种基于关键词的创新度评价方法[J]. 情报理论与实践, 2007, 30(1): 125-127.

    • 14

      Zhao L, Zhang M, Ma S. The nature of novelty detection[J]. Information Retrieval, 2006, 9(5): 521-541.

    • 15

      Allan J, Wade C, Bolivar A. Retrieval and novelty detection at the sentence level[C]// Proceedings of the 26th Annual International ACM SIGIR Conference on Research and Development in Information Retrieval. New York: ACM Press, 2003: 314-321.

    • 16

      Kwee A T, Tsai F S, Tang W. Sentence-level novelty detection in English and Malay[M]// Advances in Knowledge Discovery and Data Mining. Heidelberg: Springer, 2009: 40-51.

    • 17

      Kouris I N, Makris C H, Tsakalidis A K. Using information retrieval techniques for supporting data mining[J]. Data & Knowledge Engineering, 2005, 52(3): 353-383.

    • 18

      Tsai F S, Tang W, Chan K L. Evaluation of novelty metrics for sentence-level novelty mining[J]. Information Sciences, 2010, 180(12): 2359-2374.

    • 19

      Spinosa E J, Gama J. Novelty detection with application to data streams[J]. Intelligent Data Analysis, 2009, 13(3): 405-422.

    • 20

      Hautamaki V, Karkkainen I, Franti P. Outlier detection using k-nearest neighbour graph[C]// Proceedings of the 17th International Conference on Pattern Recognition. Los Alamitos: IEEE Computer Society Press, 2004: 430-433.

    • 21

      逯万辉, 谭宗颖. 学术成果主题新颖性测度方法研究——基于Doc2Vec和HMM算法[J]. 数据分析与知识发现, 2018(3): 22-29.

    • 22

      Fu X Y, Ch ng E, Aickelin U, et al. An improved system for sentence-level novelty detection in textual streams[C]// Proceedings of the 3rd International Conference on Smart Sustainable City and Big Data. IET, 2016.

    • 23

      Blanchard G, Lee G, Scott C. Semi-supervised novelty detection[J]. Journal of Machine Learning Research, 2010, 11: 2973-3009.

    • 24

      de Faria E R, de Leon Ferreira Carvalho A C P, Gama J. MINAS: multiclass learning algorithm for novelty detection in data streams[J]. Data Mining and Knowledge Discovery, 2016, 30(3): 640-680.

    • 25

      余骞, 彭智勇, 洪亮, 等. 基于用户邻域和主题的新颖性Web社区推荐方法[J]. 软件学报, 2016, 27(5): 1266-1284.

    • 26

      Cichosz P, Jagodziński D, Matysiewicz M, et al. Novelty detection for breast cancer image classification[J]. Proceedings of the SPIE, 2016, 10031: Article ID 1003135.

    • 27

      Marchi E, Vesperini F, Squartini S, et al. Deep recurrent neural network-based autoencoders for acoustic novelty detection[J]. Computational Intelligence and Neuroscience, 2017, 2017: Article ID 4694860.

    • 28

      Richter C, Roy N. Safe visual navigation via deep learning and novelty detection[C]// Proceedings of Robotics Science and Systems, 2017.

    • 29

      Socher R, Perelygin A, Wu J Y, et al. Recursive deep models for semantic compositionality over a sentiment treebank[C]// Proceedings of the 2013 Conference on Empirical Methods in Natural Language Processing. Association for Computational Linguistics, 2013: 1631-1642.

    • 30

      Tsai F S, Zhang Y. D2S: Document-to-sentence framework for novelty detection[J]. Knowledge and Information Systems, 2011, 29(2): 419-433.

    • 31

      Le Q, Mikolov T. Distributed representations of sentences and documents[OL]. https://arxiv.org/pdf/1405.4053.pdf.

    • 32

      Socher R, Chen D, Manning C D, et al. Reasoning with neural tensor networks for knowledge base completion[C]// Proceedings of the International Conference on Neural Information Processing Systems. Granada: Curran Associates Inc, 2013: 926-934.

    • 33

      搜狗. 微信搜索[EB/OL]. [2018-06-29]. http://weixin.sogou.com/weixin.

    • 34

      Tsai M F, Chen H H. Some similarity computation methods in novelty detection[J]. Proceedings of TREC, NIST Special Publication: SP, 2002, 18(1): 655-660.