en
×

分享给微信好友或者朋友圈

使用微信“扫一扫”功能。
参考文献 1
EkmanP. An argument for basic emotions[J]. Cognition and Emotion, 1992, 6(3-4): 169-200.
参考文献 2
MikelsJ A, FredricksonB L, LarkinG R, et al. Emotional category data on images from the international affective picture system[J]. Behavior Research Methods, 2005, 37(4): 626-630.
参考文献 3
黄崑, 赖茂生. 图像情感特征的分类与提取[J]. 计算机应用, 2008, 28(3): 659-661.
参考文献 4
李娉婷, 石跃祥, 戴皇冠. 基于颜色特征的家居设计图分类[J]. 计算机工程, 2011, 37(16): 224-226.
参考文献 5
曹建芳, 陈俊杰, 李海芳. 基于改进的OCC情感模型的自然风景图像分类研究[J]. 计算机应用与软件, 2014, 31(6): 181-184.
参考文献 6
张海波, 张春艳, 商书元, 等. 男T 恤图像情感语义空间研究[J]. 纺织科技进展, 2016(6): 53-55.
参考文献 7
SiersdorferS, MinackE, DengF, et al. Analyzing and predicting sentiment of images on the social web[C]// Proceedings of the 18th ACM International Conference on Multimedia. New York: ACM Press, 2010: 715-718.
参考文献 8
ShinY, KimE Y, SungT E. Affect-based retrieval of landscape images using probabilistic affective model[C]// Proceedings of the International Conference on Human-Computer Interaction. Heidelberg: Springer, 2013: 362-371.
参考文献 9
SeoS, KangD. Study on predicting sentiment from images using categorical and sentimental keyword-based image retrieval[J]. Journal of Supercomputing, 2016, 72(9): 3478-3488.
参考文献 10
ParkM W, KoD, HwangH, et al. Image classification using color and spatial frequency in terms of human emotion[C]// Proceedings of the International Conference on Future Information Technology. Singapore: Springer, 2017, 448: 91-96.
参考文献 11
LeeG, KwonM, KavuriS, et al. Action-perception cycle learning for incremental emotion recognition in a movie clip using 3D fuzzy GIST based on visual and EEG signals[J]. Integrated Computer-Aided Engineering, 2014, 21(3): 295-310.
参考文献 12
LiZ H, FanY Y, LiuW H, et al. Image sentiment prediction based on textual descriptions with adjective noun pairs[J]. Multimedia Tools and Applications, 2018, 77(1): 1115-1132.
参考文献 13
LuX, SuryanarayanP, R B JrAdams, et al. On shape and the computability of emotions[C]// Proceedings of the 20th ACM International Conference on Multimedia. New York: ACM Press, 2012: 229-238.
参考文献 14
JoshiD, DattaR, FedorovskayaE, et al. Aesthetics and emotions in images[J]. IEEE Signal Processing Magazine, 2011, 28(5): 94-115.
参考文献 15
WangX H, JiaJ, YinJ M, et al. Interpretable aesthetic features for affective image classification[C]// Proceedings of the IEEE International Conference on Image Processing. IEEE, 2014: 3230-3234.
参考文献 16
曹建芳, 陈俊杰, 李海芳. 基于Adaboost-BP神经网络的图像情感分类方法研究[J]. 山西大学学报(自然科学版), 2013, 36(3): 331-337.
参考文献 17
刘颍霜. 基于LFCM-SVM的版画情感映射改进算法研究[D]. 云南: 云南大学, 2015.
参考文献 18
庄千料. 基于概率神经网络的图像细粒度情感分类[D]. 上海: 东华大学, 2017.
参考文献 19
KoE, KimE Y. Recognizing the sentiments of web images using hand-designed features[C]// Proceedings of the IEEE 14th International Conference on Cognitive Informatics & Cognitive Computing. IEEE, 2015: 156-161.
参考文献 20
ZhuoY. Research on perception-oriented image scene and emotion categorization[J]. The Open Automation and Control Systems Journal, 2015, 7: 2070-2073.
参考文献 21
IttiL, KochC. Feature combination strategies for saliency-based visual attention systems[J]. Journal of Electronic Imaging, 2001, 10(1): 161-169.
参考文献 22
LoweD G. Distinctive image features from scale-invariant keypoints[M]. Kluwer Academic Publishers, 2004.
参考文献 23
GeusebroekJ M, BurghoutsG J, SmeuldersA W M. The Amsterdam library of object images[J]. International Journal of Computer Vision, 2005, 61(1): 103-112.
参考文献 24
PengX J, WangL M, WangX X, et al. Bag of visual words and fusion methods for action recognition: Comprehensive study and good practice[J]. Computer Vision and Image Understanding, 2016, 150: 109-125.
参考文献 25
Microsoft cognitive services[EB/OL]. [2018-04-15]. https://www.microsoft.com/cognitive-services/en-us/apis.
参考文献 26
SchröderM. Evidence for a three-factor theory of emotions[C]// Proceedings of the Conference on the European Cetacean Society. 2017: 716-721.
参考文献 27
ValdezP, MehrabianA. Effects of color on emotions[J]. Journal of Experimental Psychology: General, 1994, 123(4): 394-409.
参考文献 28
HaralickR M, ShanmugamK, DinsteinI H. Textural features for image classification[J]. IEEE Transactions on Systems, Man, and Cybernetics, 1973, SMC-3(6): 610-621.
参考文献 29
AnwerR M, VázquezD, LópezA M. Opponent colors for human detection[C]// Proceedings of the 5th Iberian conference on Pattern recognition and image analysis. Heidelberg: Springer, 2011: 363-370.
参考文献 30
LangP J, BradleyM M, CuthbertB N. International affective picture system (IAPS): Affective ratings of pictures and instruction manual[R]. University of Florida, 2008:No. A-8.
参考文献 31
吕微微. 基于情感的图像分类算法研究与实现[D]. 北京: 北京交通大学, 2012.
参考文献 32
刘硕研. 面向感知的图像场景及情感分类算法研究[D]. 北京: 北京交通大学, 2011.
参考文献 33
宋璇. 图像情感分类算法研究[D]. 秦皇岛: 燕山大学, 2017.
参考文献 34
吕鹏霄. 图像情感分类研究[D]. 秦皇岛: 燕山大学, 2014.
目录 contents

    摘要

    视觉信息是人们获取外界信息的重要来源。作为视觉信息的主要表现形式之一,图像受到了广泛关注。本文首先针对颜色直方图忽略空间信息的问题,基于图像分块思想,利用图像区域不同、引起的关注程度不同的原理,引入Itti视觉注意模型,进行图像显著图的提取,基于显著图计算各分块的加权直方图。其次,根据视觉感知理论,提取多种图像情感信息特征,结合低层的颜色、纹理和形状特征以及高层的面部表情特征,生成复合的图像情感特征描述向量。最后,将本文提出的情感识别模型用于基于情感的电影推荐,结合电影海报及剧情简介文本,进行基于图文结合的电影情感识别,为用户推荐符合其情感需求的电影。本文通过融合基于心理认知的特征及面部表情等诸多特征,实现了更加完善的视觉情感描述,在一定程度上缩小了“语义鸿沟”。

    Abstract

    Visual information is one of the most important sources of external information. Images are a major form of visual information. In this paper, the authors first optimize the algorithm of color histogram based on image segmentation, introduce the Itti visual attention model, extract the image saliency map according to the principle that different image regions arouse different degrees of attention, and calculate the weighted histogram based on the saliency map. Secondly, different types of visual emotional features are extracted, combining low-level color, texture, and shape, as well as high-level facial emotion features to generate a composite image sentiment feature description vector. Finally, the emotion recognition model is used to make emotion-based film recommendations, combined with movie posters and synopsis texts, and based on the combination of graphic and textual emotion recognition, to meet users’ emotional needs. In conclusion, this paper proposes a framework of image emotion recognition that combines visual-perception oriented features and facial emotions. This framework is efficient and exhibits good performance. To a certain extent, the framework proposed in this paper narrows the “semantic gap” in this area of research.

  • 1 引 言

    网络中包含了大量的图像信息,如何理解和处理规模如此庞大的视觉信息,是摆在研究者面前的重要课题。现有研究主要强调图像内容的描述,更多集中于认知层面。然而随着互联网尤其是社交网络的快速发展,越来越多的用户倾向于使用图文结合的方式分享自己的经验和感受,导致图像数据量不断激增。现有的图像内容理解技术已不能满足用户日益增长的需求,这使得对图像最高层语义——情感的分析具有重要价值。图像中包含了丰富的情感信息,不同图像带给人的情感感受也不尽相同。怎样准确地描述图像带给人类的情感感受是一个重要且富有挑战性的课题,对该领域的研究将推动基于用户情感的智能技术的发展。

    现有的图像组织及检索研究中,大多数主要关注图像所包含的场景、对象等,目的是帮助用户快速、准确地了解图像所描述的信息内容,忽略了图像所蕴含的情感因素。随着海量图像数据的产生,人们对图像的需求除了对其所包含的客观内容的访问,还包括对其所反映的主观情感的识别,希望计算机能够模仿人的思维方式,对图像实现更深层次的情感理解。

    本研究将围绕图像视觉情感识别这一主题,在文献调研和现有研究分析的基础上,结合认知心理相关理论,综合考虑多种面向视觉感知的图像特征,利用机器学习的方法识别图像的情感类别。

  • 2 相关研究

  • 2.1  视觉感知情感空间

    对于图像情感状态的分类,国内外学者提出了多种不同的划分方法,情感类别从极性的两分法到几十类划分不等。Ekman[1]基于面部表情将情感分为六种基本类型,包括高兴、害怕、生气、伤心、厌恶及吃惊,该情感分类法常用于面部表情的识别。Mikels[2]进行了严格的心理学实验,在此基础上将情感分为八类,其中具有积极倾向的情感包括amusement、awe、contentment、excitement,具有消极倾向的情感包括anger、fear、sadness 以及disgust。此外,还有研究根据情感的极性进行分类,常用的划分方法包括积极、消极、中立等。目前在进行非面部表情图像的情感识别中,离散情感空间常采用Mikels[2]的分类方法。

    图像的情感语义是图像中蕴涵的能够引起人类特定情感反应的信息内容。在情感识别研究中,不同学者根据不同的实际情况使用不同的形容词或形容词对来描述图像的情感语义。表1列出了其中的部分研究。

    表1 不同的情感状态空间示例

    参考文献图像类型情感描述词
    黄崑[3]自然风景图像温暖的/寒冷的、愉快的/忧伤的、激动的/平静的、紧张的/放松的、美丽的/丑陋的、喜欢的/讨厌的
    李聘婷[4]家居设计图像清新自然、恬静清爽、温馨浪漫、柔和优雅
    曹建芳[5]风景图像悲伤、恐惧、讨厌、放松、生气、失落、害怕、喜悦、骄傲、希望
    张海波[6]面料图像强烈的/柔和的、温暖的/凉爽的、华丽的/简约的、高雅的/朴素的、张扬的/文静的、厚重的/轻薄的、丰富的/纯净的
    Siersdorfer[7]Flicker图像positive, negative
    Shin[8]自然图像pretty, colorful, dynamic, gorgeous, wild, romantic, natural, graceful, quiet, classic, dandy, majestic, pure, cool, modern, average
    Seo[9]Google图像happy, sad, gloomy, lovely, lively, magnificent
    Park[10]自然场景图像愉悦度、唤醒度、激活度(PAD值)
  • 2.2  视觉情感识别技术

  • 1)不同视觉特征与情感的关系

    图像中如颜色、形状和纹理等不同的视觉特征均能引起丰富的情感反应,这些特征本身不带有任何情感信息,只是因为人在与它们接触的过程中给这些特征赋予了某种情感,经年累月就能引发人们产生不同的情感反应。现有研究表明,图像可以唤起人们不同的情感感受,Lee[11]在其研究中指出了人的情感与图像低层特征之间的关联性。对于同一幅图像,受个人经历、文化背景以及情感自身的模糊性和不确定性等因素的影响,不同的人产生的情感不尽相同,但是总体上仍然存在很多共性。

  • (1)颜色与情感

    颜色是最直观、使用最广泛的低层特征,具有唤醒人们情感的力量。例如,红色会使人想到爆炸、火焰,绿色会使人想到森林、草原,蓝色会让人想到蓝天、大海,通过对实际生活中存在的客观事物的联想,就会产生相应的情感感受。美国流行色彩研究中心曾经进行了一项调查,表明顾客在选购商品时遵循“7秒定律”,即面对大量商品时,人们只需7秒就能确定是否喜欢该产品。而在如此短暂的时间内,色彩起到了67%的重要作用,这说明了颜色与情感的紧密关系。

  • (2)纹理与情感

    纹理是物体表面具有的一种内在属性,反映了图像像素灰度值分布表现的统计性规律。图像表面都显示出一定的纹路,纹路结构和特点不同,带给人的感受也不同。表面光滑的物体给人的感觉是细腻和整齐,表面粗糙的物体给人的感觉则是沧桑和混乱。

  • (3)形状与情感

    形状对图像所包含对象的刻画极为重要,它描述了对象的边缘、轮廓和区域等信息。对形状的艺术价值研究发现,图像中不同形态的线条和几何特征可以激发不同的情感反应。

    近年来,已有部分研究使用形状特征来分析图像的情感语义。Li[12]使用Hough变换提取图像的线条斜率直方图,抽取水平、竖直线条的比率等特征,用直线斜率表征不同的情感。Lu[13]抽取图像中的线条长度、方向、角度以及曲线的圆度等形状特征进行建模,根据线条的圆度和复杂度识别图像的情感语义。

    2)关键识别技术

    (1)基于心理认知的情感识别

    该方法以心理认知理论为基础,根据某种逻辑、规则或函数,将图像的中低层视觉特征映射为高层情感语义。如Joshi[14]提出了利用构图和景深等美学领域特征进行视觉情感的分析与识别。同样受艺术理论的启发,Wang[15]提取了主颜色、明暗对比、前景背景关系、冷暖对比等颜色、形状和视觉平衡等构图特征,进行图像的情感识别。

    基于心理认知的识别方法在一定程度上能够缩小图像低层特征与高层情感之间的“语义鸿沟”,但该方法更多应用于特定领域,如风景图像、服装图像等。

  • (2)基于机器学习的图像情感识别

    该方法主要通过提取图像的颜色、纹理、形状等特征,利用分类器训练图像并进行情感类别推理。如曹建芳[16]提取图像的HSV颜色直方图,并使用Adaboost-BP神经网络对自然风景图像进行情感分类。刘颖[17]针对云南版画图像,提取了多种颜色特征,并结合纹理边缘直方图,融合SVM与LDA方法进行情感语义识别。庄千[18]基于图像分块,提取了颜色、纹理及不变矩形状特征,利用概率神经网络实现了图像的情感识别。

    随着词包模型广泛应用于图像处理,一些研究尝试通过提取尺度不变(SIFT)等局部特征进行图像情感的识别研究。如Ko[19]提取了图像的颜色特征和局部SIFT特征,构建了相应的视觉词典,结合pLSA方法判断图像的情感语义。Zhuo[20]提出了基于视觉认知理论的情感概率潜在语义分析模型,提取了LBP纹理和SIFT等特征,利用pLSA模型和Markov随机场模型进行情感分析,结合SVM分类器实现图像的情感分类。

  • 3 面向视觉感知的情感识别模型

  • 3.1  改进的分块自适应加权颜色直方图提取

    图像的颜色空间分布在一定程度上影响了人的视觉感知。通常来说,空间分布关系不同、突出的重点目标也不同。为了更好地描述图像的信息,常常需要考虑颜色的空间分布。而经典的颜色直方图遗漏了空间分布信息。因此,本文将在经典颜色直方图的基础上进行改进,引入空间分布。

  • 1)特征提取原理

    本文采用分块自适应加权方法对经典的颜色直方图进行改进。常用的图像分块包括均匀分块法、非均匀分块法和环形分块等,如对图像进行3×3的简单均匀划分。通过对大量图像进行观察,可以发现图像中人眼感兴趣的区域,也即主要对象常常处于图像的中间区域,且占据面积较大,但上述的常用分块方法并没有强调中间位置信息,有可能将人眼最感兴趣的区域划分到其他子块,不能突出重点对象区域。本文将采用非均匀的分块方法,将图像划分为9个非均等区域,如图1所示。

    图1
                            本文的非均匀分块方法

    图1 本文的非均匀分块方法

    本文的分块策略为,将中间子块E的宽高比设置为与整幅图像P的比例相同,即WEHE=WPHP。完成分块之后,下一步是提取每个子块的颜色直方图,其中,涉及为每个子块赋予不同的权重wk,最后通过公式(1)计算图像的分块加权颜色直方图,即

    H(P)=k=19wkH(Pk),k=19wk=1
    (1)

    分块的过程有可能影响图像中感兴趣区域的完整性,即除子块E之外的其他区域也有可能包含图像中的部分主要对象,如果固定分配子块权值,将会对图像颜色信息的描述造成较大的误差,因此本文提出一种改进的自适应权值加权方法。

    根据视觉心理学的一般原理,人们在观察一幅图像时,通常只对部分图像信息感兴趣,这部分区域常常蕴含主要的图像信息,能够唤起观察者的情感感受,被称为感兴趣区域(region of interest,ROI)。受此原理启发,国内外研究者提出了很多视觉显著性模型,进行人类视觉系统的运作机制的模拟。这些模型中,最具典型性的是Itti模[21],后续的其他很多模型都是在其基础上的进一步改进。本文提出的分块自适应加权法将引入Itti模型,对图像进行显著性检测,计算显著图;在显著图中,每个像素都有一个对应的显著性值,表征该点能够引起人关注的程度。分别计算图1中非均匀划分的每个子块的显著值之和,并计算其与图像整体显著值之和的比例,作为该区域的自适应权值,如式(2)所示,就得到了分块的加权颜色直方图:

    wk=SMkSMP
    (2)
  • 2)特征提取流程

    具体的实现过程如下:

    (1)对图像进行非均匀分块(图1),提取每个子块的HSV颜色空间,使用公式(3)计算各个划分子块的颜色直方图:

    C=wswvH+wvS+V
    (3)

    式中,wswv分别为设置的权重。

    (2)利用Itti模[21]计算各个尺度的特征图,包括12个颜色、24个方向及6个亮度,然后对特征图归一化并加权融合,得到图像的最终显著图。

    (3)利用公式(2)计算每个子块的分块权重,得到每个分块区域的权值向量[w1,w2,w3,,w9]

    (4)使用公式(1)对各分块权值与其对应区域的颜色直方图进行相乘并累加求和,得到最终的基于分块加权的颜色直方图。

    该特征提取的关键代码如表2所示。

    表2 改进的颜色特征提取关键代码

    变量说明:wid,图像宽度;hig,图像高度;pt_num=9,最终的分块数;silency=[],每个分块的显著度值之和;Hist=[],每个分块的颜色直方图;H=[],每块的加权直方图。

    [T,SW]=sjd_xianzhutu(image); %计算显著图

    grid1=hig/4;

    grid2=wid/4;

    for i=1:grid1:hig-grid1+1%计算得到各分块,及相应的显著值

    for j=1:grid2:wid-grid2+1

    im=image(i:i+grid1-1,floor(j):floor(j+grid2-1),:);

    hist= hsvhisto_72(im);

    sw=SW(i:i+grid1-1,floor(j):floor(j+grid2-1),:);%每个小分块的显著值

    si=sum(sum(sw,1));

    patchs=[patchs,im];

    silency=[silency,si];%保存每个分块的显著度值之和

    Hist=[Hist;hist];%保存每个分块的颜色直方图

    end

    end

    size1=grid1*floor(grid2);size2=grid2*grid1*2;size3=grid2*grid1*4;size4=grid1*ceil(grid2);

    %计算各分块的颜色直方图

    pt_1=Hist(1,:)/size1; w1=silency(1);

    pt_2=(Hist(2,:)+Hist(3,:))/size2; w2=silency(2)+silency(3);

    ……

    pt_9=Hist(16,:)/size4; w9=silency(16);

    pt=[pt_1;pt_2;pt_3;pt_4;pt_5;pt_6;pt_7;pt_8;pt_9];

    w=[w1,w2,w3,w4,w5,w6,w7,w8,w9]/T;

    for k=1:pt_num

    H(k,:)=pt(k,:)*w(k); %分别求每块的加权直方图

    end

    最终提取的改进直方图如图2d所示。可以看出,原全局颜色直方图(图2c)中背景区域的颜色(灰度值为30左右)所占比例较大,经过自适应分块加权改进后,虽然背景区域仍然占据较大比重,但主要目标区域(灰度值为5左右)所占比例得到了提升,改进后的颜色直方图更加突出了目标对象。该方法既保留了图像原有背景区域的色彩信息,又突出了人们关注的重点区域的色彩信息,更加符合人的视觉感知。

    图2
                            颜色直方图比较

    图2 颜色直方图比较

  • 3.2  中高层视觉特征提取

  • 1)CSIFT特征提取与视觉词典构建

    图像的另外一个重要特征是形状特征。SIFT特[22]是一种常用的局部形状特征描述子,它对光照、尺度、旋转、平移及仿射变换等都具有良好的鲁棒性。但是经典的SIFT描述子只考虑图像的灰度信息,忽略了对视觉情感表达具有重要作用的颜色信息,因此本文提取图像的CSIFT[23]形状特征。CSIFT特征改进了SIFT的颜色处理方式,既保留了SIFT原有的描述方式,又融入了色彩信息,使得CSIFT特征既具有SIFT描述子的几何不变性,又保留了目标对象的色彩信息。

    CSIFT特征计算过程主要包括构建尺度空间、检测并定位极值点、确定特征点方向、生成特征点描述子四个主要步骤,如图3所示。经过这一过程的采样与描述,生成的每个CSIFT特征点描述子为一个4×4×8=128维的向量。

    图3
                            CSIFT特征生成过程

    图3 CSIFT特征生成过程

    由于每张图像提取的CSIFT描述子多达上百个,每个描述子又包含128维的高维数据,如果将这些描述子直接输入分类器,将导致“维数灾难”,因此需要对图像特征进行降维。视觉词包模型(bag of visual words[24]为图像的这一表示过程提供了良好的解决方案。该模型来源于文本信息处理领域,与文本处理类似,将图像看成为一个个无序的视觉单词构成的集合,统计每幅图像相关的视觉单词出现的频率,就可以得到图像的视觉单词直方图。

    本文进一步对图像的多个CSIFT特征使用k-means方法进行聚类,生成包含k个视觉单词的视觉词典。使用视觉词典计算图像中与每一个CSIFT特征距离最近的视觉“单词”,然后统计图像中视觉单词出现的频数,计算每幅图像的k维词频直方图,以表征图像。

  • 2)面部表情特征提取

    人们在观察图像时,总是最先注意到图像中的主要目标对象。如果图像中包含人物,那么人们最先关注的总是图像中的人,包括其面部表情、姿势、动作等,这些也往往是引发人不同的情感感受的最主要的因素。

    目前,面部表情识别技术受到了很多关注,本文主要利用微软的Microsoft Cognitive Services API情感识别工[25]提取面部表情特征。情感识别后返回一个JSON格式的结果,分别列出了每一个情感类别的置信度判断,如图4所示。具体的情感类别包括快乐(happy)、愤怒(anger)、恐惧(fear)、轻蔑(contempt)、厌恶(disgust)、惊讶(surprise)、悲伤(sadness)及中立(neutral)。大量的实验显示,这些情感跨越了国界与文化的差异,具有普适性。

    图4
                            面部表情识别示例

    图4 面部表情识别示例

    对于情感API得到的面部表情分类结果,本文将每个面孔计算得到的八种情感中置信度值最高的那一个情感类别设置为1,其余设置为0,这样就得到了每一个人的面部情感类别。如在图4中,其中的一张人脸即可用八维情感向量[0 0 0 0 1 0 0 0]表示。如果图像包含多张人脸,则计算所有面孔情感类别的累加值,所以图4中最终的面部表情为[0 0 0 0 4 0 0 0]。如果图像不包含人脸,则情感向量中每一个元素值均设为0。

  • 3.3  基于视觉感知的其他特征提取

  • 1)三分构图法

    三分构图法(rule of thirds)是摄影学领域的一个著名的经验规则,该规则是符合著名的“黄金分割”思想的一种构图方式。该方法的基本规则是,感兴趣区域的中心位置应该处在中心矩形附近,如图5所示。

    图5
                            Rule of thirds原理

    图5 Rule of thirds原理

    本文计算了HSV空间中心区域的饱和度均值、亮度均值以及色调均值来表征三分构图法,如式(4)所示:

    fh=9MNx=M/32M/3y=N/32N/3IH(x,y)
    fs=9MNx=M/32M/3y=N/32N/3IS(x,y)
    (4)
    fv=9MNx=M/32M/3y=N/32N/3IV(x,y)
  • 2)PAD值

    在多维情感描述模型中,Schröder[26]提出的PAD模型是最具代表性且得到广泛使用的情感空间模型,包含愉悦度(pleasure)、激活度(arousal)及优势度(dominance)三个维度。在该理论的基础上,Valdez[27]通过心理学实验研究了情感对色调、饱和度和亮度的反应,建立了色调、饱和度和亮度与PAD情感模型之间的关系,如式(5)所示:

    pleasure=0.69brightness+0.22saturation
    arousal=-0.31brightness+0.60saturation
    (5)
    dominance=0.76brightness+0.32saturation
  • 3)纹理特征

    纹理特征描述的是物体表面的相同分布特性,反映出图像内容的规律性、粗糙度、结构信息等特性,这些特性会在一定程度上引起情感的波动,因此纹理特征对情感的作用不可忽视。最常用的纹理特征是灰度共生矩阵。

    灰度共生矩阵是Haralick[28]以共生矩阵为基础提出的一种利用灰度的空间相关性来描述纹理的方法。矩阵中的每个元素可以通过联合概率分布P[如公式(6)]计算,表示方向θ上距离为d的一对像素中灰度值为ij同时出现的概率:

    P(i,jd,θ)=P(i,jd,θ)ijP(i,jd,θ)
    (6)

    通过对灰度共生矩阵计算相关统计量,可以得到描述纹理属性的特征。本文选择最常用的四个特征:能量、惯性矩、熵和相关对图像的纹理特征进行描述。

  • 4)颜色对比度

    颜色的分布差异对情感具有不同影响,对比度大的图像更能吸引眼球,本文采用颜色对比[29]对这一差异程度进行描述,如公式(7)所示:

    contrast=1N-1x=1N[(ax-a¯)2×(bx-b¯)2]
    (7)

    式中,a为红-绿颜色对比;b为蓝-黄颜色对比;N为图像中包含的像素数;ax、bx分别表示图像中第i个像素点的a、b分量值;a¯b¯分别表示a、b的平均值。颜色对比度表示的是图像中颜色间的差异性,体现了颜色的多样性。

  • 5)亮度、饱和度及冷暖色对比

    暗色容易使人产生消极、沉重的情感,而明亮的颜色则容易引发积极倾向的情感。同样地,饱和度高的颜色往往纯度较高,更容易吸引人的眼球。出于对这一颜色与情感间关系的考量,本文提取了图像的亮度及饱和度分布特征进行图像的情感分析,如式(8)、式(9)所示:

    meanv=1MNx=0M-1y=0N-1IV(x,y)
    (8)
    means=1MNx=0M-1y=0N-1IS(x,y)
    (9)

    式中,Iv(x,y)和Is(x,y)分别为HSV颜色空间的亮度分量和饱和度分量;MN分别为图像的宽和高。

    除了上述两个特征,从色调角度来看,颜色还有冷暖色之分。暖色通常给人愉悦、热情的感觉,而冷色则给人低沉、凝重等感受。本文提取了冷色和暖色的对比度作为其中一种情感特征。在HSV锥形颜色空间模型中,色调H处于[30,110]之间的颜色为冷色,余下的则被视为暖[15],本文将冷色与暖色色调中的像素值之比作为冷暖色对比特征。

  • 4 情感识别模型效果检验

  • 4.1  性能评价

    为了检验本文提出的视觉情感识别模型的效果,并与其他方法进行客观比较,本文使用IAPS(International Affective Picture System)国际图像数据[30]进行模型有效性的检验。IAPS图像集由美国的NIMH研究院花费了多年时间负责收集,涵盖了很多能够引发情感刺激的图像,并编制了一套量化评分标准。图像集涉及了多种复杂场景,包括自然灾害、昆虫、风景、可爱动物、蛇、鬼怪、疾病等,每张图片都使用PAD模型进行情感打分。Mikels[2]挑选出其中最具代表性的394张图像进行情感识别领域的研究,他们将这些图片分为contentment(C)、amusement(Am)、excitement(E)、anger(A)、awe(Aw)、fear(F)、sadness(S)和disgust(D)8个情感类型。该图像集是当前图像情感分类研究中被广泛使用的标准实验测试集。

    本文的所有实验均在Matlab环境下编写代码并完成测试,其中的核心部分为改进的分块自适应颜色直方图的提取方法,具体流程如表2所示。文中采用LibSVM开源软件进行分类训练,其中,SVM类型选择C_SVC,核函数选择RBF核。

    由于本文研究的是多类情感识别,是一个多分类问题,为了检验每种情感的识别效果,实验使用混淆矩阵进行效果评价。混淆矩阵是衡量非均衡样本识别正确率的常用方法,在表3中,行表示SVM分类器预测的情感类别,列表示图像本身应该属于的情感类别,对角线数据为每类样本的正确识别率,非对角线数据则为没有正确分类的样本比例。

    表3 多类别情感识别混淆矩阵

    CAmEAAwFSD
    C0.520.260.080.000.110.000.030.00
    Am0.100.650.080.030.110.030.000.00
    E0.100.100.590.000.190.000.000.02
    A0.000.000.000.530.100.200.070.10
    Aw0.090.060.030.040.640.060.090.00
    F0.000.000.000.090.070.530.110.20
    S0.000.000.000.080.110.140.610.06
    D0.000.010.010.030.000.170.100.68

    从混淆矩阵中可以观察到,“厌恶”(disgust)和“娱乐”(amusement)这两个类的分类效果最好,其中“厌恶”类的识别准确率达到了68%,而“满足”类的识别效果最差。这说明“娱乐”和“厌恶”这两个类在特征上与其他类有较大的区别,类内相似度较高,类间差异较大,这两个类的激活度和唤醒度都较高,容易激起人的情感感受。对这两个类包含的图像进行分析可以发现,他们都具有很强的视觉冲击性,其中,“厌恶”类包含了众多的血腥场景和看起来让人厌恶的昆虫、动物等,“娱乐”类则主要收集了令人愉悦、表达欢快的场景,如在游乐场的玩耍等,包含较多的人物场景。识别效果最差的是“满足”类,准确率为52%,对该识别结果进行分析发现,“满足”类的部分图像被划分到了“娱乐”类,原因是这两个类中的图像包含了较多类似的场景,色彩明艳且包含一些面部图像(如图6所示),在面部表情识别中,目前只能将这类表情统一识别为“高兴”,无法做更细致的区分。同时,“满足”类中的图像在颜色和场景上更加多变,两个类间区分度不明显,很难发现统一的规律,“娱乐”类中同时有一些图像被划分到了“满足”类中。虽然这两个类的区分性不高,但是在情感极性上,它们都是积极的、正向的。

    图6
                            不同情感类别的相似图像示例

    图6 不同情感类别的相似图像示例

  • 4.2  参数设置与实验结果的关系

    本文在抽取局部形状特征时,使用词袋模型生成了视觉情感词典,该词典中单词的数量在一定程度上影响了分类的性能,因此在实验中笔者也比较了视觉词典的规模与分类性能之间的关系。实验中视觉词典的单词数量分别设置为30、50、100、150,观察单词数量的不同对分类结果的影响,如图7所示。

    图7
                            视觉单词规模与情感识别效果的关系

    图7 视觉单词规模与情感识别效果的关系

    从图7中可以看出,随着视觉情感词典单词数量的递增,识别准确率呈现先提高后降低的走势,当视觉单词数量设置为100时效果更好。原因是视觉单词数量太少时,它们表达的语义会非常宽泛,对类间的区分效果也较差,不同的视觉单词被认为是相似或相同的概率较高;而视觉单词数量过多时,一些含义相似的视觉单词会被认为是不同的,从而引起误判。

  • 4.3  对比实验评价

    本文从不同角度提取了多个视觉情感特征,并提出了一种改进的基于分块自适应加权的局部颜色直方图抽取算法。为了验证本文视觉情感识别模型以及改进的颜色特征提取方法的效果,进行了下列几个对比实验。

  • 1)颜色特征提取有效性分析

    为了验证改进的颜色特征提取方法的有效性,本文基于IAPS数据集对比了不同颜色直方图识别效果的差异,实验结果如表4所示。

    表4 颜色特征有效性对比结果

    特征组合准确率/%Kappa值
    经典的颜色直方图+纹理特征+形状特征+心理认知特征+面部表情特征59.90.51
    本文的改进算法 +纹理特征+形状特征+心理认知特征+面部表情特征60.20.56

    4中,Kappa值用于度量分类的可靠性,通过公式(10)计算得出:

    k=pra-pre1-pre
    (10)

    式中,pra为各类中正确识别的图像数与图像总样本的比率,即总体的识别准确率。设总样本数为n,每类样本数分别为a0a1a2,分类预测结果中每类的样本数为b0b1b2,则pre=(a0×b0+a1×b1+a2×b2)/(n×n)

    从表4中可以观察到,与经典的颜色直方图相比,本文的改进算法在分类准确率和Kappa值上都有所提升,表明本文提出的改进算法在分类一致性上效果更好。

  • 2)不同特征组合对视觉情感识别效果的影响

    这里使用不同的情感特征组合方式来验证不同组合对分类效果的影响,结果如表5所示。

    表5 不同特征组合的情感识别结果

    实验特征组合准确率/%
    1颜色特征+纹理特征+形状特征53.7
    2心理认知特征51.4
    3颜色特征+纹理特征+形状特征+心理认知特征60.1
    4颜色特征+纹理特征+形状特征+心理认知特征+面部表情特征60.2

    由表5可以看出,当融合所有的视觉情感特征时,分类的效果最好,说明结合视觉感知模型和机器学习方法能够提升图像情感识别的性能,证明了相比于单一的基于低层特征或心理认知的方法,本文提出的模型更加有效。

  • 3)基于IAPS国际标准图像集的识别效果对比

    为了验证本文提出的识别模型的整体效果,将本文的识别准确率与部分研究做横向比较,如表6所示。

    表6 基于IAPS国际标准集的不同识别模型的效果对比

    CAmEAAwFSD
    文献[31]0.520.590.650.510.620.600.560.66
    文献[32]0.520.590.640.500.630.600.560.65
    文献[33]平均分类准确率:0.425
    文献[34]平均分类准确率:0.66
    本文方法0.520.650.590.530.640.530.610.68

    从表6中可以看出,针对IAPS国际标准集,目前较高的识别准确率为70%左右,可以看出该领域研究难度很大,识别的准确率普遍较低。本研究提出的识别模型识别准确率在现有研究中处于较高水平,验证了本文方法的有效性。

  • 5 图文结合的情感识别在电影推荐中的应用

    物质生活水平的提高,人们越来越重视精神生活的满足。电影在人们日常生活中是一种重要的娱乐和放松方式。本文基于用户的情感需求,进行符合用户情感感受的电影推荐。

  • 5.1  数据集与基于情感的电影推荐平台

    由于电影题材宽泛且人类情感复杂,对其细分会非常困难。本研究选择人在观影时的4种典型情感进行电影海报的视觉情感分析,分别是悲伤(sadness)、高兴(happy)、敬畏(awe)和害怕(fear)。其中,高兴类影片类型广泛,包括喜剧、动画等;悲伤类多为一些感人肺腑的爱情和亲情故事以及灾难题材的电影,给人伤感、凄美、沉重的感受;害怕类主要包含惊悚、灵异等题材的电影,带给人的是内心的恐惧;敬畏类则主要涉及自然、太空等场景的纪录片,带给人的是内心的震撼。

    本研究的电影海报图像主要从优酷、腾讯、爱奇艺等视频网站以及豆瓣、猫眼等电影观看平台爬取,根据电影简介及用户的评价进行情感类别标注,每种情感挑选200部典型影片,总计800幅电影海报及其相应的剧情介绍。

    对剧情介绍中的文本信息,采用分词、去停用词等预处理手段,通过TF-IDF方法计算特征权重,使用向量空间模型将每个文档表示为M维向量,即T{f1,f2,f3,,fM}

    检索的结果使用一个简单直观的可视化界面显示,如图8所示。

    图8
                            悲伤类检索结果示例

    图8 悲伤类检索结果示例

  • 5.2  结果分析

    本研究的电影推荐算法基于图文结合的情感识别进行,通过电影海报图像及相应剧情简介文本的情感表征电影的情感,是一个基于图文结合的多媒体信息检索的过程。本研究采用信息检索中最常使用的查全率、查准率和F值作为推荐结果的评价指标。同时,为了比较本研究提出的结合图文信息进行基于情感的电影推荐算法的效果,将实验结果与只使用剧情介绍的基于文本的推荐和只使用海报的基于图像的推荐结果进行对比,如表7所示。

    表7 不同电影推荐算法的结果对比

    查全率/%查准率/%F值/%
    文本73.6773.5673.61
    图像77.4675.3076.21
    文本+图像80.0081.2980.63

    分析表7可以看出,基于图文结合的电影推荐的查准率为81.29%,与仅基于文本或仅基于图像的推荐方法相比,准确率有小幅提升。F值综合考量了查全率和查准率的关系,本研究的F值为80.63%,与仅基于文本推荐的方法对比提高了7.02%,与仅使用海报图像的方法相比提高了4.42%。单独基于文本的推荐方法查准率较低的主要原因是电影文本简介常常是对电影剧情的概述,一些类(如高兴类)中的文字介绍对于电影所表现情感的描述不是特别明显,所以在情感识别中效果不好。而电影海报表现的内容相比于文字简介则更加明晰地表达出了影片的情感(如表8第1条)。另一方面,单独基于海报进行推荐也存在一定的局限,如“悲伤”类中包含一些表达亲情和爱情悲剧的电影,在海报设计中却反其道而行,采用了明亮、温暖的色调来凸显人类情感的美好,对电影主题进行升华,因此给图像的识别预测带来了更高的难度,这时文字简介就起到了很好的说明作用(如表8第2条)。所以图文结合确实可以优势互补,获得更好的识别效果。

    表8 剧情简介及电影海报示例

    海报剧情简介
    1000-0135-2019-38-4-420/alternativeImage/b30142a0-1dbc-4335-8e3c-919bcaa83b36-F006.jpg天赋异禀的结巴少年“秦风”警校落榜,被姥姥遣送泰国找远房表舅——号称“唐人街第一神探”,实则“猥琐”大叔的“唐仁”散心。不想一夜花天酒地后,唐仁沦为离奇凶案嫌疑人,不得不和秦风亡命天涯,穷追不舍的警探——“疯狗”黄兰登;无敌幸运的警察——“草包”坤泰;穷凶极恶、阴差阳错的“匪帮三人组”;高深莫测的“唐人街教父”;“美艳风骚老板娘”等悉数登场。七天,唐仁、秦风这对“欢喜冤家”、“天作之合”必须取长补短、同仇敌忾,他们要在躲避警察追捕、匪帮追杀、黑帮围剿的同时,在短短“七天”内,完成找到“失落的黄金”、查明“真凶”、为他们“洗清罪名”这些“逆天”的任
    1000-0135-2019-38-4-420/alternativeImage/b30142a0-1dbc-4335-8e3c-919bcaa83b36-F007.jpg本片讲述一段感人至深的母女情:单亲妈妈高云带着女儿素雅一起生活。身为婚纱设计师的她忙于事业,疏于对素雅的照顾。所以素雅一方面性格独立,但另一方面却相当不合群甚至稍显乖戾。高云在查出绝症之后,抓紧所剩不多的时间为素雅打算。她为了弥补素雅,不仅对其有求必应,而且主动通宵为准备郊游的素雅学做紫菜包饭。她为了改善素雅的人际关系,为其举办生日聚会,但素雅连一位朋友也没请来。起初,倔强的素雅并不了解高云的良苦用心。但是在觉察到高云的病情之后,她好像一下子懂事了。年幼的她不仅要装作完全不知道高云命不久矣的事情,而且还想方设法地完成高云的所有愿
  • 6 总 结

    情感识别是视觉信息处理领域的研究热点和难题,是人工智能领域的重要研究对象,本文主要研究图像的情感识别问题。图像表达的情感抽象、描述难度大,但随着网络资源中图像所占比重的不断增加,对图像情感的自动描述将具有巨大的应用价值。

    本文研究了面向视觉感知的图像情感识别问题,借鉴心理认知领域的相关理论,结合机器学习技术抽取了多个角度的视觉情感特征,提出了一种更加符合人类视觉感知的图像情感识别模型,在一定程度上缩小了低层特征与高层情感之间的“语义鸿沟”

    脚注
    https://www.iqiyi.com/lib/m_206275414.html
    脚注
    https://movie.douban.com/subject/4230918/

    在特征抽取技术方面,本文在传统的颜色直方图的基础上,提出了一种基于视觉注意模型的分块自适应加权颜色直方图。该方法在结合空间信息的基础上,考虑图像不同区域引起人的关注程度的不同,利用Itti视觉注意模型对不同分块进行基于视觉显著度的加权,使得提取的颜色直方图对目标区域颜色信息的描述更加突出,更加符合人的感受。

    此外,本文将具体的模型用于实际应用,提出了一种新的结合图像与文本信息的电影推荐算法,根据用户在选择要观看的电影时的情感需求,使用电影的“名片”——电影海报以及剧情简介作为电影中表达情感的外在表现形式进行情感分析,为用户推荐符合其情感需求的相似电影。从本质上而言,实现了从用户主观感受需求的角度进行检索,为电影推荐算法的研究提供了一个新的方向。

    未来,将进一步深化视觉情感识别领域的研究,包括图像情感识别精度的进一步提高、基于情感的电影推荐算法的进一步完善等。

  • 参考文献

    • 1

      Ekman P. An argument for basic emotions[J]. Cognition and Emotion, 1992, 6(3-4): 169-200.

    • 2

      Mikels J A, Fredrickson B L, Larkin G R, et al. Emotional category data on images from the international affective picture system[J]. Behavior Research Methods, 2005, 37(4): 626-630.

    • 3

      黄崑, 赖茂生. 图像情感特征的分类与提取[J]. 计算机应用, 2008, 28(3): 659-661.

    • 4

      李娉婷, 石跃祥, 戴皇冠. 基于颜色特征的家居设计图分类[J]. 计算机工程, 2011, 37(16): 224-226.

    • 5

      曹建芳, 陈俊杰, 李海芳. 基于改进的OCC情感模型的自然风景图像分类研究[J]. 计算机应用与软件, 2014, 31(6): 181-184.

    • 6

      张海波, 张春艳, 商书元, 等. 男T 恤图像情感语义空间研究[J]. 纺织科技进展, 2016(6): 53-55.

    • 7

      Siersdorfer S, Minack E, Deng F, et al. Analyzing and predicting sentiment of images on the social web[C]// Proceedings of the 18th ACM International Conference on Multimedia. New York: ACM Press, 2010: 715-718.

    • 8

      Shin Y, Kim E Y, Sung T E. Affect-based retrieval of landscape images using probabilistic affective model[C]// Proceedings of the International Conference on Human-Computer Interaction. Heidelberg: Springer, 2013: 362-371.

    • 9

      Seo S, Kang D. Study on predicting sentiment from images using categorical and sentimental keyword-based image retrieval[J]. Journal of Supercomputing, 2016, 72(9): 3478-3488.

    • 10

      Park M W, Ko D, Hwang H, et al. Image classification using color and spatial frequency in terms of human emotion[C]// Proceedings of the International Conference on Future Information Technology. Singapore: Springer, 2017, 448: 91-96.

    • 11

      Lee G, Kwon M, Kavuri S, et al. Action-perception cycle learning for incremental emotion recognition in a movie clip using 3D fuzzy GIST based on visual and EEG signals[J]. Integrated Computer-Aided Engineering, 2014, 21(3): 295-310.

    • 12

      Li Z H, Fan Y Y, Liu W H, et al. Image sentiment prediction based on textual descriptions with adjective noun pairs[J]. Multimedia Tools and Applications, 2018, 77(1): 1115-1132.

    • 13

      Lu X, Suryanarayan P, Adams R B Jr, et al. On shape and the computability of emotions[C]// Proceedings of the 20th ACM International Conference on Multimedia. New York: ACM Press, 2012: 229-238.

    • 14

      Joshi D, Datta R, Fedorovskaya E, et al. Aesthetics and emotions in images[J]. IEEE Signal Processing Magazine, 2011, 28(5): 94-115.

    • 15

      Wang X H, Jia J, Yin J M, et al. Interpretable aesthetic features for affective image classification[C]// Proceedings of the IEEE International Conference on Image Processing. IEEE, 2014: 3230-3234.

    • 16

      曹建芳, 陈俊杰, 李海芳. 基于Adaboost-BP神经网络的图像情感分类方法研究[J]. 山西大学学报(自然科学版), 2013, 36(3): 331-337.

    • 17

      刘颍霜. 基于LFCM-SVM的版画情感映射改进算法研究[D]. 云南: 云南大学, 2015.

    • 18

      庄千料. 基于概率神经网络的图像细粒度情感分类[D]. 上海: 东华大学, 2017.

    • 19

      Ko E, Kim E Y. Recognizing the sentiments of web images using hand-designed features[C]// Proceedings of the IEEE 14th International Conference on Cognitive Informatics & Cognitive Computing. IEEE, 2015: 156-161.

    • 20

      Zhuo Y. Research on perception-oriented image scene and emotion categorization[J]. The Open Automation and Control Systems Journal, 2015, 7: 2070-2073.

    • 21

      Itti L, Koch C. Feature combination strategies for saliency-based visual attention systems[J]. Journal of Electronic Imaging, 2001, 10(1): 161-169.

    • 22

      Lowe D G. Distinctive image features from scale-invariant keypoints[M]. Kluwer Academic Publishers, 2004.

    • 23

      Geusebroek J M, Burghouts G J, Smeulders A W M. The Amsterdam library of object images[J]. International Journal of Computer Vision, 2005, 61(1): 103-112.

    • 24

      Peng X J, Wang L M, Wang X X, et al. Bag of visual words and fusion methods for action recognition: Comprehensive study and good practice[J]. Computer Vision and Image Understanding, 2016, 150: 109-125.

    • 25

      Microsoft cognitive services[EB/OL]. [2018-04-15]. https://www.microsoft.com/cognitive-services/en-us/apis.

    • 26

      Schröder M. Evidence for a three-factor theory of emotions[C]// Proceedings of the Conference on the European Cetacean Society. 2017: 716-721.

    • 27

      Valdez P, Mehrabian A. Effects of color on emotions[J]. Journal of Experimental Psychology: General, 1994, 123(4): 394-409.

    • 28

      Haralick R M, Shanmugam K, Dinstein I H. Textural features for image classification[J]. IEEE Transactions on Systems, Man, and Cybernetics, 1973, SMC-3(6): 610-621.

    • 29

      Anwer R M, Vázquez D, López A M. Opponent colors for human detection[C]// Proceedings of the 5th Iberian conference on Pattern recognition and image analysis. Heidelberg: Springer, 2011: 363-370.

    • 30

      Lang P J, Bradley M M, Cuthbert B N. International affective picture system (IAPS): Affective ratings of pictures and instruction manual[R]. University of Florida, 2008:

      No. A-8.

    • 31

      吕微微. 基于情感的图像分类算法研究与实现[D]. 北京: 北京交通大学, 2012.

    • 32

      刘硕研. 面向感知的图像场景及情感分类算法研究[D]. 北京: 北京交通大学, 2011.

    • 33

      宋璇. 图像情感分类算法研究[D]. 秦皇岛: 燕山大学, 2017.

    • 34

      吕鹏霄. 图像情感分类研究[D]. 秦皇岛: 燕山大学, 2014.

陈芬

机 构:南京理工大学经济管理学院,南京 210094

Affiliation:School of Economics and Management, Nanjing University of Science and Technology, Nanjing 210094

邮 箱:lanyan_js@126.com

作者简介:陈芬,女,1977年生,博士,副教授,主要研究方向为智能信息处理与用户行为研究,E-mail:lanyan_js@126.com

何源

机 构:南京理工大学经济管理学院,南京 210094

Affiliation:School of Economics and Management, Nanjing University of Science and Technology, Nanjing 210094

作者简介:何源,女,1993年生,硕士研究生,主要研究方向为网络用户行为研究

汤丽萍

机 构:南京理工大学经济管理学院,南京 210094

Affiliation:School of Economics and Management, Nanjing University of Science and Technology, Nanjing 210094

作者简介:汤丽萍,女,1993年生,硕士研究生,主要研究方向为图像情感分析。

车 尧

角 色:责任编辑

Role:Executive editor

参考文献图像类型情感描述词
黄崑[3]自然风景图像温暖的/寒冷的、愉快的/忧伤的、激动的/平静的、紧张的/放松的、美丽的/丑陋的、喜欢的/讨厌的
李聘婷[4]家居设计图像清新自然、恬静清爽、温馨浪漫、柔和优雅
曹建芳[5]风景图像悲伤、恐惧、讨厌、放松、生气、失落、害怕、喜悦、骄傲、希望
张海波[6]面料图像强烈的/柔和的、温暖的/凉爽的、华丽的/简约的、高雅的/朴素的、张扬的/文静的、厚重的/轻薄的、丰富的/纯净的
Siersdorfer[7]Flicker图像positive, negative
Shin[8]自然图像pretty, colorful, dynamic, gorgeous, wild, romantic, natural, graceful, quiet, classic, dandy, majestic, pure, cool, modern, average
Seo[9]Google图像happy, sad, gloomy, lovely, lively, magnificent
Park[10]自然场景图像愉悦度、唤醒度、激活度(PAD值)
1000-0135-2019-38-4-420/alternativeImage/b30142a0-1dbc-4335-8e3c-919bcaa83b36-F001.jpg

变量说明:wid,图像宽度;hig,图像高度;pt_num=9,最终的分块数;silency=[],每个分块的显著度值之和;Hist=[],每个分块的颜色直方图;H=[],每块的加权直方图。

[T,SW]=sjd_xianzhutu(image); %计算显著图

grid1=hig/4;

grid2=wid/4;

for i=1:grid1:hig-grid1+1%计算得到各分块,及相应的显著值

for j=1:grid2:wid-grid2+1

im=image(i:i+grid1-1,floor(j):floor(j+grid2-1),:);

hist= hsvhisto_72(im);

sw=SW(i:i+grid1-1,floor(j):floor(j+grid2-1),:);%每个小分块的显著值

si=sum(sum(sw,1));

patchs=[patchs,im];

silency=[silency,si];%保存每个分块的显著度值之和

Hist=[Hist;hist];%保存每个分块的颜色直方图

end

end

size1=grid1*floor(grid2);size2=grid2*grid1*2;size3=grid2*grid1*4;size4=grid1*ceil(grid2);

%计算各分块的颜色直方图

pt_1=Hist(1,:)/size1; w1=silency(1);

pt_2=(Hist(2,:)+Hist(3,:))/size2; w2=silency(2)+silency(3);

……

pt_9=Hist(16,:)/size4; w9=silency(16);

pt=[pt_1;pt_2;pt_3;pt_4;pt_5;pt_6;pt_7;pt_8;pt_9];

w=[w1,w2,w3,w4,w5,w6,w7,w8,w9]/T;

for k=1:pt_num

H(k,:)=pt(k,:)*w(k); %分别求每块的加权直方图

end

1000-0135-2019-38-4-420/alternativeImage/b30142a0-1dbc-4335-8e3c-919bcaa83b36-F008.jpg
1000-0135-2019-38-4-420/alternativeImage/b30142a0-1dbc-4335-8e3c-919bcaa83b36-F002.jpg
1000-0135-2019-38-4-420/alternativeImage/b30142a0-1dbc-4335-8e3c-919bcaa83b36-F009.jpg
1000-0135-2019-38-4-420/alternativeImage/b30142a0-1dbc-4335-8e3c-919bcaa83b36-F010.jpg
CAmEAAwFSD
C0.520.260.080.000.110.000.030.00
Am0.100.650.080.030.110.030.000.00
E0.100.100.590.000.190.000.000.02
A0.000.000.000.530.100.200.070.10
Aw0.090.060.030.040.640.060.090.00
F0.000.000.000.090.070.530.110.20
S0.000.000.000.080.110.140.610.06
D0.000.010.010.030.000.170.100.68
1000-0135-2019-38-4-420/alternativeImage/b30142a0-1dbc-4335-8e3c-919bcaa83b36-F003.jpg
1000-0135-2019-38-4-420/alternativeImage/b30142a0-1dbc-4335-8e3c-919bcaa83b36-F004.jpg
特征组合准确率/%Kappa值
经典的颜色直方图+纹理特征+形状特征+心理认知特征+面部表情特征59.90.51
本文的改进算法 +纹理特征+形状特征+心理认知特征+面部表情特征60.20.56
实验特征组合准确率/%
1颜色特征+纹理特征+形状特征53.7
2心理认知特征51.4
3颜色特征+纹理特征+形状特征+心理认知特征60.1
4颜色特征+纹理特征+形状特征+心理认知特征+面部表情特征60.2
CAmEAAwFSD
文献[31]0.520.590.650.510.620.600.560.66
文献[32]0.520.590.640.500.630.600.560.65
文献[33]平均分类准确率:0.425
文献[34]平均分类准确率:0.66
本文方法0.520.650.590.530.640.530.610.68
1000-0135-2019-38-4-420/alternativeImage/b30142a0-1dbc-4335-8e3c-919bcaa83b36-F005.jpg
查全率/%查准率/%F值/%
文本73.6773.5673.61
图像77.4675.3076.21
文本+图像80.0081.2980.63
海报剧情简介
1000-0135-2019-38-4-420/alternativeImage/b30142a0-1dbc-4335-8e3c-919bcaa83b36-F006.jpg天赋异禀的结巴少年“秦风”警校落榜,被姥姥遣送泰国找远房表舅——号称“唐人街第一神探”,实则“猥琐”大叔的“唐仁”散心。不想一夜花天酒地后,唐仁沦为离奇凶案嫌疑人,不得不和秦风亡命天涯,穷追不舍的警探——“疯狗”黄兰登;无敌幸运的警察——“草包”坤泰;穷凶极恶、阴差阳错的“匪帮三人组”;高深莫测的“唐人街教父”;“美艳风骚老板娘”等悉数登场。七天,唐仁、秦风这对“欢喜冤家”、“天作之合”必须取长补短、同仇敌忾,他们要在躲避警察追捕、匪帮追杀、黑帮围剿的同时,在短短“七天”内,完成找到“失落的黄金”、查明“真凶”、为他们“洗清罪名”这些“逆天”的任
1000-0135-2019-38-4-420/alternativeImage/b30142a0-1dbc-4335-8e3c-919bcaa83b36-F007.jpg本片讲述一段感人至深的母女情:单亲妈妈高云带着女儿素雅一起生活。身为婚纱设计师的她忙于事业,疏于对素雅的照顾。所以素雅一方面性格独立,但另一方面却相当不合群甚至稍显乖戾。高云在查出绝症之后,抓紧所剩不多的时间为素雅打算。她为了弥补素雅,不仅对其有求必应,而且主动通宵为准备郊游的素雅学做紫菜包饭。她为了改善素雅的人际关系,为其举办生日聚会,但素雅连一位朋友也没请来。起初,倔强的素雅并不了解高云的良苦用心。但是在觉察到高云的病情之后,她好像一下子懂事了。年幼的她不仅要装作完全不知道高云命不久矣的事情,而且还想方设法地完成高云的所有愿

表1 不同的情感状态空间示例

图1 本文的非均匀分块方法

表2 改进的颜色特征提取关键代码

图2 颜色直方图比较

图3 CSIFT特征生成过程

图4 面部表情识别示例

图5 Rule of thirds原理

表3 多类别情感识别混淆矩阵

图6 不同情感类别的相似图像示例

图7 视觉单词规模与情感识别效果的关系

表4 颜色特征有效性对比结果

表5 不同特征组合的情感识别结果

表6 基于IAPS国际标准集的不同识别模型的效果对比

图8 悲伤类检索结果示例

表7 不同电影推荐算法的结果对比

表8 剧情简介及电影海报示例

image /

无注解

无注解

无注解

无注解

无注解

无注解

无注解

无注解

无注解

无注解

无注解

无注解

无注解

无注解

无注解

无注解

  • 参考文献

    • 1

      Ekman P. An argument for basic emotions[J]. Cognition and Emotion, 1992, 6(3-4): 169-200.

    • 2

      Mikels J A, Fredrickson B L, Larkin G R, et al. Emotional category data on images from the international affective picture system[J]. Behavior Research Methods, 2005, 37(4): 626-630.

    • 3

      黄崑, 赖茂生. 图像情感特征的分类与提取[J]. 计算机应用, 2008, 28(3): 659-661.

    • 4

      李娉婷, 石跃祥, 戴皇冠. 基于颜色特征的家居设计图分类[J]. 计算机工程, 2011, 37(16): 224-226.

    • 5

      曹建芳, 陈俊杰, 李海芳. 基于改进的OCC情感模型的自然风景图像分类研究[J]. 计算机应用与软件, 2014, 31(6): 181-184.

    • 6

      张海波, 张春艳, 商书元, 等. 男T 恤图像情感语义空间研究[J]. 纺织科技进展, 2016(6): 53-55.

    • 7

      Siersdorfer S, Minack E, Deng F, et al. Analyzing and predicting sentiment of images on the social web[C]// Proceedings of the 18th ACM International Conference on Multimedia. New York: ACM Press, 2010: 715-718.

    • 8

      Shin Y, Kim E Y, Sung T E. Affect-based retrieval of landscape images using probabilistic affective model[C]// Proceedings of the International Conference on Human-Computer Interaction. Heidelberg: Springer, 2013: 362-371.

    • 9

      Seo S, Kang D. Study on predicting sentiment from images using categorical and sentimental keyword-based image retrieval[J]. Journal of Supercomputing, 2016, 72(9): 3478-3488.

    • 10

      Park M W, Ko D, Hwang H, et al. Image classification using color and spatial frequency in terms of human emotion[C]// Proceedings of the International Conference on Future Information Technology. Singapore: Springer, 2017, 448: 91-96.

    • 11

      Lee G, Kwon M, Kavuri S, et al. Action-perception cycle learning for incremental emotion recognition in a movie clip using 3D fuzzy GIST based on visual and EEG signals[J]. Integrated Computer-Aided Engineering, 2014, 21(3): 295-310.

    • 12

      Li Z H, Fan Y Y, Liu W H, et al. Image sentiment prediction based on textual descriptions with adjective noun pairs[J]. Multimedia Tools and Applications, 2018, 77(1): 1115-1132.

    • 13

      Lu X, Suryanarayan P, Adams R B Jr, et al. On shape and the computability of emotions[C]// Proceedings of the 20th ACM International Conference on Multimedia. New York: ACM Press, 2012: 229-238.

    • 14

      Joshi D, Datta R, Fedorovskaya E, et al. Aesthetics and emotions in images[J]. IEEE Signal Processing Magazine, 2011, 28(5): 94-115.

    • 15

      Wang X H, Jia J, Yin J M, et al. Interpretable aesthetic features for affective image classification[C]// Proceedings of the IEEE International Conference on Image Processing. IEEE, 2014: 3230-3234.

    • 16

      曹建芳, 陈俊杰, 李海芳. 基于Adaboost-BP神经网络的图像情感分类方法研究[J]. 山西大学学报(自然科学版), 2013, 36(3): 331-337.

    • 17

      刘颍霜. 基于LFCM-SVM的版画情感映射改进算法研究[D]. 云南: 云南大学, 2015.

    • 18

      庄千料. 基于概率神经网络的图像细粒度情感分类[D]. 上海: 东华大学, 2017.

    • 19

      Ko E, Kim E Y. Recognizing the sentiments of web images using hand-designed features[C]// Proceedings of the IEEE 14th International Conference on Cognitive Informatics & Cognitive Computing. IEEE, 2015: 156-161.

    • 20

      Zhuo Y. Research on perception-oriented image scene and emotion categorization[J]. The Open Automation and Control Systems Journal, 2015, 7: 2070-2073.

    • 21

      Itti L, Koch C. Feature combination strategies for saliency-based visual attention systems[J]. Journal of Electronic Imaging, 2001, 10(1): 161-169.

    • 22

      Lowe D G. Distinctive image features from scale-invariant keypoints[M]. Kluwer Academic Publishers, 2004.

    • 23

      Geusebroek J M, Burghouts G J, Smeulders A W M. The Amsterdam library of object images[J]. International Journal of Computer Vision, 2005, 61(1): 103-112.

    • 24

      Peng X J, Wang L M, Wang X X, et al. Bag of visual words and fusion methods for action recognition: Comprehensive study and good practice[J]. Computer Vision and Image Understanding, 2016, 150: 109-125.

    • 25

      Microsoft cognitive services[EB/OL]. [2018-04-15]. https://www.microsoft.com/cognitive-services/en-us/apis.

    • 26

      Schröder M. Evidence for a three-factor theory of emotions[C]// Proceedings of the Conference on the European Cetacean Society. 2017: 716-721.

    • 27

      Valdez P, Mehrabian A. Effects of color on emotions[J]. Journal of Experimental Psychology: General, 1994, 123(4): 394-409.

    • 28

      Haralick R M, Shanmugam K, Dinstein I H. Textural features for image classification[J]. IEEE Transactions on Systems, Man, and Cybernetics, 1973, SMC-3(6): 610-621.

    • 29

      Anwer R M, Vázquez D, López A M. Opponent colors for human detection[C]// Proceedings of the 5th Iberian conference on Pattern recognition and image analysis. Heidelberg: Springer, 2011: 363-370.

    • 30

      Lang P J, Bradley M M, Cuthbert B N. International affective picture system (IAPS): Affective ratings of pictures and instruction manual[R]. University of Florida, 2008:

      No. A-8.

    • 31

      吕微微. 基于情感的图像分类算法研究与实现[D]. 北京: 北京交通大学, 2012.

    • 32

      刘硕研. 面向感知的图像场景及情感分类算法研究[D]. 北京: 北京交通大学, 2011.

    • 33

      宋璇. 图像情感分类算法研究[D]. 秦皇岛: 燕山大学, 2017.

    • 34

      吕鹏霄. 图像情感分类研究[D]. 秦皇岛: 燕山大学, 2014.