en
×

分享给微信好友或者朋友圈

使用微信“扫一扫”功能。
参考文献 1
赵蓉英, 余波. 国际数据挖掘研究热点与前沿可视化分析[J]. 现代情报, 2018, 38(6): 128-137.
参考文献 2
TintarevN, MasthoffJ. A survey of explanations in recommender systems[C]// Proceedings of the 23rd International Conference on Data Engineering Workshop. IEEE, 2007: 801-810.
参考文献 3
TintarevN, MasthoffJ. Designing and evaluating explanations for recommender systems[M]// Recommender Systems Handbook. Springer, 2011: 479-510.
参考文献 4
ChengH T, KocL, HarmsenJ, et al. Wide & deep learning for recommender systems[C]// Proceedings of the 1st Workshop on Deep Learning for Recommender Systems. New York: ACM Press, 2016: 7-10.
参考文献 5
HeX N, LiaoL Z, ZhangH W, et al. Neural collaborative filtering[C]// Proceedings of the 26th International Conference on World Wide Web. International World Wide Web Conferences Steering Committee, 2017: 173-182.
参考文献 6
ShanY, HoensT R, JiaoJ, et al. Deep crossing: Web-scale mod¬eling without manually crafted combinatorial features[C]// Pro¬ceedings of the 22nd ACM SIGKDD International Conference on Knowledge Discovery and Data Mining. New York: ACM Press, 2016: 255-262.
参考文献 7
GongY Y, ZhangQ. Hashtag recommendation using attention-based convolutional neural network[C]// Proceedings of the Twenty-Fifth International Joint Conference on Artificial Intelli¬gence. Palo Alto: AAAI Press, 2016: 2782-2788.
参考文献 8
KimD, ParkC, OhJ, et al. Convolutional matrix factorization for document context-aware recommendation[C]// Proceedings of the 10th ACM Conference on Recommender Systems. New York: ACM Press, 2016: 233-240.
参考文献 9
SohailS S, SiddiquiJ, AliR. Book recommendation system using opinion mining technique[J]. Proceedings of the IEEE, 2013: 1609-1614.
参考文献 10
王晓耘, 赵菁, 徐作宁. 基于社会化标注的用户兴趣发现及个性化推荐研究[J]. 现代情报, 2018, 38(7): 67-73, 80.
参考文献 11
汤妙吉. 面向个性化信息服务的图书馆移动用户行为分析模型设计[J]. 现代情报, 2018, 38(1): 121-126.
参考文献 12
BilgicM, MooneyR J. Explaining recommendations: Satisfaction vs. promotion[C]// Beyond Personalization 2005: A Workshop on the Next Stage of Recommender Systems Research at the 2005 International Conference on Intelligent User Interfaces. 2005: 13-18.
参考文献 13
HerlockerJ L, KonstanJ A, RiedlJ. Explaining collaborative filtering recommendations[C]// Proceedings of the 2000 ACM Conference on Computer Supported Cooperative Work. New York: ACM Press, 2000: 241-250.
参考文献 14
O’DonovanJ, SmythB. Trust in recommender systems[C]// Proceedings of the 10th International Conference on Intelligent User Interfaces. New York: ACM Press, 2005: 167-174.
参考文献 15
MooneyR J, RoyL. Content-based book recommending using learning for text categorization[C]// Proceedings of the Fifth ACM Conference on Digital Libraries. New York: ACM Press, 2000: 195-204.
参考文献 16
YuC, LakshmananL V S, AmeryahiaS. Recommendation diversification using explanations[C]// Proceedings of IEEE International Conference on Data Engineering. IEEE Computer Society, 2009: 1299-1302.
参考文献 17
KuroiwaT, BhallaS. Dynamic personalization for book recom¬mendation system using Web services and virtual library enh¬ancements[C]// Proceedings of IEEE International Conference on Computer and Information Technology. IEEE, 2007: 212-217.
参考文献 18
DeshpandeM, KarypisG. Item-based top-n recommendation algorithms[J]. ACM Transactions on Information Systems, 2004, 22(1): 143-177.
参考文献 19
张永锋. 个性化推荐的可解释性研究[D]. 北京: 清华大学, 2016.
参考文献 20
ZhangY, LaiG, ZhangM, et al. Explicit factor models for ex¬plainable recommendation based on phrase-level sentiment analysis[C]// Proceedings of the 37th International ACM SIGIR Conference on Research & Development in Information Retrieval. New York: ACM Press, 2014: 83-92.
参考文献 21
王晓腾. 考虑评论的矩阵分解推荐算法研究[D]. 成都: 电子科技大学, 2018.
参考文献 22
项亮. 推荐系统实践[M]. 北京: 人民邮电出版社, 2012: 59-62.
参考文献 23
KorenY, BellR, VolinskyC. Matrix factorization techniques for recommender systems[J]. Computer, 2009, 42(8): 30-37.
参考文献 24
PhelanO, McCarthyK, SmythB. Using twitter to recommend real-time topical news[C]// Proceedings of the Third ACM Con¬ference on Recommender Systems. New York: ACM Press, 2009: 385-388.
参考文献 25
[SongY, ZhuangZ, LiH, et al. Real-time automatic tag recommendation[C]// Proceedings of the 31st Annual International ACM SIGIR Conference on Research and Development in Information Retrieval. New York: ACM Press, 2008: 515-522.
参考文献 26
SiX, SunM. Tag-LDA for scalable real-time tag recommenda¬tion[J]. Journal of Information and Computational Science, 2009, 6(2): 1009-1016.
参考文献 27
Diaz-AvilesE, DrumondL, Schmidt-ThiemeL, et al. Real-time top-n recommendation in social streams[C]// Proceedings of the Sixth ACM Conference on Recommender Systems. New York: ACM Press, 2012: 59-66.
参考文献 28
黄训蓬. 增量矩阵分解中线性特征变换的研究与应用[D]. 合肥: 中国科学技术大学, 2018.
参考文献 29
AbbarS, Amer-YahiaS, IndykP, et al. Real-time recommenda¬tion of diverse related articles[C]// Proceedings of the 22nd In¬ternational Conference on World Wide Web. New York: ACM Press, 2013: 1-12.
参考文献 30
雷震. 基于聚类的个性化推荐算法研究[D]. 成都: 电子科技大学, 2013.
参考文献 31
徐键. 协同过滤中数据稀疏问题与推荐实时性的研究[D]. 兰州: 兰州大学, 2016.
参考文献 32
KorenY. Factorization meets the neighborhood: a multifaceted collaborative filtering model[C]// Proceedings of the 14th ACM SIGKDD International Conference on Knowledge Discovery and Data Mining. New York: ACM Press, 2008: 426-434.
参考文献 33
SalakhutdinovR, MnihA. Probabilistic matrix factorization[C]// Proceedings of the International Conference on Neural Information Processing Systems. Curran Associates Inc., 2007: 1257- 1264.
参考文献 34
MaH. An experimental study on implicit social recommenda¬tion[C]// Proceedings of the 36th International ACM SIGIR Con¬ference on Research and Development in Information Retrieval. New York: ACM Press, 2013: 73-82.
参考文献 35
LiF F, XuG D, CaoL B. Coupled item-based matrix factoriza¬tion[C]// Proceedings of the International Conference on Web In¬formation Systems Engineering. Cham: Springer, 2014, 8786: 1-14.
参考文献 36
LiS, KawaleJ, FuY. Deep collaborative filtering via marginal¬ized denoising auto-encoder[C]// Proceedings of the 24th ACM International on Conference on Information and Knowledge Management. New York: ACM Press, 2015: 811-820.
目录 contents

    摘要

    本文通过在基于物品的协同过滤(ICF)算法中引入偏置,同时考虑图书与用户自身的因素,从而提升推荐算法的可解释性、准确性,并且保持较高的实时性。并且,通过对比分析与离线实验证明,本文的算法bas-ICF在推荐理由的合理性、丰富度方面,都比原有的ICF表现更优秀,同时推荐准确度也有略微提升,并保持了优秀的实时性。

    Abstract

    This study creates a baseline that considers the book and user simultaneously to improve explainability and precision and to maintain good real-time performance. Furthermore, we research it through comparative analysis and offline research, which prove that the bas-ICF algorithm performs better in reasonability and richness of the recommended reason. bas-ICF also performs better in terms of precision and maintains good real-time performance.

    互联网技术的迅速发展为人们提供了越来越多的信息和服务,打破了传统的生活、工作和学习的时空限制。但是我们在享受这些便利的同时,也面对着“信息过载”和“信息迷航”等问题。基于此,推荐系统应运而生,它能够挖掘用户的需求或兴趣,然后根据相关算法进行有效推荐。而且,推荐系统在图书推荐服务领域的应用也逐渐成为热门研究主[1]

    就目前的研究来看,现存的推荐系统研究多数都是针对准确性、多样性、新颖度等的指标进行设计,却很少有从推荐系统的服务对象、用户的体验角度进行设计的,这就会造成用户对推荐结果感到困惑,尤其是当用户遇到陌生领域的推荐内容。出现这种情况的原因有以下三点原因:①用户不清楚推荐的依据是什么;②系统给出的推荐理由单一或不够合理,不足以说服用[2];③获取推荐结果的速度跟不上用户的请求速度,或是用户做出了新评价后推荐结果变化滞后,造成用户体验的下降。特别是随着隐语义模型和深度学习在推荐系统的应用,出现了许多推荐结果的不可解释和实时性表现更差的现[3]。针对上述现象,本文以进一步提升准确性、可解释性为目标,将图书类数据作为实验数据集,通过在协同过滤(ICF)算法中引入偏置,同时考虑图书与用户自身的信息,从而促进推荐算法的可解释性得到提升,并且保持较高的准确性与实时性。

  • 1 相关推荐算法综述

    1
  • 1.1 推荐算法的准确度

    1.1

    近年来,随着人工智能的崛起,深度学习的引入使得推荐算法的准确度进一步提升。深度学习能更细粒度地挖掘数据特征,如著名的Wide and Deep模[4]、NCF模[5]、Deep Crossing模[6]都是通过充分挖掘长尾用户和物品的特征,从而解决了传统方法难以解决的长尾项目精细化推荐问题。其次,深度学习也能挖掘其他方面的数据,从而引入更多不同方面的数据解决推荐的稀疏性问题,如Gong[7]利用卷积神经网络分析微博信息中的图片特征并给出特征标签,从而增加了微博信息的标签标注来源。Kim[8]结合卷积神经网络和矩阵分解模型对图片进行特征分析,从而增加对文档进行推荐的信息。Sohail[9]引入网络评论补充了书籍评价的数据来源。

    除了深度学习以外,近年来不少图情领域的学者也提出了提升推荐准确性的方法。王晓耘[10]通过挖掘社会化标签标注数据,构建多层、多维度的用户兴趣模型,准确描述了用户的兴趣,从而提升了推荐的准确度。汤妙[11]通过采集移动客户端的基础信息、用户行为,配置Flume的相关数据,从时间、用户、行为、资源、入口、部门6个维度进行建模,采用用户行为序列预测与兴趣引导的方式,提供了准确的个性化图书信息服务。

    总而言之,深度学习及其他新方法较之以往方法不同程度地改善了困扰推荐系统多年的长尾项目精细化推荐以及稀疏性、冷启动问题,因此逐渐成为主流的推荐算法。但是深度学习对数据的数量和质量要求都非常高,且由于深度神经网络本身是 一个“黑盒子”的原因,推荐的可解释性和实时性都较差。

  • 1.2 推荐算法的可解释性

    1.2

    随着推荐系统的发展,除了提升准确度,对推荐的可解释性也逐渐有所要求。不少研[2,3,12,13]都详解了可解释性对于推荐系统的好处与重要性,从长远发展的角度来看,推荐结果的可解释性对推荐系统的生命周期有非常多的积极作用,其重要性不比准确度低。

    目前做到可解释的方式有几种。第一种是推荐时对预测评分以贡献最大的因子作为推荐理由,这种方式要求每个因子都能对应一个可以作为推荐理由的要素,如用户、物品或者特征、标签等。O’Donovan[14]、Mooney[15]、Yu[16]、Kuroiwa[17]都采取了这种方式。

    第二种是采用预定义的规则短语,如典型的“购买了此产品的用户也购买了……”,这种方式由亚马逊首先提出并实[18],其后大量电商如淘宝、京东等也采用了这种方式。这种方式准确性高,而且比较容易进行部署,但是展示给用户的理由千篇一律,因此对提升用户对系统的可信度、促进购买的作用有[19]。也有部分结合社交数据的推荐系统会采用“您的好友浏览了以下商品”作为推荐理由。

    第三种则是引入其他信息作为推荐理由,如Zhang[20]和王晓[21]对评论文本进行语义特征分析和提取作为推荐的理由,这种方法能让深度学习与矩阵分解等可解释性较差的模型也能产生推荐的解释;结合情感分析也使得推荐理由在大多时候比较合理准确,但是有时却会出现无关、无意义的推荐理由,反而造成了用户体验的下降,与推荐系统的可解释性初衷相悖。而且由于文本挖掘增加了运算的复杂度,并且采用了矩阵分解模型作为推荐模型的核心,推荐结果不能随用户的行为实时变化,模型的实时性较差。

  • 1.3 推荐算法的实时性

    1.3

    随着数据量的不断增大,实时性逐渐成为制约推荐算法发展的关键。实时性有两个方面的要求:一是用户有推荐需求时,能马上给出推荐列表,而不用长时间计算;二是推荐结果会在用户做出新行为或新打分后马上改[22]

    能做到第一个方面的算法非常多,如Koren[23]、Phelan[24]、Song[25]和Salakhutdinov[33]都是预先进行模型训练等大部分计算,在用户提出推荐需求时利用训练好的模型给出推荐列表。Si[26]和Diaz-Aviles[27]除了预先训练模型,还利用了并行计算的方式加速模型的训练。黄训[28]则通过特征工程的方式降低模型的复杂度,以及训练物品和用户特征随时间进行的线性变换的方法,取代传统方法中直接对原问题所有参数进行重训练的方法,使得模型在准确度、实时性以及样本使用率等方面都有所提升,却因变换后的特征无法与可以作为推荐理由的因素对应,加剧了不可解释的问题,而且该方法也没有改变模型更新需要重新训练的问题,无法做到推荐结果随用户的新行为马上变化。

    能做到第二个方面的算法则相对较少,大多依靠模型自身的特性实现。如Abbar[29]在协同过滤的基础上结合对评论的语义信息衡量内容多样性的方式,实现了对用户最新浏览文献的相似文献实时推荐,但是却没有对推荐给出明确可信的推荐理由。也有学者在结果实时变化的推荐模型基础上再降低模型的复杂度,进一步实现在大规模数据下的实时性。如雷[30]采用Fuzzy K-means进行模糊聚类,徐[31]采用簇代表点技术进行聚类,都取得了不错的效果,但是采用聚类中心点代表相似的物品或特征的方法,使得每个预测评分的因子不再对应原本的物品,降低了推荐理由的合理性。

  • 2 可解释的图书实时推荐模型构建

    2
  • 2.1 引入技术和推荐方法

    2.1

    本文涉及的需要解决的问题以及解决方法如表1所示。

    表1 推荐系统的问题及解决方法

    问题引入技术或方法
    准确性引入偏置
    实时性采用ICF算法为基础
    可解释性采用ICF算法并利用偏置进行解释
    表1
                    推荐系统的问题及解决方法

    在解决以上问题的基础上,为方便理解,首先将本文具体的推荐流程叙述如下:

    (1)导入评分数据,建立用户-图书评分矩阵。

    (2)使用ALS法,交替计算图书项偏置因子 b i 和用户项偏置因子 b u ,得到个评分对应的偏置,继而得到偏置 b u i

    (3)利用ICF算法计算图书之间的相似度。

    (4)寻找相似度最高的邻居图书、预测缺失评分。

    (5)若预测评分高于 b u i 的个数大于或等于N,则预测评分倒序排列,前N个图书作为推荐列表;若预测评分高于 b u i 的个数小于N,则按预测评分实际高于 b u i 的个数倒序排列。

  • 2.2 引入偏置的ICF算法

    2.2

    基于协同过滤的个性化推荐算法(CF)是通过用户对物品的历史评分记录,寻找与其相似的物品或者用户,然后推荐相似度高的商品。

    协同过滤算法分为基于用户相似的协同过滤算法(UCF)和基于物品相似的协同过滤算法(ICF)。其中,ICF由亚马逊提出,是使用最广泛、应用最成功的个性化推荐算法之一,常被各大电商网站作为核心基础算法采用,包括淘宝和京东、亚马逊。通过相关文献分[22,32],我们知道基于物品相似的协同过滤算法具有能挖掘细化的用户偏好、有明确推荐理由、推荐结果随用户行为实时变化等优势。

    具体的ICF可用余弦公式来度量相似度:

    c o s - s i m i , j = u C i j r u i r u j u C i j r u i 2 × u C i j r u j 2
    (1)

    式中, r 是评分, u 是用户, i j 是物品, C i j 是同时购买了物品 i j 的用户集合。

    也常利用可以考量图书质量的pearson相关系数法进行相似度计算:

    p e a - s i m i , j = u C i j ( r u i - r i ) ( r u j - r j ) u C i j ( r u i - r i ) 2 × u C i j ( r u j - r j ) 2
    (2)

    传统的ICF模型是通过捕捉用户图书之间的交互作用预测评分的。然而评分值除了和用户-图书的交互作用有关,还和用户自身相关,或者图书自身相关。如在一个全局平均分为7的系统中,用户“小明”对图书《推荐系统实践》打8分,小明对图书的要求比较低,他的打分几乎都是8分,对一本书打8分并不能体现他对这本书相对于其他书有更高的偏好,因此我们需要考虑 r ˙ u r u i 的差异,而《推荐系统实践》也是非常优秀的图书,它是一本比绝大部分图书都要好的图书,大多数用户也对其评9分,若一个用户对其打8分则可能反映其不那么喜欢《推荐系统实践》。

    因此我们引入偏置项的同时考虑这些评分差异。偏置是通过描述用户的严格程度和书籍的质量,使得模型能更好地拟合真实评分的参数项。偏置的优势在于采取了集体民主智慧的方式,采用用户集体评分的方式反映书籍内容的质量和用户的品位,并不需要区分书籍的类型或额外的用户自身信息。

    给定同时考虑了两种差异的评分偏置为 b u i ,而 b u i 和某款图书i的图书评分信息偏置为 b i b u i 和某个用户的评分偏置为 b u ,给定全部用户对全部图书的平均分为 μ ,则:

    b u i = μ + b i + b u
    (3)

    偏置 b i 实际上包含了和评分预测相关的图书质量因子, b u 则包含了和评分预测相关的用户因子。我们可以看出,这两个因子是独立的,并且有很强的对应关系,因而是可以解释的。具体来说,我们可以把偏置解释成偏好的阈值,即 r u i 必须比 b u i 高,而非比 μ 高,才能体现其喜欢这个作品或对这种类型的作品具有偏好。

    更重要的是,偏置本身代表的图书质量与用户评分尺度也可以是推荐的理由。我们可以在推荐该图书信息的理由中显示“因为您的要求较低”(用户偏置贡献高)或“因为此图书的用户口碑极好”(图书偏置贡献最高)。

    为了求得 b i b u ,完成对 b u i 的计算,我们需要最小化以下损失函数:

    m i n r u i ( ( r u i - ( μ + b i + b u ) ) 2 + λ ( b u 2 + b i 2 ) )
    (4)

    式中, r u i ( r u i - ( μ + b i + b u ) ) 2 是真实评分与预测评分的差值的平方和,用于反映预测值和真实值之间的差距,而 λ ( b u 2 + b i 2 ) 是L2正则化项,用于防止 b u i 过于接近真实评分,造成预测过拟合,λ是正则化项的调节参数。若λ变大,则正则化程度更深, b u i 则会相对于真实评分 r u i 更趋向于全局平均值μ

    求解损失函数最小值可以使用交替最小二乘法(alternative liner square,ALS)。ALS求解损失函数具体做法如下。

    首先,初次计算单个图书评分偏移项 b i

    b i = r u i r u i - μ λ 2 + N u
    (5)

    式中,λ2为正则化因子,防止过拟合;N(u)为推荐系统中的用户个数。

    随后计算单个用户user的偏移项 b u

    b u = r u i r u i - μ - b i λ 3 + N i
    (6)

    之后开始第二轮的迭代,计算新的 b i ,命名为 b ' i ,公式(4)更新为

    b i ' = r u i r u i - μ - b u λ 2 + N u
    (7)

    计算完成后,更新 b u 计算公式中的 b i b ' i ,得到 b ' u ,即下一轮的 b u 。并且把公式(6)、公式(7)交替使用,循环迭代,每一轮的 b u 作为下一轮 b i 的计算因子,同时 b i 也作为下一轮 b u 的计算因子。需要说明的是,式(5)和式(6)中的λ2λ3也是正则化参数,防止形成过拟合的现象。另外由于公式(7)是由公式(5)迭代而来,因此2个公式中的正则化因子是一样的。

    在计算完成后,结合我们定义给出的公式(3),即得到了我们的偏置 b u i ,考虑偏置的基于项目相似的协同过滤定义如下:

    b a s - s i m i , j = u C i j ( r u i - b u i ) ( r u j - b u j ) u C i j ( r u i - b u i ) 2 × u C i j ( r u j - b u j ) 2
    (8)

    利用式(8),我们根据每个用户对每个物品的针对偏移,能得到更为准确的相似度。

    需要说明的是,计算偏置会额外消耗计算资源,但是时间的复杂度并没有明显上升,ICF的时间复杂度为O(I2),ALS计算偏置的时间复杂度为O(rui),远小于ICF,因此公式(8)的时间复杂度仍然为O(I2)。并且在实际的商业应用中,一般可以采取和基本的ICF算法一样离线计算相似度矩阵和预测评分的方法,将各个物品相似度矩阵提前生成并保存,在需要的时候马上调取并计算用户的推荐列表,并将结果呈现给用户,从而实现较好的实时性。

    在经过偏置改进后,我们在预测未知评分时也需要得到相对应的更改:

    r ˆ u i = μ + b i + b u + j N u k i b a s s i m i , j × r u j - b u j j N u k i b a s s i m i , j
    (9)

    -

    -

    式中,bas-sim(i,j)为使用改进后的公式(8)计算的相似度, N u k ( i ) 指与i最相似的 k 个图书。结合相似度公式bas-sim和预测评分公式,可以得到本文的算法bas-ICF。

  • 2.3 bas-ICF算法的可解释性

    2.3

    推荐模型是推荐方案与步骤的完整准确描述,其中推荐算法是核心,算法的可解释性会对模型产生决定性影响。而推荐算法的可解释性体现在:依照该算法产生的推荐结果具有明确合理的推荐理由。本文先假设推荐系统中具有XY等大量书籍,并具有大量的用户,其中一个为用户A

    根据ICF算法[公式(1)],XY的相似度是由大量用户的共同评分所决定的,并且公式(1)是一个以加号连接的公式,每一个加号之间的因子都与一本书籍对预测评分的贡献严格对应。因此,若XY具有较高的相似度,而AX作出了较高的评分,使得公式(1)中X书籍因子的贡献最大,则给用户A推荐书籍Y的理由为“因为您喜欢X”。图1以假设的用户A、被评分的3本书籍以及与之相似的另外3本书籍为例,说明cos-ICF算法产生推荐理由的过程,其中用户与所评分书籍之间连线的数字表示用户A的评分,用户评分书籍与被推荐书籍之间连线的数字表示经过cos-ICF算法计算的相似度。

    而著名电商淘宝、亚马逊等则采用了列出关联书籍作为推荐理由:“购买了以下书籍的用户还购买了……”图2说明了淘宝、亚马逊等的推荐系统产生推荐理由的过程。

    同时,本文的bas-ICF算法也是可以解释的。我们从预测评分公式(9)可以看出,每一个过去的真实评分以及两个偏置对预测评分的影响都是分离的,贡献度最大项依然可以作为推荐的理由。具体来说,预测评分公式(9)是一个以加号连接起来的公式,其中每一个加号之间都是对评分有贡献的因子,这些因子包括了全局平均分、用户偏置因子、书籍偏置因子、相似书籍X对预测评分贡献因子、相似书籍Y对预测评分贡献因子……这些因子,除了全局平均分外,都可以作为被推荐书籍的推荐原因。同时,结合前文叙述过的,用户偏置反映了用户对图书的质量要求,图书偏置反映了图书的质量,当用户偏置和图书偏置对预测评分的贡献最大时,可以在推荐的理由中显示“因为您的要求较低”(用户偏置贡献高)或“因为此图书的用户口碑极好”(图书偏置贡献最高),可以使用公式(9)各个因子中对评分贡献最大的作为推荐理由。图3说明了bas-ICF算法产生推荐理由的过程。

    对比三种算法和解释方式,可以看出,bas-ICF推荐理由的合理性和丰富度都更高。如图1中cos-ICF对《用Python进行数据分析》的推荐理由是用户喜欢《Python入门教程》,但是实际上,对于用户A来说,评7分并不意味着他喜欢这本书,而更多的是因为《用Python进行数据分析》这本书本身质量更好。对于千篇一律的因为用户喜欢某书籍,或购买了某书籍的用户也购买了某书籍的推荐系统来说,加入用户要求较低、书籍质量较高两个理由的推荐理由显然更丰富。

    图1
                            cos-ICF算法推荐的可解释性

    图1 cos-ICF算法推荐的可解释性

    图2
                            淘宝、亚马逊推荐的可解释性

    图2 淘宝、亚马逊推荐的可解释性

    图3
                            bas-ICF算法推荐的可解释性

    图3 bas-ICF算法推荐的可解释性

  • 2.4 bas-ICF算法实时性

    2.4

    bas-ICF算法的实时性主要体现在两个方面:一是用户有推荐需求时,能在极短时间内提供推荐列表,这主要是通过事先将物品间的相似度矩阵提前计算并存放在内存中解决的;而另外一方面,当一名新用户进入系统,或是旧用户进行了新的评分时,可以马上为用户推荐与该图书相似的其他图书,无须重新计算相似度或更新相似度矩阵。也就是说,只要用户的行为表现出对系统中某图书的偏好,一定会马上导致推荐列表的改变,具有极强的实时性。

    在用户有新评分变化、推荐列表能实时变化的同时,我们需要注意到,一本新书籍进入系统,因为没有和任何其他已经存在于系统的书籍有相似度,需要一定时间积累评分记录和重新计算相似度矩阵。但是,这个弱点在实际情况中往往不会有太大的影响,原因有三个:一是书籍之间的相似度是相对稳定的,并不会有明显变化,而用户的偏好则会随时间改变;二是推荐系统能对新用户进行推荐,或旧用户进行新评分后用户推荐列表产生变化,这对用户体验的提升是巨大的,也有利于推荐系统的生命周期发展,而新物品能不能马上出现在推荐系统的影响则相对较小;三是对于相对稳定的书籍来说,等待一段时间积累数据再被推荐是合理的,并不会出现计算完相似度矩阵的短时间内,书籍之间相似度显著变化,使得相似度矩阵需要马上重新计算的情况。

  • 3 评测指标与实验

    3
  • 3.1 评测指标

    3.1

    评分预测是对用户的商品评分进行预测,其预测准确度指标一般为均方根误差(RMSE)。RMSE是电影厂商Netflix在举办的Netflix Prize比赛中提出的评判标准,是在MAE的基础上大幅增加了预测误差较大的评分的影响。其具体计算公式如下:

    R M S E = r u i ( r ˆ u i - r u i ) 2 N ( r u i )
    (10)

    式中, N ( r u i ) 指全部评分的个数。从公式中可以看出,RMSE>0,且RMSE越小说明算法表现越好。

  • 3.2 数据与实验

    3.2

    本文使用的数据为Book-Crossing数据集,包含了由278858个用户对271379种不同ISBN号图书的1149780条行为与评分记录,评分范围是1~10,本文抽取其中的评分数据并筛选评分次数超过5次的书籍和用户作为实验数据。

    本文第2节改良后的算法记为bas-ICF,为了方便之后的实验描述,我们先给定多次测试优化后此算法需要的参数:λ等于0.02,λ2为5,λ3为20,迭代30轮求 b u i 。作为对比,我们使用了PMF算[33]、ISMF算[34]、CIMF算[35]、mDA-CF[36]算法和mSDA-CF[36]算法,按照文献[36]对模型的设定,通过RMSE进行对比。把预处理后的数据随机分为5等份,用其中1份数据作为测试集,其他4份数据作为训练集,并且相互轮换作为测试集的数据,作交叉检验,分别计算其RMSE。

    从表2中不难看出,bas-ICF的RMSE比其他优秀的推荐方法表现明显更佳,这是因为bas-ICF除了挖掘用户对图书打分行为的交互因素,也考虑了图书本身固有的质量因素和用户本身表2的要求标准因素,并利用了2个独立的偏置表达出来,预测更为精确。

    表2 各个算法的实验结果

    algorithmPMFISMFCIMFmDA-CFmSDA-CFbas-ICF
    RMSE(d=50)3.74523.74153.73723.65283.65133.2850
    RMSE(d=10)3.74833.74403.73983.66103.65923.3693
    表2
                    各个算法的实验结果

    同时,PMF算法、ISMF算法和CIMF算法在用户产生了新的行为后,都需要先更新迭代整个矩阵模型,才能产生新的推荐结果,难以做到推荐结果的实时变化;而mDA-CF算法和mSDA-CF算法的特征因子在经过神经网络的特征变换后,不再对应原来的用户与物品特征,失去了作为推荐结果的解释理由的能力;经过前文的论述,bas-ICF则能同时做到较好的可解释性和实时性。

    结合准确度的实验和前文的分析,可以得出,本文引入的偏置因子能独立地表示图书质量和用户评分的因子,这不但在算法上提升了推荐的准确度,也很好地维持了推荐过程的实时性,并且能作为解释推荐结果的依据,丰富了推荐理由的丰富度和合理性,更好地提升用户体验,从长远来看,能更好地达到推荐系统的运营目的和方便进一步推荐的效果。

  • 4 总 结

    4

    本文采用以基于物品相似的协同过滤算法为基础,并引入偏置的方式,结合了偏置本身的含义和每本相似图书对预测评分的贡献,丰富了推荐的理由,使得推荐的可解释性有了一定的提升,改善了推荐系统带给用户的体验。综上所述,本文的算法具有以下一些优势:

    (1)可解释。本文的算法bas-ICF对比cos-ICF在推荐理由的丰富度、合理度方面都更加优秀。

    (2)实时性。bas-ICF算法的实时性主要体现在两个方面:一是用户有推荐需求时,能在极短时间内提供推荐列表;二是只要用户的行为表现出对系统中某图书的偏好,一定会马上导致推荐列表的改变,具有极强的实时性。

    (3)准确性。本文的改进主要是利用前面计算的偏置 b u i 对ICF进行改进。原本的余弦或皮尔逊相关系数中,都忽视了图书与用户本身的部分信息,而通过ALS算法计算得到的 b u i 则同时考虑了两方面的因素,考虑了更多的信息,因而能提升准确度。

    值得注意的是,本文的算法并不是只能用于书籍推荐,也可以用于互联网或其他信息情报推荐的相关应用场景,如电商、社交、社区等。本文的后续工作将结合其他场景的特性进一步落实和优化算法效果。

  • 参 考 文 献

    • 1

      赵蓉英, 余波. 国际数据挖掘研究热点与前沿可视化分析[J]. 现代情报, 2018, 38(6): 128-137.

    • 2

      Tintarev N, Masthoff J. A survey of explanations in recommender systems[C]// Proceedings of the 23rd International Conference on Data Engineering Workshop. IEEE, 2007: 801-810.

    • 3

      Tintarev N, Masthoff J. Designing and evaluating explanations for recommender systems[M]// Recommender Systems Handbook. Springer, 2011: 479-510.

    • 4

      Cheng H T, Koc L, Harmsen J, et al. Wide & deep learning for recommender systems[C]// Proceedings of the 1st Workshop on Deep Learning for Recommender Systems. New York: ACM Press, 2016: 7-10.

    • 5

      He X N, Liao L Z, Zhang H W, et al. Neural collaborative filtering[C]// Proceedings of the 26th International Conference on World Wide Web. International World Wide Web Conferences Steering Committee, 2017: 173-182.

    • 6

      Shan Y, Hoens T R, Jiao J, et al. Deep crossing: Web-scale mod¬eling without manually crafted combinatorial features[C]// Pro¬ceedings of the 22nd ACM SIGKDD International Conference on Knowledge Discovery and Data Mining. New York: ACM Press, 2016: 255-262.

    • 7

      Gong Y Y, Zhang Q. Hashtag recommendation using attention-based convolutional neural network[C]// Proceedings of the Twenty-Fifth International Joint Conference on Artificial Intelli¬gence. Palo Alto: AAAI Press, 2016: 2782-2788.

    • 8

      Kim D, Park C, Oh J, et al. Convolutional matrix factorization for document context-aware recommendation[C]// Proceedings of the 10th ACM Conference on Recommender Systems. New York: ACM Press, 2016: 233-240.

    • 9

      Sohail S S, Siddiqui J, Ali R. Book recommendation system using opinion mining technique[J]. Proceedings of the IEEE, 2013: 1609-1614.

    • 10

      王晓耘, 赵菁, 徐作宁. 基于社会化标注的用户兴趣发现及个性化推荐研究[J]. 现代情报, 2018, 38(7): 67-73, 80.

    • 11

      汤妙吉. 面向个性化信息服务的图书馆移动用户行为分析模型设计[J]. 现代情报, 2018, 38(1): 121-126.

    • 12

      Bilgic M, Mooney R J. Explaining recommendations: Satisfaction vs. promotion[C]// Beyond Personalization 2005: A Workshop on the Next Stage of Recommender Systems Research at the 2005 International Conference on Intelligent User Interfaces. 2005: 13-18.

    • 13

      Herlocker J L, Konstan J A, Riedl J. Explaining collaborative filtering recommendations[C]// Proceedings of the 2000 ACM Conference on Computer Supported Cooperative Work. New York: ACM Press, 2000: 241-250.

    • 14

      O’Donovan J, Smyth B. Trust in recommender systems[C]// Proceedings of the 10th International Conference on Intelligent User Interfaces. New York: ACM Press, 2005: 167-174.

    • 15

      Mooney R J, Roy L. Content-based book recommending using learning for text categorization[C]// Proceedings of the Fifth ACM Conference on Digital Libraries. New York: ACM Press, 2000: 195-204.

    • 16

      Yu C, Lakshmanan L V S, Ameryahia S. Recommendation diversification using explanations[C]// Proceedings of IEEE International Conference on Data Engineering. IEEE Computer Society, 2009: 1299-1302.

    • 17

      Kuroiwa T, Bhalla S. Dynamic personalization for book recom¬mendation system using Web services and virtual library enh¬ancements[C]// Proceedings of IEEE International Conference on Computer and Information Technology. IEEE, 2007: 212-217.

    • 18

      Deshpande M, Karypis G. Item-based top-n recommendation algorithms[J]. ACM Transactions on Information Systems, 2004, 22(1): 143-177.

    • 19

      张永锋. 个性化推荐的可解释性研究[D]. 北京: 清华大学, 2016.

    • 20

      Zhang Y, Lai G, Zhang M, et al. Explicit factor models for ex¬plainable recommendation based on phrase-level sentiment analysis[C]// Proceedings of the 37th International ACM SIGIR Conference on Research & Development in Information Retrieval. New York: ACM Press, 2014: 83-92.

    • 21

      王晓腾. 考虑评论的矩阵分解推荐算法研究[D]. 成都: 电子科技大学, 2018.

    • 22

      项亮. 推荐系统实践[M]. 北京: 人民邮电出版社, 2012: 59-62.

    • 23

      Koren Y, Bell R, Volinsky C. Matrix factorization techniques for recommender systems[J]. Computer, 2009, 42(8): 30-37.

    • 24

      Phelan O, McCarthy K, Smyth B. Using twitter to recommend real-time topical news[C]// Proceedings of the Third ACM Con¬ference on Recommender Systems. New York: ACM Press, 2009: 385-388.

    • 25

      [Song Y, Zhuang Z, Li H, et al. Real-time automatic tag recommendation[C]// Proceedings of the 31st Annual International ACM SIGIR Conference on Research and Development in Information Retrieval. New York: ACM Press, 2008: 515-522.

    • 26

      Si X, Sun M. Tag-LDA for scalable real-time tag recommenda¬tion[J]. Journal of Information and Computational Science, 2009, 6(2): 1009-1016.

    • 27

      Diaz-Aviles E, Drumond L, Schmidt-Thieme L, et al. Real-time top-n recommendation in social streams[C]// Proceedings of the Sixth ACM Conference on Recommender Systems. New York: ACM Press, 2012: 59-66.

    • 28

      黄训蓬. 增量矩阵分解中线性特征变换的研究与应用[D]. 合肥: 中国科学技术大学, 2018.

    • 29

      Abbar S, Amer-Yahia S, Indyk P, et al. Real-time recommenda¬tion of diverse related articles[C]// Proceedings of the 22nd In¬ternational Conference on World Wide Web. New York: ACM Press, 2013: 1-12.

    • 30

      雷震. 基于聚类的个性化推荐算法研究[D]. 成都: 电子科技大学, 2013.

    • 31

      徐键. 协同过滤中数据稀疏问题与推荐实时性的研究[D]. 兰州: 兰州大学, 2016.

    • 32

      Koren Y. Factorization meets the neighborhood: a multifaceted collaborative filtering model[C]// Proceedings of the 14th ACM SIGKDD International Conference on Knowledge Discovery and Data Mining. New York: ACM Press, 2008: 426-434.

    • 33

      Salakhutdinov R, Mnih A. Probabilistic matrix factorization[C]// Proceedings of the International Conference on Neural Information Processing Systems. Curran Associates Inc., 2007: 1257- 1264.

    • 34

      Ma H. An experimental study on implicit social recommenda¬tion[C]// Proceedings of the 36th International ACM SIGIR Con¬ference on Research and Development in Information Retrieval. New York: ACM Press, 2013: 73-82.

    • 35

      Li F F, Xu G D, Cao L B. Coupled item-based matrix factoriza¬tion[C]// Proceedings of the International Conference on Web In¬formation Systems Engineering. Cham: Springer, 2014, 8786: 1-14.

    • 36

      Li S, Kawale J, Fu Y. Deep collaborative filtering via marginal¬ized denoising auto-encoder[C]// Proceedings of the 24th ACM International on Conference on Information and Knowledge Management. New York: ACM Press, 2015: 811-820.

余以胜

机 构:华南师范大学经济与管理学院,广州 510000

Affiliation:Department of Economics and Management, South China Normal University, Guangzhou 510000

邮 箱:359239030@qq.com

作者简介:余以胜,男,1975年生,博士,副教授,硕士生导师,主要研究方向为电子商务与信息经济,E-mail:359239030@qq.com

韦锐

机 构:广州赛宝腾睿信息科技有限公司,广州 510000

Affiliation:Guangzhou CEPREI Tengrui Information Technology Co. Ltd, Guangzhou 510000

作者简介:韦锐,男,1993年生,硕士,主要研究方向为推荐系统与机器学习

刘鑫艳

机 构:华南师范大学经济与管理学院,广州 510000

Affiliation:Department of Economics and Management, South China Normal University, Guangzhou 510000

作者简介:刘鑫艳,女,1992年生,硕士,主要研究方向为个性化推荐、文献计量学。

车 尧

角 色:责任编辑

Role:Executive editor

问题引入技术或方法
准确性引入偏置
实时性采用ICF算法为基础
可解释性采用ICF算法并利用偏置进行解释
1000-0135-2019-02-209/alternativeImage/2a647d0e-ee32-46c9-8b59-09181deaef46-F001.jpg
1000-0135-2019-02-209/alternativeImage/2a647d0e-ee32-46c9-8b59-09181deaef46-F002.jpg
1000-0135-2019-02-209/alternativeImage/2a647d0e-ee32-46c9-8b59-09181deaef46-F003.jpg
algorithmPMFISMFCIMFmDA-CFmSDA-CFbas-ICF
RMSE(d=50)3.74523.74153.73723.65283.65133.2850
RMSE(d=10)3.74833.74403.73983.66103.65923.3693

表1 推荐系统的问题及解决方法

图1 cos-ICF算法推荐的可解释性

图2 淘宝、亚马逊推荐的可解释性

图3 bas-ICF算法推荐的可解释性

表2 各个算法的实验结果

image /

无注解

无注解

无注解

无注解

无注解

  • 参 考 文 献

    • 1

      赵蓉英, 余波. 国际数据挖掘研究热点与前沿可视化分析[J]. 现代情报, 2018, 38(6): 128-137.

    • 2

      Tintarev N, Masthoff J. A survey of explanations in recommender systems[C]// Proceedings of the 23rd International Conference on Data Engineering Workshop. IEEE, 2007: 801-810.

    • 3

      Tintarev N, Masthoff J. Designing and evaluating explanations for recommender systems[M]// Recommender Systems Handbook. Springer, 2011: 479-510.

    • 4

      Cheng H T, Koc L, Harmsen J, et al. Wide & deep learning for recommender systems[C]// Proceedings of the 1st Workshop on Deep Learning for Recommender Systems. New York: ACM Press, 2016: 7-10.

    • 5

      He X N, Liao L Z, Zhang H W, et al. Neural collaborative filtering[C]// Proceedings of the 26th International Conference on World Wide Web. International World Wide Web Conferences Steering Committee, 2017: 173-182.

    • 6

      Shan Y, Hoens T R, Jiao J, et al. Deep crossing: Web-scale mod¬eling without manually crafted combinatorial features[C]// Pro¬ceedings of the 22nd ACM SIGKDD International Conference on Knowledge Discovery and Data Mining. New York: ACM Press, 2016: 255-262.

    • 7

      Gong Y Y, Zhang Q. Hashtag recommendation using attention-based convolutional neural network[C]// Proceedings of the Twenty-Fifth International Joint Conference on Artificial Intelli¬gence. Palo Alto: AAAI Press, 2016: 2782-2788.

    • 8

      Kim D, Park C, Oh J, et al. Convolutional matrix factorization for document context-aware recommendation[C]// Proceedings of the 10th ACM Conference on Recommender Systems. New York: ACM Press, 2016: 233-240.

    • 9

      Sohail S S, Siddiqui J, Ali R. Book recommendation system using opinion mining technique[J]. Proceedings of the IEEE, 2013: 1609-1614.

    • 10

      王晓耘, 赵菁, 徐作宁. 基于社会化标注的用户兴趣发现及个性化推荐研究[J]. 现代情报, 2018, 38(7): 67-73, 80.

    • 11

      汤妙吉. 面向个性化信息服务的图书馆移动用户行为分析模型设计[J]. 现代情报, 2018, 38(1): 121-126.

    • 12

      Bilgic M, Mooney R J. Explaining recommendations: Satisfaction vs. promotion[C]// Beyond Personalization 2005: A Workshop on the Next Stage of Recommender Systems Research at the 2005 International Conference on Intelligent User Interfaces. 2005: 13-18.

    • 13

      Herlocker J L, Konstan J A, Riedl J. Explaining collaborative filtering recommendations[C]// Proceedings of the 2000 ACM Conference on Computer Supported Cooperative Work. New York: ACM Press, 2000: 241-250.

    • 14

      O’Donovan J, Smyth B. Trust in recommender systems[C]// Proceedings of the 10th International Conference on Intelligent User Interfaces. New York: ACM Press, 2005: 167-174.

    • 15

      Mooney R J, Roy L. Content-based book recommending using learning for text categorization[C]// Proceedings of the Fifth ACM Conference on Digital Libraries. New York: ACM Press, 2000: 195-204.

    • 16

      Yu C, Lakshmanan L V S, Ameryahia S. Recommendation diversification using explanations[C]// Proceedings of IEEE International Conference on Data Engineering. IEEE Computer Society, 2009: 1299-1302.

    • 17

      Kuroiwa T, Bhalla S. Dynamic personalization for book recom¬mendation system using Web services and virtual library enh¬ancements[C]// Proceedings of IEEE International Conference on Computer and Information Technology. IEEE, 2007: 212-217.

    • 18

      Deshpande M, Karypis G. Item-based top-n recommendation algorithms[J]. ACM Transactions on Information Systems, 2004, 22(1): 143-177.

    • 19

      张永锋. 个性化推荐的可解释性研究[D]. 北京: 清华大学, 2016.

    • 20

      Zhang Y, Lai G, Zhang M, et al. Explicit factor models for ex¬plainable recommendation based on phrase-level sentiment analysis[C]// Proceedings of the 37th International ACM SIGIR Conference on Research & Development in Information Retrieval. New York: ACM Press, 2014: 83-92.

    • 21

      王晓腾. 考虑评论的矩阵分解推荐算法研究[D]. 成都: 电子科技大学, 2018.

    • 22

      项亮. 推荐系统实践[M]. 北京: 人民邮电出版社, 2012: 59-62.

    • 23

      Koren Y, Bell R, Volinsky C. Matrix factorization techniques for recommender systems[J]. Computer, 2009, 42(8): 30-37.

    • 24

      Phelan O, McCarthy K, Smyth B. Using twitter to recommend real-time topical news[C]// Proceedings of the Third ACM Con¬ference on Recommender Systems. New York: ACM Press, 2009: 385-388.

    • 25

      [Song Y, Zhuang Z, Li H, et al. Real-time automatic tag recommendation[C]// Proceedings of the 31st Annual International ACM SIGIR Conference on Research and Development in Information Retrieval. New York: ACM Press, 2008: 515-522.

    • 26

      Si X, Sun M. Tag-LDA for scalable real-time tag recommenda¬tion[J]. Journal of Information and Computational Science, 2009, 6(2): 1009-1016.

    • 27

      Diaz-Aviles E, Drumond L, Schmidt-Thieme L, et al. Real-time top-n recommendation in social streams[C]// Proceedings of the Sixth ACM Conference on Recommender Systems. New York: ACM Press, 2012: 59-66.

    • 28

      黄训蓬. 增量矩阵分解中线性特征变换的研究与应用[D]. 合肥: 中国科学技术大学, 2018.

    • 29

      Abbar S, Amer-Yahia S, Indyk P, et al. Real-time recommenda¬tion of diverse related articles[C]// Proceedings of the 22nd In¬ternational Conference on World Wide Web. New York: ACM Press, 2013: 1-12.

    • 30

      雷震. 基于聚类的个性化推荐算法研究[D]. 成都: 电子科技大学, 2013.

    • 31

      徐键. 协同过滤中数据稀疏问题与推荐实时性的研究[D]. 兰州: 兰州大学, 2016.

    • 32

      Koren Y. Factorization meets the neighborhood: a multifaceted collaborative filtering model[C]// Proceedings of the 14th ACM SIGKDD International Conference on Knowledge Discovery and Data Mining. New York: ACM Press, 2008: 426-434.

    • 33

      Salakhutdinov R, Mnih A. Probabilistic matrix factorization[C]// Proceedings of the International Conference on Neural Information Processing Systems. Curran Associates Inc., 2007: 1257- 1264.

    • 34

      Ma H. An experimental study on implicit social recommenda¬tion[C]// Proceedings of the 36th International ACM SIGIR Con¬ference on Research and Development in Information Retrieval. New York: ACM Press, 2013: 73-82.

    • 35

      Li F F, Xu G D, Cao L B. Coupled item-based matrix factoriza¬tion[C]// Proceedings of the International Conference on Web In¬formation Systems Engineering. Cham: Springer, 2014, 8786: 1-14.

    • 36

      Li S, Kawale J, Fu Y. Deep collaborative filtering via marginal¬ized denoising auto-encoder[C]// Proceedings of the 24th ACM International on Conference on Information and Knowledge Management. New York: ACM Press, 2015: 811-820.