基于灰色关联聚类的协同过滤推荐算法
2024-10-18
来源:威能网
第27卷 第1期 2018年1月 运 筹 与 管 理 OPERATIONS RESEARCH AND MANAGEMENT SCIENCE Vo1.27,No.1 Jan.20l8 基于灰色关联聚类的协同过滤推荐算法 陶维成 , 党耀国 (1.南京航空航天大学经济与管理学院,江苏南京210016;2.芜湖职业技术学院信息工程学院,安徽芜湖241006) 摘要:针对协同过滤推荐系统具有数据的高稀疏,高维度,数据量大的特点,本文将灰色关联聚类与协同过虑推 荐算法相结合,构建了灰色关联聚类的协同过滤推荐算法,将其应用到协同过滤推荐系统中,以解决数据具有高稀 疏高维度的特性情况下的个性化推荐质量问题。首先,定义了推荐系统中的用户项目评分矩阵,用户灰色绝对关 联度,用户灰色相似度,用户灰色关联聚类。然后,给出了灰色关联聚类的协同过滤推荐算法的计算方法和步骤, 同时给出了评价推荐质量方法。最后,将本文算法与基于余弦,相关分析及修正的余弦等协同过滤推荐算法在大 小不同的数据集下进行了实验,实验表明灰色关联聚类的协同过滤推荐算法相较于传统的协同过滤推荐方法具有 推荐质量高,计算量小,对数据大小要求不高等优点,同时在推荐系统的冷启动,稳定性和计算效率方面也具有一 定的优势。 关键词:灰色关联聚类;协同过滤;推荐质量;灰色相似度 中图分类号:TP301.6文章标识码:A文章编号:1007 3221(2018)01.0084—05 doi:10.12005/orms.2018.0013 Collaborative Filtering Recommendation Algorithm Based on G rey Incidence Clustering TAO Wei Cheng。一.DANG Yao.guo (1.College of Economics and Management,Nanjing University of Aeronautics and Astronautics,Nanjing 2 1 00 1 6, China;2.Wuhu Institute of Technology,Wuhu 24 1 006,China) Abstract:In view of the collaborative filtering recommendation system having the characteristics of high data sparse,high dimension,mass data,combining grey incidence clustering with collaborative filtering recommenda— tion algorithm,we have proposed collaborative filtering recommendation algorithm based on grey incidence cluste— ring which can be applied to collaborative filtering recommendation system for resolving the problem of high sparse data,high—dimensional data,mass data and personalized recommendation quality.Firstly,we present the definitions of user item rating matrix in recommendation system,user grey absolute correlation,user grey similar— ity,user grey incidence clustering.Secondly,computational method and procedure of the collaborative filtering recommendation algorithm with grey incidence clustering,and its evaluation have been presented,and further— more,the evaluation recommendation quality method is also been given.Lastly,our algorithm compares with the collaborative filtering recommendation algorithm,such as based on cosine,correlation analysis and modified cosine in different scale of data sets,experiment results indicate that our algorithm,compared with the traditional collaborative filtering recommendation method,has the advantages of the high recommended quality,small amount of calculation and the data size requirement being not high.In addition,our algorithm has some advanta— ges in the cold start,stability and computational eficiency of the recommended system.f Key words:grey incidence clustering;collaborative filtering;recommended quality;grey similarity 到相似的用户,实现向用户推荐其感兴趣的和所 0 引言 推荐系统是建立在用户、项目,以及用户对项 目的评价信息的基础上,对其进行处理、挖掘,找 需要的项目。推荐系统的数据往往是海量数据,但 就某一个用户或项目的个体而言,信息相对缺乏、 稀缺,不完整和不确定性,导致现有的方法和算法 往往不能有效地实现个性化推荐功能或者不能满 收稿日期:2015—12.18 基金项目:国家自然科学基金项目(7l邮1∞7,71171116,71371098);安徽省高等学校质量工程项目(2012zy087,2012sjjd047,2013jyxr ̄r317) 作者简介:陶维成(1972-),男,安徽无为人,副教授,博士生,主要研究方向:灰色系统理论及应用;党耀国(1964.),男,河南驻马店人 教授,博士生导师,主要研究方向:灰色系统理论。 第1期 陶维成,等:基于灰色关联聚类的协同过滤推荐算法陶维成 85 足用户真正的智能化需求和有效发现用户偏好。 目前推荐系统广泛应用于电子商务、社会化站点 等。文献…的灰色系统理论,是一种研究少数据、 贫信息不确定性问题的方法,主要通过对“部分” 已知信息的生成、开发,提取和挖掘有价值的信 息,实现对系统运行行为、演化规律的正确描述。 现实世界不确定性系统的普通存在决定了灰色系 统理论具有十分宽广的应用领域。 推荐系统的核心技术是推荐算法,其中协同 过滤技术是一种重要的推荐算法,当前它被广泛应 用在推荐系统中。自1992年Goldberg D等人在文 献 中提出协同过滤推荐技术以来,推荐系统以 基于用户个人兴趣并为其提供定制信息。协同过 滤旨在通过用户,项目以及用户根据自身偏好对 项目的评价基础上,通过相似用户来预测邻居用 户对项目的偏好程度,从而实现将项目推荐给用 户 。为此,人们分别采用不同技术,从不同角度 来实现协同过滤技术,以期提高个性化推荐质量。 文献 通过分析语义相似性来实现对商品的隐性 评分。在用户兴趣度方面,文献 采用包括协同 过滤在内的多种推荐技术相融合来获取用户兴趣, 文献 对传统的协同过滤算法的相似性度量方法 进行改进,修正用户偏好数学期望预测模型,提 出一种面向用户偏好的属性值评分分布协同过滤 推荐算法。文献 针对用户兴趣特征,给出了混 合模式推荐方法,从而得出用户的综合相似度。 文献 提出了基于遗忘函数和邻域最近邻的混合 推荐方法。在用户集聚和聚类方面,文献 分析 了用户集聚系数对协同过滤算法的影响,文献¨ 给出了一种基于用户聚类的协同过滤推荐算法。 在电子商务方面,文献… 从一个分类的视角出 发,对电子商务中的数据稀疏性进行了研究。 聚类目标之一需要找到某种特征的相似性,从 而解决相应的问题。在灰色关联聚类方面,文 献¨ 提出了一种基于灰色关联聚类的特征提取算 法,利用灰色关联度作为动态聚类欧氏距离的思 想,构建灰色关联聚类特征提取模型,在发动机故 障诊断方面,可以提取特征传感器,使核与约简更 精确。文献¨ 针对面板数据聚类研究存在的问题 及现实需要,构建面板数据下新的灰色指标关联聚 类(AGRA)模型,应用于我国区域生态环境评价指 标的降维问题。文献¨ 为解决组织力量的全局优 化配置问题,建立基于灰色关联聚类的宏观人力资 源优化模型,之后引入多目标粒子群优化算法探讨 模型求解方法和人力资源配置步骤。 在基于协同过滤推荐系统中,对于发现相似用 户问题上,人们试图通过各种方法来发现相似用 户,以实现真正意义的个性化服务和智能推荐功 能。本文将灰色关联聚类与协同过虑推荐算法相 结合,构建了灰色关联聚类的协同过滤推荐算法, 运用到协同过滤推荐系统中,在推荐系统中定义了 用户项目评分矩阵,用户灰色相似度,用户灰色关 联聚类,给出了算法计算方法和步骤。实验表明 基于灰色关联聚类的协同过滤推荐算法相较于传 统的协同过滤推荐方法具有推荐质量高,计算量 小,对数据大小要求不高等优点。另外,在推荐系 统的冷启动,稳定性和计算效率方面也具有一定的 优势。 1 基于用户的灰色关联聚类 定义1 设有n个用户组成用户集U,U= {“ ,“:,…,u };m个项目(物品、商品等)组成项 目集A,A={n。,o:,…,o };用户对各项目的评分 值为 (i=1,2,…,n; =1,2,…,m),则用户对项 目评分矩阵为 ● ● ● ● R= m .一 m 定义2对用户“ ,“ ,称 一 + : 1 , :, (2)+ l+ 一Sj I’ ’ ’ _J’-’1,2,…, ’“ - ,为用户“ 到“ 的用户灰色绝对关联度。 m一1 1 m—l 其中:l s l=l∑ ( )+了1 (m)I,I Sj I=l∑xj(k) +÷ (m)l,l 一 l:I∑m-1(气( )一誓( )+了1( (m) 一 ?(m))I。 如果用户i与用户 相似度高,则8ij越大,s [0,1]。 定义3 由定义2计算出用户u 与 的 灰色绝对关联度,得上三角矩阵 r, l1 l2 … ln 。 I1 22 … 2n . . 1 · · 【 其中 =1(1=i,2,…,n),矩阵 称为用户特征 变量关联矩阵。 86 运 筹 与 管 理 2018年第27卷 取临界值r,r E(0.5,1],当8 ≥r(i≠ )时,则 视用户U 与u 具有同类特征。 户进行灰色关联聚类。在聚类时,根据邻居个数 KN的大小,确定临界r值的取值,得到用户u的最 近邻集合 。 定义4¨ 用户特征变量在临界值r下的分 类称为用户特征变量的r灰色关联聚类。 其中,r可根据实际推荐需求精度确定,当r越 接近于1时,分类越细,每一簇中的用户数相对越 少;反之,当r越接近于0时,分类越粗糙,推荐精 度受到影响,每一簇中的用户数相对越多。 定义5用户i与用户 的用户灰色相似度为: ● ● ● ● ● ● ∑sim(i, )×R (4)根据式 . = 量 户对项目的评分矩阵。 计算用户 对项目i的预测评分 。其中尺 ,为已知的用 (5)重复步骤(3)和步骤(4),计算目标用户u l — I S S ( , )= 一 _一 ●} (3). ,;m 1 2 根据(3)式计算n个用户相似度矩阵 , , 凡 凡 、isier(1,1)sier(1,2) F= sim(2,2) 文献 根据灰色关联度理论,用户间的几何 形状越接近,就认为他们之间的关联程度越大。 由此,在协同过滤中,通过建立用户间的灰色绝 对关联度,得到用户的相似度,根据给定的临界 值和聚类数对用户进行灰色关联聚类。对类中所 有用户排序,找到用户的最近邻居,根据最近邻 居对项目的已有评分值,计算其加权平均值,预 测出用户对项目的评分值,将预测评分值最高或 前TOP—N的项目向用户推荐 。 2灰色关联聚类的协同过滤推荐算法 灰色关联聚类的协同过滤推荐算法实现步骤 如下: 输入数据:用户一项目评分矩阵R。 输出结果:目标用户u预测评分最高的项目或 按预测评分升序排序的前n个项目(TOP—N推 荐)。 (1)数据预处理:设原始数据为用户,项目,评 分值(某一用户对某一个或多个项目的评分值,若 该用户没有对项目评分,则认为其评分值为0),将 原始数据化为用户一项目评分矩阵R0,并进一步对 R0进行处理,剔除评分个数少于给定数目(如20 个)项目的用户,剔除用户评分项目数小于给定数 目(如20个),剔除所有0向量,得到预处理后的 用户一项目评分矩阵为R。 (2)根据用户一项目评分矩阵R计算用户灰色 相似度sim(i,. )。 (3)由用户灰色相似度sim(i, )的大小,对用 对所有未评分项目的预测评分值。S . m n (6)对预测评分值进行排序,将预测评分值最 , 高的项目或前TOP—N项目推荐给该用户。 3实验及讨论 将本文的算法与基于余弦,相关分析及修正的 余弦等协同过滤推荐算法在大小不同的数据集下 进行实验对比分析。以MoiveLens数据集为基础, 将其分为相对较大和相对较小的两种数据集,以平 均绝对误差MAE(Mean Absolute Error)度量不同方 法的推荐质量。首先给出了数据集,评分等级,实 验方法,然后给出了推荐质量的评价方法。分两种 情况观察实验结果,其一,在大数集情况下的实验 结果;其二,在小数据集情况下的实验结果。 3.1实验数据集 本文实验数据集来自GroupLens(http://www. grouplens.org)研究团队提供的MoiveLens数据集, MoveLens是一个由用户和不同类型、年代的电影 及用户对电影评分构成的大型数据集,为世界研究 推荐算法的研究者和工业界提供实验数据。用户 对电影的评分由1~5构成5级评分,用户通过对 电影的评分表明用户的喜好程度,其中“1”为最差 的评分,“5”为最好的评分。本文选用的数据集大 小为10万条数据,共有943个用户,1682部电影 (项目),数据集随机分为训练集(train set)和测试 集(test set),比例为5:1。 由用户和项目构成的评分矩阵可知,矩阵的稀 疏程度为:1一 =0.9369533,由此表明此 数据集为极度稀疏数据集。 为了进一步验证本文算法在小数据情况下优 于现有的推荐算法,在同数据集中随机抽取100个 用户,200个项目,其中80个用户作为训练集数 据,20个用户作为测试集数据对本文的算法进行 了分析比较。 第1期 陶维成,等:基于灰色关联聚类的协同过滤推荐算法陶维成 87 3.2推荐质量评价方法 评价算法的推荐质量方法主要有统计精度方 法和决策支持方法 。其中,统计精度方法中的 平均绝对误差(MAE)是最常见的一种推荐质量评 价方法,为大多数研究者所采用。MAE方法通过 计算预测用户评分与实际用户评分之间的误差反 映推荐的准确性,MAE越小,说明预测值和实际值 相差越小,推荐效果越好,推荐质量也就越高。 设预测的用户评分集合为{P ,P:,…,P },对 应的实际用户评分集合为{q ,q ,…,q },则平均 绝对误差MAE定义为: MAE=旦∑I P —q一 l 其中,P 为用户i对项目的预测评分值,q 为用户i 对项目的实际评分值。 3.3 实验结果及与其它协同过滤算法b匕较分析 在大小不同的数据集下,以聚类数,平均绝对 误差(MAE)来比较本文的算法与其它算法在推荐 质量,计算效率,及对数据的要求(稀疏性,维度, 大小等)等方面的对比分析。 3.3.1 大数据集情况下的实验及比较分析 运用灰色关联聚类的协同过虑推荐方法,对基 于用户的的协同过滤在邻居数与聚类数方面进行 实验,实验结果表明在邻居数为30,聚类数为30 时,MAE达到最小。在聚类数为5时,趋势较平 稳,表明本文的算法对聚类数要求不高,这样在数 据划分时可适当减少聚类数目,从而提高算法效 率。实验结果如图1所示。 咕————盎———— ————右————击——— ——— ——— 。 尊■t 图1 灰色关联聚类的协同过滤算法的邻居数与聚类数分析 本文算法与传统的协同过滤方法进行比较,传 统的协同过滤方法主要有基于余弦相似度计算方 法,基于相关分析计算方法,以及修正的余弦方 法Ⅲ 。通过实验发现本文的方法比传统方法的 MAE要小,如图2所示。 麓毒 t讳囊鼙惯榴,e舯}v.尊芷蜘 晰麓户cF) —●一摹睫 宅■ +触 …÷ 相关分折 ’~●正柏囊 ∞ ∞ m 1∞ ● 嘿 图2协同过滤推荐算法的比较 通过上述实验,我们得出以下几点结果: (1)在邻居数较小(5个邻居)的情况下,本文 算法更具有优势,MAE较其它方法小,而且曲线平 稳下降。体现了灰色系统在少数据、贫信息方面的 优势,这样可有效解决推荐系统的冷启动问题。 (2)在邻居数达到8O的时候,呈现平稳趋势, 体现灰色系统的稳定性。 (3)推荐系统虽然面向海量大数据,但就某一 具体用户或项目而言,其数据往往表现出稀缺性, 信息贫乏,本文的算法体现出了灰色系统理论在数 据处理领域的优势。 3.3.2 小数据集情况下的实验及比较分析 本文在原有数据集的基础上,随机抽取了100 个用户,200个项目进行验证灰色关联聚类推荐算 法的质量,其中80个用户作为训练集数据,20个 用户作为测试集数据。 当邻居数为8,聚类数为5时,MAE达到最小; 当聚类数为3时,整体趋势较平稳且MAE较小,如 图3所示。 表色■,lcF棚}予用.一l _斗…■融_3 —._mllUlt-5 一~■E 囊-r —*~I 啦-’O 10 ’2 ’4 6 18 0 ■■t 图3小数据集情况下灰色关联聚类协同过滤推荐算法 88 运 筹 与 管 理 2018年第27卷 将本文的算法与传统的基于余弦的协同过滤 方法进行实验比较,结果如图4所示。从实验中我 们发现在数据量较小,且数据稀疏的情况下,灰色 关联聚类的协同过滤算法推荐质量优于传统基于 余弦相似度的协同过滤方法,即灰色关联聚类的协 同过滤算法的MAE小于基于余弦的协同过滤推荐 算法 图4 小数据集情况下本文算法与经典基于 余弦的协同过滤推荐算法比较 综合上述实验,本文的算法不仅在大数集上具 有较好的推荐质量,而且在小数据集方面推荐效果 也好于其它方法的推荐效果。另外,在推荐系统的 冷启动,稳定性,计算效率好于其它方法,同时,本 文的算法对数据的稀疏性,维度,大小等方面要求 不高。 4 结束语 本文将灰色关联聚类与协同过虑推荐算法相 结合,构建了灰色关联聚类的协同过滤推荐算法, 定义了用户项目评分矩阵,用户灰色相似度,给出 了算法实现步骤。给出了评价协同过滤推荐系统 的方法,在MoiveLens数据集上对聚类数,数据大 小,稀疏性等方面进行了实验。实验表明,本文算 法相较于传统的协同过滤推荐算法在推荐质量上 优于其它方法,同时,本文算法具有计算量小,对数 据大小要求不高等优点,从而有效地解决了的推荐 系统的冷启动问题。而当邻居数达到80时,本文 算法呈现平稳趋势,体现出对系统的稳定性。下一 步工作,运用灰色系统理论,对用户项目评分预测 上进行研究,以进一步提高推荐精度和效率。 参考文献: [1]刘思峰,党耀国,等.灰色系统理论与应用[M].第5 版.北京:科学出版社,2009. [2]Goldberg D,Nichols D,Oki B,Terry D.Using collabo— rative filtering to weave an information tapestry『J].Corn— munications of the ACM,1992,35(12):61-7O. [3]Sarwar B,Karypis G,Konstan J,Riedl J.Analysis of recommendation algorithms for e—commerce[C]. Proceedings of 2nd ACM con ̄rence on Electronic Com— merce,Minneapolis,Minnesota,USA:ACM,2000: l58一l67. [4]陈冬林,聂规划,刘平峰.基于网页语义相似性的商品 隐性评分算法[J].系统工程理论与实践,2006,(11): 98—102. [5]庞秀丽,冯玉强,姜维.电子商务个性化文档推荐技术 研究[J].中国管理科学,2008,16(专辑):581—586. [6]王茜,杨莉云,杨德礼.面向用户偏好的属性值评分分 布协同过滤算法[J].系统工程学报,2010,25(4): 561—568. [7]曹毅,贺卫红.基于用户兴趣的混合推荐模型[J]. 系统工程,2009,27(6):68-72. [8]朱国玮,周利.基于遗忘函数和领域最近邻的混合推 荐研究[J].管理科学学报,2012,15(5):55 64. [9]冷瑞,郭强,石珂瑞,刘建国.用户集聚系数对协同过滤 算法的影响研究[J].运筹与管理,2013,22(1):88—92. [1O]李涛,王建东,叶飞跃,等.一种基于用户聚类的协同 过滤推荐算法[J].系统工程与电子技术,2007,29 (7):1178—1182. [11]李聪,梁昌勇,杨善林.电子商务协同过滤稀疏性研 究:一个分类视角[J].管理工程学报,2011,25(1): 94—1O1. [12]鲁峰,黄金泉.基于灰色关联聚类的特征提取算法 [J].系统工程理论与实践,2012,32(4):872—876. [13]李雪梅,党耀国,王俊杰.面板数据下的灰色指标关 联聚类模型与应用[J].控制与决策,2015,30(8): 1447—1452. [14]贾天兵,刘思峰.基于灰色关联聚类的组织力量配置模 型研究[J].数学的实践与认识,2016,46(7):31 37. [15]党耀国,刘思峰,等.灰色预测与决策模型研究[M]. 北京:科学出版社,2010. [16]Karypis G.Evaluation of item—based top—N recommenda— tion algorithms[C].Proceedings of 1 0th international conference on Information and knowledge management. Atlanta,Georgia,USA:ACM,2001:245—254. [17]Sarwar B,Karypis G,Konstan J,Riedl J.Item—based collaborative filtering recommendation algorithms[c]. ACM WWW10.Hong Kong:ACM,2001:285—295.