基于迭代训练的Web+Service混合协同过滤推荐模型

2024-10-18 来源：威能网

计算机研究与发展ＪｏｕｒｎａｌｏｆＣｏｍｐｕｔｅｒＲｅｓｅａｒｃｈａｎｄＤｅｖｅｌｏｐｍｅｎｔＩｓｓＮ１０００一１２３９／ＣＮ１１—１７７７／ＴＰ５０（Ｓｕｐｐｌ．）：１５３—１６２，２０１３基于迭代训练的ＷｅｂＳｅｒｖｉｃｅ混合协同过滤推荐模型王斌斌周作建过洁潘金贵南京２１００４６）（计算机软件新技术国家重点实验室（南京大学）（南京大学计算机科学与技术系（ｙｅｗ．ｗａｎｇ．ｏｓ＠ｈｏｔｍａｉｌ．ｃｏｍ）南京２ｌ００４６）ＷｅｂＳｅｒｖｉｃｅＲｅｃｏｍｍｅｎｄａｔｉｏｎＢａｓｅｄＷａｎｇｏｎＩｔｅｒａｔｉＶｅＣｏｌＩａｂＯｒａｔｉＶｅＦｉＩｔｅｒｉｎｇＢｉｎｂｉｎ，ＺｈｏｕＺｕｏｊｉａｎ，ＧｕｏＪｉｅ，ａｎｄＰａｎＪｉｎｇｕｉ（Ｓｚｎ抛ＫｅｙＬｎ６０ｍ￡ｏ删如ｒＮｏｗｚＳＤ丘硼ｎｒＰｎ曲ｎｏｚｏｇｙ（Ｎｎ幻ｉｎｇＵ耐伽”ｎｙ），Ｎ口可ｉ挖ｇ２１００４６）（ＤＰ户口ｒ￡，７ｌｇ，ｌ￡Ｄ，ＣＤ研ｐｔ‘饱ｒＳｃｉＥ以ｃＰ鲫ｄＴ■如，ｌｏｆＤｇｙ，Ｎｎ巧锄ｇＵ疵御ｒｓｉ桫，Ｎｎ巧ｉ＂ｇ２１００４６）Ａｂｓｔｒ越ｔＷｉｔｈｔｈｅｅｘｐｌｏｓｉｖｅｇｒｏ叭ｈｔｏｏｆＷｅｂｓｅｒｖｉｃｅｓｏｎｔｈｅＷｏｒｌｄＷｉｄｅＷｅｂ，ｓｅｒｖｉｃｅｕｓｅｒｓ．ｒｅｃｏｍｍｅｎｄａｔｉｏｎＩｎｔｈｉｓｐａｐｅｒ，ｗｅｉｓｂｅｃｏｍｉｎｇｅｘｔｒｅｍｅｌｙｉｍｐｏｒｔａｎｔｐｒｏｐｏｓｅａｂｏｔｈｔｈｅｓｅｒｖｉｃｅｐｒｏｖｉｄｅｒｓａｎｄｔｈｅａｃｔｉｖｅＷｅｂｏｎｓｅｒｖｉｃｅｒｅｃｏｍｍｅｎｄａｔｉｏｎｍｏｄｅｌｗｈｉｃｈｕｔ订ｉｚｅｓｃｏｌｌａｂｏｒａｔｉｖｅｆｉｌｔｅｒｉｎｇｗｉｔｈｏｐｔｉｍｉｚｅｄｉｔｅｒａｔｉｏｎ．ｔｈａｔＳｉｎｃｅｉｓｔｈｅｐｒｅｄｉｃｔｉｏｎｏｆＱｕａｌｉｔｙ—ｏｆ—Ｓｅｒｖｉｃｅｓ（ＱｏＳ）ｂａｓｅｄＴｈｅｂｅｎｅｆｉｔｏｆｅｍｐｌｏｙｉｎｇｉｔｅｒａｔｉｏｎｉｎｃａｎｃｏｌｌａｂｏｒａｔｉｖｅｆｉｌｔｅｒｉｎｇｉｓｒｅｃｕｒｓｉｖｅｔｈｅｐｒｅｄｉｃｔｉｏｎａｃｃｕｒａｃｙｏｆＱｏＳｖａｌｕｅｓｓｕｃｈｉｔｅｒａｔｉｏｎｂａｓｅｄｏｎｂｅｒａｉｓｅｄｓｉｇｎｉｆｉｃａｎｔｌｙＶｉａａｒｅｆｉｎｅｍｅｎｔ．ｓｔｒａｔｅｇｙｓｃｈｅｍｅｗｉｌｌｈｉｎｄｅｒｔｒｅｅ．ｔｒａｉｎｉｎｇｐｅｒｆｏｒｍａｎｃｅ，ｔｈｅｓｅｔ，ｎｏｖｅｌｏｐｔｉｍｉｚａｔｉｏｎｉｎｔｒｏｄｕｃｅｄｔｏｔｈｅｐｒｅｄｉｃｔｉｎｇｏｎａＦｉｎａＵｙ，ｏｐｔｉｍｉｚｅｄｍｏｄｅｌｉｓｗｈｉｃｈｃｏｎｔａｉｎｓ１．５ｏｕｒｉｍｐｌｅｍｅｎｔｅｄａｎｄｄｅｐｌｏｙｅｄｍｉｌｌｉｏｎｃｏｎｄｕｃｔｔｈｅｅｘｐｅｒｉｍｅｎｔｓｒｅａｌ—ｗｏｒｌｄｄａｔａＷｅｂｓｅｒｖｉｃｅｓｉｎｖｏｃａｔｉｏｎｉｎｆｏｒｍａｔｉｏｎ．ａｃｃｕｒａｃｙＴｈｅｅｘｐｅｒｉｍｅｎｔａｌｒｅｓｕｌｔｓｓｈｏｗｔｈａｔｍｏｄｅｌｈａｓａｃｈｉｅｖｅｄｂｅｔｔｅｒｐｒｅｄｉｃｔｉｏｎＫｅｙｗｏｒｄｓｔｈａｎｏｔｈｅｒｍｏｄｅｌｓｗｉｔｈｓｉｍ订ａｒｐｅｒｆｏｒｍａｎｃｅ．ｔｒｅｅＷｅｂｓｅｒｖｉｃｅｒｅｃｏｍｍｅｎｄａｔｉｏｎ；ＱｏＳ；ｃｏｌｌａｂｏｒａｔｉｖｅｆｉｌｔｅｒｉｎｇ；ｉｔｅｒａｔｉｏｎ；ｐｒｅｄｉｃｔｉｎｇ摘要伴随着互联网技术的日益发展，海量数据的集成融合促进了大数据技术的广泛应用，尤其以面向服务为核心的ＷｅｂＳｅｒｖｉｃｅ技术被普遍用来提供新型互联网服务，这使得针对服务提供商及个人用户设计一种基于ＷｅｂＳｅｒｖｉｃｅ的个性化服务推荐系统变得十分必要．因此，提出一种基于混合协同过滤技术进行服务质量（ＱｏＳ）预测的服务推荐模型。该模型利用迭代训练的思想，不断提升服务质量预测值的准确率，并通过基于预测树（ＰＴｒｅｅ）的性能优化策略，有效地降低了迭代过程的运行时间．基于一个包含１５０万条ｗｅｂＳｅｒｖｉｃｅ调用信息的数据集，开展了一系列的对比分析实验．实验结果表明，相比于其他一些推荐模型，所提出的基于迭代训练的混合协同过滤推荐模型在消耗同等资源的情况下，能够有效地降低预测值的误差，提升模型整体的预测准确率．关键词Ｗｅｂ服务推荐；ＱｏＳ；协同过滤；迭代；预测树中图法分类号ＴＰ３９１随着大数据技术在互联网行业的广泛应用，以数据为中心的面向服务的体系架构（ｓｅｒｖｉｃｅｏｒｉｅｎｔｅｄ类型ＷｅｂＳｅｒｖｉｃｅ数量的急剧增加，用户难以通过人工方式找到适合自己需求的服务．此外，当一项新服务被推出时，服务提供商如何寻找到潜在的用户，并向他们推送新的服务成为一个非常有意义的问题．仔ａｒｃｈｉｔｅｃｔｕｒｅ，ＳＯＡ）促使ＷｅｂＳｅｒｖｉｃｅ技术被用来提供新型网络服务．然而，由于用户需求的多样化以及同收稿日期：２０１３—１１２６基金项目：江苏省自然科学基金项目（ＢＫ２０１０３７３）；江苏省普通高校研究生科研创新计划资助项目（ＣｘＺＺｌｌ一００４５）；计算机软件新技术国家重点实验室自主课题项目（ＺＺＫＴ２０１３８１１）万方数据细分析这２个问题可以发现，它们的核心都在于需要用户（ａｃｔｉｖｅｕｓｅｒ）对未调用的Ｗｅｂｓｅｎ，ｉｃｅ的性能做出评价，通过相应的评价结果做出进一步的决策．通常，一项服务的性能好坏由一系列指标组成服务质量（ｑｕａｌｉｔｙｏｆｓｅ而ｃｅ）来衡量，常见的质量指标包括：响应时间（ｒｅｓｐｏｎｓｅ－ｔｉｍｅ）、流通量（ｔｈｍｕｇｈｐｕｔ）及失败率（ｆａｉｌｕｒｅ－ｒａｔｅ）等［１］．通过对提供ＷｅｂＳｅｒｖｉｃｅ的站点及相关服务器日志进行统计分析，企业可以获取上述关于服务质量的相关数据，并通过对这些数据的分析挖掘解决服务推荐问题．然而，由于服务数量庞大，而单个用户调用的服务数量有限，使得可用的用户历史调用信息较为匮乏．此外，服务质量的各项指标均为实际的观测值，加之用户数量庞大、所处区域分散、网络状态复杂及隐私保护等原因，使得收集到的数据可信度、完整度均受限制．如何针对海量的、异构的稀疏数据进行分析，预测出用户对于未调用ＷｅｂＳｅｒｖｉｃｅ的ＱｏＳ值，成为一个非常有意义的问题［２］．在各种推荐技术中，协同过滤技术以其简单的实现过程及较高的准确率等特点，更适合于大数据背景下智能推荐系统的设计．较为常见的协同过滤推荐模型包括基于用户推荐、基于项目推荐及混合推荐等模型．然而，不管是基于用户的推荐模型还是基于项目的推荐模型都无法同时充分利用近似用户和近似项目的信息．因此，一些研究人员提出了混合协同过滤推荐模型来进一步提高预测值的准确率．但是这些混合模型普遍存在一个问题，即只执行一次训练过程．基于上述研究工作，为了能够获得较高的准确率，本文提出一种基于迭代训练的混合协同过滤推荐模型，并从理论和实验２个角度证明了迭代训练对于预测准确率的增益；同时，本文提出一种基于ＰＴｒｅｅ的优化策略，在同等条件下有效提升迭代过程的执行效率．最后，基于一个包含１５０万条ＷｅｂＳｅｒｖｉｃｅ调用信息的数据集，本文开展了一系列的对比分析实验．实验结果表明，相比于其他一些推荐模型，本文提出的基于迭代训练的混合协同过滤推荐模型在消耗同等资源的情况下，能够有效地降低预测值的误差，提升模型整体的预测准确率．１相关工作在各种推荐技术中，协同过滤技术以其易于实现且较高的准确率等特点被广泛应用于个性化推荐系统的设计Ⅲ．通常，协同过滤技术被划分为以下３万方数据计算机研究与发展２０１３，５０（增刊）类：基于模型的推荐方法、基于内存的推荐方法以及混合推荐方法．在基于模型的方法中，一个预先定义的模型需要在执行推荐之前被训练［３］．这样一个处理过程不仅会耗费大量的计算机资源，同时也丢失了矩阵降维的信息．这一推荐方法中具有代表性的模型主要有：ＳＶＤ模型［２·“、聚类模型［５＿７］、Ａｓｐｅｃｔ模型‘８９３及分类模型口０。１２１等．但是，它们的研究工作主要关注于推荐电影而不是ＷｅｂＳｅｒｖｉｃｅ推荐．对于基于内存的方法［“１３。１４１而言，基于用户［１５３和基于项目［１６１是２种最为简单实用的推荐模型，但这类方法却难以克服数据稀疏性及可扩展性等问题．通常用于计算相似度的方法［１’３３包括皮尔逊相关系数（ｐｅａｒｓｏｎｃｏｒｒｅｌａｔｉｏｎｃｏｅｆｆｉｃｉｅｎｔ，ＰＣＣ）、改进的余弦相似度（ａｄｊｕｓｔｅｄｃｏｓｉｎｅｓｉｍｉｌａｒｉｔｙ，ＡＣＳ）、向量空间相似度（ｖｅｃｔｏｒｓｐａｃｅｓｉｍｉｌａｒｉｔｙ，ＶＳＳ）等．例如基于用户的协同过滤推荐模型（ＵＰＣＣ）［１７］，该模型利用ＰＣＣ计算用户之间的相似度，并基于近邻用户的ＱｏＳ值计算出其他用户的预测值．同样的方法也适用于基于项目的协同过滤推荐模型（ＩＰＣＣ）．最近几年，随着智能推荐系统的深入研究，通过将单一模型的预测值进行整合，发展出一种混合协同过滤推荐模型口６’１８】．例如，ＷＳＲｅｃ模型ｍ３使用可信度、模型权重将ＵＰＣＣ模型和ＩＰＣＣ模型的预测值联合，并形成最终的预测值．虽然这种混合推荐模型的准确率有所提升，但是仍然十分有限，因此一些研究人员提出使用迭代训练的思想进一步降低预测值的误差．文献［１９—２０］提出的推荐模型迭代执行基本的聚类方法或近邻方法，但是这些方法只是一种机械的重复，忽视了迭代过程的优化，消耗了更多的运行资源．基于上述研究工作，本文提出一种基于迭代训练的混合协同过滤推荐模型，通过基于ＰＴｒｅｅ的优化策略，该模型能够有效地提高预测值的准确率和执行效率．２模型介绍本节详细介绍基于迭代训练的混合协同过滤推荐模型（ＩＣＦ）．２．１模型概述由图１可知，ＩＣＦ模型主要包括Ｏｆｆｌｉｎｅ部分和Ｏｎｌｉｎｅ部分．其中，Ｏｆｆｌｉｎｅ部分主要解决数据稀疏性问题，它包括４个步骤：相似度计算、近邻选取、单一模型预测、混合模型预测．整个Ｏｆｆｌｉｎｅ部分是一王斌斌等：基于迭代训练的Ｗｅｂｓｅｒｖｉｃｅ混合协同过滤推荐模型个迭代过程，它将上一轮的预测值作为下一轮的训练值，多次更新缺损项．在Ｏｎｌｉｎｅ部分中，本文采用了不带迭代的协同过滤方法进行用户预测，并针对基本预测不适用的情形，将均值作为用户预测值．最后，模型根据得到的预测值执行ＷｅｂＳｅｒｖｉｃｅ推送．此外，ＩＣＦ是一个混合的协同过滤模型，它利用模型权重将ＵＰＣＣ和ＩＰＣＣ模型的预测值进行加权，作为最终的预测值．相似度计算卜＿—叫近邻选取卜＿—叫单一模型预测Ｏｍｉｍ部分洲郴分匝三］＿吨圃图１ＩＣＦ模型的主要构成基于上述模型的执行过程，本文提出了迭代收敛性定理，并利用数学归纳法给出对该定理的证明过程，详见附录Ａ．定理１．迭代收敛性．在迭代训练过程中，随着迭代次数的增加，相邻２次迭代预测值的绝对差先逐渐减小、后缓慢增加，并最终趋于稳定．本文定义了如下的ＩＣＦ模型迭代训练过程．迭代过程的目标函数定义如式（１）所示：Ｎ邻用户调用的项目进行预测．ＰＣＣ根据用户Ｍ和Ｍ，共同调用的项目来计算他们之间的相似度．计算方法如式（２）所示：（２）其中，吼，ｉ是用户”调用的项目ｉ的ＱｏＳ值，应是用户”调用的所有项目的均值．此外，工一Ｊ。ｎｊ¨它是（１）其中，ｆ（１≤￡≤Ｔ）是迭代的次数，豇。代表在第￡轮迭代中得到的ＱｏＳ预测值，Ｎ是缺损项的总项数．此外，本文将用户均值和项目均值分别作为ＵＰＣＣ和ＩＰＣＣ模型的初始预测值ｇ：＇１．整个迭代训练过程的停止条件为以下２点：１）迭代次数ｆ达到指定的最大迭代次数Ｔ；２）相邻２次目标函数值的差值小于指定阈值，即满足Ｆ（￡一１）一Ｆ（￡）＜ｅ；当上述２个条件的任何一条被满足时，迭代训练过程将会停止．２．２Ｆ（￡）一盟—可一，≥：Ｉ区．ｉ—ｑ曩Ｉ用户“和Ｍ，共同调用的项目集合．如果ｊ一⑦，相似度Ｓｉｍ（“，地）的值则为ｎｕｌｌ，而非ｏ，因为在这种情形下没有办法计算用户的相似度．基于上述定义，可知ＰＣＣ的值域为［一１，１］，即ＰＣＣ值越大，２个用户越相似．在ＩＰＣＣ模型中，不同项目之间的相似度利用ＰＣＣ及调用该项目用户的ＱｏＳ值进行计算．方法如式（３）所示：＆ｍ（ｉ，ｉ，）一—＝＝竺兰＝＝＝＝＝＝＝．∑‘‰ｊ，）（‰？）艇（‰，、一、ｒ麟‘‰ｔ一广（３）Ｏｍｉｎｅ部分０ｆｆｌｉｎｅ部分包括４个步骤：计算相似度、选取其中，Ｕ一【，。ｎＵ¨它是同时调用项目ｉ和ｉ，的用户集合．式（３）中其他符号的意义与式（２）相同．２．２．２近邻选取通常，Ｔｏｐ—Ｋ方法被用来选取Ｋ个最相似的近邻．尽管在大多数情况下它能够选取出合适的近邻，但是它仍然存在一些局限性．例如，当某个用户与其他用户的ＰＣＣ是负值时，即２个用户之间几乎不存在相似性，Ｔｏｐ－Ｋ方法仍然会选取前Ｋ个用户作为该用户的近邻用户用于接下来的预测，这将会严重近邻、单一模型预测、混合模型预测．２．２．１相似度计算为了能够选取有效的近邻，本文首先需要计算用户或项目的相似度．现存的计算相似度的方法主要有ＡＣＳ，ＰＣＣ，ＶＳＳ等，其中ＰＣＣ使用最为广泛，因为相较于其他方法，它更加容易实现，并且能够获得较高的准确率［６．１７］．因此，本文采用ＰＣＣ来计算相似度．，在ＵＰＣＣ模型中，缺损项ｇ“根据用户Ｍ的近降低预测的准确率．因此，本文在ＩＣＦ模型中增加了一个参数艿（ｏ＜艿＜１），用于去除ＰＣＣ值不大于。万方数据的近邻用户．式（４）和式（５）分别用于ＵＰＣＣ模型和ＩＰＣＣ模型．Ｓ（ｚ￡）＝｛“，ｌＳｉｍ（甜，Ｍ，）（ｔ）＞艿，１≤忌≤Ｋ），（４）Ｓ（ｉ）＝怯ＩＳｉｍ（ｉ，ｉ；）（１）＞ａ，１≤忌≤Ｋ｝，（５）其中，Ｓ（“）和Ｓ（ｉ）最多包含Ｋ由Ｔｏｐ—Ｋ方法选取的元素，并且每个元素的ＰＣＣ值必须大于艿．２．２．３单一模型预测在获取了ＰＣＣ值和近邻之后，ＵＰＣＣ模型根据式（６）进行单一模型预测．ＰＵ（吼，ｉ）＝打＋Ｒ（“）×∑＆ｍ（“，“，）（ｑ即。一面，）ＨＪ∈ｓ（“）Ｒ（“；）（６）∑＆ｍ（“，蚝）“ｉ∈５（Ｈ）Ｒ（“）一ｍａｘ（“）一ｍｉｎ（“），其中，ＰＵ（吼，。）是缺损项吼，，的基于用户模型的预测值．缸和瓦，分别是用户Ｍ和“，调用项的ＱｏＳ均值．此外，Ｒ（Ｍ）是用户“调用的所有项目的极差，它被用来对预测值进行标准化．同样地，根据式（７），ＩＰＣＣ模型利用获取的ＰＣＣ值和近邻来计算单一预测值．Ｐｊ（ｑ。，ｉ）＝ｉ＋Ｒ（ｉ）×∑＆ｍ（ｔ，ｉ）（吼’‘一ｉ，），∈ｓ（ｉ）ｉ，云ｉｔ）≥：＆ｍ（ｉ；，ｉ）Ｒ（ｉ）一ｍａｘ（ｉ）一ｍｉｎ（ｉ）．在上述计算方法中，为了避免预测过大或者过小，ＩＣＦ模型采用了如式（８）和式（９）所示的分段函数．该函数能够预测值约束在最大值和最小值之间，从而进一步提高预测的准确率．ｆｍｉｎ（“），Ｐ伙吼，ｉ）＜ＩＴｌｉｎ（“）；Ｐ己厂（吼，。）一＜ＰＵ（吼，：），ｒｎｊｎ（Ｍ）≤ＰＵ（ｑ“）≤ｍａｘ（“）；【ｍａｘ（＂），ＰＵ（吼，ｉ）＞ｍａｘ（Ｍ）．（８）ｆｍｉｎ（ｉ），ＰＪ（吼，ｉ）＜ｍｉｎ（ｉ）；Ｐ，（ｑ。）一｛ＰＪ（吼．ｉ），ｒＩｌｉｎ（ｉ）≤Ｐ叭吼，：）≤ｍａｘ（ｉ）；ＩｍａＸ（ｉ），ＰＩ（ｑ。）＞ｍａｘ（ｉ）．（９）通过上述分段函数，ＩＣＦ模型能够有效地去除在极端情况下产生的错误预测值．２．２．４混合模型预测将基于用户和基于项目２种模型进行整合，可以得到一种混合的协同过滤推荐模型Ⅲ’１８｜，该模型能够同时利用近似用户和近似项目的信息进行预测，从而进一步提高预测的准确率．由于ＵＰＣＣ模型万方数据计算机研究与发展２０１３，５０（增刊）和ＩＰｃＣ模型的准确率不相同，本文采用２个可信度分别来计算ｕＰＣＣ模型和ＩＰｃｃ模型对于最终预测值的可信度．计算的方法如式（１０）和式（１１）所示：啪㈤２伽∽一。，邑，端．Ⅱ，∈ｊ（Ⅱ）ｈ吕，端，㈣，，．．）ｚ７”Ｌ“ｆ，“ＪⅢ，ｌ。∈５（ｉ）夕．ｏｚ，雄ＬｚＩ＇ｚ，在计算可信度之后，本文引入一个附加参数Ａ来衡量最终预测值对于这２种模型的依赖程度ｍ］．因此，最终预测值的计算公式如式（１２）所示：Ｐ（吼．，）一叫（“）×ＰＵ，（吼．，）＋训（ｉ）×ＰＩ７（吼．ｉ），（１２）其中，出）一丽丽希糍斋而习，（１３）洲，一丽煮辇尜蒜，Ⅲ，训（２户鬲面双再ｉ丽两可『二而，（１４）叫（托）和ｗ（ｉ）分别是ＵＰＣＣ和ＩＰＣＣ的模型权重．而混合模型的可信度可由式（１５）计算得到：∞ｎ（矩，ｉ）一训（“）×∞竹（“）＋叫（ｉ）×∞咒（ｉ），（１５）它可用于说明最终预测值的可信度．２．３Ｏｎ¨ｎｅ部分Ｏｎｌｉｎｅ部分主要包括用户预测和服务推送２个步骤．在ＯｆｆＩｉｎｅ部分执行之后，由部分训练获取的用户～项目矩阵可以用来进行用户预测，并执行最终的服务推送．２．３．１用户预测本步骤中进行用户预测的方法与Ｏｆｆｌｉｎｅ部分的方法类似，只是不需要进行迭代．此外，当在单一模型预测步骤中无法得到预测值时（此时混合模型预测的最终预测值为空），本文采用用户均值或项目均值分别作为ＵＰＣＣ模型和ＩＰＣＣ模型的预测值．以下２种原因常常会导致单一模型不能正常预测：１）应用上述的近邻选取方法无法找到满足要求的近似用户和近似项目．此时，本文按照式（１６）计算最终预测值，混合模型的可信度为ｏ．Ｐ（ｑ。）一Ａ×氲＋（１～Ａ）×ｉ．（１６）２）应用上述的近邻选取方法选取的近邻需要进行预测．此时，本文按照式（１７）计算最终预测值，混合模型计算方法不变．Ｐ（吼，，）一叫（甜）×缸＋叫（ｉ）×ｉ．（１７）２．３．２服务推荐在执行了用户预测之后，获取的预测值可用来进行服务的推送．例如，某个用户可以将同种类型的多个服务的ＱｏＳ预测值进行对比，采纳其中最适合王斌斌等：基于迭代训练的ｗｅｂｓｅｒｖｉｃｅ混合协同过滤推荐模型自己需求的服务．服务提供商可以依据ＱｏＳ预测值及可信度来寻找某项服务的潜在用户，向他们推送该项服务．２。４时间复杂度对于有仇个用户、竹个项目的用户一项目矩阵，ＩＣＦ模型中各个步骤的时间复杂度［１８１如表１所示：表１时间复杂度分析对于含有迭代的０ｆｆｌｉｎｅ部分，当需要进行￡轮迭代，需要将０ｆｆｌｉｎｅ部分中的各个步骤重复≠次，即在上述时间复杂度分析中再乘以￡．３迭代优化由于ＩＣＦ模型的Ｏｆｆｌｉｎｅ部分引入了迭代过程，这将会大幅度增加程序的运行时间，尤其在处理大数据问题时，模型的性能会急剧下降．因此，本文提出一种特殊的数据结构，并以此提出一种优化模型０ＩＣＦ来进一步改进迭代过程的性能．３．１ＰＴｒｅｅ算法仔细分析ＩＣＦ模型可以发现，在迭代过程中不需要每次对所有的缺损项都进行预测．例如，对于那些近邻不需要预测的缺损项，只需要在第１次迭代时进行预测．尽管它们可能会在下一轮预测中变得更加接近真实值，但是相较于那些近邻仍然需要预测的缺损项，它们的增益实在微乎其微．此外，对于那些近邻需要预测的缺损项，可以先对其近邻进行预测，然后在下一轮中对它们进行预测．基于上述分析，本文提出一种数据结构ＰＴｒｅｅ用于构建缺损项的预测顺序．首先本文需要获取记录缺损项在用户一项目矩阵中位置信息的缺损矩阵（ｍ蠡一ｍａ￡）；其次，在近邻选取步骤中，可以获取存储缺损项及其近邻的邻接矩阵（口西一优口￡）；最后，根万方数据据缺损矩阵和邻接矩阵，可以构建预测树（ＰＴｒｅｅ），并将它存储在深度矩阵中．创建ＰＴｒｅｅ的算法如算法１所示：算法１Ｉ创建ＰＴｒｅｅ。ＰｒｏｃｅｄｕｒｅＰＴｒｅｅ（ｄＰ户琥，Ｋ）Ｆｏｒｍ始一ｍ口￡［ｉ］∈ｍ始一ｍ口￡ＤｏＩｆｍ如一ｍ口￡［ｉ］硭ｄｇ夕一ｍ８￡Ｔｈｅｎ／＊创建根节点＊ｌ矗Ｐｐ—ｍ口￡［忌］［１］一Ｉ；／＊缺损项下标＊／矗Ｐ多一ｍ口￡［是］［２］一矗ｇ争玖；／＊节点深度＊／尼一忌＋１：ＥｎｄＩｆ矗Ｐｐ娩一矗ｇｐ￡是一１；Ｆｏｒ歹＝１ＴｏＫＤｏ／＊存储子节点＊／Ｉｆ口由一７挖口￡［ｉ］［Ｊ］旺ｄＰ户一ｍ口￡Ｔｈｅｎ矗ｅ夕一矽ｚａ￡［忌］［１］一口矗ｊ一７珏口￡［ｉ］［Ｊ］；ｄｅ户一，，ｌ口￡［五］［２］一ｄＰ夕￡＾；忌＝忌＋１：ＥｎｄＩｆＥｎｄＦｏｒＩｆｄＰ声旃＞ｏＴｈｅｎ／＊递归创建子节点＊／Ｆｏｒｊ一１ＴｏＫＤｏｉｄ一口匆一ｍ口￡［ｉ］［歹］；Ｉｆｍ舀一ｍ口￡［ｉｄ］∈ｍ妇一ｍ口￡ＴｈｅｎＰＴｒｅｅ（ｄＰ夕ｆ矗，ｊ（）；ＥｎｄＩｆＥｎｄＦｏｒＥｎｄＩｆＥｎｄＦｏｒＥｎｄＰｒｏｃｅｄｕｒｅ．其中，参数ｄＰ户编通常等于最大迭代次数．整个创建ＰＴｒｅｅ算法的时间复杂度为０（ＮｌｏｇＮ），Ｎ是缺损项的总个数．３．２优化策略根据算法１描述可知，Ｐｎｅｅ中的每个节点包括２个字段：缺损项的下标、节点的深度．通过对ＰＴｒｅｅ进行层次遍历，即按照节点深度进行升序排列，就可以得到符合需要的缺损项预测顺序．基于这样的预测顺序，本文提出了针对ＩＣＦ模型的优化策略，即：在第￡次迭代中，只对节点深度不小于≠的缺损项利用ＩＣＦ模型进行预测．例如ｄｅ户冼一４，当￡一１时，所有缺损项均被预测；当￡一２时，只对ｄＰ户疏≥２的缺损项进行预测．通过这种优化策略，本文能够有效减少每轮迭代中待预测项的个数，从而大幅度降低０ｆｆｌｉｎｅ部分的运行时间．１５８计算机研究与发展２０１３，５０（增刊）根据参数Ｔｒ口锄一＂ｓＰｒ，上述１５０个用户被划分４实验及分析４．１实验环境及参数本文的实验环境为一台ＰＣ机，机器的配置为ＩｎｔｅｌＸｅｏｎＸ７４６０ＣＰＵ，６４ＧＢ成训练用户和待预测用户，同时产生相应的训练矩阵和预测矩阵．为了生成不同程度的稀疏矩阵，本文根据参数Ｄｅ，ｚｓ如ｙ，随机剔除训练矩阵中的项，将其作为缺损项并记录其位置信息．为了计算预测准确率，本文根据参数Ｇｉ口鲫一咒ｚ‘ｍ６Ｐｒ（ｇ）随机选取预测矩阵中的待预测项．表２对实验涉及的相关参数进行了说明［１８’２ＲＡＭ，操作系统为ｗｉｎｄｏｗｓＳｅｒｖｅｒ２００８．实验中的所有程序使用Ｍａｔｌａｂ实现．此外，本文使用的数据集来自ＷＳ—ＤＲＥＡＭ［２１≈２１．该数据集收集了ＱｏＳ值２个特征：Ｒｅｓｐｏｎｓｅ－ｔｉｍｅ（ＲＴ）和Ｔｈｒｏｕｇｈｐｕｔ（ＴＰ），每个特征包含一个大小为３３９行、５８２５列的用户一项目矩阵（即３３９个用户、５８２５个项目）．为了对不同模型的预测准确率及效率进行分析，本文从原始数据集中采样出１０个不含缺损项的用户一项目矩阵，每个矩阵的大小为１５０行、２００列．表２参数说明４．２准确率分析为了考察预测值与真实值之间的差距，本文利用平均绝对误差（ＭＡＥ）和均方误差（ＲＭＳＥ）来衡量模型预测结果的准确率，它们均是广泛使用的准确率计算方法，如式（１８）和式（１９）所示：∑ｌ口ｏ；一ｑ：．；＾缎Ｅ（￡）一Ｎ（１８）Ｒ２淞Ｅ（￡）一（１９）其中，贰；表示真实的ＱｏＳ值，ｑ：，ｉ表示待预测项在第￡轮迭代中的预测值，Ｎ是待预测项的总个数．越小的ＭＡＥ值和ＲＭＳＥ值表示模型的准确率越高．４．２．１模型对比为了评价ＩＣＦ模型和ＯＩＣＦ模型的准确率，本文将其与另外３种具有代表性的模型进行了对比．表３展示了各个模型在不同参数下的ＭＡＥ值及表３各个模型的ＭＡＥ值及ＲＭＳＥ值１、ｒ口ｉ竹ｉｎｇ一“ｓ盯＝１００Ｔｍｉｎ｛竹ｇ一“卵ｒ＝１２０Ｒｅｓｐｏｎｓｅ－ｔｉｍｅｇ＝３０１２．７６０１２．５７４１２．０５９９．１５８９．２６１１２．２３０１２．４４８１１．９２０８．９９６９．１０５１１．７９３１２．３５９１１．８１７８．９０５９．０２３ｇ—ｌＯＯ．５３６Ｏ．４６８Ｏ．４５８０．３９８ｇ一２０Ｏ．５３２０．４５９Ｏ．４５００．３９００．３９ｌ０．５２２Ｏ．４５８Ｏ．４４８０．３８３０．３８５Ｏ．５０９Ｏ．４４８Ｏ．４３９Ｏ．３７３０．３７４ｇ＝３０Ｏ．５３２Ｏ．４５１０．４４３Ｏ．３８３０．３８５０．５１９Ｏ．４５２０．４４３０．３８ｌ０．３８２０．５０６Ｏ．４４１０．４３３Ｏ．３６９Ｏ．３７ｌｇ＝１０１２．００７１２．４６９１１．９０５８．９５７９．０５５１１．６７８１２．３６４１１．７９３８．８５８８．９７０１１．１６３１２．３７６Ｔｈｒｏｕｇｈｐｕｔｇ一２０１１．９６２１２．１５３１１．６２３８．７６３８．８７０１１．６４３１Ｚ．１２１１１．５７７８．６８４８．７９９１１．１５１１２．０４３ｇ一３０１１．９０５１１．８５７１１．３５８８．５３８８．６５７１１．３８９１１．８２８１１．３２６８．４５８８．６２６１１．０６７１１．７６３１１．２６６８．５０６８．６９８误差Ｄｅｎｓｉｔｙ模型Ｒｅｓｐｏｎｓｅ—ｔｉｍｅｇ＝１０ｇ＝２００．４３９Ｏ．３９６０．３８６０．３４７０．３４８０．４３１Ｏ．３９２０．３８２０．３４００．３４１Ｏ．４２３０．３８８Ｏ．３７９０．３３３０．３３５ｇ＝３０Ｏ．４３９Ｏ．３９１Ｏ．３８２０．３４１０．３４２Ｏ．４３１０．３８８Ｏ．３７８０．３３５０．３３６０．４２１Ｏ．３８４０．３７５０．３３００．３３２ｇ＝１０１Ｚ．８６７１３．１１４Ｔｈｒｏｕｇｈｐｕｔｇ＝２０１２．７２２１２．８４５１２．２９９９．３４４９．４３６１２．４１０１２．７７５１２．２２２９．３０９９．４１８１１．９９０１２．７６９１２．１９７９．１８８９．２９６ＵＰＣＣ１ＰＣＣＯ．１０．４４２Ｏ．３９７０．３８７０．３４７０．３４７０．４３３Ｏ．３９７Ｏ．３８７０．３４３０．３４５Ｏ．４２５０．３９３Ｏ．３８３０．３３７０．３３８ＷＳＲｅｃＩＣＦＯＩＣＦＵＰＣＣＩＰＣＣ１２．５５１９．６４９９．７４６１２．４８８１３．０７９１２．５０３９．５５６９．６６２１２．０３８１３．００４１２．４０２９．４１０９．５１８０．３”Ｏ．５２５０．４５８Ｏ．４４８０．３８４Ｏ．３８５Ｏ．５１３０．４５５Ｏ．４４５０．３７９０．３８０ＭＡＥＯ．２ＷＳＲｅｃ１ＣＦ０ＩＣＦＵＰＣＣＩＰＣＣＯ．３ＷＳＲｅｃＩＣＦｏＩＣＦ１１．８２８“．４８６８．８７６８．９９５８．５９２８．７１８万方数据王斌斌等：基于迭代训练的Ｗｅｂｓｅｒｖｉｃｅ混合协同过滤推荐模型续表３Ｔｒｄｉｎｆ，ｌｇ—Ｍｓ盯一１００Ｔｍｉｎｉｎｇ一ⅡｓＢｒ一１２０Ｒｅｓｐｏｎｓｅ－ｔｉｍｅｇ一３０２６．９５Ｚ２５．２４５２４．４９０２０．９４３ｇ一１０１．０４６１．１２２１．０９１０．９６５０．９８３１．０２４１．０９７１．０６６Ｏ．９２７０．９４２１．０１３１．０９１１．０６１０．９１６０．９３２ｇ＝２０１．０４６１．１１０１．０８００．９５３０．９７０１．０２５１．０９９１．０６９０．９３３０．９５０１．００５１．０７６１．０４７０．９０５０．９２１ｇ一３０１．０４５１．０９１１．０６２０．９３９Ｏ．９５６１．０２４１．０９２１．０６２０．９３５０．９Ｓ３１．０００１．０６０１．０３１０．９０１０．９２０ｇ＝１０２４．０７６２２．７６１２１．９６６１８．３１６１８．５３４２３．７２７２２．６７７２１．８７６１８．２７ｌ１８．５２９２２．９５３２２．６４８２４．９２８１９．０４３１８．７５９１５９误差Ｄｅｎｓｉｔｙ模型Ｒｅｓｐｏｎｓｅ＿ｔｉｍｅｇ＝１０ｇ＝Ｚ０Ｏ．９４８１．００５Ｏ．９８２０．９３４０．９４９Ｏ．９２９Ｏ．９９０Ｏ．９６６Ｏ．８７８０．８９１Ｏ．９２４Ｏ．９８４０．９６１Ｏ．８６３０．８７７ｇ＝３０Ｏ．９４９０．９９４Ｏ．９７２０．８９００．９０４Ｏ．９３４０．９８２Ｏ．９６００．８７２０．８８Ｓ０．９１８Ｏ．９７４０．９５１０．８６００．８７４ｇ一１０Ｔｈｒｏｕｇｈｐｕｔｇ一２０２６．７５１２５．６８２２４．８６２２１．２０７Ｔｈｒｏｕｇｈｐｕｔｇ＝２０２３．９８２２２．４６２２１．６７３１８．３４２１８．４９５２３．７９７２２．５１２２１．７１２１８．２２６１８．４９２２２．６３６２２．０２５２１．２４２１８．１８６１８．５６８ｇ＝３０２４．１４８２２．Ｚ６２２１．５３７１８．２４６１８．５２３２２．９９８２１．８８３２１．６７７１８．３４０１９．２９８２２．８４６２２．００８２２．０５０ＵＰＣＣＩＰＣＣＯ．１０．９５３１．０１０Ｏ．９８６０．８９８Ｏ．９１００．９３９１．００５Ｏ．９８１０．８８６０．８９８Ｏ．９２８Ｏ．９９３０．９７００．８７ｌ０．８８３２６．８６８Ｚ６．００２２５．１４５２１．４８６２１．７８１２６．４１２２５．８３２２５．１２１２１．４５３２１．７９５２５．６３２２５．７４３２４．８６６２０．９Ｓ６２１．２５１ＷＳＲｅｃＩＣＦ０ＩＣＦＵＰＣＣＩＰＣＣ２１．４卯２１．２３９２６．１９２２５．３９７２４．５８１２１．０２０２１．３３２２５．６２０２５．４６０２４．６１５２０．８４４２１．１５４２５．９８６２５．０１３２４．２１８２０．５ＳＯ２０．８５４２５．０４５２４．７３９Ｚ３．９１７２０．３３１２０．６９２ＲＡｆＳＥＯ．２ＷＳＲｅｃＩＣＦ０ＩＣＦＵＰＣＣＩＰＣＣＯ．３ＷＳＲｅｃＩＣＦＯＩＣＦ２０．Ｏ“２１．２８０ＲＭＳＥ值．实验中使用的Ｔｒ口锄一“ｓｅｒ分别为１００和１２０．对于训练矩阵，本文将ＤＰ咒ｓ矗了依次设置为ｏ．１，ｏ．２，０．３；对于预测矩阵，本文将ｇ依次设置为１０，２０，３０．此外，实验中的模型参数设置依次为：艿一ｏ，Ｋ—ｏ，Ａ—ｏ．１．模型的最大迭代次数Ｔ设置为２．从表３可以看出：１）在各组参数下，相较于其他３种模型，ＩＣＦ模型和ＯＩＣＦ模型均能显著降低ＭＡＥ值和ＲＭＳＥ值；２）利用ＰＴｒｅｅ优化后的０ＩＣＦ模型仍然能够保持较高的准确率．４．２．２迭代对比为了从实验角度证明迭代过程的收敛性，本文将最大迭代次数Ｔ设置为４０，分别计算了ＩＣＦ模型将其绘制成图２．从图２可以看出，当￡＜４时，随着迭代次数的增加，ＭＡＥ值急剧下降；当￡＞４时，ＭＡＥ值逐渐趋于平稳，即迭代过程趋于收敛．因此，进行４次迭代足以保证这２种模型取得最高的准确率．在将最大迭代次数设为４后，重新执行程序并统计计算ＭＡＥ值及ＲＭＳＥ值．图３详细对比了ＩＣＦ模型和ＯＩＣＦ模型在２种ＱｏＳ特征下的ＭＡＥ值和ＲＭＳＥ值．从图３可以看出，随着迭代次数的增加，ＩＣＦ模型和ＯＩＣＦ模型的准确率都在急剧下降．虽然ＯＩＣＦ模型的误差相较于ＩＣＦ模型略高，但２者之间的差距非常小．因此，引入迭代过程的协同过滤模型能够有效地提高预测的准确率．４．３效率分析和０ＩＣＦ模型在ｔｈｒｏｕｇｈｐｕｔ特征下的ＭＡＥ值，并６·４６·１５·８５．５▲ｄ◆＿ＯＩＣＦ嚏｜＋ＩｃＦ为了考察优化策略对于模型运行时间的影响，本文记录了ＩＣＦ模型和０ＩＣＦ模型的０ｆｆｌｉｎｅ部分在不同迭代次数下的运行时间，并将其绘制成图４．塞砌４·９４·６４·３４．０｜蚕Ｉｂ、．…．…。一＿一ｏ●●－—－１３４５１０１５２０２５３０３５４０图４中参数Ｔｒ口锄一”ｓＰｒ的值分别为１００和１２０．从图４可以看出，尽管这２种模型的运行时间均高于无迭代过程的模型，但是应用优化策略的０ＩＣＦ模型能够有效降低模型Ｏｆｆｌｉｎｅ部分的运行时间，即使迭代４次的运行时间对于大多数的推荐系统依然是可接受的．２迭代次数图２迭代过程的收敛性万方数据１６０计算机研究与发展２０１３，５０（增刊）２０·４８◆１·１２２１＋ＯＩＣＦ０．４６生ｏ．４６８＋ＯｌＣＦ＋ＩｃＦ０．“ｏ．４惑＋ＩｃＦｌ心吣０‘删＼＼０·４２啪昭未配ｏ，３９８。＼ｏ．３７７心．３９９心ｏ．９８３Ｏ．４０Ｏ．３８Ｏ．３６ｏ．．３７５１赘ｉ窝暂６８ｌ２３４；Ｏｎ口Ｒ溜｝＼．ｏ．９５９Ｏ９．ｏ．？—１，ｏ？５９ｌ２３４迭代次数迭代次数（ａ）Ｒｅｓｐ０１１Ｓｅ—ｔｉｍｅ的捌Ｅ值（ｂ）ＲｅｓｐｏｎＳｅ—ｔｉｍｅ的Ｒ凇Ｅ值船气２２７６１１３＋ｏＩｃＦ１２１１１１弧支１２·４６９＋０ＩＣＦ＋ＩｃＦ２１．酥＋ＩｃＦ岫｛ｘ鋈１０心Ⅲ∽，配《９１８．３ｌ凝婴３４６０２１７５７２８８．９八７．８５５Ｖ．０５５１７７７．．７２—警融；－３１４毖虬街均掩＂１７．３０ｌ、●—｝宁曲钓．■Ｉ２３４ｌ２３４迭代次数（ｃ）Ｔｈｒｏｕ曲ｐｕｔ的心￡值（ｄ）Ｔｈｒｏｕ曲ｐｕｔ的心值迭代次数图３ＭＡＥ值及ＲＭＳＥ值对比２００２５０：霉：尝’＋ＩＣＦ／１６０／岁３１３５．８８／２００１７５．９６／２罗曰■茁１２０声／１ｈ／苗１５０卿９１．６９／１㈨■８０４０ｔｓ．么劳’尹阻。。／霉上‰。１１８．８２／５９’甏知—∥８６·３９／｜Ｉ迭代次数迭代次数（ａ）ｍ幔一地＂＝ｌｏｏ（ｂ）ｍ虹埘甜＝１２０图４ＩＣＦ和０ＩＣＦ模型运行时间的对比型的性能．实验结果表明，相较于协同过滤中的其他５结论推荐模型，应用迭代思想及其相应的优化策略能够在花费较低的代价下获得较好的预测准确率．海量数据的集成融合促进了大数据技术的广泛基于本文现有的研究，进一步的研究工作包括应用，尤其以面向服务为核心的ＷｅｂＳｅｒｖｉｃｅ技术改进迭代优化策略和实现ＷｅｂＳｅｒｖｉｃｅ推荐系统。被普遍用来提供新型互联网服务，这使得针对服务此外，将本文提出的协同过滤推荐模型并行化，并利提供商及个人用户，设计一种基于ＷｅｂＳｅｒｖｉｃｅ的用ＭａｐＲｅｄｕｃｅ编程框架实现，能够更好地处理大规个性化服务推荐系统变得十分必要．模数据问题。最后，本文提出的推荐模型同样可以应本文针对大数据下的ＷｅｂＳｅｒｖｉｃｅ推送问题提用于其他领域，例如医疗服务，电子商务等．出一种优化迭代的混合协同过滤推荐模型．该模型的关键在于应用迭代思想，多次计算缺损项并更新参考文献训练矩阵，以进一步提升预测的准确．此外，本文提［１］ｓｕｘ，ＫｈｏｓｈｇｏｆｔａａｒＴＭ．ＡｓｕｒｖｅｙｏｆｃｏＵａｂｏｒａｔｉｖｅｆｉｌｔｅｒｉｎｇ出了一种基于ＰＴｒｅｅ的迭代优化策略，它能够大幅ｔｅｃｈｎｉｑｕｅｓ．ＡｄｖａｎｃｅｓｉｎＡｒｔｉｆｉｃｉａｌＩｎｔｅｌｌｉｇｅｎｃｅ，２００９，２００９度降低迭代过程的运行时间，从而显著提高整个模（４）：１—１９万方数据王斌斌等：基于迭代训练的ｗｅｂＳｅｒｖｉｃｅ混合协同过滤推荐模型１６１［２］ｘｕｅＧＲ，ＬｉｎＣ，ＹａｎｇＱ，ｅｔａ１．Ｓｃａｌａｂｌｅｃ０１ｌａｂｏｒａｔｉｖｅｆ１１ｔｅｒｉｎｇｕｓｉｎｇｃｌｕｓｔｅｒ＿ｂａｓｅｄｓｍ００ｔｈｉｎｇ／，Ｐｒｏｃｏｆｔｈｅ２８ｔｈＡｎｎｕａｌＩｎｔＡＣＭＳＩＧＩＲＣｏｎｆＲｅｓｅａｒｃｈａｎｄＤｅｖｅｌｏｐｍｅｎｔｉｎＩｎｆｏｒｍａｔｉｏｎＲｅｔｒｉｅｖａｌ（ＳＩＧＩＲ’０５）．ＮｅｗＹｏｒｋ：ＡＣＭ，２００５：１１４—１２１［３］ＨｏｆｍａｎｎＴ．ＬａｔｅｎｔｓｅｍａｎｔｉｃｍｏｄｅｌｓｆｏｒｃｏＵａｂｏｒａｔｉｖｅｆｉｌｔｅｒｉｎｇ．ＡＣＭＴｒａｎｓａｃｔｉｏｎｓＩｎｆｏｒｍａｔｉｏｎＳｙｓｔｅｍｓ，２００４，２０２２（１）：８９一１１５［４］ｚｈｅｎｇｚ，ＬｙｕＭＲ．Ｃ０１ｌａｂｏｒａｔｉｖｅｒｅｌｉａｂｉｌｉｔｙｐｒｅｄｉｃｔｉｏｎｏｆｓｅｒｖｉｃ｝ｏｒｉｅｎｔｅｄｓｙｓｔｅｍｓ／／Ｐｒｏｃｏｆｔｈｅ３２ｎｄＩＥＥＥＩｎｔＣｏｎｆＳｏｆｔｗａｒｅＥｎｇｉｎｅｅｒｉｎｇ．Ｐｉｓｃａｔａｗａｙ，ＮＪ：ＩＥＥＥ，２０１０：３５—４４［５］Ｃｈｅｎｘ，Ｌｉｕｘ，Ｈｕａｎｇｚ，ｅｔａ１．ＲｅｇｉｏｎＫＮＮ：ＡｓｃａｌａｂｌｅｈｙｂｒｉｄｃｏｌｌａｂｏｒａｔｉｖｅｆｉｌｔｅｒｉｎｇａｌｇｏｒｉｔｈｍｆｏｒｐｅｒｓｏｎａｌｉｚｅｄＷｅｂｓｅｒｖｉｃｅｒｅｃｏｍｍｅｎｄａｔｉｏｎ／／Ｐｒｏｃｏｆｔｈｅ８ｔｈＩＥＥＥＩｎｔｃｏｎｆＷｅｂＳｅｒｖｉｃｅｓ．Ｐｉｓｃａｔａｗａｙ，ＮＪ：ＩＥＥＥ，２０１０：９—１６［６］ＹｕＫ，ＳｃｈｗａｉｇｈｏｆｅｒＡ，ＴｒｅｓｐＶ，ｅｔａ１．Ｐｒｏｂａｂｉｌｉｓｔｉｃｍｅｍｏｒｙ－ｂａｓｅｄｃｏｌｌａｂｏｒａｔｉｖｅｆｉｌｔｅｒｉｎｇ．ＩＥＥＥＴｒａｎｓＫｎｏｗｌｅｄｇｅａｎｄＤａｔａＥｎｇｉｎｅｅｒｉｎｇ，２００４，１６（１）：５６—６９［７］ｗａｎｇＪ，ＶｒｉｅｓＡＰ，ＲｅｉｎｄｅｒｓＭＪＴ．ｕｎｉｆｙｉｎｇｕｓｅｒ＿ｂａｓｅｄａｎｄｉｔｅｍ七ａｓｅｄｃｏｌｌａｂｏｒａｔｉｖｅｆｉｌｔｅｒｉｎｇａｐｐｒｏａｃｈｅｓｂｙｓｉｍｉｌａｒｉｔｙｆｕｓｉｏｎ／，Ｐｒｏｃｏｆｔｈｅ２９ｔｈＡｎｎｕａｌＩｎｔＡＣＭＳＩＧＩＲＣｏｎｆＩｔｅｓｅａｒｃｈａｎｄＤｅｖｅｌｏｐｍｅｎｔｉｎＩｎｆｏｒｍａｔｉｏｎＲｅｔｒｉｅｖａｌ（ＳＩＧＩＲ’０６）．ＮｅｗＹｏｒｋ：ＡＣＭ，２００６：５０１—５０８［８］Ｐ０１ａｔＨ，Ｄｕｗ．ｓＶＤ—ｂａｓｅｄｃｏｌｌａｂｏｒａｔｉｖｅｆｉｌｔｅｒｉｎｇｗｉｔｈｐｒｉｖａｃｙ／／Ｐｒｏｃｏｆｔｈｅ２００５ＡＣＭＳｙｍｐＡｐｐｌｉｅｄ（ＳＡＣ’０５）．ＮｅｗＹｏｒｋ：ＡＣＭ，２００５：７９１—７９５［９］ｗａｇｎｅｒＦ，ＩｓｈｉｋａｗａＦ，Ｈｏｎｉｄｅｎｓ．ＱｏＳ－ａｗａｒｅａｕｔｏｍａｔｉｃｓｅｒｖｉｃｅｃｏｍｐｏｓｉｔｉｏｎｂｙａｐｐｌｙｉｎｇｆｕｎｃｔｉｏｎａＩｃｌｕｓｔｅｒｉｎｇ／，Ｐｒｏｃｏｆｔｈｅ９ｔｈＩＥＥＥＩｎｔＣｏｎｆＷｅｂＳｅｒｖｉｃｅｓ．Ｐｉｓｃａｔａｗａｙ，ＮＪ：ＩＥＥＥ，２０１１：８９—９６［１０］ｚｈａｎｇＳ，ｗａｎｇｗ，ＦｏｒｄＪ，ｅｔａ１．ｕｓｉｎｇｓｉｎｇｕｌａｒｖａｌｕｅｄｅｃｏｍｐｏｓｉｔｉｏｎａｐｐｒｏｘｉｍａｔｉｏｎｆｏｒｃｏｌｌａｂｏｒａｔｉｖｅｆ订ｔｅｒｉｎｇ／／Ｐｒｏｃｏｆｔｈｅ７ｔｈＩＥＥＥＩｎｔＣｏｎｆＥ—ＣｏｍｍｅｒｃｅＴｅｃｈｎｏｌｏｇｙ（ＣＥＣ’０５）．Ｐｉｓｃａｔａｗａｙ，ＮＪ：ＩＥＥＥ，２００５：２５７—２６４［１１］ｓｉＬ，ＪｉｎＲ．Ｆｌｅｘｉｂｌｅｍｉｘｔｕｒｅｍｏｄｅｌｆｏｒｃｏｌｌａｂｏｒａｔｉｖｅｆｉｌｔｅｒｉｎｇ／／Ｐｒｏｃｏｆｔｈｅ２０ｔｈＩｎｔｃｏｎｆＭａｃｈｉｎｅＬｅａｒｎｉｎｇ（ＩｃＭＬ’０３）．Ｐｉｓｃａｔａｗａｙ，ＮＪ：ＩＥＥＥ，２００３：２５９—２６６［１２］Ｓｕｘ，ＫｈｏｓｈｇｏｆｔａａｒＴＭ，ＧｒｅｉｎｅｒＲ．Ｉｍｐｕｔｅｄｎｅｉｇｈｂｏｒｈｏｏｄｂａｓｅｄｃｏｌｌａｂｏｒａｔｉｖｅｆｉｌｔｅｒｉｎｇ／，ＰｒｏｃｏｆＩＥＥＥ，ｗＩ—Ｃ，ＡＣＭＩｎｔＣｏｎｆＷｅｂＩｎｔｅｌｌｉｇｅｎｃｅａｎｄＩｎｔｅｌｌｉｇｅｎｔＡｇｅｎｔＴｅｃｈｎｏｌｏｇｙ（ＷＩ—ＩＡＴ’０８）．Ｐｉｓｃａｔａｗａｙ，ＮＪ：ＩＥＥＥ，２００８：６３３—６３９［１３］ＷｕＧ，ｗｅｉＪ，ＱｉａｏＸ，ｅｔａ１．ＡｂａｙｅｓｉａｎｎｅｔｗｏｒｋｂａｓｅｄＱｏＳａｓｓｅｓｓｍｅｎｔｍｏｄｅｌｆｏｒＷｅｂｓｅｒｖｉｃｅｓ／，ＰｒｏｃｏｆＩＥＥＥＩｎｔＣｏｎｆＳｅｒｖｉｃｅｓＣｏｍｐｕｔｉｎｇ（ＳＣＣ’０７）．Ｐｉｓｃａｔａｗａｙ，ＮＪ：ＩＥＥＥ，２００７：４９８—５０５［１４］ｓｈａｏＬ，ｚｈａｎｇＪ，ｗｅｉＹ，ｅｔａｌ，ＰｅｒｓｏｎａｌｉｚｅｄＱｏｓｐｒｅｄｉｃｔｉｏｎｆｏｒｗｅｂｓｅｒｖｉｃｅｓｖｉａｃ０１ｌａｂｏｒａｔｉｖｅｆｉｌｔｅ“ｎｇ／／Ｐｒｏｃｏｆｔｈｅ５ｔｈ附录Ａ符号说明：待预测项的集合定义为（ｑ。，，），其中待预测项的真实值集合定义为｛虻ｉ），第￡（￡＞ｏ）轮迭代的预测值集合为｛吼，。｝．此外，均值误差（ＭＡＥ）万方数据ＩＥＥＥＩｎｔＣｏｎｆＷｅｂＳｅｒｖｉｃｅｓ．Ｐｉｓｃａｔａｗａｙ，ＮＪ：ＩＥＥＥ，２００７：４３９—４４６［１５］ＹｕＱ，ＲａｇｅＭ．０ｎｓｅｒｖｉｃｅｃｏｍｍｕｎｉｔｙｌｅａｒｎｉｎｇ：Ａｃｏｃｌｕｓｔｅｒａｐｐｒｏａｃｈ／，Ｐｒｏｃｏｆｔｈｅ８ｔｈＩＥＥＥＩｎｔＣｏｎｆｏｎｗｅｂｓｅｒｖｉｃｅｓ．Ｐｉｓｃａｔａｗａｙ，ＮＪ：ＩＥＥＥ，２０１０：２８３—２９０［１６］ＳｕＸ，ＫｈｏｓｈｇｏｆｔａａｒＴＭ，ＧｒｅｉｎｅｒＲ．Ｉｍｐｕｔａｔｉｏｎ＿ｂｏｏｓｔｅｄｃｏｌｌａｂｏｒａｔｉｖｅｆｉｌｔｅ“ｎｇｕｓｉｎｇｍａｃｈｉｎｅｌｅａｒｎｉｎｇｃｌａｓｓｉｆｉｅｒｓ／，Ｐｒｏ。ｏｆｔｈｅ２００８ＡＣＭＳｙｍｐＡｐｐｌｉｅｄＣｏｍｐｕｔｉｎｇ（ＳＡＣ’０８）．ＮｅｗＹｏｒｋ：ＡＣＭ，２００８：９４９—９５０［１７］ＺｈａｎｇＺ，ＣｕｆｆＰ，ＫｕｌｋａｍｉＳ．Ｉｔｅｒａｔｉｖｅｃ０１ｌａｂｏｒａｔｉｖｅｆｉｌｔｅｒｉｎｇｆｏｒｒｅｃｏｍｍｅｎｄｅｒｓｙｓｔｅｍｓｗｉｔｈｓｐａｒｓｅｄａｔａ／／ＰｒｏｃｏｆＩＥＥＥＩｎｔＷｏｒｋｓｈｏｐＭａｃｈｉｎｅＬｅａｒｎｉｎｇｆｏｒＳｉｇｎａｌＰｒｏｃｅｓｓｉｎｇ．Ｐｉｓｃａｔａｗａｙ，ＮＪ：ＩＥＥＥ，２０１２：１—６［１８］ＺｈａｎｇＹ，ＺｈｅｎｇＺ，ＬｙｕＭＲ．ＥｘｐＩｏｒｉｎｇｌａｔｅｎｔｆｅａｔｕｒｅｓｆｏｒｍｅｍｏｒｙ＿ｂａｓｅｄＱｏｓｐｒｅｄｉｃｔｉｏｎｉｎｃｌｏｕｄｃｏｍｐｕｔｉｎｇ／，Ｐｒｏｃｏｆｔｈｅ３０ｔｈＩＥＥＥＳｙｍｐＲｅｌｉａｂｌｅＤｉｓｔ—ｂｕｔｅｄＳｙｓｔｅｍｓ（ＳＲＤＳ’１１）．Ｐｉｓｃａｔａｗａｙ，ＮＪ：ＩＥＥＥ，２０１１：４—７［１９］ＡｄｏｍａｖｉｃｉｕｓＧ，ＴｕｚｈｉｌｉｎＡ．Ｔｏｗａｒｄｔｈｅｎｅｘｔｇｅｎｅｒａｔｉｏｎｏｆｒｅｃｏｍｍｅｎｄｅｒｓｙｓｔｅｍｓ：Ａｓｕｒｖｅｙｏｆｔｈｅｓｔａｔｅ－ｏｆ＿ｔｈｅ—ａｒｔａｎｄｐｏｓｓｉｂｌｅｅｘｔｅｎｓｉｏｎ．１ＥＥＥＴｒａｎｓＫｎｏｗｌｅｄｇｅａｎｄＤａｔａＥｎｇｉｎｅｅｒｉｎｇ，２００５，１７（６）：７３４—７４９［２０］ＡｂｄｅｌｗａｈａｂＡ，ＳｅｋｉｙａＨ，ＭａｔｓｕｂａＩ，ｅｔａ１．ＣｏＵａｂｏｒａｔｉｖｅｆｉｌｔｅｒｉｎｇｂａｓｅｄｉｔｅｒａｔｉｖｅｐｒｅｄｉｃｔｉｏｎｍｅｔｈｏｄｔｏａｌＩｅｖｉａｔｅｔｈｅｓｐａｒｓｉｔｙｐｒｏｂｌｅｍ／／Ｐｒｏｃｏｆｔｈｅ１１ｔｈＩｎｔＣｏｎｆＩｎｆｏｒｍａｔｉｏｎＩｎｔｅｇｒａｔｉｏｎａｎｄＷｅｂ＿ｂａｓｅｄＡｐｐｌｉｃａｔｉｏｎｓａｎｄＳｅｒｖｉｃｅｓ（ｉｉＷＡＳ’０９）．Ｐｉｓｃａｔａｗａｙ，ＮＪ：ＩＥＥＥ，２００９：３７５—３７９［２１］ＺｈｅｎｇＺ，ＭａＨ，ＬｙｕＭＲ，ｅｔａ１．ＱｏＳ－ａｗａｒｅＷｅｂｓｅｒｖｉｃｅｒｅｃｏｍｍｅｎｄａｔｉｏｎｂｙｃｏｌｌａｂｏｒａｔｉｖｅｆｉｌｔｅｒｉｎｇ．ＩＥＥＥＴｒａｎｓＳｅｒｖｉｃｅｓＣｏｍｐｕｔｉｎｇ，２０１１，４（２）：１４０一１５２［２２］ＺｈｅｎｇＺ，ＺｈａｎｇＹ，ＬｙｕＭＲ．ＤｉｓｔｒｉｂｕｔｅｄＱｏＳｅｖａｌｕａｔｉｏｎｆｏｒｒｅａｌ—ｗｏｒｌｄＷｅｂｓｅｒｖｉｃｅｓ／，Ｐｒｏｃｏｆｔｈｅ８ｔｈＩｎｔＣｏｎｆＷｅｂＳｅｒｖｉｃｅｓ（ＩＣＷＳ’１０）．Ｐｉｓｃａｔａｗａｙ，ＮＪ：ＩＥＥＥ，２０ｌＯ：８３—９０［２３］朱锐，王怀民，冯大为．基于偏好推荐的可信服务选择．软件学报，２０１１，２２（５）：８５２—８６４王斌斌男，１９８９年生，硕士研究生，主要研究方向为服务计算．周作建男，１９７６年生，博士研究生，主要研究方向为云计算、大数据挖掘等．过洁男，１９８６年生，博士，主要研究方向为图形学、图形绘制等．潘金贵男，１９５２年生，教授、博士生导师，主要研究方向为知识工程及应用、多媒体软件写作工具和多媒体远程教学系统等．的定义见文献［２３］式（１８）．证明．首先对于用户“采用ＵＰＣＣ模型进行预测，其中有口个已知项目｛凡∽…，九，。），６个待预测项目｛ｑ。），ｉ满足１≤ｉ≤６，项目总数为咒一口＋６．此处将近邻个数由Ｋ减少为１个。１）第。轮迭代，默认采用均值作为预测值．①预测值：ｇ：川…，ｑ：，。一∑凡，。／口；②用户均值：矗。一∑ｋ。／ｎ；③单项ＭＡＥ：ＭＡＥ：，ｉ一１ｑ。。一ｑ：，。１一Ｉｑ毒，一∑‰。ｋ１．①预测值：ｑ蠹ｉ＝五ｒ·＋鱼墨｛簧掣；２）第￡（￡＞１）轮迭代，采用ＵＰＣＣ模型预测．②用户均值：对于６个未知项目，预测出抚个项目Ｍ驴卜矿Ｌ鲨群Ｉ．③单项ＭＡＥ：牡∥＋丢妻盟孝；考察２次迭代之间单个项目预测值的差值，即当￡≥１时：ｑｋ—ｇ五·一面ｒ，＋垒簋三｛翥学一矿ｚ一望甍署盟一＋１（ｑ￡：一直：１）Ｒ（“’２）。（ｑ￡＇ｌ一百：＿１）Ｒ（“’１）咒Ｒ（“：一２）Ｒ（Ｍ：１）“一。（ｑ：ｌ一面；１）Ｒ（“’２）Ｒ（Ｍ：２）（ｑ￡，：一面：一１）Ｒ（“‘一１）．．．．．．．．．．：：．．．．．．．．．．．．．．．．．。．．．．．．．．．．．．．．．．．．．．．．．．．．．．．．．．．．．．．．一行一１（口气：一缸：＿２）Ｒ（∥＿２）尺（“：一１）（Ａ１）由于皮尔逊相关系数指明了向量空间结构的一致性，因此可以得到：—∑ｉ石可厂≈——ｉ瓦，厂’（口￡：一缸：～１）Ｒ（“‘一１）（ｑ虿ｊ一靠：２）Ｒ（ｚ‘‘一２）Ｒ（“：．１）Ｒ（“：－２）（Ａ２）式（Ａ２）代入式（Ａ１）可得：ｑｋ—ｑ五·一去垒鱼立｛罢掣．ｃＡ３，由式（Ａ３）可知，预测值差值恒为正值或恒为负值，即预测值只能从一侧逼近真实值．考察２次迭代之间单个项目ＭＡＥ的差值，当预测值从左侧逼近真实值时，即ＭＡＥ：．ｉ—ＭＡＥ￡１一Ｉｑ：，。一吐，ｉＩ—ｌｑｉｉ—ｑ互１ｌ—ｌｉｍ（ｑ童ｉ—ｑ：。ｉ）一ｌｉｍ（ｑ０；一ｑ矗１）一万方数据计算机研究与发展２０１３，５０（增刊）ｌｉｍ（ｑ０：一或。ｉ）一（ｇ蠹；一ｑ纛１）＝《，。一（《。）屯１一（破．）ｌｉｍ（ｑ五１一矗，ｉ）．（Ａ４）ｑ：。一（屯。）一ｑ五１一（《。）一当预测值从右侧逼近真实值时，同理可得：ＭＡＥ：，ｉ—ＭＡＥ互１一ｌｉｍ（以，ｉ—ｇ五１）．吐。；一（口ｌ。）十《ｊ１一（口０。）＋（Ａ５）利用绝对值将式（Ａ４）（Ａ５）合并可得：ＭＡＥ．ｉ—ＭＡＥ互１一ｌｉｍｌｑ：，ｉ—ｑ暑１Ｉ．乇，ｆ一（口０。）ｑ矗１＋（ｑ０。）（Ａ６）由式（Ａ３）可知，ｑ：，ｉ—ｑ￡１恒为正值或恒为负值，因此式（Ａ６）的结果先逐渐变小，然后缓慢增大，命题得证．由正文中定理１可以产生２个结论：①在第Ｔ次迭代之前，随着迭代次数的增加，ＭＡＥ将越来越小；在第Ｔ次迭代之后，随着迭代次数的增加，心Ｅ将缓慢增大；Ｔ称为迭代的极值点；②随着迭代次数的增加，ＭＡＥ的变化趋势趋于平稳；由结论１可知，ＭＡＥ—ＭＡＥ：㈡…，ＭＡ院，ｉ越来越小，即有ＭＡＥ．ｉ＜ＭＡＥ￡１成立，由该式可得：ＭＡ既，ｉ＜ＭＡ既１净ＭＡＥ，。一ＭＡ眨１＜０．由结论２可知，ＭＡＥ，ｉ—ＭＡＥ暑１不会无限制小，它最终会趋近一个值一ｅ（￡＞Ｏ），即有｜ＭＡＥ．ｉ—ＭＡＥ互１ｌ＜ｅ，去掉绝对值符号，并将ＭＡＥ，ｉ的计算公式代入可得：∑Ｉｑ主；一捌【∑ｌｑ囊：一酿，：ＮＮ＜ｅ．（Ａ７）当预测值均从左侧逼近真实值，则有：∑ｑ支ｉ一群。≥半＜。．∑口主ｉ一啦ＮＮ＜ｃ㈣当预测值均从右侧逼近真实值，则有：（Ａ９）利用绝对值将上述２种情况合并可得：∑！掣＜。．坠霉堂＜。。Ｎ…Ｎ…（Ａ１０）因此，将第￡（１≤￡）次迭代的目标函数定义为Ⅳ迭代的停止条件为Ｆ（￡）＜ｅ．Ｆ（￡）一盟—可一，（Ａ１１）∑Ｉ积一吼，。ｌ基于迭代训练的Web Service混合协同过滤推荐模型

作者：作者单位：刊名：英文刊名：年，卷(期)：

王斌斌，周作建，过洁，潘金贵， Wang Binbin， Zhou Zuojian， Guo Jie， Pan Jingui

计算机软件新技术国家重点实验室(南京大学) 南京 210046;南京大学计算机科学与技术系南京 210046计算机研究与发展

Journal of Computer Research and Development2013,50(z2)

1.Su X;Khoshgoftaar T M A survey of collaborative filtering techniques 2009(04)

2.Xue G R;Lin C;Yang Q Sealable collaborative filtering using cluster-based smoothing 20053.Hofmann T Latent semantic models for collaborative filtering 2004(01)

4.Zheng Z;Lyu M R Collaborative reliability prediction of service-oriented systems 2010

5.Chen X;Liu X;Huang Z RegionKNN:A scalable hybrid collaborative filtering algorithm for personalized Web servicerecommendation 2010

6.Yu K;Schwaighofer A;Tresp V Probabilistic memory-based collaborative filtering 2004(01)

7.Wang J;Vries A P;Reinders M J T Unifying user-based and item-based collaborative filtering approaches by similarityfusion 2006

8.Polat H;Du W SVD-based collaborative filtering with privacy 2005

9.Wagner F;Ishikawa F;Honiden S QoS-aware automatic service composition by applying functional clustering 201110.Zhang S;Wang W;Ford J Using singular value decomposition approximation for collaborative filtering 200511.Si L;Jin R Flexible mixture model for collaborative filtering 2003

12.Su X;Khoshgoftaar T M;Greiner R Imputed neighborhood based collaborative filtering 200813.Wu G;Wei J;Qiao X A bayesian network based QoS assessment model for Web services 2007

14.Shao L;Zhang J;Wei Y Personalized QoS prediction for Web services via collaborative filtering 200715.Yu Q;Rage M On service community learning:A cocluster approach 2010

16.Su X;Khoshgoftaar T M;Greiner R Imputation-boosted collaborative filtering using machine learning classifiers 200817.Zhang Z;Cuff P;Kulkarni S Iterative collaborative filtering for recommender systems with sparse data 201218.Zhang Y;Zheng Z;Lyu M R Exploring latent features for memory-based QoS prediction in cloud computing 201119.Adomavicius G;Tuzhilin A Toward the next generation of recommender systems:A survey of the state-of-the-art andpossible extension 2005(06)

20.Abdelwahab A;Sekiya H;Matsuba I Collaborative filtering based on an iterative prediction method to alleviate thesparsity problem 2009

21.Zheng Z;Ma H;Lyu M R QoS-aware Web service recommendation by collaborative filtering 2011(02)22.Zheng Z;Zhang Y;Lyu M R Distributed QoS evaluation for real-world Web services 201023.朱锐,王怀民,冯大为基于偏好推荐的可信服务选择[期刊论文]-软件学报 2011(5)

引用本文格式：王斌斌.周作建.过洁.潘金贵.Wang Binbin.Zhou Zuojian.Guo Jie.Pan Jingui 基于迭代训练的Web Service混合协同过滤推荐模型[期刊论文]-计算机研究与发展 2013(z2)

因篇幅问题不能全部显示，请点此查看更多更全内容

查看全文

全部栏目

基于迭代训练的Web+Service混合协同过滤推荐模型