基于相似性的推荐也是我们个性化推荐服务的一个重要部分
原文链接:
在这篇包罗两个部分的博文中,我们将揭开
Netflix 最有价值的资产——保举系统的面纱。在第一部分,我们将介绍 Netflix Prize 对保举范围的孝敬,Netflix
保举处事的主要模块,以及保举处事如何满足网站的商业需求。在第二部分,我们将介绍我们使用的数据和模型,讨论如何将离线的机器学习尝试与线上的 A/B
测试相结合。
Netflix Prize 和保举系统
在 2006 年,我们公布发表举办 Netflix Prize,这是一个旨在解决影戏评分预测问题的机器学习和数据挖掘的角逐。对付那些能够将我们的保举系统
Cinematch 的准确率提升 10% 的小我私家或团队,我们供给 100
万美金的奖励。我们但愿通过角逐发明新的要领来改进我们供给给用户的保举功效,这是我们商业模式的核心部分。固然,我们需要一个对照容易评测和量化的指标:我们选择的评测指标是均方根误差(RMSE,预测评分和真实评分之间的均方根误差)。角逐的要求是打败我们系统
0.9525 的 RMSE 得分,并将其降低到 0.8572 或更低。
角逐开始一年后,Korbell
的团队以 8.43% 的提升博得了第一个阶段奖。他们支付了赶过 2000 个小时的努力,融合了 107
种算法才得到了这份奖金。然后,他们将源代码交给了我们,我们分析了此中两种最有效的算法:矩阵分化(凡是被叫做
SVD,奇异值分化)和局限型玻尔兹曼机(RBM)。SVD 取得 0.8914 的 RMSE,RBM 取得 0.8990 的
RMSE,将这两种要领线型融合能将 RMSE 降低到
0.88。为了将这些算法应用到我们的实际系统中,我们必需克服一些限制,例如角逐的数据集是一亿个评分,但实际的线上系统是 50
亿个,并且这些算法的设计并没有考虑用户不停孕育产生的新评分。但最终我们克服了这些困难,并把这两种算法应用到了我们的产品中,而且作为我们保举引擎的一部分一直被使用到此刻。
如果你存眷角逐的功效,可能对两年后大奖的归属很感兴趣。这是一项令人印象深刻的事情,数百种预测模型被融合在一起,最终打破了
0.8572
的临界线。我们评测了一些最新的离线算法,但是很遗憾,这些在角逐数据上胜出的算法,到了线上却表示不够超卓。因此,我们并没有应用到我们的线上环境。与此同时,我们的存眷点也从提升
Netflix 的本性化体验转移到了下一个层级。不才文中,我们将解释为什么要转移存眷点?
从美国 DVD 租赁到全球视频流媒体处事
近几年,跟着
Netflix 业务的成长,我们对保举算法的存眷点产生了变革。在 Netflix Prize 举办一年后的 2007
年,我们颁布了实时流媒体处事。流媒体不只转变了用户与系统的交互方法,也转变了保举算法的的可用数据类型。对 DVD
租赁业务来说,方针是辅佐用户找到影戏,并在接下来的数天或数周内邮寄到用户邮箱。用户从选择影戏到不雅观看影戏,期间有一个过程,在这个过程中收不到用户的任何反馈。一旦用户不对劲,想要改换
DVD,价钱会很大,需要花费一天以上的时间,所以用户一般会仔细挑选。而对流媒体用户来说,选一部影戏立马就可以不雅观看,甚至可以在很短时间内不雅观看多部影戏。同时,我们可以通过统计知道用户是看完了整部影戏,还是只看了一部分。
另一个巨大的变革是,流媒体处事从纯挚的
Web 网站扩展到了成百上千的差别设备。例如:Netflix 角逐举办后的两年,,微软就颁布了集成 Roku 播放器的
XBox。仅仅又过了一年,Netflix 颁布了 iPhone 客户端。此刻,各类 Android 和最新的 Apple TV 上都有
Netflix 的身影。
两年前,我们走向国际,推出了加拿大版本。2011 年,我们的处事扩展到了 43
个拉美国家和地区。比来,我们还登录了英国和爱尔兰。今天,Netflix 已经遍布 47 个国家,共有赶过 2300 万的订阅用户。在 2011
年第一季度,这些用户通过上百种差此外设备不雅观看了 20 亿个小时的视频。每天有 200 万部影戏和电视剧被不雅观看,并新增 400 万个用户评分。
我们已经在这些新的场景中添加了本性化处事,此刻有 75% 的视频不雅观看是与保举系统有关的。我们取得这样的成效源于我们不停优化用户体验,通过优化算法,我们改进了用户对劲度。下面我们列举一些使用在保举系统中的技术和算法。
保举无处不在
颠末几年的实践,我们发明尽可能的集成本性化保举到成果中,会对我们的订阅用户孕育产生巨大的价值。我们的本性化从首页就开始了,包孕按行展示的视频,每一行有一个主题,主题揭示了这行视频的内在联系。大大都本性化都是基于挑选行视频的要领,包孕哪些行该放那些视频,以及如何对视频进行排序。
以顶部的
10 行为例:我们猜度这是你最可能喜欢的 10 个主题。固然,我们说“你”的时候也包罗了你的家人。值得注意的是,Netflix
的本性化是针对每一个家庭,而一个家庭的差别成员会有差此外兴趣和口味。这也就是为什么要选 10 行的原因,你可能会发明这 10
行已经涵盖了对爸爸、妈妈、小孩或者整个家庭的保举。即使这个家庭只有一个用户,我们也但愿能兼顾到这个用户的差别兴趣和情绪。为了做到这一点,我们系统的不只要提高准确度,还要提高保举功效的多样性。
温馨提示: 本文由Jm博客推荐,转载请保留链接: https://www.jmwww.net/file/web/32187.html