最新 | 最热门 | 最高评价

+0  为豆瓣电影实现Item-based协同过滤的推荐系统

Tag: 推荐系统 | 协同过滤,mahout | 大数据
鸟窝 发于 2016年03月28日 10:23 | 点击: 1933 | 展开摘要
前面的两篇文章分别使用Spark mllib ALS实现了Model-based协同过滤推荐系统和使用Mahout实现了User-based的协同过滤推荐系统。
我们再来回顾一下item-base CF算法的特点:

物品数明显小于用户数的场合,否则物品相似度矩阵计算代价很大

适合长尾物品丰富,用户个性化需求强的领域

对新用户友好,对新物品不友好,因为物品相似度矩阵不需要很强的实时性

利用用户历史行为做推荐解释,比较令用户信服

所以item-base挺适合做电影的推荐

查看全文: http://www.udpwork.com/item/14818.html

+0  为豆瓣电影实现User-based协同过滤的推荐系统

Tag: 推荐系统 | 协同过滤,mahout | 大数据
鸟窝 发于 2016年03月28日 10:22 | 点击: 1219 | 展开摘要
协同过滤(Collaborative Filtering),简单来说是利用某兴趣相投、拥有共同经验之群体的喜好来推荐使用者感兴趣的信息,个人透过合作的机制给予信息相当程度的反馈(如评分)并记录下来以达到过滤的目的进而帮助别人筛选信息,反馈不一定局限于特别感兴趣的,特别不感兴趣信息的纪录也相当重要,比如浏览信息,收藏,分享,点击等。

在前一篇文章 使用Spark MLlib给豆瓣用户推荐电影 中,在那篇文章我我介绍了使用Spark MLlib实现了model-based 的系

查看全文: http://www.udpwork.com/item/14815.html

+0  百度电影推荐系统算法大赛新数据集的简单分析

Tag: 推荐系统 | 新数据集 | 电影 | 百度
diaorui 发于 2013年03月26日 11:03 | 点击: 1519 | 展开摘要
上一篇博文 http://diaorui.net/?p=419 意外的火了。如果你还没看过,请先去看看再回来看这篇。

后来今晚看啥@汪冠春 与我取得了联系。他和百度的多个技术人员一起对比赛进行了调整。赛前的准备工作不太充分,希望弥补后还能顺利吧。

百度学院的迅速响应和公开真实数据的精神是值得赞一个的~

调整后的比赛包括两个问题:

1, 传统的预测评分问题。给定一个只包括活跃用户的真实评分(而不包括“喜欢”),要求预测其他评分,仍然是RMSE作为评价指标。这部分数据包括

查看全文: http://www.udpwork.com/item/10647.html

+0  数据真实性的探索——对百度电影推荐系统算法大赛的质疑

Tag: 推荐系统 | 数据 | 电影 | 百度
diaorui 发于 2013年03月20日 19:51 | 点击: 969 | 展开摘要
更新:

没有想到本文获得这么多人的关注。

@袁全V 的如下评价是个很好的建议。

—–

@袁全V:如果喜欢数据占大多数,只选”喜欢”数据,用recall或ndcg当metric也可以,没必要去套rmse. ID没有匿名化是硬伤

—–

我也收到了今晚看啥的来信。

—–

@汪冠春:看了你的分析和建议,很细致。我们在出题准备数据的时候有了一些不科学之处,望理解。明天我会和百

查看全文: http://www.udpwork.com/item/10648.html

+0  无觅插件效果图的变化

Tag: Startups | 业界动态 | 推荐系统 | 无觅网络 | 相关文章插件
何 李石 发于 2011年02月18日 21:38 | 点击: 2192 | 展开摘要
我之前有篇文章介绍了无觅这款产品。它原先是一个wordpress的相关文章推荐插件,后来做了个“无觅网络”。后者将各个网站连接在一起,前者将连接在一起的网站中的内容关联起来,通过相关算法推荐相似文章。两者结合起来给网站的访问带来不少提升。

刚开始时,使用无觅插件的效果图是这样的:

上图中所显示的五篇“相关文章”中,前两篇是本站以外与本站有连接关系的网站中的文章,带有“@”标记。后三篇是本站内的相关文章。右下角是一个“无觅”字样。

最近,无觅插件的默认效果图是这样的:

查看全文: http://www.udpwork.com/item/4309.html

+0  无觅网络:加入SNS味道的推荐系统

Tag: Startups | 业界动态 | 推荐系统 | 无觅网络 | 相关文章插件
何 李石 发于 2011年01月19日 12:44 | 点击: 1989 | 展开摘要
本文已经首发于Tech2IPO,版权所有,本文为作者在Tech2IPO上的内容和链接,如需转载,请务必附带本声明,谢谢。
Tech2IPO是一个领先的技术媒体平台,专门报道互联网和移动互联网方面的创新公司及应用。
无觅网络曾发布一款wordpress的“相关文章”插件,目的是利用推荐算法帮助博客为其用户提供“相关文章”。现在,无觅网络从做“云端相关文章插件”转作“平台”,不仅聚集网站主和博客用户将,也聚集普通用户,为各种收集和整合信息。
目前,无觅网络刚刚上线,难以评价其是否

查看全文: http://www.udpwork.com/item/4176.html

+0  推荐系统资料整理之二:常用相似度计算方法

Tag: Topic | 开发技术 | 推荐系统 | 算法 | 余弦相似度 | 欧氏距离 | 皮尔森相关系数 | 相似度计算
雨水无香 发于 2010年12月28日 15:38 | 点击: 4905 | 展开摘要
不论是推荐系统,还是搜索引擎,都经常需要比较两个项目之间的相似度。常见的思想是将项目的特征的权值表示为N维空间向量,然后利用代数方法,对两个空间向量之间的距离、夹角等进行度量,从而表示相似度。常用的相似度计算方法有如下几种:

1.1 欧氏距离

欧氏距离的计算中将空间向量看成是N维空间上的两个点,通过空间上两点之间的距离表示两个项目之间的联系。欧氏距离一般只用于简单的比较,并不能将值域投影到某一特定范围。

1.2 余弦相似度

余弦相似度通过计算两个空间向量之间的夹角余弦

查看全文: http://www.udpwork.com/item/3907.html

+0  推荐系统资料整理之一:推荐方法

Tag: Topic | 开发技术 | 推荐系统 | 算法 | 关联规则挖掘 | 协同过滤
雨水无香 发于 2010年12月27日 20:04 | 点击: 3894 | 展开摘要
1.1 基于内容的推荐系统

基于内容推荐是推荐系统中比较常见的一种做法,这种方法对于每个item基于其自身属性,抽取一些特征用来表示这个item的内容,从而推荐那些和当前item含有相同或相近特征的一些item。

这种推荐系统多用于一些资讯类的应用上,针对文章本身抽取一些tag作为该文章的关键词,继而可以通过这些tag来评价两篇文章的相似度。抽取tag经常采用的方案是基于TF-IDF得到的一系列权值较高的term,即认为:在一篇文章中,那些出现频率高的(除停用词)词,并且

查看全文: http://www.udpwork.com/item/3901.html
|<<<1>>>| 一共1页, 8条记录