最新 | 最热门 | 最高评价

+0  使用Go 机器学习库来进行数据分析 3 (平均感知器)

Tag: 大数据
鸟窝 发于 2017年12月07日 19:36 | 点击: 267 | 展开摘要
这一次,我们使用平均感知器(Average Perceptron)算法来预测美国国会的投票。

1984美国国会投票记录数据集

这一次,我们使用1984美国国会的投票记录来预测一下投票结果。

数据集针对不同的投票议题分为了16类, 记录了民主党和共和党议员们得投票结果。

格式如下

1
2
3
4
5
6
7
8
9
10
11
12
13
14
15

v16,v1,v2,v3,v4,v5,v6,v7,v8,v9,v10,v11,v12,v13,v14,v15,par

查看全文: http://www.udpwork.com/item/16527.html

+0  使用Go 机器学习库来进行数据分析 2 (决策树)

Tag: 大数据
鸟窝 发于 2017年12月07日 19:07 | 点击: 266 | 展开摘要
这篇文章, 继续使用golearn库分析鸢尾花的数据集。 这一次,我们会使用决策树和随机森林来分析。

决策树和随机森林

决策树是机器学习中最接近人类思考问题的过程的一种算法,通过若干个节点,对特征进行提问并分类(可以是二分类也可以使多分类),直至最后生成叶节点(也就是只剩下一种属性)。

每个决策树都表述了一种树型结构,它由它的分支来对该类型的对象依靠属性进行分类。每个决策树可以依靠对源数据库的分割进行数据测试。这个过程可以递归式的对树进行修剪。 当不能再进行分割或一个单

查看全文: http://www.udpwork.com/item/16528.html

+0  使用Go 机器学习库来进行数据分析 1 (kNN)

Tag: 大数据
鸟窝 发于 2017年12月07日 18:25 | 点击: 343 | 展开摘要
这个系列的文章是介绍如何使用Go语言来进行数据分析和机器学习。

Go机器学习的库目前还不是很多,功能海没有Python的丰富,希望在未来的几年里能有更多的功能丰富库面试。

这篇文章利用golearn库, 使用kNN方法来对Iris数据集进行分析。

Iris数据集

Iris数据集也称为鸢尾花数据集,或者叫做费雪鸢尾花卉数据集或者安德森鸢尾花卉数据集。是一类多重变量分析的数据集。它最初是埃德加·安德森从加拿大加斯帕半岛上的鸢尾属花朵中提取的地理变异数据,后由罗纳德·费雪作

查看全文: http://www.udpwork.com/item/16526.html

+0  [译] Kafka 存储的工作机制

Tag: Kafka | 大数据
鸟窝 发于 2017年10月12日 19:40 | 点击: 818 | 展开摘要
翻译自 Kafka/Confluent 公司的工程师 Travis Jeffery 的文章: How Kafka’s Storage Internals Work。

通过本文我会帮助你理解Kafka是如何存储它的数据的。
对于调优Kafka的性能以及了解broker配置实际是干什么的, 了解Kafka的存储很有用。 我受Kafka的简单性的启发, 用我所学开始实现一个Go的Kafka: jocko。

那么, Kafka存储内部是如何工作的呢?

Kafka 的存储单元是分

查看全文: http://www.udpwork.com/item/16452.html

+0  Kafka通讯协议指南

Tag: Kafka | 大数据
鸟窝 发于 2017年01月28日 00:17 | 点击: 1173 | 展开摘要
官方英文版本: A Guide To The Kafka Protocol

中文翻译: watchword 翻译于2016年1月31日,修改于6月17日,基于原文2016年5月5日修改版本(v.106)修改翻译: Kafka通讯协议指南

smallnest 基于原文 Jan 20, 2017版本修改。

如果想深入了解Kafka的通讯协议的话,这篇文章不可不读。感谢 watchword 将原文翻译成了中文,我基于最新版进行了修订,修订和完善翻译中的错误。

简介

此文档

查看全文: http://www.udpwork.com/item/16080.html

+0  嘘,啪啪啪的秘密

Tag: 大数据
鸟窝 发于 2016年11月27日 16:24 | 点击: 945 | 展开摘要
本文根据京东避孕套的销量情况,分析中国各省对啪啪啪的喜爱程度,以及深度胡扯分析中国人一年四季对避孕套的需求。

虽然本文不涉及低俗的内容,但是因为谈论的话题还是成年人的话题,请小司机们自觉绕行。

前几天看到有人根据京东购买的罩杯的大小进行的分析,所以趁这周休假扒了一下京东的避孕套的购买情况,并基于数据进行分析。

本人是一个涉世不深,思想单纯的孩子,偶尔看到京东的情趣用品的列表,简直就是玲琅满目目不暇接接天蔽日日月同辉。很显然,没有人能精确的说出中国人啪啪啪的详细数据,对于

查看全文: http://www.udpwork.com/item/15949.html

+0  Druid中国用户组第一次线下技术交流资料分享

Tag: 大数据 | Architecture | Big Data | Druid
Guancheng (G.C.) 发于 2016年03月29日 16:29 | 点击: 1204 | 展开摘要
Druid(http://www.druid.io)作为一个开源的大数据OLAP分析引擎,得到了越来越多的关注。在Druid co-founder Fangjin Yang的支持下,阿里,OneAPM,Hulu,小米,蚂蜂窝,滴滴,携程等公司的同学共同成立了Druid China User Group的微信群,并决定与2016年2月20日下午举办第一次线下技术交流,欢迎对大数据分析,Druid,OLAP引擎等话题感兴趣的同学参加。

PPT下载链接:http://pan.ba

查看全文: http://www.udpwork.com/item/15362.html

+0  为豆瓣电影实现Item-based协同过滤的推荐系统

Tag: 推荐系统 | 协同过滤,mahout | 大数据
鸟窝 发于 2016年03月28日 10:23 | 点击: 1057 | 展开摘要
前面的两篇文章分别使用Spark mllib ALS实现了Model-based协同过滤推荐系统和使用Mahout实现了User-based的协同过滤推荐系统。
我们再来回顾一下item-base CF算法的特点:

物品数明显小于用户数的场合,否则物品相似度矩阵计算代价很大

适合长尾物品丰富,用户个性化需求强的领域

对新用户友好,对新物品不友好,因为物品相似度矩阵不需要很强的实时性

利用用户历史行为做推荐解释,比较令用户信服

所以item-base挺适合做电影的推荐

查看全文: http://www.udpwork.com/item/14818.html

+0  为豆瓣电影实现User-based协同过滤的推荐系统

Tag: 推荐系统 | 协同过滤,mahout | 大数据
鸟窝 发于 2016年03月28日 10:22 | 点击: 839 | 展开摘要
协同过滤(Collaborative Filtering),简单来说是利用某兴趣相投、拥有共同经验之群体的喜好来推荐使用者感兴趣的信息,个人透过合作的机制给予信息相当程度的反馈(如评分)并记录下来以达到过滤的目的进而帮助别人筛选信息,反馈不一定局限于特别感兴趣的,特别不感兴趣信息的纪录也相当重要,比如浏览信息,收藏,分享,点击等。

在前一篇文章 使用Spark MLlib给豆瓣用户推荐电影 中,在那篇文章我我介绍了使用Spark MLlib实现了model-based 的系

查看全文: http://www.udpwork.com/item/14815.html

+0  使用Spark MLlib给豆瓣用户推荐电影

Tag: spark | mllib | recommendation | 大数据
鸟窝 发于 2016年03月28日 10:22 | 点击: 1785 | 展开摘要
推荐算法就是利用用户的一些行为,通过一些数学算法,推测出用户可能喜欢的东西。
随着电子商务规模的不断扩大,商品数量和种类不断增长,用户对于检索和推荐提出了更高的要求。由于不同用户在兴趣爱好、关注领域、个人经历等方面的不同,以满足不同用户的不同推荐需求为目的、不同人可以获得不同推荐为重要特征的个性化推荐系统应运而生。

推荐系统成为一个相对独立的研究方向一般被认为始自1994年明尼苏达大学GroupLens研究组推出的GroupLens系统。该系统有两大重要贡献:一是首次提出了

查看全文: http://www.udpwork.com/item/14812.html

+0  Kafka Connect简介

Tag: Kafka | 大数据
鸟窝 发于 2016年02月24日 15:18 | 点击: 1732 | 展开摘要
Kafka 0.9+增加了一个新的特性Kafka Connect,可以更方便的创建和管理数据流管道。它为Kafka和其它系统创建规模可扩展的、可信赖的流数据提供了一个简单的模型,通过connectors可以将大数据从其它系统导入到Kafka中,也可以从Kafka中导出到其它系统。Kafka Connect可以将完整的数据库注入到Kafka的Topic中,或者将服务器的系统监控指标注入到Kafka,然后像正常的Kafka流处理机制一样进行数据流处理。而导出工作则是将数据从Kaf

查看全文: http://www.udpwork.com/item/15247.html

+0  Kafka 0.9 发布

Tag: kafka | 大数据
鸟窝 发于 2015年12月04日 11:29 | 点击: 813 | 展开摘要
confluent的CTO Neha Narkhede女士在11月24日宣布 Apache Kafka 发布0.9版本。confluent是由apache kafka的创建者也就是LinkedIn开发Kafka的那个team成立的一家公司。这个版本提供了相当多的Feature和bug fix,具体的改动可以参看 523 JIRA
以下是0.9的主要的改动:

安全

这次Kafka提供了三个安全特性。一是提供Kerberos 和 TLS 身份认证。而是提供了类似Unix-li

查看全文: http://www.udpwork.com/item/14822.html
|<<<1234>>>| 一共4页, 42条记录