最新 | 最热门 | 最高评价

+0  [译] Kafka 存储的工作机制

Tag: Kafka | 大数据
鸟窝 发于 2017年10月12日 19:40 | 点击: 416 | 展开摘要
翻译自 Kafka/Confluent 公司的工程师 Travis Jeffery 的文章: How Kafka’s Storage Internals Work。

通过本文我会帮助你理解Kafka是如何存储它的数据的。
对于调优Kafka的性能以及了解broker配置实际是干什么的, 了解Kafka的存储很有用。 我受Kafka的简单性的启发, 用我所学开始实现一个Go的Kafka: jocko。

那么, Kafka存储内部是如何工作的呢?

Kafka 的存储单元是分

查看全文: http://www.udpwork.com/item/16452.html

+0  Kafka通讯协议指南

Tag: Kafka | 大数据
鸟窝 发于 2017年01月28日 00:17 | 点击: 981 | 展开摘要
官方英文版本: A Guide To The Kafka Protocol

中文翻译: watchword 翻译于2016年1月31日,修改于6月17日,基于原文2016年5月5日修改版本(v.106)修改翻译: Kafka通讯协议指南

smallnest 基于原文 Jan 20, 2017版本修改。

如果想深入了解Kafka的通讯协议的话,这篇文章不可不读。感谢 watchword 将原文翻译成了中文,我基于最新版进行了修订,修订和完善翻译中的错误。

简介

此文档

查看全文: http://www.udpwork.com/item/16080.html

+0  嘘,啪啪啪的秘密

Tag: 大数据
鸟窝 发于 2016年11月27日 16:24 | 点击: 903 | 展开摘要
本文根据京东避孕套的销量情况,分析中国各省对啪啪啪的喜爱程度,以及深度胡扯分析中国人一年四季对避孕套的需求。

虽然本文不涉及低俗的内容,但是因为谈论的话题还是成年人的话题,请小司机们自觉绕行。

前几天看到有人根据京东购买的罩杯的大小进行的分析,所以趁这周休假扒了一下京东的避孕套的购买情况,并基于数据进行分析。

本人是一个涉世不深,思想单纯的孩子,偶尔看到京东的情趣用品的列表,简直就是玲琅满目目不暇接接天蔽日日月同辉。很显然,没有人能精确的说出中国人啪啪啪的详细数据,对于

查看全文: http://www.udpwork.com/item/15949.html

+0  Druid中国用户组第一次线下技术交流资料分享

Tag: 大数据 | Architecture | Big Data | Druid
Guancheng (G.C.) 发于 2016年03月29日 16:29 | 点击: 1123 | 展开摘要
Druid(http://www.druid.io)作为一个开源的大数据OLAP分析引擎,得到了越来越多的关注。在Druid co-founder Fangjin Yang的支持下,阿里,OneAPM,Hulu,小米,蚂蜂窝,滴滴,携程等公司的同学共同成立了Druid China User Group的微信群,并决定与2016年2月20日下午举办第一次线下技术交流,欢迎对大数据分析,Druid,OLAP引擎等话题感兴趣的同学参加。

PPT下载链接:http://pan.ba

查看全文: http://www.udpwork.com/item/15362.html

+0  为豆瓣电影实现Item-based协同过滤的推荐系统

Tag: 推荐系统 | 协同过滤,mahout | 大数据
鸟窝 发于 2016年03月28日 10:23 | 点击: 1004 | 展开摘要
前面的两篇文章分别使用Spark mllib ALS实现了Model-based协同过滤推荐系统和使用Mahout实现了User-based的协同过滤推荐系统。
我们再来回顾一下item-base CF算法的特点:

物品数明显小于用户数的场合,否则物品相似度矩阵计算代价很大

适合长尾物品丰富,用户个性化需求强的领域

对新用户友好,对新物品不友好,因为物品相似度矩阵不需要很强的实时性

利用用户历史行为做推荐解释,比较令用户信服

所以item-base挺适合做电影的推荐

查看全文: http://www.udpwork.com/item/14818.html

+0  为豆瓣电影实现User-based协同过滤的推荐系统

Tag: 推荐系统 | 协同过滤,mahout | 大数据
鸟窝 发于 2016年03月28日 10:22 | 点击: 806 | 展开摘要
协同过滤(Collaborative Filtering),简单来说是利用某兴趣相投、拥有共同经验之群体的喜好来推荐使用者感兴趣的信息,个人透过合作的机制给予信息相当程度的反馈(如评分)并记录下来以达到过滤的目的进而帮助别人筛选信息,反馈不一定局限于特别感兴趣的,特别不感兴趣信息的纪录也相当重要,比如浏览信息,收藏,分享,点击等。

在前一篇文章 使用Spark MLlib给豆瓣用户推荐电影 中,在那篇文章我我介绍了使用Spark MLlib实现了model-based 的系

查看全文: http://www.udpwork.com/item/14815.html

+0  使用Spark MLlib给豆瓣用户推荐电影

Tag: spark | mllib | recommendation | 大数据
鸟窝 发于 2016年03月28日 10:22 | 点击: 1702 | 展开摘要
推荐算法就是利用用户的一些行为,通过一些数学算法,推测出用户可能喜欢的东西。
随着电子商务规模的不断扩大,商品数量和种类不断增长,用户对于检索和推荐提出了更高的要求。由于不同用户在兴趣爱好、关注领域、个人经历等方面的不同,以满足不同用户的不同推荐需求为目的、不同人可以获得不同推荐为重要特征的个性化推荐系统应运而生。

推荐系统成为一个相对独立的研究方向一般被认为始自1994年明尼苏达大学GroupLens研究组推出的GroupLens系统。该系统有两大重要贡献:一是首次提出了

查看全文: http://www.udpwork.com/item/14812.html

+0  Kafka Connect简介

Tag: Kafka | 大数据
鸟窝 发于 2016年02月24日 15:18 | 点击: 1533 | 展开摘要
Kafka 0.9+增加了一个新的特性Kafka Connect,可以更方便的创建和管理数据流管道。它为Kafka和其它系统创建规模可扩展的、可信赖的流数据提供了一个简单的模型,通过connectors可以将大数据从其它系统导入到Kafka中,也可以从Kafka中导出到其它系统。Kafka Connect可以将完整的数据库注入到Kafka的Topic中,或者将服务器的系统监控指标注入到Kafka,然后像正常的Kafka流处理机制一样进行数据流处理。而导出工作则是将数据从Kaf

查看全文: http://www.udpwork.com/item/15247.html

+0  Kafka 0.9 发布

Tag: kafka | 大数据
鸟窝 发于 2015年12月04日 11:29 | 点击: 786 | 展开摘要
confluent的CTO Neha Narkhede女士在11月24日宣布 Apache Kafka 发布0.9版本。confluent是由apache kafka的创建者也就是LinkedIn开发Kafka的那个team成立的一家公司。这个版本提供了相当多的Feature和bug fix,具体的改动可以参看 523 JIRA
以下是0.9的主要的改动:

安全

这次Kafka提供了三个安全特性。一是提供Kerberos 和 TLS 身份认证。而是提供了类似Unix-li

查看全文: http://www.udpwork.com/item/14822.html

+0  机器学习算法 Python&R 速查表

Tag: 大数据
鸟窝 发于 2015年11月09日 09:36 | 点击: 1064 | 展开摘要
原文出处: Cheatsheet – Python & R codes for common Machine Learning Algorithms
在拿破仑•希尔的名著《思考与致富》中讲述了达比的故事:达比经过几年的时间快要挖掘到了金矿,却在离它三英尺的地方离开了!

现在,我不知道这个故事是否真实。但是,我肯定在我的周围有一些跟达比一样的人,这些人认为,不管遇到什么问题, 机器学习的目的就是执行以及使用2 – 3组算法。他们不去尝试更好的算法和技术,因为他们觉得太

查看全文: http://www.udpwork.com/item/14746.html

+0  机器学习算法精要(Python 和 R 代码)

Tag: 大数据
鸟窝 发于 2015年11月05日 10:31 | 点击: 734 | 展开摘要
analyticsvidhya网站有一些非常好的机器学习的文章,这是其中的一篇。
原文出处: Essentials of Machine Learning Algorithms,
国内有人翻译了,可以移步:10 种机器学习算法的要点

Introduction

Google’s self-driving cars and robots get a lot of press, but the company’s real future is in machine learni

查看全文: http://www.udpwork.com/item/14747.html

+0  创建超小的Golang docker 镜像

Tag: Docker | Go | 大数据
鸟窝 发于 2015年10月12日 17:17 | 点击: 946 | 展开摘要
Docker是PaaS供应商dotCloud开源的一个基于LXC 的高级容器引擎,源代码托管在 GitHub 上, 基于Go语言开发并遵从Apache 2.0协议开源。正如DockerPool在免费Docker电子书Docker —— 从入门到实践中这样提到的:

作为一种新兴的虚拟化方式,Docker 跟传统的虚拟化方式相比具有众多的优势。

首先,Docker 容器的启动可以在秒级实现,这相比传统的虚拟机方式要快得多。 其次,Docker 对系统资源的利用率很高,一台主机

查看全文: http://www.udpwork.com/item/14665.html
|<<<1234>>>| 一共4页, 39条记录