最新 | 最热门 | 最高评价

+0  Impala:新一代开源大数据分析引擎

Tag: 大数据 | 系统架构 | Big Data | hadoop | Impala
Guancheng (G.C.) 发于 2013年08月25日 01:40 | 点击: 14248 | 展开摘要
原文发表在《程序员》杂志2013年第8期,略有删改。

文 / 耿益锋 陈冠诚

 大数据处理是云计算中非常重要的问题,自Google公司提出MapReduce分布式处理框架以来,以Hadoop为代表的开源软件受到越来越多公司的重视和青睐。以Hadoop为基础,之后的HBase,Hive,Pig等系统如雨后春笋般的加入了Hadoop的生态系统中。今天我们就来谈谈Hadoop系统中的一个新成员 – Impala。

Impala架构分析

Impala是Cloude

查看全文: http://www.udpwork.com/item/10490.html

+0  Impala与Stinger对比

Tag: 业界评论 | 大数据 | 系统架构 | Architecture | Big Data
Guancheng (G.C.) 发于 2013年08月01日 08:31 | 点击: 8082 | 展开摘要
Tez和Impala现在竞争非常激烈,前者走的是基于DAG的精细化管理,后者是基于MPP的技术架构重头开始造了一个C++版本的SQL引擎。截止到2013年7月,Hortonworks的Stinger(Hive 0.11 + Tez)还是比Impala慢不少,毕竟Impala的动作更早一些。Hortonworks跟Cloudera这场硬仗干的真是激烈啊。

与大家分享三个演讲(墙外),一个是Impala与Stinger的对比,一个是Stinger的核心-Tez的介绍,一个是Im

查看全文: http://www.udpwork.com/item/10323.html

+0  解读Cardinality Estimation算法(第三部分:LogLog Counting)

Tag: 数学及算法 | 基数估计 | 大数据 | 概率 | 算法
ericzhang 发于 2013年01月03日 21:17 | 点击: 4403 | 展开摘要
上一篇文章介绍的Linear Counting算法相较于直接映射bitmap的方法能大大节省内存(大约只需后者1/10的内存),但毕竟只是一个常系数级的降低,空间复杂度仍然为。例如,假设基数的上限为1亿,原始bitmap方法需要12.5M内存,而LogLog Counting只需不到1K内存(640字节)就可以在标准误差不超过4%的精度下对基数进行估计,效果可谓十分惊人。

本文将介绍LogLog Counting。

简介

LogLog Counting(以下简称LLC)

查看全文: http://www.udpwork.com/item/8971.html

+0  给Vim配置Scala语法高亮显示

Tag: 大数据 | scala
Guancheng (G.C.) 发于 2015年04月11日 22:54 | 点击: 4074 | 展开摘要
第一步,执行下面这个脚本:

mkdir -p ~/.vim/{ftdetect,indent,syntax} && for d in ftdetect indent syntax ; do curl -o ~/.vim/$d/scala.vim https://raw.githubusercontent.com/gchen/scala.vim/master/scala.vim; done

第二步,在~/.vimrc中添加:

syntax on

查看全文: http://www.udpwork.com/item/14087.html

+0  Kafka通讯协议指南

Tag: Kafka | 大数据
鸟窝 发于 2017年01月28日 00:17 | 点击: 3916 | 展开摘要
官方英文版本: A Guide To The Kafka Protocol

中文翻译: watchword 翻译于2016年1月31日,修改于6月17日,基于原文2016年5月5日修改版本(v.106)修改翻译: Kafka通讯协议指南

smallnest 基于原文 Jan 20, 2017版本修改。

如果想深入了解Kafka的通讯协议的话,这篇文章不可不读。感谢 watchword 将原文翻译成了中文,我基于最新版进行了修订,修订和完善翻译中的错误。

简介

此文档

查看全文: http://www.udpwork.com/item/16080.html

+0  Kafka Connect简介

Tag: Kafka | 大数据
鸟窝 发于 2016年02月24日 15:18 | 点击: 3512 | 展开摘要
Kafka 0.9+增加了一个新的特性Kafka Connect,可以更方便的创建和管理数据流管道。它为Kafka和其它系统创建规模可扩展的、可信赖的流数据提供了一个简单的模型,通过connectors可以将大数据从其它系统导入到Kafka中,也可以从Kafka中导出到其它系统。Kafka Connect可以将完整的数据库注入到Kafka的Topic中,或者将服务器的系统监控指标注入到Kafka,然后像正常的Kafka流处理机制一样进行数据流处理。而导出工作则是将数据从Kaf

查看全文: http://www.udpwork.com/item/15247.html

+0  解读Cardinality Estimation算法(第四部分:HyperLogLog Counting及Adaptive Counting)

Tag: 数学及算法 | 基数估计 | 大数据 | 概率 | 算法
ericzhang 发于 2013年01月09日 17:35 | 点击: 3255 | 展开摘要
在前一篇文章中,我们了解了LogLog Counting。LLC算法的空间复杂度为的几何平均数,而几何平均数对于特殊值(这里就是指0)非常敏感,因此当存在一些空桶时,LLC的估计效果就变得较差。

这一篇文章中将要介绍的HyperLogLog Counting及Adaptive Counting算法均是对LLC算法的改进,可以有效克服LLC对于较小基数估计效果差的缺点。

评价基数估计算法的精度

首先我们来分析一下LLC的问题。一般来说LLC最大问题在于当基数不太大时,估计

查看全文: http://www.udpwork.com/item/9048.html

+0  使用Spark MLlib给豆瓣用户推荐电影

Tag: spark | mllib | recommendation | 大数据
鸟窝 发于 2016年03月28日 10:22 | 点击: 2816 | 展开摘要
推荐算法就是利用用户的一些行为,通过一些数学算法,推测出用户可能喜欢的东西。
随着电子商务规模的不断扩大,商品数量和种类不断增长,用户对于检索和推荐提出了更高的要求。由于不同用户在兴趣爱好、关注领域、个人经历等方面的不同,以满足不同用户的不同推荐需求为目的、不同人可以获得不同推荐为重要特征的个性化推荐系统应运而生。

推荐系统成为一个相对独立的研究方向一般被认为始自1994年明尼苏达大学GroupLens研究组推出的GroupLens系统。该系统有两大重要贡献:一是首次提出了

查看全文: http://www.udpwork.com/item/14812.html

+0  解读Cardinality Estimation算法(第一部分:基本概念)

Tag: 数学及算法 | 基数估计 | 大数据 | 概率 | 算法
ericzhang 发于 2012年12月30日 22:11 | 点击: 2619 | 展开摘要
基数计数(cardinality counting)是实际应用中一种常见的计算场景,在数据分析、网络监控及数据库优化等领域都有相关需求。精确的基数计数算法由于种种原因,在面对大数据场景时往往力不从心,因此如何在误差可控的情况下对基数进行估计就显得十分重要。目前常见的基数估计算法有Linear Counting、LogLog Counting、HyperLogLog Counting及Adaptive Counting等。这几种算法都是基于概率统计理论所设计的概率算法,它们克服

查看全文: http://www.udpwork.com/item/8947.html

+0  解读Cardinality Estimation算法(第二部分:Linear Counting)

Tag: 数学及算法 | 基数估计 | 大数据 | 概率 | 算法
ericzhang 发于 2012年12月31日 17:35 | 点击: 2571 | 展开摘要
在上一篇文章中,我们知道传统的精确基数计数算法在数据量大时会存在一定瓶颈,瓶颈主要来自于数据结构合并和内存使用两个方面。因此出现了很多基数估计的概率算法,这些算法虽然计算出的结果不是精确的,但误差可控,重要的是这些算法所使用的数据结构易于合并,同时比传统方法大大节省内存。

在这一篇文章中,我们讨论Linear Counting算法。

简介

Linear Counting(以下简称LC)在1990年的一篇论文“A linear-time probabilistic cou

查看全文: http://www.udpwork.com/item/8950.html

+0  一步一步教你怎样给Apache Spark贡献代码

Tag: 大数据
Guancheng (G.C.) 发于 2014年08月05日 16:48 | 点击: 2526 | 展开摘要
本文将教大家怎样用10个步骤完成给Apache Spark贡献代码这个任务:)

到 Apache Spark 的github 页面内点击 fork 按钮

你的github帐户中会出现 spark 这个项目

本地电脑上, 使用

git clone [你的 spark repository 的 github 地址]
例如:
git clone git@github.com:gchen/spark.git

本地得到一个叫 spark 的文件夹

4. 进入该文件夹,使用

查看全文: http://www.udpwork.com/item/12860.html

+0  大数据的价值密度

Tag: 业界评论 | 大数据 | Big Data
Guancheng (G.C.) 发于 2014年05月03日 16:47 | 点击: 2443 | 展开摘要
文 / 陈冠诚

注:原文刊载于《程序员》2014年第5期,略有删改。

在大数据和云计算如火如荼的今天,怎样将数据的商业价值变现成为各位老板和技术男们最关心的问题。马云经常讲,我不懂技术,所以我才要发力做云计算,做大数据。相信马总一定因为看到了云计算和大数据的潜在商业价值才做出上述决定的。在各位大佬争相跑马圈地的年代,各大公司都开始占领数据源头,从构建自己线上应用的生态圈入手,将用户的数据牢牢掌握在自己手中,以期望将来能从这些数据中挖掘出“潜在”的商业价值,例如在2014年

查看全文: http://www.udpwork.com/item/12205.html
|<<<1234>>>| 一共4页, 42条记录