最新 | 最热门 | 最高评价

+0  Impala:新一代开源大数据分析引擎

Tag: 大数据 | 系统架构 | Big Data | hadoop | Impala
Guancheng (G.C.) 发于 2013年08月25日 01:40 | 点击: 14092 | 展开摘要
原文发表在《程序员》杂志2013年第8期,略有删改。

文 / 耿益锋 陈冠诚

 大数据处理是云计算中非常重要的问题,自Google公司提出MapReduce分布式处理框架以来,以Hadoop为代表的开源软件受到越来越多公司的重视和青睐。以Hadoop为基础,之后的HBase,Hive,Pig等系统如雨后春笋般的加入了Hadoop的生态系统中。今天我们就来谈谈Hadoop系统中的一个新成员 – Impala。

Impala架构分析

Impala是Cloude

查看全文: http://www.udpwork.com/item/10490.html

+0  Impala与Stinger对比

Tag: 业界评论 | 大数据 | 系统架构 | Architecture | Big Data
Guancheng (G.C.) 发于 2013年08月01日 08:31 | 点击: 7954 | 展开摘要
Tez和Impala现在竞争非常激烈,前者走的是基于DAG的精细化管理,后者是基于MPP的技术架构重头开始造了一个C++版本的SQL引擎。截止到2013年7月,Hortonworks的Stinger(Hive 0.11 + Tez)还是比Impala慢不少,毕竟Impala的动作更早一些。Hortonworks跟Cloudera这场硬仗干的真是激烈啊。

与大家分享三个演讲(墙外),一个是Impala与Stinger的对比,一个是Stinger的核心-Tez的介绍,一个是Im

查看全文: http://www.udpwork.com/item/10323.html

+0  大数据为先:读《金融e时代》

Tag: 媒体供稿 | 读书 | 互联网金融 | 人物 | 大数据 | 老魏说书 | 金融e时代
魏武挥 发于 2013年07月24日 13:00 | 点击: 1501 | 展开摘要
近日[i],阿里支付宝忽然非常低调地推出了一个名为“余额宝”的服务,微博上盛传将支付宝中的款项转入余额宝后可获得“利息”。我去查看了一下,发现所谓“利息”,其实是指当用户将金额从支付宝转入余额宝时,就等于购买了天弘基金公司的基金,根据该基金的收益情况,可以获取一定的利益。支付宝提示说:“根据基金行业的长期经验,存入300元以上有较高概率可获得每日收益。”实际收益计算方式为:(余额宝资金/10000 )X基金公司公布的每万份收益。
早在马云辞去CEO职位之时,我就以为,未来阿里

查看全文: http://www.udpwork.com/item/10280.html

+0  阅读服务类产品在2013年的一些变化

Tag: 产品市场 | 大数据 | 数字出版 | 移动互联网 | 阅读
Gauin 发于 2013年07月22日 23:25 | 点击: 1532 | 展开摘要
移动化

去年是移动互联网概念爆发的一年,而阅读类产品Web站点也开始了移动端卡位大战。

1、传统的RSS订阅服务鲜果网全线产品移动端化,在今年2013年开始移动端社区化。

2、门户站点新闻客户端大举发力,搜狐新闻客户端通过某些手段拿下1亿用户

移动互联网来临,让传统互联网资讯阅读服务,得到了延续。

阅读服务类产品在2013年的一些变化

大数据

今年大数据概念吵得太火了,以至于被遗忘的书签类产品被再次抬到桌面。

1、曾经风风火火的网站书签类产品,沦为推广绝佳之地

查看全文: http://www.udpwork.com/item/10260.html

+0  大数据:利用相关性的营销

Tag: TMT乱弹 | 媒体供稿 | 新营销漫谈 | 大数据 | 销售与市场
魏武挥 发于 2013年05月21日 12:43 | 点击: 1333 | 展开摘要
国内有一家民营航空公司,会员不下数百万,会员的一个重要信息是邮箱地址。另外一边,微博账号申请也需要一个邮箱地址。通常来说,同一个邮箱地址意味着航空公司里的会员和微博里的会员,应该是同一个人。公司做了一个筛选,合并出十万个用户来。

然后一家第三方公司的数据部门介入,主要任务是看这十万航空公司会员的微博用户,在社会化媒体上的行为,比如“说”些什么,比如喜欢介入什么样的话题去转发评论,比如喜欢关注什么样的商业账号。研究这类事的原因在于:这个航空公司很想知道它在社会化媒体上发起什么

查看全文: http://www.udpwork.com/item/9893.html

+0  大数据时代的隐私安全危机

Tag: Anecdote | 危机 | 大数据 | 安全 | 隐私
四火 发于 2013年03月17日 23:31 | 点击: 1296 | 展开摘要
文章系本人原创,转载请保持完整性并注明出自《四火的唠叨》

315晚会上,网易销售人员为了强调”精准营销”,面对央视镜头称:通过cookies代码可以追踪用户隐私,甚至能读取网易用户的私人邮件。这件事情引起了轩然大波,网易股价当天就暴跌,但是也引起了无数争论。不可否认通过cookie可以获取用户信息,但是在这样做的企业有多少呢,这并不是一件稀奇到值得争论的事情;而推送恶意广告或者获取私人邮件,又成了遭来非议的过分行为。

网易手里掌握了多么海量的用户

查看全文: http://www.udpwork.com/item/9471.html

+0  大数据的方法:《证析》

Tag: 媒体供稿 | 读书 | 大数据 | 老魏说书 | 证析 | 郑毅
魏武挥 发于 2013年03月01日 11:03 | 点击: 1321 | 展开摘要
每一个从事商铺零售的人都知道,店内商品的摆放是很有些学问的。这个领域还有本书《啤酒与尿布》来分析如何进行货品陈列。但即便如此,依然存在两个缺陷:其一,必须通过销售数据来进行指导,而那些逛店但却没有消费行为的,很难从他们身上获得些什么;其二,商铺内的陈设(不仅仅是商品包括装饰物)不可能每天都进行变化,物体的位移总是比较麻烦的。

但电子商务就不是。我几位从事化妆品电商的朋友就搞过这种事。2006年的时候,他们创建了一个化妆品售卖的网站,但有一个疑问:究竟是把货品的照片放在页面上

查看全文: http://www.udpwork.com/item/9349.html

+0  数据的征服:读《大数据时代》

Tag: TMT乱弹 | 媒体供稿 | 读书 | 大数据时代 | 网络传播 | 老魏读书 | 舍恩伯格
魏武挥 发于 2013年02月15日 10:00 | 点击: 1684 | 展开摘要
谷歌有一个名为“谷歌流感趋势”的工具,它通过跟踪搜索词相关数据来判断全美地区的流感情况(比如患者会搜索流感两个字)。近日,这个工具发出警告,全美的流感已经进入“紧张”级别。它对于健康服务产业和流行病专家来说是非常有用的,因为它的时效性极强,能够很好地帮助到疾病暴发的跟踪和处理。事实也证明,通过海量搜索词的跟踪获得的趋势报告是很有说服力的,仅波士顿地区,就有700例流感得到确认,该地区目前已宣布进入公共健康紧急状态。

这个工具工作的原理大致是这样的:设计人员置入了一些关键词(

查看全文: http://www.udpwork.com/item/9247.html

+0  单极美国

Tag: TMT乱弹 | 媒体供稿 | 3D打印 | 大数据 | 钛媒体
魏武挥 发于 2013年01月15日 10:00 | 点击: 1312 | 展开摘要
【摘要:最近中科院国家健康研究组发布了一个名为“《国家健康报告》第一号”的报告,说根据“国家健康”,中国有望于2049年全面超越美国——这似乎就是一个笑话。我正好反过来认为,美国有可能会在未来建立起一般国家所没有的优势,让国际秩序从冷战结束后的短暂多极重回到一强独霸的一极时代。

这个优势建立在两个基础上:大数据和3D打印。】

本文为钛媒体专栏独家供稿,故而全文阅读请点击这里

Copyleft © 2013 知识共享署名-非商业性使用-禁止演绎 注意:转载勿改标

查看全文: http://www.udpwork.com/item/9093.html

+0  解读Cardinality Estimation算法(第四部分:HyperLogLog Counting及Adaptive Counting)

Tag: 数学及算法 | 基数估计 | 大数据 | 概率 | 算法
ericzhang 发于 2013年01月09日 17:35 | 点击: 3069 | 展开摘要
在前一篇文章中,我们了解了LogLog Counting。LLC算法的空间复杂度为的几何平均数,而几何平均数对于特殊值(这里就是指0)非常敏感,因此当存在一些空桶时,LLC的估计效果就变得较差。

这一篇文章中将要介绍的HyperLogLog Counting及Adaptive Counting算法均是对LLC算法的改进,可以有效克服LLC对于较小基数估计效果差的缺点。

评价基数估计算法的精度

首先我们来分析一下LLC的问题。一般来说LLC最大问题在于当基数不太大时,估计

查看全文: http://www.udpwork.com/item/9048.html

+0  “闯黄灯”的决策依据?

Tag: TMT乱弹 | 媒体供稿 | 南方都市报 | 大数据
魏武挥 发于 2013年01月04日 10:50 | 点击: 1066 | 展开摘要
互联网商业界所鼓吹的大数据,在我看来,政务上也需要重视。有那么多过往行为数据在,政府是不是需要更懂得一些“大数据说话”的方法?

今年1月1日开始实施的新《机动车驾驶证申领和使用规定》引起了很大的争议,争议问题在于“闯黄灯”要不要被罚以及是不是该罚得如此之重(要扣6分)。微博上到处都有人对这个新规表示不满,一位经营酒店的人士甚至写了极长的数据分析文章,称北京市会为这个新规间接损失60个亿。

争论者主要聚焦于如果要严格遵守这个新规,会引发大量的追尾事故。这方面有各种数据推断,

查看全文: http://www.udpwork.com/item/8973.html

+0  解读Cardinality Estimation算法(第三部分:LogLog Counting)

Tag: 数学及算法 | 基数估计 | 大数据 | 概率 | 算法
ericzhang 发于 2013年01月03日 21:17 | 点击: 4218 | 展开摘要
上一篇文章介绍的Linear Counting算法相较于直接映射bitmap的方法能大大节省内存(大约只需后者1/10的内存),但毕竟只是一个常系数级的降低,空间复杂度仍然为。例如,假设基数的上限为1亿,原始bitmap方法需要12.5M内存,而LogLog Counting只需不到1K内存(640字节)就可以在标准误差不超过4%的精度下对基数进行估计,效果可谓十分惊人。

本文将介绍LogLog Counting。

简介

LogLog Counting(以下简称LLC)

查看全文: http://www.udpwork.com/item/8971.html
|<<<1234>>>| 一共4页, 42条记录