最新 | 最热门 | 最高评价

+0  解读Cardinality Estimation算法(第二部分:Linear Counting)

Tag: 数学及算法 | 基数估计 | 大数据 | 概率 | 算法
ericzhang 发于 2012年12月31日 17:35 | 点击: 2571 | 展开摘要
在上一篇文章中,我们知道传统的精确基数计数算法在数据量大时会存在一定瓶颈,瓶颈主要来自于数据结构合并和内存使用两个方面。因此出现了很多基数估计的概率算法,这些算法虽然计算出的结果不是精确的,但误差可控,重要的是这些算法所使用的数据结构易于合并,同时比传统方法大大节省内存。

在这一篇文章中,我们讨论Linear Counting算法。

简介

Linear Counting(以下简称LC)在1990年的一篇论文“A linear-time probabilistic cou

查看全文: http://www.udpwork.com/item/8950.html

+0  解读Cardinality Estimation算法(第一部分:基本概念)

Tag: 数学及算法 | 基数估计 | 大数据 | 概率 | 算法
ericzhang 发于 2012年12月30日 22:11 | 点击: 2619 | 展开摘要
基数计数(cardinality counting)是实际应用中一种常见的计算场景,在数据分析、网络监控及数据库优化等领域都有相关需求。精确的基数计数算法由于种种原因,在面对大数据场景时往往力不从心,因此如何在误差可控的情况下对基数进行估计就显得十分重要。目前常见的基数估计算法有Linear Counting、LogLog Counting、HyperLogLog Counting及Adaptive Counting等。这几种算法都是基于概率统计理论所设计的概率算法,它们克服

查看全文: http://www.udpwork.com/item/8947.html

+0  一淘数据部数据分析与开发-数据开发技术概述

Tag: 未分类 | hadoop | hive | nosql | storm | 一淘数据部 | 大数据 | 技术演变 | 数据开发 | 数据部
gang.yug 发于 2012年12月07日 18:20 | 点击: 1859 | 展开摘要
本博客会陆续更新一淘数据部 各位技术同学分享的资料。

本次分享的内容来自冷川同学:

受众:

对海量数据计算感兴趣,想系统了解数据开发技术,以及平时需要使用数据相关技术的同学

简介:

本节课是数据开发技术的入门课程,结合大淘宝数据平台数据平台及开发技术的演进过程,详细讲解目前在用的主要数据开发技术,并且为大家呈现出目前主要的数据开发技术框架图,最后在未来超海量数据的大背景下,数据同学应该主动结合系统痛点进行技术应用

文件下载:数据开发技术-冷川

查看全文: http://www.udpwork.com/item/8812.html

+1  搜狐的江山

Tag: TMT乱弹 | 媒体供稿 | 大数据 | 微博 | 搜狐 | 搜狗 | 纽约时报
魏武挥 发于 2012年08月31日 10:00 | 点击: 1558 | 展开摘要
本月头上,搜狐张朝阳在一次分析师电话会议上称,搜狐微博遭遇失利。虽然后来搜狐公关部认为媒体有“断章取义”之嫌,但搜狐微博在整个微博市场中,居于新浪腾讯之后,应该是个事实。无论如何,搜狐微博在当下,是“失利”的。

不过,就这个事实,有两种解读方法。其一,战术层面的问题,也就是不够努力,或者执行不到位。张朝阳在更早期的时候承认过这一点。其二,战略层面的问题,也就是搜狐该不该花很大的精力投入到微博之争中。这属于方向问题。来自搜狐官方的消息从来没有对这一点做出回应,但在我看来,搜狐

查看全文: http://www.udpwork.com/item/8034.html

+0  谁的数据:读《大数据》

Tag: TMT乱弹 | 媒体供稿 | 读书 | 中国新闻周刊网 | 大数据 | 老魏说书
魏武挥 发于 2012年08月28日 10:00 | 点击: 1564 | 展开摘要
大数据(Big Data)这个词最近非常火,从逻辑上讲,它和另外一个非常火的词“云计算”是勾连在一起的:放在云端的计算算什么?当然是处理数据。关于大数据的书,如果抛开纯技术书籍,在我的视野里,并不多(有些关于社会、个体行动预测可能也算在里头),这本由涂子沛所著的《大数据》,算是一本。

不过,如果想从这本书里找到多少商业企业利用大数据获得巨大利益的话,那么它就会让你很失望。这本书更多地是在举政府对数据加以利用后提高整个社会透明度的例子,这些例子的直接后果就是对政府的行为做出了

查看全文: http://www.udpwork.com/item/8013.html

+0  大数据时代的结构和反抗

Tag: 后媒体时代 | 媒体供稿 | 东方早报 | 大数据
魏武挥 发于 2012年06月27日 14:57 | 点击: 1650 | 展开摘要
很多人都知道,数字世界的发展和黑客非常有关系。比如微软的比尔盖茨就做过黑客,最新的标志性人物Facebook的扎克伯格也干过这个事儿。Facebook早期的版本Facemash.com就偷偷地接入了哈佛大学的学生数据库,获取了学生证件照。扎克伯格让同学们根据这些照片投票选美,很是热闹了一阵子。

这周,来自华中科技大学的几个学生很彻底地模仿了扎克伯格一回:他们设置了一个名为hust-facemash.com的网站,同样是偷偷摸摸地侵入学校的HUB(华中科技大学公共信息服务平台

查看全文: http://www.udpwork.com/item/7583.html
|<<<1234>>>| 一共4页, 42条记录