最新 | 最热门 | 最高评价

+0  Go编程模式:Map-Reduce

Tag: Go 语言 | 程序设计 | 编程语言 | functional | functional-programming | Go | golang | MapReduce | 函数式 | 函数式编程
陈皓 发于 2020年12月24日 15:13 | 点击: 602 | 展开摘要
在本篇文章中,我们学习一下函数式编程的中非常重要的Map、Reduce、Filter的三种操作,这三种操作可以让我们非常方便灵活地进行一些数据处理——我们的程序中大多数情况下都是在到倒腾数据,尤其对于一些需要统计的业务场景,Map/Reduce/Filter是非常通用的玩法。下面先来看几个例子:

本文是全系列中第5 / 9篇:Go编程模式
Go编程模式:切片,接口,时间和性能
Go 编程模式:错误处理
Go 编程模式:Functional Options
Go编程模式:委托

查看全文: http://www.udpwork.com/item/17491.html

+0  常见分布式基础设施系统设计图解(六):分布式 MR 系统

Tag: System and Architecture | MapReduce | 图解笔记 | 基础设施 | 系统设计
四火 发于 2020年11月03日 02:17 | 点击: 428 | 展开摘要
其实对于 MR(Map Reduce)系统来说,可能更重要的是分治和分步处理的思想,因为现在的基于 MR 的数据处理框架或者平台,在实现上数据处理往往已经和最经典的对于 MR 的理解(最早应该是来自 Google 的那篇论文)有了不少区别。当然,我还是按照之前的做法,把一个典型的 MR 系统简单图示画出来了,这个图相对比较简单。

还是老规矩,虚线表示控制流,实线表示数据流。
上半部分用户向 Master 这个 job 管理节点提交一个 job 的请求,这个请求被拆解为若干个

查看全文: http://www.udpwork.com/item/17822.html

+0  Hadoop的Secondary Sorting

Tag: Distributed System | Hadoop | MapReduce | Secondary Sorting | 排序
四火 发于 2014年06月04日 23:31 | 点击: 2392 | 展开摘要
这几天项目中使用Hadoop遇到一个问题,对于这样key-value的数据集合:id-biz object,对id进行partition(比如根据某特定的hash算法P),分为a份;使用数量为b的reducer,在reducer里面要使用第三方组件进行批量上传;上传成文件,文件数量为c,但是有两个要求:

上述a、b、c都相等,从而使得每个partition的数据最终都通过同一个reducer上传到同一个文件中去;

每个reducer中上传的数据要求id必须有序。

最开始

查看全文: http://www.udpwork.com/item/12589.html

+0  给我一把榔头,满世界都是钉子

Tag: Algorithm & Data Structure | Hadoop | MapReduce | 单词 | 通用
四火 发于 2013年11月28日 12:25 | 点击: 2270 | 展开摘要
文章系本人原创,转载请保持完整性并注明出自《四火的唠叨》

一篇文章存成一个巨大的文件,总共大约有一亿个单词,要找出里面重复次数最多的。怎么做?

Hadoop是一把威力巨大的榔头,在使用过Hadoop之后,看着任何东西都想把它给map reduce了。有一个关于Jeff Dean的小笑话,说在睡不着觉的时候,一般人是数羊,Jeff Dean是map reduce他的羊群。所以,我的办法是,把这个文件拆分成若干个小文件,在map过程用hash算法保证相同的单词落入一个文件(

查看全文: http://www.udpwork.com/item/11233.html

+0  Jeff Dean的Stanford演讲

Tag: 杂项资源 | Google | Jeff Dean | MapReduce | Performance | Stanford
陈皓 发于 2010年11月22日 09:07 | 点击: 3057 | 展开摘要
Google 公司的 Jeff Dean 在Stanford大学做了一个非常 精彩的演讲(视频未墙)。我觉得我们每一个人都应该去看一看这个视频,当然,没有字幕,需要不错的听力,当然,我不可能全部翻译出来,因为我也不是完全能听懂,下面是一些相关的Notes,供你参夸,并欢迎牛人指证。

比较了从1999年到2010年十年来的搜索量的变化。搜索量增加了 1000 倍,而搜索速度快了5 倍。1999年,一个网页的更新最多需要一个月到两个月,而今天,只需要几秒钟,足足加快了5w倍。

查看全文: http://www.udpwork.com/item/3498.html

+0  mongodb MapReduce使用初步

Tag: nosql | mapreduce | mongodb
kafka0102 发于 2010年09月18日 21:15 | 点击: 3206 | 展开摘要
最近在做搜索的查询日志的统计分析,对每一条查询统计日志,我将其解析出来后以特定字段格式存在mongodb中,定时调度做些统计分析。其中有个需求是,统计某个时间段(每天、每周、每月)各个query的查询次数,展示上就是热门查询query了。考虑到处理的数据量不会很大,解决方法也可以简单来之。我现在使用的方法就是mongodb的MapReduce功能,其实这个需求也可以认为是个group操作,而mongodb的group功能就是基于MapReduce的,但group对结果集的大小

查看全文: http://www.udpwork.com/item/2745.html

+0  Google MapReduce中文版(转载)

Tag: nosql | MapReduce | google gfs | map reduce | google file system | My Reading
jametong 发于 2010年06月22日 22:21 | 点击: 2936 | 展开摘要
英文原文链接: Google Map Reduce

译文原文链接: Google MapReduce中文版

Google MapReduce中文版

译者: alex

摘要

MapReduce是一个编程模型,也是一个处理和生成超大数据集的算法模型的相关实现。用户首先创建一个Map函数处理一个基于 key/value pair的数据集合,输出中间的基于key/value pair的数据集合;然后再创建一个Reduce函数用来合并所有的具有相同中间key值的中间va

查看全文: http://www.udpwork.com/item/1858.html
|<<<1>>>| 一共1页, 7条记录