最新 | 最热门 | 最高评价

+0  从未降级的搜索技术 – HBase集群升级与优化

Tag: 分布式技术 | 性能优化 | Hadoop | hbase
雨田 发于 2014年11月26日 18:22 | 点击: 2026 | 展开摘要
战争从来都是拼后勤拼平台支撑的,天猫双十一这一天对于我们搜索事业部来说,就是一场高强度的数字化战争。为了这一天,各兄弟业务线的战友们已经摩拳擦掌,纷纷亮出各种新式武器,而我们原有的离线系统平台却渐渐显出疲态,慢慢被来自各业务线的不断提升的压力需求搞得捉襟见肘了。个性化搜索实时数据处理平台(Pora)在双十一将正式亮相,当时我们预计会有数以十亿计的新增HBase读写请求,如果不进行升级优化,原有的离线集群预计将无法承受这一前所未有的压力;天猫业务线的增量在双十一更是重中之重,届

查看全文: http://www.udpwork.com/item/13560.html

+0  Hadoop的Map-side join和Reduce-side join

Tag: Distributed System | Hadoop | Join
四火 发于 2014年07月13日 12:36 | 点击: 2755 | 展开摘要
Hadoop中连接(join)操作很常见,Hadoop“连接”的概念本身,和SQL的“连接”是一致的。SQL的连接,在维基百科中已经说得非常清楚。比如dataset A是关于用户个人信息的,key是用户id,value是用户姓名等等个人信息;dataset B是关于用户交易记录的,key是用户id,value是用户的交易历史等信息。我们当然可以对这两者以共同键用户id为基准来连接两边的数据。

首先,在一切开始之前,先确定真的需要使用Hadoop的连接操作吗?

如果要把两个

查看全文: http://www.udpwork.com/item/12732.html

+0  Hadoop的Secondary Sorting

Tag: Distributed System | Hadoop | MapReduce | Secondary Sorting | 排序
四火 发于 2014年06月04日 23:31 | 点击: 1769 | 展开摘要
这几天项目中使用Hadoop遇到一个问题,对于这样key-value的数据集合:id-biz object,对id进行partition(比如根据某特定的hash算法P),分为a份;使用数量为b的reducer,在reducer里面要使用第三方组件进行批量上传;上传成文件,文件数量为c,但是有两个要求:

上述a、b、c都相等,从而使得每个partition的数据最终都通过同一个reducer上传到同一个文件中去;

每个reducer中上传的数据要求id必须有序。

最开始

查看全文: http://www.udpwork.com/item/12589.html

+0  国际搜索离线系统优化之一 —— 全局排序优化

Tag: 分布式技术 | Hadoop | 全局排序
梦翔 发于 2014年03月04日 16:18 | 点击: 1504 | 展开摘要
总觉得阶段性的总结是个好习惯,很多自己做的事情,如果不及时总结一下,过一段时间就忘记了,当要用到时,又需要花费较多的时间去重新熟悉。于是决定抽点时间总结一下以前对国际搜索离线系统做的一些优化(这里说的国际搜索,主要指AE、SC和SC店铺,AE即AliExpress,SC即Sourcing,这些优化对这几个应用都是通用的),不仅起到一个备忘的作用,如果能给读者带来一些启发,想必也是极好的。

既然是搜索离线系统相关,我们就先看一下国际搜索全量流程的几个主要环节,如图1所示。

查看全文: http://www.udpwork.com/item/11810.html

+0  给我一把榔头,满世界都是钉子

Tag: Algorithm & Data Structure | Hadoop | MapReduce | 单词 | 通用
四火 发于 2013年11月28日 12:25 | 点击: 1761 | 展开摘要
文章系本人原创,转载请保持完整性并注明出自《四火的唠叨》

一篇文章存成一个巨大的文件,总共大约有一亿个单词,要找出里面重复次数最多的。怎么做?

Hadoop是一把威力巨大的榔头,在使用过Hadoop之后,看着任何东西都想把它给map reduce了。有一个关于Jeff Dean的小笑话,说在睡不着觉的时候,一般人是数羊,Jeff Dean是map reduce他的羊群。所以,我的办法是,把这个文件拆分成若干个小文件,在map过程用hash算法保证相同的单词落入一个文件(

查看全文: http://www.udpwork.com/item/11233.html

+0  Hadoop无法解决的问题

Tag: Machine Learning & Big Data | Hadoop | 大数据 | 问题
四火 发于 2013年11月11日 21:54 | 点击: 1869 | 展开摘要
文章系本人原创,转载请保持完整性并注明出自《四火的唠叨》

因为项目的需要,学习使用了Hadoop,和所有过热的技术一样,“大数据”、“海量”这类词语在互联网上满天乱飞。Hadoop是一个非常优秀的分布式编程框架,设计精巧而且目前没有同级别同重量的替代品。另外也接触到一个内部使用的框架,对于Hadoop做了封装和定制,使得更满足业务需求。我最近也想写一些Hadoop的学习和使用心得,但是看到网上那么泛滥的文章,我觉得再写点笔记一样的东西实在是没有价值。倒不如在漫天颂歌的时候冷

查看全文: http://www.udpwork.com/item/11102.html

+0  HBase Bulkload bug修复及patch提交

Tag: 分布式技术 | Hadoop | hbase
jiuyou 发于 2013年10月30日 15:46 | 点击: 1631 | 展开摘要
第一部分:问题排查。

在店铺搜索相关需求的开发自测过程中,碰到了一个问题:bulkload数据的过程时间过长,运行了很久都没有结束,于是查看日志,发现bulkload的程序在不停的重试,信息如下(当天信息未保存,这是刚重现时截的)。

这些信息看起来没啥问题,bulkload在往表test_shopinfo里load各个hfile,失败了,但是错误是可恢复的,将会重试,接着又看到如下的信息:

好了,问题就是这样,bulkload在不停的失败,不停的重试,没有个尽头。开始怀

查看全文: http://www.udpwork.com/item/11041.html

+0  Impala:新一代开源大数据分析引擎

Tag: 大数据 | 系统架构 | Big Data | hadoop | Impala
Guancheng (G.C.) 发于 2013年08月25日 01:40 | 点击: 14252 | 展开摘要
原文发表在《程序员》杂志2013年第8期,略有删改。

文 / 耿益锋 陈冠诚

 大数据处理是云计算中非常重要的问题,自Google公司提出MapReduce分布式处理框架以来,以Hadoop为代表的开源软件受到越来越多公司的重视和青睐。以Hadoop为基础,之后的HBase,Hive,Pig等系统如雨后春笋般的加入了Hadoop的生态系统中。今天我们就来谈谈Hadoop系统中的一个新成员 – Impala。

Impala架构分析

Impala是Cloude

查看全文: http://www.udpwork.com/item/10490.html

+0  利用hadoop做分布式暴力破解(OWASP杭州2013年春季WEB应用安全沙龙)

Tag: Java Security | WEB SECURITY | 原创文章 | hadoop
空虚浪子心 发于 2013年05月27日 13:09 | 点击: 1741 | 展开摘要
我在OWASP杭州2013年春季WEB应用安全沙龙讲了一个议题。

http://www.owasp.org.cn/OWASP_Events/20130525

《使用hadoop做分布式暴力破解》
内容简介:
花大量时间讲了一下阿里的hadoop有多牛逼,最后我在上面执行了一条SQL。
http://www.owasp.org.cn/OWASP_Events/Hadoop.zip

阿里安全团队正在校招,请自行寻找投递方式,只要过了阿里的面试,你也有机会也在上面执行一条

查看全文: http://www.udpwork.com/item/10267.html

+0  Notes: Hadoop-based open source projects

Tag: Big Data | Hadoop
四火 发于 2013年04月27日 07:43 | 点击: 2458 | 展开摘要
文章系本人原创,转载请保持完整性并注明出自《四火的唠叨》

Here's my notes about introduction and some hints for Hadoop-based open source projects. Hope it's useful to you.

Management Tool

Ambari: A web-based tool for provisioning, managing, and monitoring Ap

查看全文: http://www.udpwork.com/item/9730.html

+0  NoSQL反模式 – 文档数据库篇

Tag: NoSQL杂谈 | Hadoop&HBase | MongoDB | Redis | Schema | nosql
nosqlfan 发于 2013年01月27日 09:01 | 点击: 2337 | 展开摘要
本文转自NoSQLFan联合作者颜开(yankay)的我自然博客,虽然目前NoSQL产品没有一套完整的Schema设计方案,但我们在使用过程中还是能总结一些经验和教训,文章对文档数据库的一些错误的使用思路进行了总结。

原文链接:http://www.yankay.com/nosql-anti-pattern-document/

我们设计关系数据库Schema的都有一套完整的方案,而NoSQL却没有这些。半年前笔者读了本《SQL反模式》的书,觉得非常好。就开始留意,对于No

查看全文: http://www.udpwork.com/item/9169.html

+1  如此理解面向对象编程

Tag: Java语言 | 程序设计 | 编程语言 | 轶事趣闻 | Coding | Object-Oriented | OOP
陈皓 发于 2012年12月13日 08:19 | 点击: 3041 | 展开摘要
从Rob Pike 的 Google+上的一个推看到了一篇叫《Understanding Object Oriented Programming》的文章,我先把这篇文章简述一下,然后再说说老牌黑客Rob Pike的评论。

先看这篇教程是怎么来讲述OOP的。它先给了下面这个问题,这个问题需要输出一段关于操作系统的文字:假设Unix很不错,Windows很差。

这个把下面这段代码描述成是Hacker Solution。(这帮人觉得下面这叫黑客?我估计这帮人真是没看过C语言的代

查看全文: http://www.udpwork.com/item/8848.html
|<<<1234>>>| 一共4页, 48条记录