最新 | 最热门 | 最高评价

+0  分布式基础通信协议:paxos,totem和gossip

Tag: 分布式
xiaoding 发于 2014年05月13日 05:55 | 点击: 8073 | 展开摘要
背景

在分布式中,最难解决的一个问题就是多个节点间数据同步问题。为了解决这样的问题,涌现出了各种奇思妙想。只有在解决了如何进行信息同步的基础之上才衍生出形形色色的应用。这里开始介绍几种分布式通信协议。

简单即有效——totem协议:

totem协议也许你还比较陌生,但是corosync就是totem协议的一个开源实现。比较火的HA软件pacemaker就是基于corosync来提供各种服务的。说起totem协议,最简单的形象就是,他将多个节点组成一个令牌环。多个节点手拉

查看全文: http://www.udpwork.com/item/12562.html

+0  HQueue:基于HBase的消息队列

Tag: 其他 | 分布式技术 | hbase | HQueue | HQueue Toolkit | HQueue订阅
凌柏 发于 2014年04月24日 14:35 | 点击: 1653 | 展开摘要
​1. HQueue简介

HQueue是一淘搜索网页抓取离线系统团队基于HBase开发的一套分布式、持久化消息队列。它利用HTable存储消息数据,借助HBase Coprocessor将原始的KeyValue数据封装成消息数据格式进行存储,并基于HBase Client API封装了HQueue Client API用于消息存取。

HQueue可以有效使用在需要存储时间序列数据、作为MapReduce Job和iStream等输入、输出供上下游共享数据等场合。

​2.

查看全文: http://www.udpwork.com/item/12168.html

+0  使用HBase EndPoint(coprocessor)进行计算

Tag: 分布式技术 | coprocessor | endpoint | hbase
震河 发于 2014年03月31日 10:54 | 点击: 2571 | 展开摘要
如果要统对hbase中的数据,进行某种统计,比如统计某个字段最大值,统计满足某种条件的记录数,统计各种记录特点,并按照记录特点分类(类似于sql的group by)~

常规的做法就是把hbase中整个表的数据scan出来,或者稍微环保一点,加一个filter,进行一些初步的过滤(对于rowcounter来说,就加了FirstKeyOnlyFilter),但是这么做来说还是会有很大的副作用,比如占用大量的网络带宽(当标级别到达千万级别,亿级别之后)尤为明显,RPC的量也是不容

查看全文: http://www.udpwork.com/item/12038.html

+0  hbase failover状态下启动慢原因排查

Tag: 分布式技术
tianzhao 发于 2014年03月21日 17:50 | 点击: 1454 | 展开摘要
某天我们升级hbase,从hbase-0.94.5升到hbase-0.94.10,当然这些版本里面有自己加入的部分patch。

启动后,看master页面,发现很多region还没有online,在慢慢的open中。是什么原因呢?jstack发现master在执行processDeadServersAndRecoverLostRegions过程,在一个region一个region的处理,而集群总共有3w多个region,300百台机器,3w个region一个个处理,写zk,

查看全文: http://www.udpwork.com/item/11990.html

+0  HBase的两个异常排查

Tag: 分布式技术
叶重 发于 2014年03月21日 17:49 | 点击: 1296 | 展开摘要
hbase版本为0.94.5

1,写HBase莫名卡住

之前有个多线程数据同步程序在写HBase时偶尔会卡住,从jstack分析,有一个线程block在

而其他要写同一个regionserver的线程block在上面这把锁。

在HBase client的代码中发现在构造out对象的时候,timeout设成了0.具体代码如下:

接着看write这个调用

当调用write时,先写channel的buffer,写满以后,将数据发送出去。

好了,从代码路径上看到,正是卡

查看全文: http://www.udpwork.com/item/11991.html

+0  Pora2应用中HBase高并发读写性能优化

Tag: 分布式技术 | 性能优化
毅行 发于 2014年03月21日 17:47 | 点击: 2064 | 展开摘要
淘宝搜索的个性化离线实时分析系统Pora已升级至Pora2,Pora2是在基于Yarn的流式计算框架IStream基础上开发的,同时为保证数据和消息的实时处理系统中较多地使用了HBase,是一个典型的高并发读写HBase的分布式应用。

系统在发布之初遇到了比较严重的性能问题,表现为处理速度跟不上实时日志,并且整个Hadoop/HBase集群压力大,连带其它应用受影响。经过排查发现问题主要都出现在了对HBase的使用上,现将遇到的几个典型的使用HBase的问题总结如下,希望能

查看全文: http://www.udpwork.com/item/11992.html

+0  Zookeeper在引擎离线数据处理系统的运用以及遇到过的问题

Tag: 分布式技术 | zookeeper
杨雄 发于 2014年03月21日 17:44 | 点击: 2123 | 展开摘要
时至今日,zookeeper在分布式的应用场景已经多越来越多了, 比如解决hbase的hmaster单点问题,分布式锁,分布式队列,集群机器监控等等。zookeeper提供的功能包括:配置维护、名字服务、分布式 同步、组服务等。而在引擎后台数据处理系统里怎么使用zookeeper的呢?以及在使用过程中遇到那些问题呢? 首先,介绍一下zookeeper

zookeeper简介

           1)Why zookeeper?

                一般分布

查看全文: http://www.udpwork.com/item/11993.html

+0  对hbase coprocessor使用方法不当导致的一个程序bug

Tag: 分布式技术 | hbase | NoSQL
宝牛 发于 2014年03月21日 17:42 | 点击: 1784 | 展开摘要
在某系统中对一张表数据写入量很大,频繁的compaction导致效率很低。这张表已经presharding过了,有几百个region,由于某些原因,短期内不太允许增大region数。当时采用的方法是每小时生成一张表,每小时的数据只写对应的表。后来发现这24张表对后面的业务处理带来很大的麻烦。需要把这24张表合为一张表,于是写了个DisableRegionCompaction,想对指定时间前的数据禁用compaction。

看了hbase coprocessor的官网介绍(h

查看全文: http://www.udpwork.com/item/11994.html

+0  淘宝主搜索离线集群完成hadoop2.0升级

Tag: 其他 | 分布式技术
天风 发于 2014年03月12日 09:49 | 点击: 1652 | 展开摘要
搜索离线dump集群(hadoop&hbase)2013进行了几次重大升级:

2013-04

第一阶段,主要是升级hdfs为2.0版本,mapreduce仍旧是1.0;同时hbase也进行了一次重大升级(0.94.5版本),hive升级到0.9.0;

2013-09,2013-12

第二阶段,主要升级mapreduce到2.0版本即(YARN),hive升级到0.10.0,在13年年底的时候对hbase进行了一次小版本升级;

至此,dump离线集群完全进入2

查看全文: http://www.udpwork.com/item/11933.html

+0  国际搜索离线系统优化之一 —— 全局排序优化

Tag: 分布式技术 | Hadoop | 全局排序
梦翔 发于 2014年03月04日 16:18 | 点击: 1615 | 展开摘要
总觉得阶段性的总结是个好习惯,很多自己做的事情,如果不及时总结一下,过一段时间就忘记了,当要用到时,又需要花费较多的时间去重新熟悉。于是决定抽点时间总结一下以前对国际搜索离线系统做的一些优化(这里说的国际搜索,主要指AE、SC和SC店铺,AE即AliExpress,SC即Sourcing,这些优化对这几个应用都是通用的),不仅起到一个备忘的作用,如果能给读者带来一些启发,想必也是极好的。

既然是搜索离线系统相关,我们就先看一下国际搜索全量流程的几个主要环节,如图1所示。

查看全文: http://www.udpwork.com/item/11810.html

+0  分布式系统的事务处理

Tag: 程序设计 | 系统架构 | 2PC | 3PC | Consistency | Design | NWR | Paxos | Performance | Vector Clock | 分布式
陈皓 发于 2014年01月20日 11:08 | 点击: 4538 | 展开摘要
当我们在生产线上用一台服务器来提供数据服务的时候,我会遇到如下的两个问题:

1)一台服务器的性能不足以提供足够的能力服务于所有的网络请求。

2)我们总是害怕我们的这台服务器停机,造成服务不可用或是数据丢失。

于是我们不得不对我们的服务器进行扩展,加入更多的机器来分担性能上的问题,以及来解决单点故障问题。 通常,我们会通过两种手段来扩展我们的数据服务:

1)数据分区:就是把数据分块放在不同的服务器上(如:uid % 16,一致性哈希等)。

2)数据镜像:让所有的服务器

查看全文: http://www.udpwork.com/item/11599.html

+0  HBase Bulkload bug修复及patch提交

Tag: 分布式技术 | Hadoop | hbase
jiuyou 发于 2013年10月30日 15:46 | 点击: 1736 | 展开摘要
第一部分:问题排查。

在店铺搜索相关需求的开发自测过程中,碰到了一个问题:bulkload数据的过程时间过长,运行了很久都没有结束,于是查看日志,发现bulkload的程序在不停的重试,信息如下(当天信息未保存,这是刚重现时截的)。

这些信息看起来没啥问题,bulkload在往表test_shopinfo里load各个hfile,失败了,但是错误是可恢复的,将会重试,接着又看到如下的信息:

好了,问题就是这样,bulkload在不停的失败,不停的重试,没有个尽头。开始怀

查看全文: http://www.udpwork.com/item/11041.html
|<<<1234567>>>| 一共9页, 101条记录