最新 | 最热门 | 最高评价

+0  HBase的两个异常排查

Tag: 分布式技术
叶重 发于 2014年03月21日 17:49 | 点击: 1534 | 展开摘要
hbase版本为0.94.5

1,写HBase莫名卡住

之前有个多线程数据同步程序在写HBase时偶尔会卡住,从jstack分析,有一个线程block在

而其他要写同一个regionserver的线程block在上面这把锁。

在HBase client的代码中发现在构造out对象的时候,timeout设成了0.具体代码如下:

接着看write这个调用

当调用write时,先写channel的buffer,写满以后,将数据发送出去。

好了,从代码路径上看到,正是卡

查看全文: http://www.udpwork.com/item/11991.html

+0  Pora2应用中HBase高并发读写性能优化

Tag: 分布式技术 | 性能优化
毅行 发于 2014年03月21日 17:47 | 点击: 2330 | 展开摘要
淘宝搜索的个性化离线实时分析系统Pora已升级至Pora2,Pora2是在基于Yarn的流式计算框架IStream基础上开发的,同时为保证数据和消息的实时处理系统中较多地使用了HBase,是一个典型的高并发读写HBase的分布式应用。

系统在发布之初遇到了比较严重的性能问题,表现为处理速度跟不上实时日志,并且整个Hadoop/HBase集群压力大,连带其它应用受影响。经过排查发现问题主要都出现在了对HBase的使用上,现将遇到的几个典型的使用HBase的问题总结如下,希望能

查看全文: http://www.udpwork.com/item/11992.html

+0  Zookeeper在引擎离线数据处理系统的运用以及遇到过的问题

Tag: 分布式技术 | zookeeper
杨雄 发于 2014年03月21日 17:44 | 点击: 2366 | 展开摘要
时至今日,zookeeper在分布式的应用场景已经多越来越多了, 比如解决hbase的hmaster单点问题,分布式锁,分布式队列,集群机器监控等等。zookeeper提供的功能包括:配置维护、名字服务、分布式 同步、组服务等。而在引擎后台数据处理系统里怎么使用zookeeper的呢?以及在使用过程中遇到那些问题呢? 首先,介绍一下zookeeper

zookeeper简介

           1)Why zookeeper?

                一般分布

查看全文: http://www.udpwork.com/item/11993.html

+0  对hbase coprocessor使用方法不当导致的一个程序bug

Tag: 分布式技术 | hbase | NoSQL
宝牛 发于 2014年03月21日 17:42 | 点击: 2065 | 展开摘要
在某系统中对一张表数据写入量很大,频繁的compaction导致效率很低。这张表已经presharding过了,有几百个region,由于某些原因,短期内不太允许增大region数。当时采用的方法是每小时生成一张表,每小时的数据只写对应的表。后来发现这24张表对后面的业务处理带来很大的麻烦。需要把这24张表合为一张表,于是写了个DisableRegionCompaction,想对指定时间前的数据禁用compaction。

看了hbase coprocessor的官网介绍(h

查看全文: http://www.udpwork.com/item/11994.html

+0  淘宝主搜索离线集群完成hadoop2.0升级

Tag: 其他 | 分布式技术
天风 发于 2014年03月12日 09:49 | 点击: 1905 | 展开摘要
搜索离线dump集群(hadoop&hbase)2013进行了几次重大升级:

2013-04

第一阶段,主要是升级hdfs为2.0版本,mapreduce仍旧是1.0;同时hbase也进行了一次重大升级(0.94.5版本),hive升级到0.9.0;

2013-09,2013-12

第二阶段,主要升级mapreduce到2.0版本即(YARN),hive升级到0.10.0,在13年年底的时候对hbase进行了一次小版本升级;

至此,dump离线集群完全进入2

查看全文: http://www.udpwork.com/item/11933.html

+0  国际搜索离线系统优化之一 —— 全局排序优化

Tag: 分布式技术 | Hadoop | 全局排序
梦翔 发于 2014年03月04日 16:18 | 点击: 1910 | 展开摘要
总觉得阶段性的总结是个好习惯,很多自己做的事情,如果不及时总结一下,过一段时间就忘记了,当要用到时,又需要花费较多的时间去重新熟悉。于是决定抽点时间总结一下以前对国际搜索离线系统做的一些优化(这里说的国际搜索,主要指AE、SC和SC店铺,AE即AliExpress,SC即Sourcing,这些优化对这几个应用都是通用的),不仅起到一个备忘的作用,如果能给读者带来一些启发,想必也是极好的。

既然是搜索离线系统相关,我们就先看一下国际搜索全量流程的几个主要环节,如图1所示。

查看全文: http://www.udpwork.com/item/11810.html

+0  分布式系统的事务处理

Tag: 程序设计 | 系统架构 | 2PC | 3PC | Consistency | Design | NWR | Paxos | Performance | Vector Clock | 分布式
陈皓 发于 2014年01月20日 11:08 | 点击: 4864 | 展开摘要
当我们在生产线上用一台服务器来提供数据服务的时候,我会遇到如下的两个问题:

1)一台服务器的性能不足以提供足够的能力服务于所有的网络请求。

2)我们总是害怕我们的这台服务器停机,造成服务不可用或是数据丢失。

于是我们不得不对我们的服务器进行扩展,加入更多的机器来分担性能上的问题,以及来解决单点故障问题。 通常,我们会通过两种手段来扩展我们的数据服务:

1)数据分区:就是把数据分块放在不同的服务器上(如:uid % 16,一致性哈希等)。

2)数据镜像:让所有的服务器

查看全文: http://www.udpwork.com/item/11599.html

+0  HBase Bulkload bug修复及patch提交

Tag: 分布式技术 | Hadoop | hbase
jiuyou 发于 2013年10月30日 15:46 | 点击: 2058 | 展开摘要
第一部分:问题排查。

在店铺搜索相关需求的开发自测过程中,碰到了一个问题:bulkload数据的过程时间过长,运行了很久都没有结束,于是查看日志,发现bulkload的程序在不停的重试,信息如下(当天信息未保存,这是刚重现时截的)。

这些信息看起来没啥问题,bulkload在往表test_shopinfo里load各个hfile,失败了,但是错误是可恢复的,将会重试,接着又看到如下的信息:

好了,问题就是这样,bulkload在不停的失败,不停的重试,没有个尽头。开始怀

查看全文: http://www.udpwork.com/item/11041.html

+0  我对Lamport Logical Clock的理解

Tag: NoSQL杂谈 | Lamport Logical Clock | 算法 | 一致性 | 理论原地 | 分布式
nosqlfan 发于 2013年09月03日 23:45 | 点击: 3558 | 展开摘要
分布式环境中的一致新问题一直是最热门的话题之一,本文主要介绍了其中的一种比较简单的思路:Lamport Logical Clock。本文来自@GoAce 博客文章的投稿。感谢他的分享。

原文地址:http://www.orzace.com/lamport-logical-clock/

建议先看论文原文再来看这篇文章(原文见文章下方参考文献部分),我不会对论文中的各个点都详细说明,只是写一些我自己的想法,帮助理解。

大家都知道,分布式环境下,确定各个事件发生的顺序很重要,

查看全文: http://www.udpwork.com/item/10590.html

+0  SSDB 的 key_range 和未来的集群之路

Tag: SSDB | KV | 分布式
ideawu 发于 2013年08月13日 22:00 | 点击: 1878 | 展开摘要
SSDB 在 1.5.7 版本中增加了 key_range 查询, 用于获取 SSDB 服务器当前数据的范围. 下一个版本会增加 set_key_range 功能, 用于指定 SSDB 应该服务的数据的区间范围. 这个 key_range 是 SSDB 未来集群之路的开始.

在很多基于客户端的存储集群方案中(如 hash), 数据存储在哪台服务器需要客户端来决定, 也就是由用户(开发者)来决定. 这一类的方案都是伪集群和伪分布式, 因为数据的定位要求客户端主动进行, 而且数

查看全文: http://www.udpwork.com/item/10377.html

+0  分布式处理框架-Gearman

Tag: Go | python | 服务器 | 网络编程 | Python | 分布式
郑 纪 发于 2013年06月20日 11:59 | 点击: 3196 | 展开摘要
近日折腾Gearman.有兴趣可以参考阅读这个,这个,还有这个

官方说法:

Gearman provides a generic application framework to farm out work to other machines or processes that are better suited to do the work. It allows you to do work in parallel, to load balance processing

查看全文: http://www.udpwork.com/item/10417.html

+0  consensus made simple

Tag: 分布式技术 | paxos
恨少 发于 2013年06月04日 13:58 | 点击: 1853 | 展开摘要
|<<<3456789>>>| 一共12页, 133条记录