最新 | 最热门 | 最高评价

+0  从未降级的搜索技术 – HBase集群升级与优化

Tag: 分布式技术 | 性能优化 | Hadoop | hbase
雨田 发于 2014年11月26日 18:22 | 点击: 2620 | 展开摘要
战争从来都是拼后勤拼平台支撑的,天猫双十一这一天对于我们搜索事业部来说,就是一场高强度的数字化战争。为了这一天,各兄弟业务线的战友们已经摩拳擦掌,纷纷亮出各种新式武器,而我们原有的离线系统平台却渐渐显出疲态,慢慢被来自各业务线的不断提升的压力需求搞得捉襟见肘了。个性化搜索实时数据处理平台(Pora)在双十一将正式亮相,当时我们预计会有数以十亿计的新增HBase读写请求,如果不进行升级优化,原有的离线集群预计将无法承受这一前所未有的压力;天猫业务线的增量在双十一更是重中之重,届

查看全文: http://www.udpwork.com/item/13560.html

+0  HQueue:基于HBase的消息队列

Tag: 其他 | 分布式技术 | hbase | HQueue | HQueue Toolkit | HQueue订阅
凌柏 发于 2014年04月24日 14:35 | 点击: 2011 | 展开摘要
​1. HQueue简介

HQueue是一淘搜索网页抓取离线系统团队基于HBase开发的一套分布式、持久化消息队列。它利用HTable存储消息数据,借助HBase Coprocessor将原始的KeyValue数据封装成消息数据格式进行存储,并基于HBase Client API封装了HQueue Client API用于消息存取。

HQueue可以有效使用在需要存储时间序列数据、作为MapReduce Job和iStream等输入、输出供上下游共享数据等场合。

​2.

查看全文: http://www.udpwork.com/item/12168.html

+0  使用HBase EndPoint(coprocessor)进行计算

Tag: 分布式技术 | coprocessor | endpoint | hbase
震河 发于 2014年03月31日 10:54 | 点击: 2907 | 展开摘要
如果要统对hbase中的数据,进行某种统计,比如统计某个字段最大值,统计满足某种条件的记录数,统计各种记录特点,并按照记录特点分类(类似于sql的group by)~

常规的做法就是把hbase中整个表的数据scan出来,或者稍微环保一点,加一个filter,进行一些初步的过滤(对于rowcounter来说,就加了FirstKeyOnlyFilter),但是这么做来说还是会有很大的副作用,比如占用大量的网络带宽(当标级别到达千万级别,亿级别之后)尤为明显,RPC的量也是不容

查看全文: http://www.udpwork.com/item/12038.html

+0  对hbase coprocessor使用方法不当导致的一个程序bug

Tag: 分布式技术 | hbase | NoSQL
宝牛 发于 2014年03月21日 17:42 | 点击: 2129 | 展开摘要
在某系统中对一张表数据写入量很大,频繁的compaction导致效率很低。这张表已经presharding过了,有几百个region,由于某些原因,短期内不太允许增大region数。当时采用的方法是每小时生成一张表,每小时的数据只写对应的表。后来发现这24张表对后面的业务处理带来很大的麻烦。需要把这24张表合为一张表,于是写了个DisableRegionCompaction,想对指定时间前的数据禁用compaction。

看了hbase coprocessor的官网介绍(h

查看全文: http://www.udpwork.com/item/11994.html

+0  HBase在单Column和多Column情况下批量Put的性能对比分析

Tag: NoSQL存储 | column | HBase
原 攀峰 发于 2014年01月17日 19:12 | 点击: 2794 | 展开摘要
针对HBase在单column family单column qualifier和单column family多column qualifier两种场景下,分别批量Put写入时的性能对比情况,下面是结合HBase的源码来简单分析解释这一现象。

1. 测试结果

在客户端批量写入时,单列族单列模式和单列族多列模式的TPS和RPC次数相差很大,以客户端10个线程,开启WAL的两种模式下的测试数据为例,

单列族单列模式下,TPS能够达到12403.87,实际RPC次数为53次;

查看全文: http://www.udpwork.com/item/11580.html

+0  HBase一次慢查询请求的问题排查与解决过程

Tag: NoSQL存储 | Compact | HBase
原 攀峰 发于 2014年01月13日 17:07 | 点击: 3031 | 展开摘要
以下是我们对HBase集群一次慢查询请求问题的排查解决过程。

1. 发现问题

项目中有一张HBase表,每天凌晨以后会集中批量导入一批数据,导入数据量很大,在千万到亿的量级,然后白天为用户提供查询服务。某天突然发现, 该表按照各个region(共计256个)分别仅顺序scan少数几条数据时,部分region的查询请求的响应时间很慢,长达10秒甚至几十秒不等。

2. 排查问题

首先,通过查看HBase的region server监控界面,看到这张表的每个region下面

查看全文: http://www.udpwork.com/item/11525.html

+0  HBase Bulkload bug修复及patch提交

Tag: 分布式技术 | Hadoop | hbase
jiuyou 发于 2013年10月30日 15:46 | 点击: 2122 | 展开摘要
第一部分:问题排查。

在店铺搜索相关需求的开发自测过程中,碰到了一个问题:bulkload数据的过程时间过长,运行了很久都没有结束,于是查看日志,发现bulkload的程序在不停的重试,信息如下(当天信息未保存,这是刚重现时截的)。

这些信息看起来没啥问题,bulkload在往表test_shopinfo里load各个hfile,失败了,但是错误是可恢复的,将会重试,接着又看到如下的信息:

好了,问题就是这样,bulkload在不停的失败,不停的重试,没有个尽头。开始怀

查看全文: http://www.udpwork.com/item/11041.html

+0  NoSQL反模式 – 文档数据库篇

Tag: NoSQL杂谈 | Hadoop&HBase | MongoDB | Redis | Schema | nosql
nosqlfan 发于 2013年01月27日 09:01 | 点击: 2971 | 展开摘要
本文转自NoSQLFan联合作者颜开(yankay)的我自然博客,虽然目前NoSQL产品没有一套完整的Schema设计方案,但我们在使用过程中还是能总结一些经验和教训,文章对文档数据库的一些错误的使用思路进行了总结。

原文链接:http://www.yankay.com/nosql-anti-pattern-document/

我们设计关系数据库Schema的都有一套完整的方案,而NoSQL却没有这些。半年前笔者读了本《SQL反模式》的书,觉得非常好。就开始留意,对于No

查看全文: http://www.udpwork.com/item/9169.html

+0  一淘数据部-月光宝盒双11 HBase集群应用和优化经验

Tag: 经验和技巧 | HBase | 双11 | 月光宝盒
gang.yug 发于 2012年12月25日 17:45 | 点击: 1913 | 展开摘要
本博客会陆续更新一淘数据部 各位技术同学分享的资料。

本次分享的内容来自九翎同学:

受众:

对HBase集群应用感兴趣的同学。

简介:

培训内容:

月光宝盒项目为了满足双11当天天猫所有会场坑位效果计算的需求,尝试对HBase集群进行了一系列的应用和优化,顺利支撑双11当天各个流量峰值时刻的读写压力。本次是对这些经验的总结与分享,和大家探讨交流HBase在高并发读写应用场景下的实践方法。

内容大纲:

1). 月光宝盒项目简介

2). HBase集群双11相关

查看全文: http://www.udpwork.com/item/8916.html

+0  HBase集群出现NotServingRegionException问题的排查及解决方法

Tag: NoSQL存储 | 经验和技巧 | HBase | NotServingRegionException异常 | Region下线
原 攀峰 发于 2012年11月26日 10:45 | 点击: 2699 | 展开摘要
HBase集群在读写过程中,可能由于Region Split或Region Blance等导致Region的短暂下线,此时客户端与HBase集群进行RPC操作时会抛出NotServingRegionException异常,从而导致读写操作失败。这里根据实际项目经验,详细描述这一问题的发现及排查解决过程。

1. 发现问题

在对HBase集群进行压力测试过程中发现,当实际写入HBase和从HBase查询的量是平时的若干倍时(集群规模10~20台,每秒读写数据量在几十万条记录的

查看全文: http://www.udpwork.com/item/8745.html

+0  HBase解决Region Server Compact过程占用大量网络出口带宽的问题

Tag: NoSQL存储 | 经验和技巧 | Compact | HBase | Region Server
原 攀峰 发于 2012年11月26日 10:39 | 点击: 2260 | 展开摘要
HBase 0.92版本之后,Region Server的Compact过程根据待合并的文件大小分为small compaction和large compaction两种,由此可能导致在集群写入量大的时候Compact占用过多的网络出口带宽。本文将详细描述集群使用过程中遇到这一问题的排查过程及其解决方法。

1. 发现问题

HBase集群(版本为0.94.0)运行过程中,发现5台Region Server的网络出口带宽经常维持在100MB/s以上,接近到网卡的极限;同时Re

查看全文: http://www.udpwork.com/item/8746.html

+0  HBase Thrift 接口使用注意事项

Tag: NoSQL存储 | 经验和技巧 | HBase | Thrift
原 攀峰 发于 2012年11月26日 10:31 | 点击: 2333 | 展开摘要
这里结合对HBase Thrift接口(HBase版本为0.92.1)的使用经验,总结其中遇到的一些问题及其相关注意事项。

字节的存放顺序

HBase中,由于row(row key和column family、column qualifier、time stamp)是按照字典序进行排序的,因此,对于short、int、long等类型的数据,通过Bytes.toBytes(…)转换成byte数组后,必须按照大端模式(高字节在低地址,低字节在高地址)存放。对于value,也是

查看全文: http://www.udpwork.com/item/8747.html
|<<<123>>>| 一共3页, 29条记录