最新 | 最热门 | 最高评价

+0  Kafka的复制机制

Tag: kafka | 架构
鸟窝 发于 2017年11月03日 10:21 | 点击: 765 | 展开摘要
最近在设计一个多分区多副本的消息系统,以前对kafka有一些了解,在阅读了阿里的RocketMQ、小米的Pegasus等分布式系统后,再仔细阅读的kafka的复制设计,整理出本篇文档,可以和其它系统做一个对比。

Kafka是一种高吞吐量的分布式发布订阅消息系统,有如下特性:

通过O(1)的磁盘数据结构提供消息的持久化,这种结构对于即使数以TB的消息存储也能够保持长时间的稳定性能。

高吞吐量:即使是非常普通的硬件Kafka也可以支持每秒数百万的消息。

支持通过Kafka

查看全文: http://www.udpwork.com/item/16488.html

+0  [译] Kafka 存储的工作机制

Tag: Kafka | 大数据
鸟窝 发于 2017年10月12日 19:40 | 点击: 818 | 展开摘要
翻译自 Kafka/Confluent 公司的工程师 Travis Jeffery 的文章: How Kafka’s Storage Internals Work。

通过本文我会帮助你理解Kafka是如何存储它的数据的。
对于调优Kafka的性能以及了解broker配置实际是干什么的, 了解Kafka的存储很有用。 我受Kafka的简单性的启发, 用我所学开始实现一个Go的Kafka: jocko。

那么, Kafka存储内部是如何工作的呢?

Kafka 的存储单元是分

查看全文: http://www.udpwork.com/item/16452.html

+0  Kafka通讯协议指南

Tag: Kafka | 大数据
鸟窝 发于 2017年01月28日 00:17 | 点击: 1173 | 展开摘要
官方英文版本: A Guide To The Kafka Protocol

中文翻译: watchword 翻译于2016年1月31日,修改于6月17日,基于原文2016年5月5日修改版本(v.106)修改翻译: Kafka通讯协议指南

smallnest 基于原文 Jan 20, 2017版本修改。

如果想深入了解Kafka的通讯协议的话,这篇文章不可不读。感谢 watchword 将原文翻译成了中文,我基于最新版进行了修订,修订和完善翻译中的错误。

简介

此文档

查看全文: http://www.udpwork.com/item/16080.html

+0  Kafka Connect简介

Tag: Kafka | 大数据
鸟窝 发于 2016年02月24日 15:18 | 点击: 1732 | 展开摘要
Kafka 0.9+增加了一个新的特性Kafka Connect,可以更方便的创建和管理数据流管道。它为Kafka和其它系统创建规模可扩展的、可信赖的流数据提供了一个简单的模型,通过connectors可以将大数据从其它系统导入到Kafka中,也可以从Kafka中导出到其它系统。Kafka Connect可以将完整的数据库注入到Kafka的Topic中,或者将服务器的系统监控指标注入到Kafka,然后像正常的Kafka流处理机制一样进行数据流处理。而导出工作则是将数据从Kaf

查看全文: http://www.udpwork.com/item/15247.html

+0  Kafka 0.9 发布

Tag: kafka | 大数据
鸟窝 发于 2015年12月04日 11:29 | 点击: 813 | 展开摘要
confluent的CTO Neha Narkhede女士在11月24日宣布 Apache Kafka 发布0.9版本。confluent是由apache kafka的创建者也就是LinkedIn开发Kafka的那个team成立的一家公司。这个版本提供了相当多的Feature和bug fix,具体的改动可以参看 523 JIRA
以下是0.9的主要的改动:

安全

这次Kafka提供了三个安全特性。一是提供Kerberos 和 TLS 身份认证。而是提供了类似Unix-li

查看全文: http://www.udpwork.com/item/14822.html

+0  Kafka的一个配置参数

Tag: Kafka | 大数据
鸟窝 发于 2015年06月05日 09:27 | 点击: 528 | 展开摘要
Kafka默认的消息大小为1000012,参数的名称为message.max.bytes.

1
2
3

kafka.server.KafkaConfig:

val messageMaxBytes = props.getIntInRange("message.max.bytes", 1000000 + MessageSet.LogOverhead, (0, Int.MaxValue))

但是对于topic来说,这个参数的名称却叫max.message.bytes,和前面

查看全文: http://www.udpwork.com/item/14382.html

+0  LinkedIn运行大规模的Kafka集群

Tag: Kafka | 大数据
鸟窝 发于 2015年04月29日 11:01 | 点击: 417 | 展开摘要
英文原文: Running Kafka At Scale by Todd Palino, Staff Engineer, Site Reliability.
中文翻译: LinkedIn —— Apache Kafka 的伸缩扩展能力 by 袁不语, 社会主义好, 无若, 开心613, fr000, Shawock.

我在转载时根据原文对译文有所改动。

如果数据是高科技的血脉的话,Apache Kafka 就是 LinkedIn 公司正在使用中的心脏系统。我们使用 Kaf

查看全文: http://www.udpwork.com/item/14385.html

+0  12 月 06 日统计分析数据延时的技术背景分析

Tag: *nix | kafka | outage | post-mortem | servers | troubleshooting
jaseywang 发于 2014年12月20日 19:46 | 点击: 922 | 展开摘要
2014 年 12 月 06 日,由于一台 Kafka 机器磁盘问题,导致友盟的统计分析业务的数据出现了延时。下面我会从技术的角度给大家分享一下当时问题发生的背景、处理过程以及事后。

18:15 PM: 我们收到前端 4xx 增多的报警,对比正常时段,4xx/200 的比例由正常的 0.5% 以下上升到了 1.5% 左右。收到报警后我们立马介入现场排查问题,确认了包括每秒接受日志数量在内的核心指标并无大的异常,暂且判定为了非紧急事故。



19:06 PM: 我们开

查看全文: http://www.udpwork.com/item/13655.html

+0  Feed消息队列架构分析

Tag: data | kafka | mq | storm
Tim 发于 2014年12月11日 23:30 | 点击: 848 | 展开摘要
最近一两年,大部分系统的数据流由基于日志的离线处理方式转变成实时的流式处理方式,并逐渐形成几种通用的使用方式,以下介绍微博的消息队列体系。

当前的主要消息队列分成如图3部分:

1、feed信息流主流程处理,图中中间的流程,通过相关MQ worker将数据写入cache、Redis及MySQL,以便用户浏览信息流。传统的队列使用主要是为了将操作异步处理,起到削峰填谷的作用,并解除多个序列操作之间的耦合关系。

2、流式计算,图中左边的流程,主要进行大数据相关实时处理。

3

查看全文: http://www.udpwork.com/item/13625.html
|<<<1>>>| 一共1页, 9条记录