最新 | 最热门 | 最高评价

+0  从工具使用的痛苦说开去

Tag: Career | pipeline | Spark | 工具 | 痛苦
四火 发于 2016年10月25日 12:16 | 点击: 672 | 展开摘要
是因为最近团队里的数据分析师(data analyst)向我抱怨,为了分析数据,要跑job,要执行pipeline,要用Spark来算结果,但是期间遇到各种问题,虽然我们一起研究问题的解决方法,但是依然非常耗时而且令人沮丧。这些问题大多并非数据本身的问题,而是工程问题。换言之,我认为数据分析师的价值在于数据思维,他们有我们软件工程师不具备的数据敏感性,他们能从海量的数据中获得有价值的信息——但是如今他们却陷入了因为工具问题而导致才华无法施展的境地,确实令人叹息。而工具的问题,

查看全文: http://www.udpwork.com/item/15890.html

+0  Spark性能优化——和shuffle搏斗

Tag: Distributed System | shuffle | Spark
四火 发于 2016年05月22日 02:48 | 点击: 601 | 展开摘要
Spark的性能分析和调优很有意思,今天再写一篇。主要话题是shuffle,当然也牵涉一些其他代码上的小把戏。

以前写过一篇文章,比较了几种不同场景的性能优化,包括portal的性能优化,web service的性能优化,还有Spark job的性能优化。Spark的性能优化有一些特殊的地方,比如实时性一般不在考虑范围之内,通常我们用Spark来处理的数据,都是要求异步得到结果的数据;再比如数据量一般都很大,要不然也没有必要在集群上操纵这么一个大家伙,等等。事实上,我们都知

查看全文: http://www.udpwork.com/item/15513.html

+0  使用Spark MLlib给豆瓣用户推荐电影

Tag: spark | mllib | recommendation | 大数据
鸟窝 发于 2016年03月28日 10:22 | 点击: 1755 | 展开摘要
推荐算法就是利用用户的一些行为,通过一些数学算法,推测出用户可能喜欢的东西。
随着电子商务规模的不断扩大,商品数量和种类不断增长,用户对于检索和推荐提出了更高的要求。由于不同用户在兴趣爱好、关注领域、个人经历等方面的不同,以满足不同用户的不同推荐需求为目的、不同人可以获得不同推荐为重要特征的个性化推荐系统应运而生。

推荐系统成为一个相对独立的研究方向一般被认为始自1994年明尼苏达大学GroupLens研究组推出的GroupLens系统。该系统有两大重要贡献:一是首次提出了

查看全文: http://www.udpwork.com/item/14812.html

+0  从淘汰Oracle数据库的事情说起

Tag: Database | Oracle | Spark | 技术
四火 发于 2016年03月11日 16:38 | 点击: 686 | 展开摘要
公司搞淘汰Oracle数据库的事情已经搞了好久了,这个事情其实和国内淘宝系搞的去IOE(IBM、Oracle和EMC)是类似的,基本上也是迫不得已,Oracle的维护成本太高,而公司内部基于Oracle数据库的数据仓库,也是问题频出;另一个原因则是scalability。我相信这两个原因许多人都非常清楚。而这个淘汰,也不是简简单单换一个关系数据库,比如把Oracle换成MySQL,或者换到云上(RDS)。而是有明确阶段性地演进,比如替换到DynamoDB这样的NoSQL数据库

查看全文: http://www.udpwork.com/item/15320.html

+0  Notes: Spark metrics

Tag: Distributed System | metrics | Spark
四火 发于 2016年03月07日 13:25 | 点击: 654 | 展开摘要
Below are some notes taken for future reference based on the brainstorm meeting last week, with company confidential information removed.

Background

The team use a home made workflow to manage the computation for the cost and profit, and

查看全文: http://www.udpwork.com/item/15309.html

+0  三次性能优化经历

Tag: System Design & Architecture | Portal | Service | Spark | 性能优化
四火 发于 2016年02月16日 14:22 | 点击: 846 | 展开摘要
最近在做一些性能优化工作,回想起工作这些年来,参与过的三次集中性能优化,每次都得折腾少则一个月,多则半年。这些内容既是不同视角、不同思路的比较,也是挺有趣的工作经历。

Portal的性能优化

这已经是大概五年前了,搞了接近半年的Portal性能优化,后来某些内容总结在这篇文章里面。既然是Portal,性能优化上就有它的特点。比如说:

Portal的性能优化需要从前端和后端两个角度去思考问题,先考虑客户端和服务端之间的交互模型,然后再在客户端和服务端单独考虑分而治之。这个

查看全文: http://www.udpwork.com/item/15213.html

+0  Spark的性能调优

Tag: Distributed System | Recommended | Spark | 性能
四火 发于 2015年12月21日 14:55 | 点击: 771 | 展开摘要
下面这些关于Spark的性能调优项,有的是来自官方的,有的是来自别的的工程师,有的则是我自己总结的。

基本概念和原则

首先,要搞清楚Spark的几个基本概念和原则,否则系统的性能调优无从谈起:

每一台host上面可以并行N个worker,每一个worker下面可以并行M个executor,task们会被分配到executor上面去执行。Stage指的是一组并行运行的task,stage内部是不能出现shuffle的,因为shuffle的就像篱笆一样阻止了并行task的运

查看全文: http://www.udpwork.com/item/15067.html

+0  如何使用Spark ALS实现协同过滤

Tag: Spark | 大数据
鸟窝 发于 2015年07月28日 17:12 | 点击: 835 | 展开摘要
转载自 JavaChen Blog,作者:Junez

本文主要记录最近一段时间学习和实现Spark MLlib中的协同过滤的一些总结,希望对大家熟悉Spark ALS算法有所帮助。

更新:
【2016.06.12】Spark1.4.0中MatrixFactorizationModel提供了recommendForAll方法实现离线批量推荐,见SPARK-3066。

测试环境

为了测试简单,在本地以local方式运行Spark,你需要做的是下载编译好的压缩包解压即可

查看全文: http://www.udpwork.com/item/14445.html

+0  尝试spark

Tag: ad | spark
suchasplus 发于 2015年06月19日 03:46 | 点击: 1222 | 展开摘要
某个线上服务,访问量每天N亿, output种类异常丰富,依赖内部服务众多,出现问题的概率相对较大,故搞了某准实时分析系统,  用于分析性能和定(bu)位(bei)问(hei)题(guo)。

作为最接近DSL的优秀的prototype language, 我们开始是用PHP写了个多进程模型来跑, kafka传输数据,每分钟计算一次做归并, 速度基本可以满足需求。

跟广告算法团队沟通后, 某同学用scala重写了一遍,之后决定尝试下spark,然后悲催的发现在公司集群上的速

查看全文: http://www.udpwork.com/item/14321.html

+0  基于OpenStack, Docker和Spark打造SuperVessel大数据公有云

Tag: 大数据 | Big Data | Docker | OpenStack | Spark | SuperVessel Cloud
Guancheng (G.C.) 发于 2015年05月12日 21:48 | 点击: 1445 | 展开摘要
今年4月的Spark技术峰会上我做了《SuperVessel:基于OpenStack, Docker和Spark打造大数据公有云》的技术分享:

基于OpenStack和Docker打造Spark大数据服务

新浪微盘下载链接

1.首先请介绍下您自己,以及您在 Spark 技术方面所做的工作。

我是IBM中国研究院的高级研究员,大数据云方向的技术负责人,我的微博是@冠诚。我们围绕Spark主要做两方面的事情:

(1) 在IBM研究院的SuperVessel公有云(htt

查看全文: http://www.udpwork.com/item/14201.html
|<<<1>>>| 一共1页, 10条记录