最新 | 最热门 | 最高评价

+0  机器学习算法 Python&R 速查表

Tag: 大数据
鸟窝 发于 2015年11月09日 09:36 | 点击: 1424 | 展开摘要
原文出处: Cheatsheet – Python & R codes for common Machine Learning Algorithms
在拿破仑•希尔的名著《思考与致富》中讲述了达比的故事:达比经过几年的时间快要挖掘到了金矿,却在离它三英尺的地方离开了!

现在,我不知道这个故事是否真实。但是,我肯定在我的周围有一些跟达比一样的人,这些人认为,不管遇到什么问题, 机器学习的目的就是执行以及使用2 – 3组算法。他们不去尝试更好的算法和技术,因为他们觉得太

查看全文: http://www.udpwork.com/item/14746.html

+0  机器学习算法精要(Python 和 R 代码)

Tag: 大数据
鸟窝 发于 2015年11月05日 10:31 | 点击: 1218 | 展开摘要
analyticsvidhya网站有一些非常好的机器学习的文章,这是其中的一篇。
原文出处: Essentials of Machine Learning Algorithms,
国内有人翻译了,可以移步:10 种机器学习算法的要点

Introduction

Google’s self-driving cars and robots get a lot of press, but the company’s real future is in machine learni

查看全文: http://www.udpwork.com/item/14747.html

+0  创建超小的Golang docker 镜像

Tag: Docker | Go | 大数据
鸟窝 发于 2015年10月12日 17:17 | 点击: 1516 | 展开摘要
Docker是PaaS供应商dotCloud开源的一个基于LXC 的高级容器引擎,源代码托管在 GitHub 上, 基于Go语言开发并遵从Apache 2.0协议开源。正如DockerPool在免费Docker电子书Docker —— 从入门到实践中这样提到的:

作为一种新兴的虚拟化方式,Docker 跟传统的虚拟化方式相比具有众多的优势。

首先,Docker 容器的启动可以在秒级实现,这相比传统的虚拟机方式要快得多。 其次,Docker 对系统资源的利用率很高,一台主机

查看全文: http://www.udpwork.com/item/14665.html

+0  如何使用Spark ALS实现协同过滤

Tag: Spark | 大数据
鸟窝 发于 2015年07月28日 17:12 | 点击: 1350 | 展开摘要
转载自 JavaChen Blog,作者:Junez

本文主要记录最近一段时间学习和实现Spark MLlib中的协同过滤的一些总结,希望对大家熟悉Spark ALS算法有所帮助。

更新:
【2016.06.12】Spark1.4.0中MatrixFactorizationModel提供了recommendForAll方法实现离线批量推荐,见SPARK-3066。

测试环境

为了测试简单,在本地以local方式运行Spark,你需要做的是下载编译好的压缩包解压即可

查看全文: http://www.udpwork.com/item/14445.html

+0  Kafka的一个配置参数

Tag: Kafka | 大数据
鸟窝 发于 2015年06月05日 09:27 | 点击: 1037 | 展开摘要
Kafka默认的消息大小为1000012,参数的名称为message.max.bytes.

1
2
3

kafka.server.KafkaConfig:

val messageMaxBytes = props.getIntInRange("message.max.bytes", 1000000 + MessageSet.LogOverhead, (0, Int.MaxValue))

但是对于topic来说,这个参数的名称却叫max.message.bytes,和前面

查看全文: http://www.udpwork.com/item/14382.html

+0  基于OpenStack, Docker和Spark打造SuperVessel大数据公有云

Tag: 大数据 | Big Data | Docker | OpenStack | Spark | SuperVessel Cloud
Guancheng (G.C.) 发于 2015年05月12日 21:48 | 点击: 2315 | 展开摘要
今年4月的Spark技术峰会上我做了《SuperVessel:基于OpenStack, Docker和Spark打造大数据公有云》的技术分享:

基于OpenStack和Docker打造Spark大数据服务

新浪微盘下载链接

1.首先请介绍下您自己,以及您在 Spark 技术方面所做的工作。

我是IBM中国研究院的高级研究员,大数据云方向的技术负责人,我的微博是@冠诚。我们围绕Spark主要做两方面的事情:

(1) 在IBM研究院的SuperVessel公有云(htt

查看全文: http://www.udpwork.com/item/14201.html

+0  LinkedIn运行大规模的Kafka集群

Tag: Kafka | 大数据
鸟窝 发于 2015年04月29日 11:01 | 点击: 912 | 展开摘要
英文原文: Running Kafka At Scale by Todd Palino, Staff Engineer, Site Reliability.
中文翻译: LinkedIn —— Apache Kafka 的伸缩扩展能力 by 袁不语, 社会主义好, 无若, 开心613, fr000, Shawock.

我在转载时根据原文对译文有所改动。

如果数据是高科技的血脉的话,Apache Kafka 就是 LinkedIn 公司正在使用中的心脏系统。我们使用 Kaf

查看全文: http://www.udpwork.com/item/14385.html

+0  互联网公司的指数们

Tag: TMT乱弹 | 媒体供稿 | 上海观察 | 互联网指数 | 大数据
魏武挥 发于 2015年04月14日 09:24 | 点击: 1605 | 展开摘要


4月头上,随着蚂蚁金服正式推出淘金100指数,BAT三家互联网巨头再一次在同一个领域里碰头:他们都开始做自己的股票指数。

如果算上新浪的i指数,迄今为止,已经有四家互联网公司编制股票指数。

对股票指数的投资,被视为一种被动型投资,它比较适合风险厌恶度高而且相对没有太多时间看盘的人。

我一向认为,在整个大势走好的情况下,投资指数,是一种不错的解决方案。算是顺势而为,又不用动什么脑子。

股票指数不是什么新鲜事,但互联网公司出手制作股票指数,是互联网金融大潮下的一桩新

查看全文: http://www.udpwork.com/item/14095.html

+0  给Vim配置Scala语法高亮显示

Tag: 大数据 | scala
Guancheng (G.C.) 发于 2015年04月11日 22:54 | 点击: 4074 | 展开摘要
第一步,执行下面这个脚本:

mkdir -p ~/.vim/{ftdetect,indent,syntax} && for d in ftdetect indent syntax ; do curl -o ~/.vim/$d/scala.vim https://raw.githubusercontent.com/gchen/scala.vim/master/scala.vim; done

第二步,在~/.vimrc中添加:

syntax on

查看全文: http://www.udpwork.com/item/14087.html

+0  一步一步教你怎样给Apache Spark贡献代码

Tag: 大数据
Guancheng (G.C.) 发于 2014年08月05日 16:48 | 点击: 2526 | 展开摘要
本文将教大家怎样用10个步骤完成给Apache Spark贡献代码这个任务:)

到 Apache Spark 的github 页面内点击 fork 按钮

你的github帐户中会出现 spark 这个项目

本地电脑上, 使用

git clone [你的 spark repository 的 github 地址]
例如:
git clone git@github.com:gchen/spark.git

本地得到一个叫 spark 的文件夹

4. 进入该文件夹,使用

查看全文: http://www.udpwork.com/item/12860.html

+0  大数据的价值密度

Tag: 业界评论 | 大数据 | Big Data
Guancheng (G.C.) 发于 2014年05月03日 16:47 | 点击: 2443 | 展开摘要
文 / 陈冠诚

注:原文刊载于《程序员》2014年第5期,略有删改。

在大数据和云计算如火如荼的今天,怎样将数据的商业价值变现成为各位老板和技术男们最关心的问题。马云经常讲,我不懂技术,所以我才要发力做云计算,做大数据。相信马总一定因为看到了云计算和大数据的潜在商业价值才做出上述决定的。在各位大佬争相跑马圈地的年代,各大公司都开始占领数据源头,从构建自己线上应用的生态圈入手,将用户的数据牢牢掌握在自己手中,以期望将来能从这些数据中挖掘出“潜在”的商业价值,例如在2014年

查看全文: http://www.udpwork.com/item/12205.html

+0  Hadoop无法解决的问题

Tag: Machine Learning & Big Data | Hadoop | 大数据 | 问题
四火 发于 2013年11月11日 21:54 | 点击: 1867 | 展开摘要
文章系本人原创,转载请保持完整性并注明出自《四火的唠叨》

因为项目的需要,学习使用了Hadoop,和所有过热的技术一样,“大数据”、“海量”这类词语在互联网上满天乱飞。Hadoop是一个非常优秀的分布式编程框架,设计精巧而且目前没有同级别同重量的替代品。另外也接触到一个内部使用的框架,对于Hadoop做了封装和定制,使得更满足业务需求。我最近也想写一些Hadoop的学习和使用心得,但是看到网上那么泛滥的文章,我觉得再写点笔记一样的东西实在是没有价值。倒不如在漫天颂歌的时候冷

查看全文: http://www.udpwork.com/item/11102.html
|<<<1234>>>| 一共4页, 42条记录