最新 | 最热门 | 最高评价

+1  2012大数据盘点

Tag: dw架构 | 云计算 | 开发技术 | 数据挖掘 | 数据体系 | 盘点
flyinweb 发于 2013年02月16日 17:21 | 点击: 2923 | 展开摘要
备注:这是刊登在《程序员》杂志2012年12期杂志的稿件,略有删减。

从2012年3月29日美国政府投资2亿美元启动“大数据研究和发展计划”到11月份被视为大数据时代的总统选举,大数据处理技术有一种“旧时王谢堂前燕,飞入寻常百姓家”的迹象。已有的技术逐渐落地承接核心业务,新的技术则独辟蹊径,在特定领域一展所长,同时,大数据处理技术的平台化、商业化开始兴起。本文将从数据的传输、存储、计算、挖掘、展现、开发者平台和应用市场七个方面来阐释2012年大数据领域的发展和变化。

数据

查看全文: http://www.udpwork.com/item/9253.html

+0  闲话移动app中c/s通信的身份验证——原理篇

Tag: 开发技术 | 算法
雨水无香 发于 2011年11月25日 01:04 | 点击: 6137 | 展开摘要
话说月初的时候曾想玩玩移动app开发,目前app开发比较流行c/s架构,不,用时髦点的话说是云端架构。对于网络应用来说,第一个遇到的问题就是用户身份验证。之前基本上就没做过c/s架构的东西(和b/s对应的c/s),所以在这方面算是空白。后来面试过两个Android开发者,把这个问题当做一个系统设计的题目来问,也没有得到更多的想法。

当年做b/s时,用户身份验证这种事靠的是cookie&session,即浏览器发送请求时携带写入cookie的session_id,服

查看全文: http://www.udpwork.com/item/6379.html

+0  淘宝数据魔方技术架构解析

Tag: 展现 | 开发技术
朋春 发于 2011年08月03日 22:37 | 点击: 1734 | 展开摘要
(本文首发于《程序员》8月刊,略有调整。你可通过pengchun#taobao.com联系到作者。)

淘宝网拥有国内最具商业价值的海量数据。截至当前,每天有超过30亿的店铺、商品浏览记录,10亿在线商品数,上千万的成交、收藏和评价数据。如何从这些数据中挖掘出真正的商业价值,进而帮助淘宝、商家进行企业的数据化运营,帮助消费者进行理性的购物决策,是淘宝数据平台与产品部的使命。

为此,我们进行了一系列数据产品的研发,比如为大家所熟知的量子统计、数据魔方和淘宝指数等。尽管从业务层

查看全文: http://www.udpwork.com/item/6606.html

+0  推荐系统资料整理之二:常用相似度计算方法

Tag: Topic | 开发技术 | 推荐系统 | 算法 | 余弦相似度 | 欧氏距离 | 皮尔森相关系数 | 相似度计算
雨水无香 发于 2010年12月28日 15:38 | 点击: 5580 | 展开摘要
不论是推荐系统,还是搜索引擎,都经常需要比较两个项目之间的相似度。常见的思想是将项目的特征的权值表示为N维空间向量,然后利用代数方法,对两个空间向量之间的距离、夹角等进行度量,从而表示相似度。常用的相似度计算方法有如下几种:

1.1 欧氏距离

欧氏距离的计算中将空间向量看成是N维空间上的两个点,通过空间上两点之间的距离表示两个项目之间的联系。欧氏距离一般只用于简单的比较,并不能将值域投影到某一特定范围。

1.2 余弦相似度

余弦相似度通过计算两个空间向量之间的夹角余弦

查看全文: http://www.udpwork.com/item/3907.html

+0  推荐系统资料整理之一:推荐方法

Tag: Topic | 开发技术 | 推荐系统 | 算法 | 关联规则挖掘 | 协同过滤
雨水无香 发于 2010年12月27日 20:04 | 点击: 4614 | 展开摘要
1.1 基于内容的推荐系统

基于内容推荐是推荐系统中比较常见的一种做法,这种方法对于每个item基于其自身属性,抽取一些特征用来表示这个item的内容,从而推荐那些和当前item含有相同或相近特征的一些item。

这种推荐系统多用于一些资讯类的应用上,针对文章本身抽取一些tag作为该文章的关键词,继而可以通过这些tag来评价两篇文章的相似度。抽取tag经常采用的方案是基于TF-IDF得到的一系列权值较高的term,即认为:在一篇文章中,那些出现频率高的(除停用词)词,并且

查看全文: http://www.udpwork.com/item/3901.html

+0  一个简单的simhash算法

Tag: Perl | 开发技术 | 算法 | 语言
雨水无香 发于 2010年10月17日 01:22 | 点击: 4874 | 展开摘要
simhash是个很常用的计算文本相似度的算法,网上一般说用64bit的签名,这里采用times33作为普通hash函数,用32bit的签名,算法如下:

#!/usr/bin/env perl
#
sub hash {
my ($input) = @_;
my @chars = split "", $input;
my $hash = 5381;
foreach(@chars){
$hash = $hash + ord($_)

查看全文: http://www.udpwork.com/item/3073.html

+0  闲扯Java面向对象

Tag: Java | 开发技术 | 架构 | 语言 | Scala | 多重继承 | 抽象类 | 接口 | 特征
雨水无香 发于 2010年08月17日 15:20 | 点击: 2350 | 展开摘要
继承和多态可以算是面向对象设计的两个最基本的概念了,而这两种技术的实现离不开接口和抽象类。曾经面试的时候被问过这样一个问题,就是Java的接口和抽象类有什么区别。不想谈太多语法上的区别,只想说说它们语义上的区别。接口,是用来描述类的抽象行为的;而抽象类更多是描述一个物种的某些共同属性的。从这个意义上讲,一个具体的事物是不可能既属于A物种又属于B物种的,所以Java中不允许多重继承,但是因为即便是不同物种也可以拥有相同行为,因此从接口上可以“多重实现”,但是因为物种不同,所以这

查看全文: http://www.udpwork.com/item/2405.html

+0  Lucene 2.9搜索语法

Tag: Lucene | 开发技术 | 搜索 | 语法
雨水无香 发于 2010年07月15日 17:10 | 点击: 2975 | 展开摘要
项(Terms)

Term分为两种,单个词或者词组,词组需要包括在双引号中。

域(Fields)

当需要在指定的field内搜索term时,可以用诸如[field_name]:[term]的形式搜索,如不指定field,则在默认的field中搜索,例如:

title:”The Right Way” AND text:go

注意:在指定field中搜索词组需要加双引号,否则认为只在指定field中搜索第一个term在默认的field中搜索其他的

查看全文: http://www.udpwork.com/item/2056.html

-4  ZooKeeper集群部署管理详细版

Tag: Hadoop | 开发技术 | ZooKeeper | 部署 | 配置
雨水无香 发于 2010年07月09日 20:05 | 点击: 4041 | 展开摘要
1. 约定:

a. ZooKeeper Server,[server1]的ip为192.168.1.201,[server2]的ip为192.168.1.202,[server3]的ip为192.168.1.203。

b. [zk_dir]表示ZooKeeper的根目录,假设为/home/user/zookeeper

c. [zk_data]表示ZooKeeper数据文件存放地址,假设为/home/user/zk_data

d. [zk_trlog]表示ZooKeep

查看全文: http://www.udpwork.com/item/2006.html

+0  ZooKeeper配置文件参数

Tag: Hadoop | 开发技术 | zoo.cfg | ZooKeeper | 参数 | 配置文件
雨水无香 发于 2010年07月09日 11:20 | 点击: 5107 | 展开摘要
参考:http://hadoop.apache.org/zookeeper/docs/r3.3.1/zookeeperAdmin.html#sc_configuration

ZooKeeper Server的行为受配置文件zoo.cfg的控制,zoo.cfg的设计目标是让所有服务器都可以使用相同的配置文件,如果需要使用不同的配置文件,需要保证关于cluster部分的参数相同。下面是具体的参数:

最小必要配置的参数

clientPort

服务的监听端口

dataDir

查看全文: http://www.udpwork.com/item/2002.html

+0  ZooKeeper集群简单部署指南

Tag: Hadoop | 开发技术 | ZooKeeper | 分布式 | 部署
雨水无香 发于 2010年07月08日 23:57 | 点击: 3505 | 展开摘要
ZooKeeper是Hadoop的一个正式子项目,用于为分布式应用提供协调服务。包括提供命名服务、配置管理、同步、分组服务等。具体介绍请google一下。今天老大让我研究研究ZooKeeper的Server Cluster部署,自己在vbox里搞了3个server外加一个client,研究了半天总算是跑起来了。下面介绍一下具体部署过程:

首先先下载,然后把它解压到适当的地方,ZooKeeper下载后是Server&Client&src什么都都在一起的。在co

查看全文: http://www.udpwork.com/item/1996.html

+0  困扰了我N久的android上google account不能登陆问题终于解决了

Tag: Android | 开发技术 | gmail | gtalk | Market | 不能同步 | 不能登陆 | 不能绑定
雨水无香 发于 2010年06月17日 04:51 | 点击: 4873 | 展开摘要
忘了从哪天开始,突然gtalk登录时说用户名密码错误,然后发现gmail, market等也不能访问。看到gtalk上很多人还是用android上的,感觉不是GFW的问题,觉得是rom有问题。今天刷了最新CM5,并且全部wipe掉后发现连绑定都不能。打开logcat后显示了如下一条:

W/CheckinService( 148): Request failed: org.apache.http.conn.HttpHostConnectExc
eption: Connecti

查看全文: http://www.udpwork.com/item/1775.html
|<<<12>>>| 一共2页, 16条记录