最新 | 最热门 | 最高评价

+0  Paxos小议

Tag: 分布式基础 | paxos | 分布式 | 选举算法
editor 发于 2011年11月23日 15:08 | 点击: 9388 | 展开摘要
问题

最近我们在做一个项目的时候有这样一个需求:我们有多台服务器资源,希望彼此协作完成一项工作。这项工作可以被划分为N个小的模块,但由于这项工作会依赖于持续不断的输入(在线业务),因此我们无法使用人工指定的方式将此工作分发到不同服务器进行。目前我们想到一个方法,将这项工作划分出的小模块放到一个稳定可靠的地方,例如mola存储系统,然后每台服务器去存储系统上取得一定数量的模块进行工作,完成后再将处理的结果输出到前述的存储系统上。这些小的模块虽然可以被不同的服务器运行,然后重复

查看全文: http://www.udpwork.com/item/6367.html

+0  使用hadoop进行大规模数据的全局排序

Tag: 数据结构与算法 | hadoop
editor 发于 2011年04月27日 10:52 | 点击: 7196 | 展开摘要
1.   Hellow hadoop~~!

Hadoop(某人儿子的一只虚拟大象的名字)是一个复杂到极致,又简单到极致的东西。

说它复杂,是因为一个hadoop集群往往有几十台甚至成百上千台low cost的计算机组成,你运行的每一个任务都要在这些计算机上做任务的分发,执行中间数据排序以及最后的汇总,期间还包含节点发现,任务的重试,故障节点替换等等等等的维护以及异常情况处理。谁叫hadoop集群往往都是由一些平民计算机组成,没事儿罢个工什么的,实在是再寻常不过的事情。

查看全文: http://www.udpwork.com/item/4938.html

+0  Buddy memory allocation (伙伴内存分配器)

Tag: 算法 | 语言与设计
云风 发于 2011年12月20日 21:38 | 点击: 6486 | 展开摘要
今天吃晚饭的时候想到,我需要一个定制的内存分配器。主要是为了解决 共享内存 中的字符串池的管理。

这个内存分配器需要是非入侵式的,即不在要分配的内存块中写 cookie 。

而我的需求中,需要被管理的内存块都是很规则的,成 2 的整数次幂的长度。buddy memory allocation 刚好适用。

算法很简单,就是每次把一个正内存块对半切分,一直切到需要的大小分配出去。回收的时候,如果跟它配对的块也是未被使用的,就合并成一个大的块。标准算法下,分配和释放的时间复

查看全文: http://www.udpwork.com/item/6560.html

+0  闲话移动app中c/s通信的身份验证——原理篇

Tag: 开发技术 | 算法
雨水无香 发于 2011年11月25日 01:04 | 点击: 6015 | 展开摘要
话说月初的时候曾想玩玩移动app开发,目前app开发比较流行c/s架构,不,用时髦点的话说是云端架构。对于网络应用来说,第一个遇到的问题就是用户身份验证。之前基本上就没做过c/s架构的东西(和b/s对应的c/s),所以在这方面算是空白。后来面试过两个Android开发者,把这个问题当做一个系统设计的题目来问,也没有得到更多的想法。

当年做b/s时,用户身份验证这种事靠的是cookie&session,即浏览器发送请求时携带写入cookie的session_id,服

查看全文: http://www.udpwork.com/item/6379.html

+0  推荐系统资料整理之二:常用相似度计算方法

Tag: Topic | 开发技术 | 推荐系统 | 算法 | 余弦相似度 | 欧氏距离 | 皮尔森相关系数 | 相似度计算
雨水无香 发于 2010年12月28日 15:38 | 点击: 5469 | 展开摘要
不论是推荐系统,还是搜索引擎,都经常需要比较两个项目之间的相似度。常见的思想是将项目的特征的权值表示为N维空间向量,然后利用代数方法,对两个空间向量之间的距离、夹角等进行度量,从而表示相似度。常用的相似度计算方法有如下几种:

1.1 欧氏距离

欧氏距离的计算中将空间向量看成是N维空间上的两个点,通过空间上两点之间的距离表示两个项目之间的联系。欧氏距离一般只用于简单的比较,并不能将值域投影到某一特定范围。

1.2 余弦相似度

余弦相似度通过计算两个空间向量之间的夹角余弦

查看全文: http://www.udpwork.com/item/3907.html

+0  解读Cardinality Estimation算法(第三部分:LogLog Counting)

Tag: 数学及算法 | 基数估计 | 大数据 | 概率 | 算法
ericzhang 发于 2013年01月03日 21:17 | 点击: 4828 | 展开摘要
上一篇文章介绍的Linear Counting算法相较于直接映射bitmap的方法能大大节省内存(大约只需后者1/10的内存),但毕竟只是一个常系数级的降低,空间复杂度仍然为。例如,假设基数的上限为1亿,原始bitmap方法需要12.5M内存,而LogLog Counting只需不到1K内存(640字节)就可以在标准误差不超过4%的精度下对基数进行估计,效果可谓十分惊人。

本文将介绍LogLog Counting。

简介

LogLog Counting(以下简称LLC)

查看全文: http://www.udpwork.com/item/8971.html

+0  从抛硬币试验看概率论的基本内容及统计方法

Tag: 数学及算法 | 数据挖掘及机器学习 | 假设检验 | 参数估计 | 概率 | 正态分布 | 统计
ericzhang 发于 2012年11月20日 21:40 | 点击: 4779 | 展开摘要
一般说到概率,就喜欢拿抛硬币做例子。大多数时候,会简单认为硬币正背面的概率各为二分之一,其实事情远没有这么简单。这篇文章会以抛硬币试验为例子并贯穿全文,引出一系列概率论和数理统计的基本内容。这篇文章会涉及的有古典概型、公理化概率、二项分布、正态分布、最大似然估计和假设检验等一系列内容。主要目的是以抛硬币试验为例说明现代数学观点下的概率是什么样子以及以概率论为基础的一些基本数理统计方法。

概率的存在性

好吧,首先我们要回答一个基本问题就是概率为什么是存在的。其实这不是个数学

查看全文: http://www.udpwork.com/item/8697.html

+0  一个简单的simhash算法

Tag: Perl | 开发技术 | 算法 | 语言
雨水无香 发于 2010年10月17日 01:22 | 点击: 4766 | 展开摘要
simhash是个很常用的计算文本相似度的算法,网上一般说用64bit的签名,这里采用times33作为普通hash函数,用32bit的签名,算法如下:

#!/usr/bin/env perl
#
sub hash {
my ($input) = @_;
my @chars = split "", $input;
my $hash = 5381;
foreach(@chars){
$hash = $hash + ord($_)

查看全文: http://www.udpwork.com/item/3073.html

+0  推荐系统资料整理之一:推荐方法

Tag: Topic | 开发技术 | 推荐系统 | 算法 | 关联规则挖掘 | 协同过滤
雨水无香 发于 2010年12月27日 20:04 | 点击: 4512 | 展开摘要
1.1 基于内容的推荐系统

基于内容推荐是推荐系统中比较常见的一种做法,这种方法对于每个item基于其自身属性,抽取一些特征用来表示这个item的内容,从而推荐那些和当前item含有相同或相近特征的一些item。

这种推荐系统多用于一些资讯类的应用上,针对文章本身抽取一些tag作为该文章的关键词,继而可以通过这些tag来评价两篇文章的相似度。抽取tag经常采用的方案是基于TF-IDF得到的一系列权值较高的term,即认为:在一篇文章中,那些出现频率高的(除停用词)词,并且

查看全文: http://www.udpwork.com/item/3901.html

+0  一致性hash算法和lvs sh调度算法改进

Tag: 算法
网络技术实验室 发于 2013年01月17日 16:55 | 点击: 4271 | 展开摘要
1 LVS-sh调度算法(souce address hash)

本节是LVS中sh调度算法的实现分析;

ip_vs_sh_init_svc() -
创建256个hash bucket的hash table,并将rs映射到这256个bucket中,增加rs的引用计数器;

ip_vs_sh_done_svc() -
释放rs引用计数器,并销毁hash table;

ip_vs_sh_update_svc -
销毁hash
table,重新创建hash table并

查看全文: http://www.udpwork.com/item/9107.html

+0  Leetcode 编程训练

Tag: C/C++语言 | 杂项资源 | 编程语言 | Algorithm | C++ | Leetcode | Programmer | Programming | 程序员 | 算法 | 面试
陈皓 发于 2014年10月23日 10:51 | 点击: 4052 | 展开摘要
Leetcode这个网站上的题都是一些经典的公司用来面试应聘者的面试题,很多人通过刷这些题来应聘一些喜欢面试算法的公司,比如:Google、微软、Facebook、Amazon之类的这些公司,基本上是应试教育的功利主义。

我做这些题目的不是为了要去应聘这些公司,而是为了锻炼一下自己的算法和编程能力。因为我开始工作的时候基本没有这样的训练算法和编程的网站,除了大学里的“算法和数据结构”里的好些最基础最基础的知识,基本上没有什么训练。所以,当我看到有人在做这些题的时候,我也蠢蠢

查看全文: http://www.udpwork.com/item/13421.html

+0  如何计算树的直径?

Tag: Programming | Tips | 技术文章 | 找工作 | 数据结构 | 笔试 | 算法 | 面试
何 李石 发于 2011年09月08日 19:37 | 点击: 4005 | 展开摘要
如何计算树的直径?

1. 二叉树:计算左子树的高度,计算右子树的高度,两者相加。

2. 多叉树:计算所有子树的高度,取两个最大值相加。

 

Ikbear 猜您也喜欢:

DBank数据银行登录失败 (@fengxiangba)

数据恢复工具:Boomerang Data Recovery绿色版 (@portablesoft)

google宣布搜索方面算法的重大改进

Get Many Persimmon Trees

Unrolled linked li

查看全文: http://www.udpwork.com/item/5767.html
|<<<1234567>>>| 一共12页, 143条记录