最新 | 最热门 | 最高评价

+0  浅谈中文分词

Tag: algorithm | program | ir | math | nlp
isnowfy 发于 2014年04月18日 23:00 | 点击: 2474 | 展开摘要
NLP(Natural language processing)自然语言处理一直都是比较热门的领域,现在不管是搜索,推荐神马的基本都需要和nlp打交道,而中文的nlp处理的第一步就是分词了,所以中文分词一直扮演者举足轻重的角色。当然了,分词的算法也是层出不穷,从最初的字典匹配到后来的统计模型,从HMM到CRF,分词精度都在不断提高,下面我就简单介绍下基本的分词算法。

字典匹配

最简单的分词就是基于字典匹配,一个句子“浅谈中文分词”,如果字典中我有这三个词“浅谈”“中文”“

查看全文: http://www.udpwork.com/item/12144.html

+0  程序解决flash-gear的拼图问题

Tag: program | 谜题 | python
isnowfy 发于 2014年03月04日 19:02 | 点击: 2326 | 展开摘要
最近看到flash-gear上你可以上传图片,然后自动帮你生成拼图,而且还能选择块的大小,话说,如果块很小,人力去拼图还真有些崩溃,于是本着geek的原则,打算用程序来搞一搞。

首先我上传了图片生成了这个拼图,就是上面的那个图片的样子,然后我们可以看到有很多小碎片,而且是慢慢出现的,于是我就考虑是不是通过网络来请求的呢,于是用了chrome的审查元素,发现没有多与的http请求,于是我又想会不会是flash通过tcp请求来获得的呢,于是用了wireshark抓包,发现依然毫

查看全文: http://www.udpwork.com/item/11811.html

+0  lock free的理解

Tag: program
isnowfy 发于 2014年02月27日 19:54 | 点击: 1951 | 展开摘要
以前一直不明白lock free是什么,后来发现原来是完全理解错了概念,lock free看到大家有的翻译为无锁,有的翻译为锁无关,其实用不用锁和lock free是不相关的,用了锁也可能是lock free,而不用锁有可能不是lock free。

一个lock free的解释是

一个“锁无关”的程序能够确保执行它的所有线程中至少有一个能够继续往下执行。

其实看我们那副图就是说你的各个线程不会互相阻塞,那么你的程序才能成为lock free的。像我们平常用的互斥锁,当有

查看全文: http://www.udpwork.com/item/11785.html

+0  正则表达式中的不匹配

Tag: program | re | 正则
isnowfy 发于 2013年12月22日 16:47 | 点击: 1969 | 展开摘要
昨天在hacker news上看到regex golf,这里可以做几道很有趣的正则表达式的题,做题过程中有的需要用到不匹配这种匹配,比如说我需要匹配不包含某个单词的串。

先来看看正则表达式的语法吧。

.hh {
color: #d14;
background-color: #f7f7f9;
border: 1px solid #e1e1e8;
padding: 2px 4px;
border-radius: 3px;
-webkit-border-radius: 3px;

查看全文: http://www.udpwork.com/item/11368.html

+0  几种中文分词算法的比较

Tag: algorithm | program | ir | math | nlp
isnowfy 发于 2013年12月10日 18:04 | 点击: 3431 | 展开摘要
中文自然语言处理最首要的就是要中文分词了,现在而言效果最好的还是要算crf了,具体可以查看Stanford NLP,不过鉴于crf速度比较慢,而且咱对其还没有完全的理解,所以这里就没有比较crf算法了。这里主要比较的是最大匹配算法,隐马尔可夫,uni-gram,和一种character based generative model这四种进行比较。

在52nlp上的这篇文章介绍到了Bakeoff 2005的数据。SIGHAN是国际计算语言学会(ACL)中文语言处理小组的简称,

查看全文: http://www.udpwork.com/item/11307.html

+0  自动摘要算法

Tag: algorithm | program | ir | nlp | python
isnowfy 发于 2013年11月30日 18:05 | 点击: 2953 | 展开摘要
当时yahoo以3000万美元的价格收购了summly的消息传出来之后,貌似大家都比变的对自动摘要产生了极大的兴趣,关于自导摘要wiki这里有很详细的介绍,一般自动摘要比较常用的一个是摘取文章中的关键词,另一个则是摘取文章中的关键的句子,在这里我主要是介绍用textrank算法来搞句子的摘取。

相对于textrank,摘取关键句子还有一些比较简单的算法,比如这篇,我们可以把句子分别和整篇文章做比较,相似性最大的就是关键的句子。而textrank其实就是pagerank算法扩

查看全文: http://www.udpwork.com/item/11267.html

+0  美东两周游记

Tag: my life
isnowfy 发于 2013年09月28日 23:20 | 点击: 1620 | 展开摘要
最近两周去美国东部转了转,7号北京走的,23号回到的北京,这之间去了纽约,波士顿,尼亚加拉瀑布,费城,华盛顿,玩的还是很开心的,记录一下过程,也对之后有兴趣去美国东部玩的同学有所帮助吧。

去美国首要要弄好的就是护照和签证了,护照一般在户口所在地随便搞搞就好了,有效期也很长一般十多年吧,然后就是签证,需要填DS-160的表格,然后我签的是旅游签证B1,由于之前去过一次美国,所以这次是通过中信银行代签的所以很顺利,签证的有效期是1年,1年内可以随便去,一般在美国境内可以待的时间

查看全文: http://www.udpwork.com/item/10762.html

+0  几道趣题

Tag: 数学 | 谜题 | math
isnowfy 发于 2013年07月26日 11:38 | 点击: 1774 | 展开摘要
最近看到这个网站 http://gurmeet.net/puzzles/很不错啊,有很多有意思的谜题,而且还有详细的答案,最下面还给了些其他的谜题网站,然后今天终于把所有题看完了,有一些经常见到的题,也有一些第一次见的题,我挑出几道有意思的和大家分享一下。

1、有红,绿,黄三种颜色的球各两个,每种球都分为轻球和重球,三个轻球一样重,三个重球一样重,天平称两次,找到三个重球。

2、三个人每人带了一个白帽子或者黑帽子,三个人要同时,每人都要么声明自己帽子的颜色要么是什么都不说

查看全文: http://www.udpwork.com/item/10294.html

+0  c++智能指针的简单实现

Tag: program | c | cpp | pointer
isnowfy 发于 2013年06月15日 20:38 | 点击: 1666 | 展开摘要
因为c++没有拉圾回收的机制,所以,c++程序经常出现各种内存泄漏,一般而言,指针的new和delete需要对应,不然就会出现很严重的问题。而智能指针就是帮助我们自动管理指针的一种方式,比较常用的就是利用引用计数的方式,实现,当变量出了作用域时自动删除,当还有其他变量持有指针时不会删除。

智能指针有很多实现方式,stl和boost库里都有实现,为了,便于理解和应用,我们来看看如何自己实现一个简单的智能指针。我这里要说的实现方式,是通过一个辅助类,来记录引用计数来操作的。

查看全文: http://www.udpwork.com/item/10020.html

+0  Clojure的宏

Tag: program | clojure | java | lisp
isnowfy 发于 2013年05月19日 23:52 | 点击: 2488 | 展开摘要
Clojure是运行在java虚拟机上的一种lisp的方言。说道lisp的话最先想到的应该是函数式编程,括号之类的词语,话说大家在读了《黑客与画家》这本书后肯定都会觉得lisp很厉害,都想来试试。而clojure作为lisp的一种方言,当然是包含了lisp的各种强大特点,而lisp的很强大很灵活的一个原因要归功于他的宏。说道宏的话,c里也是有宏的概念的,而lisp的宏其实本质和c里的宏都是一样的,都是做代码替换,但是lisp的宏应用起来更加强大。

先来感受下clojure宏

查看全文: http://www.udpwork.com/item/9864.html

+0  利用函数来画任意图形

Tag: program | 数学 | math | python
isnowfy 发于 2013年05月03日 23:24 | 点击: 2253 | 展开摘要
最近我们经常看到像鸟叔,初音之类的通过函数图像来画出来,看上去十分神奇的样子,wolframalpha这里有大量的通过函数图像来画人物的例子,大家可以去围观,而且最上面我这几个字也是我用函数图像画出来的,今天我们就说说这是怎么做到的。

首先我画的图形的函数是这个样子的

x(t)= 3.69696969697 *cos( 0.0 *t)- 1.78787878788 *sin( 0.0 *t) + -0.608631557183 *cos( 0.190399554763 *

查看全文: http://www.udpwork.com/item/9767.html

+0  在线协同编辑的实现

Tag: program | web | python
isnowfy 发于 2013年04月16日 23:12 | 点击: 2378 | 展开摘要
类似google doc,协同编辑就是能够让多人同时编辑同一份文档。用过版本控制的童鞋都知道,用版本控制的一个好处就是,可以方便的多人共同去做一个项目,但有时大家会对同一个文件的同一行进行了修改,这时merge代码的时候,就需要你去手工去解决冲突,而协同编辑同样也面临冲突的问题,这时候就是程序实时的自动去解决冲突了。

现在做协同编辑的已经有很多了,比如google doc,比如facebook面试喜欢用的collabedit,还有最近开源的towtruck这个东西,所以协同

查看全文: http://www.udpwork.com/item/9681.html
|<<<1234>>>| 一共4页, 42条记录