最新 | 最热门 | 最高评价

+0  趣题:填写两个声母互相颠倒的词

Tag: 趣题 | Brain Storm | 文字游戏
Matrix67 发于 2012年03月01日 10:26 | 点击: 2223 | 展开摘要
    英语当中有一种笑话类型。第一次看到的是:

- What's the difference between a girl in church and a girl in the bathtub?

- One has hope in her soul, one has soap in her hole.

    把我给笑坏了。在说这种笑话的时候,只说一半的效果往往更好。又比如:

查看全文: http://www.udpwork.com/item/6922.html

+0  漫话中文自动分词和语义识别(下):句法结构和语义结构

Tag: 算法 | Brain Storm | 语言学 | 文字游戏
Matrix67 发于 2012年01月05日 16:25 | 点击: 2962 | 展开摘要
    这篇文章是漫话中文分词算法的续篇。在这里,我们将紧接着上一篇文章的内容继续探讨下去:如果计算机可以对一句话进行自动分词,它还能进一步整理句子的结构,甚至理解句子的意思吗?这两篇文章的关系十分紧密,因此,我把前一篇文章改名为了《漫话中文自动分词和语义识别(上)》,这篇文章自然就是它的下篇。我已经在很多不同的地方做过与这个话题有关的演讲了,在这里我想把它们写下来,和更多的人一同分享。

    

查看全文: http://www.udpwork.com/item/6654.html

+0  趣题:这些词有什么共同点?

Tag: 趣题 | Brain Storm | 语言学 | 文字游戏
Matrix67 发于 2011年12月29日 20:07 | 点击: 2133 | 展开摘要
     据说,爱出题也是 Geek 的一种特征。这几天在做语言工程课的期末大作业时,再一次见识了汉语里各种诡异的语法规则,然后突然想到了这样一种好玩的题型,于是竟然暂时放下手中的作业,花时间编了几个这样的题目来(感谢 Geek 小美女 localhost_8080 的帮助)。

    下面的每一组词中,前五个词都具有某种共同的性质,这种性质是后面五个词都不具有的。你能猜出每组词所对应的那个性质

查看全文: http://www.udpwork.com/item/6597.html

+0  汉字地图第二版

Tag: 算法 | Brain Storm | Mathematica | 统计 | 图片 | 文字游戏
Matrix67 发于 2011年11月26日 21:13 | 点击: 2400 | 展开摘要
    去年年初的时候,我曾经发布过某专业课期末作业研究过程中带来的一个有趣的副产品:汉字的字义网络图。不过,当时我是直接调用的 Mathematica 的相关函数,函数几乎不能调整参数,并且也无法处理边上权重不同的情况。最近在研究引力斥力绘图算法,突然想到把当时的数据重新画一张图。于是就有了汉字地图第二版(点击小图看大图):

   

    还是简述一下整个图的

查看全文: http://www.udpwork.com/item/6387.html

+0  无聊小制作:“数词+非数词+数词+非数词”的出现频数

Tag: Mathematica | 统计 | Design of Design | 文字游戏 | 图形
Matrix67 发于 2011年10月17日 13:41 | 点击: 2272 | 展开摘要
    昨天和同事聊到,汉语还真是奇怪,有“四分五裂”,有“五颜六色”,也有“七上八下”,但好像从没听说过六什么七什么的。于是想到,在汉语中,“数词 + 非数词 + 数词 + 非数词”的短语是怎样分布的呢?回到家后立即用 Mathematica 做了一个柱状图,绘出了九九八十一种数词短语模式在大规模真实语料中的出现频数。注意,这里统计的是总的出现频数,重复出现也会计算在内。另外,这是一个简单而机械的统计过程,因而 “三人一组”、“七天七

查看全文: http://www.udpwork.com/item/6079.html

+0  无聊小研究:各种文体中出现频率最高的四字词

Tag: Brain Storm | Mathematica | 统计 | 文字游戏
Matrix67 发于 2011年09月29日 22:06 | 点击: 2617 | 展开摘要
今天,我拿到了梦寐以求的大规模中文语料库,总大小超过 1 G ,覆盖了各个时代各种文体的中文资料。有了这个语料库后,我便能完成很多早就想做的事情,比方说,统计各种文体中出现频率最高的四字词。给定一段文本后,基本的统计过程如下:

  1. 统计所有连续四字的出现频数;

  2. 按频数对所有四字组合从高到低排序;

  3. 删掉所有包含非汉字字符(比如数字、标点)的四字组合;

  4. 删掉

查看全文: http://www.udpwork.com/item/5973.html

+1  数学冷知识:不断取英文表达的字符数,最后总会得到数字4

Tag: Brain Storm | 惊奇数学事实 | 数列 | 文字游戏 | 图形
Matrix67 发于 2011年08月08日 21:50 | 点击: 2805 | 展开摘要
    这道题的答案有几个字母?答案:four。

    有趣的是,这是唯一的答案。如果令函数 f(n) 表示非负整数 n 的英文表达中有多少个字母(不算空格和短横线), n=4 是该函数的唯一不动点。

       n    0, 1, 2, 3, 4, 5, 6, 7, 8, 9,

查看全文: http://www.udpwork.com/item/5612.html

+0  蛋疼研究之单词等式

Tag: 进制 | Brain Storm | Mathematica | 文字游戏
Matrix67 发于 2011年04月27日 11:39 | 点击: 3176 | 展开摘要
    先给大家看两个“单词等式”:

ACT + DEAL = DONE

COIN + TRY = DIAL

    除了意义上说得通以外,从另外一个角度来看,这两个等式也是成立的。大家能猜到是什么吗?

 

    答案是:这两个等式真的就是成立的——如果把单词看作 36 进制数的话。把 ACT 转换成 10 进制就是 13421 ,把

查看全文: http://www.udpwork.com/item/4941.html

+0  漫话中文分词算法

Tag: 算法 | Brain Storm | 语言学 | 文字游戏 | 历史
Matrix67 发于 2011年03月10日 11:04 | 点击: 2965 | 展开摘要
    记得第一次了解中文分词算法是在 Google 黑板报 上看到的,当初看到那个算法时我彻底被震撼住了,想不到一个看似不可能完成的任务竟然有如此神奇巧妙的算法。最近在詹卫东老师的《中文信息处理导论》课上再次学到中文分词算法,才知道这并不是中文分词算法研究的全部,前前后后还有很多故事可讲。在没有建立统计语言模型时,人们还在语言学的角度对自动分词进行研究,期间诞生了很多有意思的理论。

    中

查看全文: http://www.udpwork.com/item/4490.html

+0  不用怀疑了,我已经写程序验证过了

Tag: Brain Storm | 解谜 | 文字游戏
Matrix67 发于 2011年01月17日 07:01 | 点击: 2422 | 展开摘要
    先邀请大家完成一个非常欢乐的智力测试。

How Smart Are You?

 

1. You're participating in a race. You finally overtake the second person. What position are you in?

 

2. And if you just overtook the last person, then you are

查看全文: http://www.udpwork.com/item/4104.html
|<<<1>>>| 一共1页, 10条记录