最新 | 最热门 | 最高评价

+0  2011 当冬夜渐暖

pluskid 发于 1970年01月01日 08:00 | 点击: 22150 | 展开摘要
按照惯例每年的总结还是用孙燕姿的一首歌作为标题吧,2011 年的总结写得有点太晚了,既然已经不再是寒冬了,那就用这首新歌《当冬夜渐暖》吧!

当冬夜渐暖 当大海也不再那么蓝
当月色的纯白变得阴暗
那只是代表快乐不再那么简单
当冬夜渐暖 当夏夜的树上不再有蝉
当回忆老去的痕迹斑斑
那只是因为悲伤从来 都不会有答案
当冬夜渐暖 当青春也都烟消云散
当美丽的故事都有遗憾
那只是习惯把爱当作喜欢
重要的是 我们如何 爱过那一段

要给个简洁的总结的话,2011 年大概至少有一半的时间

查看全文: http://www.udpwork.com/item/12092.html

+0  支持向量机:Kernel II

Tag: Machine Learning | Kernel | Support Vector Machine
pluskid 发于 2011年01月25日 14:25 | 点击: 8012 | 展开摘要
本文是“支持向量机系列”的第七篇,参见本系列的其他文章。

在之前我们介绍了如何用 Kernel 方法来将线性 SVM 进行推广以使其能够处理非线性的情况,那里用到的方法就是通过一个非线性映射 $\phi(\cdot)$ 将原始数据进行映射,使得原来的非线性问题在映射之后的空间中变成线性的问题。然后我们利用核函数来简化计算,使得这样的方法在实际中变得可行。不过,从线性到非线性的推广我们并没有把 SVM 的式子从头推导一遍,而只是直接把最终得到的分类函数

\[

f(x) =

查看全文: http://www.udpwork.com/item/4163.html

+0  久别重逢的 std::bad_alloc

Tag: Bugs | Bug | C++ | STL
pluskid 发于 2011年08月23日 20:41 | 点击: 6414 | 展开摘要
久别重逢是说,自从在教科书上见过它一面之后,这才是第二次碰面。也就是说,在这些年的编程经历中,从来没有遇到过吧——至少在我印象中是这样的。以至于我都开始怀疑在“平常的”程序中,它是否真正存在了。内存分配,C 里的 malloc (或者配套的函数) ,如果分配失败了会返回地址 0 ,所以,“作为良好的编程习惯,每次申请内存之后,应该检查一下返回值是不是 NULL ”,这样的“良好习惯”也许刚开始写几个程序的时候还能坚持,到后来就完全不管了——因为从来没有遇到过 malloc 返

查看全文: http://www.udpwork.com/item/5683.html

+0  Multiclass Learning with ECOC

Tag: Machine Learning | Multiclass Learning | Supervised Learning
pluskid 发于 2012年05月24日 11:25 | 点击: 5107 | 展开摘要
ECOC 是 Error-Correcting Output Codes 的缩写。上一篇文章中提到 ECOC 可以用来将 Multiclass Learning 问题转化为 Binary Classification 问题,本文中我们将对这个方法进行介绍。

要了解 ECOC ,可以从 One-vs-Rest 的 Multiclass Learning 策略出发。回忆一下,对于一个 K 类的分类问题,One-vs-Rest 策略为每一个类 $i$ 都训练一个 binary c

查看全文: http://www.udpwork.com/item/7344.html

+0  Generate Recursive Images

Tag: Develop | Fun | Matlab | Optimization
pluskid 发于 2010年06月24日 15:10 | 点击: 5072 | 展开摘要
在上一篇 blog 中我提到了递归图片,还给了一个有趣的例子,这次还说递归图片,再给另一个例子:

不过这次的例子是我自己生成的,而篇 blog 就是要讲如何来生成这样一张递归图片。其实方法很简单,类推一下,多花一些功夫的话,之前给的那个“二次递归”的例子也是可以“轻松”做出来的。

秘密就在于不动点迭代。我在上一篇 blog 中已经说过了,这个递归的东西要找的其实是一个“不动点”。对于一个函数 来说,一个不动点 就是满足 的值。而不动点的求法就是一个迭代,简单来说

查看全文: http://www.udpwork.com/item/1853.html

+0  求最小的几个特征值

Tag: Develop | Matlab | Tip
pluskid 发于 2011年01月13日 12:47 | 点击: 3802 | 展开摘要
在机器学习中经常都会遇到特征值问题,例如 Laplacian Eigenmaps 或者一大堆的 KernelPCA 派的降维方法,或者谱聚类之类的。通常都是对于一个很大并且比较稀疏的矩阵,求最大或者最小的几个特征值以及对应的特征向量。在 Matlab 里,eig 函数可以用来求得一个矩阵的全部特征值和特征向量,然而,如果我们只需要其中最大或者最小的那几个,用 eig 来求就显得杀鸡用牛刀了,费力还不讨好。而且,eig 还不能处理稀疏矩阵的情况,所以,这个时候通常就需要 eig

查看全文: http://www.udpwork.com/item/4083.html

+0  Acrobat meets Embedding

Tag: Bugs | Fun
pluskid 发于 2010年08月18日 13:56 | 点击: 3503 | 展开摘要
今天遇到一个非常 weird 的问题。实际上,这个问题已经困扰了我好几天了,那就是我发现我系统里的 Acrobat ,打开 PDF 文件的时候有时候需要“打开两次”才能真正打开,就是双击一下没有反应,要双击第二下才会出现 Acrobat 窗口。令我困惑的是并不是总是这样的,而是“偶尔出现”,实在是让人摸不着头脑。

今天又碰到了这个问题,终于忍无可忍,打开任务管理器观察一番,发现第一次双击的时候确实会出现 Acrobat.exe 这个进程,但是窗口并不显示出来,第二次双击的时

查看全文: http://www.udpwork.com/item/2412.html

+0  解决 Matlab MEX 编译时 GCC 版本的问题

Tag: Tool | Matlab | Tip
pluskid 发于 2009年12月25日 19:15 | 点击: 3397 | 展开摘要
在 Matlab 里使用 mex 来编译 C/C++ 代码失败,这个问题算是困扰了我好几个月了,主要是我的环境比较恶劣:系统是 Arch Linux ,感觉这个系统比较喜欢追求最新版本,比较无视老版本软件的兼容性问题吧。再加上系统是 64 位的,出现各种兼容性问题似乎也觉得是理所当然的,然后像 Matlab 这样的软件通常使用较老版本的 GCC ,而 GCC 更新的时候又做了一些大改动,总之结果是我每次试图编译的时候都得到类似这样的错误:

/usr/lib/gcc/x86_

查看全文: http://www.udpwork.com/item/1181.html

+0  如何生成随机数(上)

Tag: Machine Learning | Statistics
pluskid 发于 2010年04月28日 22:09 | 点击: 3249 | 展开摘要
快三个月没有写日志了,大概是我开始认真写 blog 来第一次,也是因为发生了一些预料之外的事情,中断了许久,到后来又一直非常非常忙,不过我终于又爬上来冒个泡了,表明我还活着。

第二点要澄清的是,我这里并不是要讲“伪随机”、“真随机”这样的问题,而是关于如何生成服从某个概率分布的随机数(或者说 sample)的问题。比如,你想要从一个服从正态分布的随机变量得到 100 个样本,那么肯定抽到接近其均值的样本的概率要大许多,从而导致抽到的样本很多是集中在那附近的。当然,要解决

查看全文: http://www.udpwork.com/item/1177.html

+0  机器学习物语(1):世界观设定

Tag: Machine Learning | Learning Theory | Supervised Learning
pluskid 发于 2011年12月09日 22:25 | 点击: 3056 | 展开摘要
我想如今机器学习 (Machine Learning) 的重要性(不论是在学术界还是在工业界)已经不用再多强调了,比如说 2010 年的图灵奖得主 Leslie Valiant 就是学习理论 (Learning Theory) 的一位先驱大牛,正是他提出了“可能近似正确” (Probably Approximately Correct, PAC) 模型——每次念一念 PAC 的中文翻译就觉得好玩,不过 PAC 模型及其变种确实是如今学习理论里最为广泛使用的框架之一,而且正是

查看全文: http://www.udpwork.com/item/6500.html

+0  机器学习物语(2):大数定理军团

Tag: Machine Learning | Learning Theory | Probability | Supervised Learning
pluskid 发于 2011年12月11日 22:29 | 点击: 2808 | 展开摘要
机器学习理论帝国崛起,大数定理军团功不可没,称之为军团毫不夸张,在前军先锋强大数定理和副将弱大数定理后面,是铠甲上刻着“Concentration of Measure”的古老印记的战士们,不妨暂且忽略他们之间乱七八糟的“血缘”关系,而罗列一些名字:Chebyshev 不等式、 Markov 不等式、 Bernstein 不等式、 Hoeffding 不等式、 McDiarmid 不等式、 Chernoff 不等式……虽然他们之间互相关系微妙,但是在战斗中却是各有千秋,特别是

查看全文: http://www.udpwork.com/item/6507.html

+0  巨大的 Matlab 存储数据

Tag: Bugs | Matlab
pluskid 发于 2010年12月23日 11:47 | 点击: 2748 | 展开摘要
好吧,我的标题越来越土了,本来想取个“XX之迷”或者“走进科学”啥的,不过其实是个小问题。总之,最近我在用 matlab 跑一些实验的时候,保存的结果比较大,其实也不算太大,就几百兆,但是由于有很多个这样的文件,所以占用空间还是比较大的,而且几百兆的 .mat 文件每次 load 进来画个图之类的也要等半天,非常不方便。于是我就想能不能有方法处理一下。

一开始我以为是因为我存储的数据里有一些位图,所以才会比较大,于是我写了一个工具来将位图压缩了一下,发现单张图片即使是无损

查看全文: http://www.udpwork.com/item/3862.html
|<<<123456>>>| 一共6页, 67条记录