关于LDA与pLSA

今天偶然看到一则消息:2013年ACM-Infosys基金会奖授予了David Blei表彰他在主题建模领域的先驱作用(http://www.acm.org/news/featured/awards/infosys-award-2013)。他与老师Michael Jordan及吴恩达2002年合作提出的Latent Dirichlet Allocation(LDA),已经

今天偶然看到一则消息:

2013年ACM-Infosys基金会奖授予了David Blei表彰他在主题建模领域的先驱作用(http://www.acm.org/news/featured/awards/infosys-award-2013)。他与老师Michael Jordan及吴恩达2002年合作提出的Latent Dirichlet Allocation(LDA),已经在机器学习学术和工业界产生了巨大影响。

这则消息让我又想起了学术界关于LDA与pLSA(或者pLSI的争论)。前段时间师弟问到了我这个问题,我也没讲太清楚,不过网上有很多这方面的比较(比如Note for pLSA and LDA,Wayne Xin Zhao,感兴趣的同学可以去研究下)。不过今天我们还是讲一些轻松一点的话题。

尽管我对主体模型略知一二,但我还是对那整页的数学推导充满了敬畏之心,对研究LDA的同学们充满了敬畏之心,对贝叶斯学派们充满了敬畏之心,对NIPS,ICML们充满了敬畏之心。所以我是没有能力对pLSA和LDA评头论足的,这里摘录一些微博上大牛们的讨论:

==========

@老师木

PCA,及其差不多等价的LSI, pLSI, LDA(topic model) 相对于k-means的进步之处在于,使用基重构样例时不再限定仅用一个基来表示,正是这一点使得LSI处理文本时可以反映同义词、多义词现象。Hongyuan Zha, Chris Ding等人的工作也揭示,换一个角度看时,K-MEANS和PCA等价。

十一郎1983://@张栋_机器学习:呵呵,基于 PLSA, Hofmann 写 Paper 同时,顺便还做了个创业公司 //@余凯_西二旗民工: 没有prior加个prior,属于定式思维。在传统文本分类或聚类模型上,一个文章一topic, 从而一个文章可以有多个topic,这是开创性的。Hofmann做了PLSA后,就一骑绝尘,玩别的去了,而Blei同学十年后(10月12日 18:15)

朱洪波_机器学习:lda都成月经话题了,不过这次讨论的比较到位//@计算广告-陈晓光: LDA只是拉开了一个序幕,nonparametric 的hierarchical dirichlet processes和gaussian process才是漂亮的地方。//@老师木: plsi是mle,lda是bayesian。数据量很多时,bayesian 趋向于mle,对lda性能上不应有很大期待 (10月12日 16:34)

朱洪波_机器学习:跟风宣传一下:不要因为模型复杂公式很长就盲目觉得lda很酷很牛b。相比之下,plsa又好实现,效果还不赖。 //@余凯_西二旗民工: LDA的一个问题在于Variational Inference,这是个approximation, 导致模型hyper参数的估计不consistent. //@高斌MS:我以前在多个文本数据集上的实验结果也表明PLSI好过LDA (10月12日 16:11)

朱洪波_机器学习:这个先验有一个贝叶斯主义的"通病"。与其关注谁比谁好,我觉得还不如关注如何与有监督相结合更有意义//@张栋_机器学习: LDA 的 Dirichlet Prior 为 0 时,就是 PLSA //@余凯_西二旗民工: PLSI和NMF是一回事,但Thomas Hofmann的sampling process很有开创性 LDA的贡献被夸大了,实际效果也不比PLSI好(10月12日 16:04)

更多讨论参见http://www.zhizhihu.com/html/y2012/3976.html
数据分析, 数据挖掘