关于LDA与pLSA

今天偶然看到一则消息:

2013 年 ACM-Infosys 基金会奖授予了 David Blei 表彰他在主题建模领域的先驱作用(http://www.acm.org/news/featured/awards/infosys-award-2013)。他与老师 Michael Jordan 及吴恩达 2002 年合作提出的 Latent Dirichlet Allocation(LDA),已经在机器学习学术和工业界产生了巨大影响。

这则消息让我又想起了学术界关于 LDA 与 pLSA(或者 pLSI 的争论)。前段时间师弟问到了我这个问题,我也没讲太清楚,不过网上有很多这方面的比较(比如 Note for pLSA and LDA,Wayne Xin Zhao,感兴趣的同学可以去研究下)。不过今天我们还是讲一些轻松一点的话题。

尽管我对主体模型略知一二,但我还是对那整页的数学推导充满了敬畏之心,对研究 LDA 的同学们充满了敬畏之心,对贝叶斯学派们充满了敬畏之心,对 NIPS,ICML 们充满了敬畏之心。所以我是没有能力对 pLSA 和 LDA 评头论足的,这里摘录一些微博上大牛们的讨论:

==========

@老师木

PCA,及其差不多等价的 LSI, pLSI, LDA(topic model) 相对于 k-means 的进步之处在于,使用基重构样例时不再限定仅用一个基来表示,正是这一点使得 LSI 处理文本时可以反映同义词、多义词现象。Hongyuan Zha, Chris Ding 等人的工作也揭示,换一个角度看时,K-MEANS 和 PCA 等价。

十一郎 1983://@张栋_机器学习:呵呵,基于 PLSA, Hofmann 写 Paper 同时,顺便还做了个创业公司 //@余凯_西二旗民工: 没有 prior 加个 prior,属于定式思维。在传统文本分类或聚类模型上,一个文章一 topic, 从而一个文章可以有多个 topic,这是开创性的。Hofmann 做了 PLSA 后,就一骑绝尘,玩别的去了,而 Blei 同学十年后(10 月 12 日 18:15)

朱洪波_机器学习:lda 都成月经话题了,不过这次讨论的比较到位//@计算广告-陈晓光: LDA 只是拉开了一个序幕,nonparametric 的 hierarchical dirichlet processes 和 gaussian process 才是漂亮的地方。//@老师木: plsi 是 mle,lda 是 bayesian。数据量很多时,bayesian 趋向于 mle,对 lda 性能上不应有很大期待 (10 月 12 日 16:34)

朱洪波_机器学习:跟风宣传一下:不要因为模型复杂公式很长就盲目觉得 lda 很酷很牛 b。相比之下,plsa 又好实现,效果还不赖。 //@余凯_西二旗民工: LDA 的一个问题在于 Variational Inference,这是个 approximation, 导致模型 hyper 参数的估计不 consistent. //@高斌 MS:我以前在多个文本数据集上的实验结果也表明 PLSI 好过 LDA (10 月 12 日 16:11)

朱洪波_机器学习:这个先验有一个贝叶斯主义的"通病"。与其关注谁比谁好,我觉得还不如关注如何与有监督相结合更有意义//@张栋_机器学习: LDA 的 Dirichlet Prior 为 0 时,就是 PLSA //@余凯_西二旗民工: PLSI 和 NMF 是一回事,但 Thomas Hofmann 的 sampling process 很有开创性 LDA 的贡献被夸大了,实际效果也不比 PLSI 好(10 月 12 日 16:04)

更多讨论参见http://www.zhizhihu.com/html/y2012/3976.html