关于LDA与pLSA

2014-04-02 14:19:00

今天偶然看到一则消息：

2013年ACM-Infosys基金会奖授予了David Blei表彰他在主题建模领域的先驱作用（http://www.acm.org/news/featured/awards/infosys-award-2013）。他与老师Michael Jordan及吴恩达2002年合作提出的Latent Dirichlet Allocation（LDA），已经在机器学习学术和工业界产生了巨大影响。

这则消息让我又想起了学术界关于LDA与pLSA(或者pLSI的争论)。前段时间师弟问到了我这个问题，我也没讲太清楚，不过网上有很多这方面的比较(比如Note for pLSA and LDA，Wayne Xin Zhao，感兴趣的同学可以去研究下)。不过今天我们还是讲一些轻松一点的话题。

尽管我对主体模型略知一二，但我还是对那整页的数学推导充满了敬畏之心，对研究LDA的同学们充满了敬畏之心，对贝叶斯学派们充满了敬畏之心，对NIPS，ICML们充满了敬畏之心。所以我是没有能力对pLSA和LDA评头论足的，这里摘录一些微博上大牛们的讨论：

==========

@老师木

PCA，及其差不多等价的LSI, pLSI, LDA(topic model) 相对于k-means的进步之处在于，使用基重构样例时不再限定仅用一个基来表示，正是这一点使得LSI处理文本时可以反映同义词、多义词现象。Hongyuan Zha, Chris Ding等人的工作也揭示，换一个角度看时，K-MEANS和PCA等价。

十一郎1983：//@张栋_机器学习:呵呵，基于 PLSA, Hofmann 写 Paper 同时，顺便还做了个创业公司 //@余凯_西二旗民工: 没有prior加个prior，属于定式思维。在传统文本分类或聚类模型上，一个文章一topic, 从而一个文章可以有多个topic，这是开创性的。Hofmann做了PLSA后，就一骑绝尘，玩别的去了，而Blei同学十年后(10月12日 18:15)

朱洪波_机器学习：lda都成月经话题了,不过这次讨论的比较到位//@计算广告-陈晓光: LDA只是拉开了一个序幕，nonparametric 的hierarchical dirichlet processes和gaussian process才是漂亮的地方。//@老师木: plsi是mle，lda是bayesian。数据量很多时，bayesian 趋向于mle，对lda性能上不应有很大期待 (10月12日 16:34)

朱洪波_机器学习：跟风宣传一下:不要因为模型复杂公式很长就盲目觉得lda很酷很牛b。相比之下，plsa又好实现，效果还不赖。 //@余凯_西二旗民工: LDA的一个问题在于Variational Inference，这是个approximation, 导致模型hyper参数的估计不consistent. //@高斌MS:我以前在多个文本数据集上的实验结果也表明PLSI好过LDA (10月12日 16:11)

朱洪波_机器学习：这个先验有一个贝叶斯主义的"通病"。与其关注谁比谁好，我觉得还不如关注如何与有监督相结合更有意义//@张栋_机器学习: LDA 的 Dirichlet Prior 为 0 时，就是 PLSA //@余凯_西二旗民工: PLSI和NMF是一回事，但Thomas Hofmann的sampling process很有开创性 LDA的贡献被夸大了，实际效果也不比PLSI好(10月12日 16:04)

更多讨论参见http://www.zhizhihu.com/html/y2012/3976.html
数据分析, 数据挖掘


                                                    风险提示及免责条款

市场有风险，投资需谨慎。本文不构成个人投资建议，也未考虑到个别用户特殊的投资目标、财务状况或需要。用户应考虑本文中的任何意见、观点或结论是否符合其特定状况。据此投资，责任自负。

本文来自互联网用户投稿，该文观点仅代表作者本人，不代表本站立场，不承担相关法律责任。如若转载，请注明出处。 如若内容造成侵权/违法违规/事实不符，请点击【内容举报】进行投诉反馈！