关于LDA与pLSA

今天偶然看到一则消息:

2013年ACM-Infosys基金会奖授予了David Blei表彰他在主题建模领域的先驱作用(http://www.acm.org/news/featured/awards/infosys-award-2013)。他与老师Michael Jordan及吴恩达2002年合作提出的Latent Dirichlet Allocation(LDA),已经在机器学习学术和工业界产生了巨大影响。

这则消息让我又想起了学术界关于LDA与pLSA(或者pLSI的争论)。前段时间师弟问到了我这个问题,我也没讲太清楚,不过网上有很多这方面的比较(比如Note for pLSA and LDA,Wayne Xin Zhao,感兴趣的同学可以去研究下)。不过今天我们还是讲一些轻松一点的话题。

尽管我对主体模型略知一二,但我还是对那整页的数学推导充满了敬畏之心,对研究LDA的同学们充满了敬畏之心,对贝叶斯学派们充满了敬畏之心,对NIPS,ICML们充满了敬畏之心。所以我是没有能力对pLSA和LDA评头论足的,这里摘录一些微博上大牛们的讨论:

==========

@老师木

PCA,及其差不多等价的LSI, pLSI, LDA(topic model) 相对于k-means的进步之处在于,使用基重构样例时不再限定仅用一个基来表示,正是这一点使得LSI处理文本时可以反映同义词、多义词现象。Hongyuan Zha, Chris Ding等人的工作也揭示,换一个角度看时,K-MEANS和PCA等价。

十一郎1983://@张栋_机器学习:呵呵,基于 PLSA, Hofmann 写 Paper 同时,顺便还做了个创业公司 //@余凯_西二旗民工: 没有prior加个prior,属于定式思维。在传统文本分类或聚类模型上,一个文章一topic, 从而一个文章可以有多个topic,这是开创性的。Hofmann做了PLSA后,就一骑绝尘,玩别的去了,而Blei同学十年后(10月12日 18:15)

朱洪波_机器学习:lda都成月经话题了,不过这次讨论的比较到位//@计算广告-陈晓光: LDA只是拉开了一个序幕,nonparametric 的hierarchical dirichlet processes和gaussian process才是漂亮的地方。//@老师木: plsi是mle,lda是bayesian。数据量很多时,bayesian 趋向于mle,对lda性能上不应有很大期待 (10月12日 16:34)

朱洪波_机器学习:跟风宣传一下:不要因为模型复杂公式很长就盲目觉得lda很酷很牛b。相比之下,plsa又好实现,效果还不赖。 //@余凯_西二旗民工: LDA的一个问题在于Variational Inference,这是个approximation, 导致模型hyper参数的估计不consistent. //@高斌MS:我以前在多个文本数据集上的实验结果也表明PLSI好过LDA (10月12日 16:11)

朱洪波_机器学习:这个先验有一个贝叶斯主义的"通病"。与其关注谁比谁好,我觉得还不如关注如何与有监督相结合更有意义//@张栋_机器学习: LDA 的 Dirichlet Prior 为 0 时,就是 PLSA //@余凯_西二旗民工: PLSI和NMF是一回事,但Thomas Hofmann的sampling process很有开创性 LDA的贡献被夸大了,实际效果也不比PLSI好(10月12日 16:04)

更多讨论参见http://www.zhizhihu.com/html/y2012/3976.html
数据分析, 数据挖掘



                                                    风险提示及免责条款

市场有风险,投资需谨慎。本文不构成个人投资建议,也未考虑到个别用户特殊的投资目标、财务状况或需要。用户应考虑本文中的任何意见、观点或结论是否符合其特定状况。据此投资,责任自负。

本文来自互联网用户投稿,该文观点仅代表作者本人,不代表本站立场,不承担相关法律责任。如若转载,请注明出处。 如若内容造成侵权/违法违规/事实不符,请点击【内容举报】进行投诉反馈!

相关文章

立即
投稿

微信公众账号

微信扫一扫加关注

返回
顶部