共计 1 篇文章

Latent Dirichlet Allocation

LDA在机器学习领域是一个应用很广泛的主题模型,这几天一直在学习这个模型,现在很勉强的对这个模型有了整体的把握,并且用Python简要的实现了一下,打算把自己对LDA的理解暂且记录一下,以后继续完善~ 主题模型 LDA是一个主题模型,关于主题模型的解释有个很通俗的例子: 第一个是:“乔布斯离我们而去了。” 第二个是:“苹果价格会不会降?” 我们一眼就可以看出这两句是有关联的,第一句里面有了“乔布斯”,我们会很自然的把“苹果”理解为苹果公司的产品,它们属于了同一个主题:苹果公司。 而像我之前那种计算关联度的时候,即文档之间重复的词语越多越可能相似,是无法达到这个效果的。文档之间重复的词语越多越可能相似,这一点在实际中并不尽然。 ...