Brains


Algorithm、Machine Learning、Search、cloud computing
on NLP, LDA主题模型的理解

Latent Dirichlet Allocation

LDA在机器学习领域是一个应用很广泛的主题模型,这几天一直在学习这个模型,现在很勉强的对这个模型有了整体的把握,并且用Python简要的实现了一下,打算把自己对LDA的理解暂且记录一下,以后继续完善~ 主题模型 LDA是一个主题模型,关于主题模型的解释有个很通俗的例子: 第一个是:“乔布斯离我们而去了。” 第二个是:“苹果价格会不会降?” 我们一眼就可以看出这两句是有关联的,第一句里面有了“乔布斯”,我们会很自然的把“苹果”理解为苹果公司的产品,它们属于了同一个主题:苹果公司。 而像我之前那种计算关联度的时候,即文档之间重复的词语越多越可能相似,是无法达到这个效果的。文档之间重复的词语越多越可能相似,这一点在实际中并不尽然。很多时候相关程度取决于背后的语义联系——主题描述,而非表面的词语重复。 LDA的与上述方法不同之处在于:上述方法直接处理单词与文章的关系,而LDA过程在单词与文章之间加了一层主题,即文档——主题,主题——单词的路径计算。 LDA的概要 很多关于介绍LDA的文章大多以学术、理科学生的思维出发的,即用数学公式的严谨性来推导整个LDA的过程。我看了好久才理清了这个流程,因为它涉及到的数学推导很多,很容易陷入公式推导的怪圈里,无法对整个LDA的思想有个整体把握。。。 JULY博主说LDA分为五个部分: 一个函数:gamma函数 四个分布:二项分布、多项分布、
Read More