发布网友 发布时间:1天前
共1个回答
热心网友 时间:1天前
一、数学知识介绍
1.1 二项分布
二项分布描绘了在n次伯努利实验中成功次数的概率分布,以抛掷硬币为例,记正面为成功,概率为p,抛掷n次,X表示正面出现次数,其概率分布函数为:[公式],[公式]。
1.2 多项分布
多项分布是二项分布的扩展,适用于n次伯努利实验中不同结果的情况。例如掷骰子,六面骰子的每面出现概率为[公式],记某面出现次数为[公式],共掷n次。
1.3 Beta分布
Gamma函数用于解决阶乘问题。在实数定义下,Gamma函数为:[公式];在正整数定义下,为:[公式]。
Beta函数定义:[公式],其中[公式]。Beta分布的概率密度函数为:[公式],其中[公式]表示事件成功的概率,[公式]表示事件不成功的概率,[formula]表示事件成功次数,[formula]表示事件不成功次数。
1.4 狄利克雷分布
Beta分布在*情况下的推广即为狄利克雷分布:[公式],其中[formula]是连续随机向量,[formula]是纬度数量,[formula]表示各个事件的出现次数。令[formula]、[formula],带入公式即为二项分布。
1.5 共轭先验
贝叶斯公式表示后验概率[formula]与先验概率[formula]、似然函数[formula]的关系,其中[formula]是常数,可以视为归一化因子。共轭先验分布是指在样本似然函数下的先验分布与后验分布为同一类型分布。例如,二项分布的共轭先验为Beta分布,多项分布的共轭先验为狄利克雷分布。
二、PLSA算法模型
PLSA(潜在语义主题模型)通过确定文章中的主题来提高语义理解,例如武侠文章通常涉及“江湖”、“武功”等主题。当讨论武功时,很容易联想到相关词,这反映了主题和词之间的概率关系。一篇文章通常包含多个主题,每个主题的概率可以通过词的出现频率估算。
模型图:文档(D)与主题(Z)之间的关系,以及主题与词(W)之间的关系。
实际分析时,假设存在k个主题。每篇文档的主题分布服从多项分布,意味着每篇文档包含k个主题,每个主题的概率不同。每个主题的词分布也服从多项分布。通过已知的数据,可以推算出主题和词的概率。
三、LDA算法模型
LDA(潜在狄利克雷分配)是一种概率模型,用于发现文档主题的分布。与PLSA类似,LDA通过主题来解释文档的结构,假设主题服从某种分布,从而推导出文档的主题分布。
3.1 模型图
参考:cnblogs.com/bigmonkey/p...、优酷视频-七月算法、LDA数学八卦、统计学习方法--李航
LDA模型通过贝叶斯框架,假设主题本身遵循某种分布,从而在给定数据的情况下推断出参数的最优值,实现对主题和文档之间关系的建模。