统计语言模型（SLM）

阅读：评论：0

统计语言模型（SLM）

摘自：.htm 第12讲

SLM广泛使用于语音识别和统计机器翻译领域，利用概率统计理论研究语言。

规则方法：词、句、篇章的生成比如满足某些规则，不满足该规则就不应存在。
统计方法：任何语言片断都有存在的可能，只是可能性大小不同

对于一个文档片段d=w1w2…wn，统计语言模型是指概率P(w1w2…wn)求解，根据Bayes公式，有：

wn) = P(w1)wn|w1) = P(w1) {P(w2|w1) * P(w3|w2w1) * ... P(w1)}

其中P(w1)中的w1)为历史，按照历史可分为下列模型：

1. 无历史，一元模型

2. 最近一个历史，二元模型(Bigram)

3. 最近N-1个历史，N元模型(N-gram)

类似于打扑克中的出牌策略，只根据当前牌出牌，则为一元模型，根据上一轮牌出牌，为二元模型，...

不同模型的例子：

一元模型(unigram)：P(w1w2w3w4) = P(w1)P(w2)P(w3)P(w4)

二元模型(bigram )：P(w1w2w3w4) = P(w1)P(w2|w1 )P(w3|w2)P(w4|w3 )

本文发布于:2024-02-01 16:03:08，感谢您对本站的认可！

上一篇：PMP

标签：模型语言 SLM

留言与评论（共有 0 条评论）