Abbr:
TBD
牢记
重点
本节是全书的理论基石。
Recursive State Estimation 递归状态估计
核心:就是由传感器数据来进行“状态估计”
状态方程中的状态变量 通常不能被传感器准确,直接测得。---无法只通过一次测量确定位姿 (同一个场景中,如果有相同的门,没法确定是哪一个!)。必须长时间整合数据以确定它的位姿 。 而且还混杂了噪声。因此用概率置信度来估计状态变量。比如定位问题,机器人自己在哪儿?--98%的概率处于坐标(x,y)处。
1. 基本概念:
随机变量:传感器测量、控制、机器人的状态及其环境
概率推理: 由其他随机变量和所观测数据推导随机变量的相关定律 的过程
Probability Density Function PDF : p(x)
概率密度函数:的积分总为1,
一维正态分布PDF:
多维正态分布的PDF:
协方差矩阵:
本书假设:连续空间,随机变量的取值连续, 都存在概率密度函数
联合分布-joint distribution , 独立的事件(随机变量取值为x,y --传感器测量值为z1,z2 ...)的联合分布就是p()=p(z1)p(z2)...
条件概率:p(zt| zt-1,zt-2,...) 传感器历史测量值zt-1,zt-2 .. 发生的条件下,测量值为zt的概率。Zt 是真值。
一般表达式--p(x,y)/p(y)= p(x|y) ,如果x,y 独立,则,p(x).p(y)/ p(y)= p(x) = p (x|y)
Y 不会有任何关于 X 值的信息。如果对 X 感兴趣则知道 Y 值没有任何帮助
全概率公式:
事件Y在y 取值空间内,能得到事件(结果)X=x值得可能性,先验过程
贝叶斯公式:表达了条件概率和 "逆"条件概率的关系
条件y=全概率-对应结果,x某一个原因, x' 表示所有的原因
已知:全概率,已知条件概率,求出逆条件概率,就直接运用公式。
x--对应原因(推测的状态变量值),y--结果(表示传感器的测量值zt-1,zt-2,...),已知结果,求原因,后验估计
注:下图中,分子上的x,或等式坐标的x的取值是某一个值,分母下面x'表示x的全部可能取值。这样才能利用全概率公式,求出p(y)
概率 p(ylx) 经常被称为生成模型 (generative model) , 因为在一定的抽象层面上,它表示状态变量 X 如何引起了检测数据
注: Vx-- 某一个任意x值, 下面 求和公式,x-x全部可能取值,为了得到全概率。
因此: 贝叶斯,就是对应,一个条件下的xx事件的概率,比上 全部条件下 的xx事件的概率(全概率)== xx事件下,这一个条件发生的概率。
中文page 36
咋一看,状态 x, 的出现可能是以所有过去的状态xt-1、测量zt和控制ut为条件的 。表示成: xt-1 和ut 可以表示xt的完整状态空间,和zt无关 和历史的控制量,状态量也无关,所以利用条件独立,得到
同理对于测量来说:只和当前的状态有关。
由上面的定义获得 2个概率定义--
测量概率: xt 表示当前状态,zt是测量值。 测量的结果由环境状态x产生。测量不准确有噪声,所以用概率的形式表示测到这个zt的真值的概率。这就是测量概率法则
状态转移概率state transition probability:
马尔可夫链 (Markov chain) :未来xt可以是随机的,但是没有先于xt, 的历史状态变化可以影响未来状态的随机变化,除非这种依赖通过状态 xt, 起作用。满足这些条件的暂态过程通常称为马尔可夫链 (Markov chain) 。历史状态:xt-1, 当前状态xt, 未来的状态xt+1,xt (结合了上面2个概率-构成马尔科夫)
状态转移概率和测量概率一起描述机器人及其环境组成的动态随机系统。时刻t 的状态随机地依赖 t -1 时刻的状态和控制 ut, 。测量 zt, 随机地依赖时刻 t 的状态。
隐马尔可夫模型=动态贝叶斯网络:下图时间生成模型也称为隐马尔可夫模型 (Hidden Markov Model , HMM) 或者动态贝叶斯网络 (Dynamic Bayes Network, DBN)
置信分布 ≈ 条件概率
我们无法直接测量系统的状态(位姿 -6自由度)。传感器的测量也不能直接测量获得位姿,同时含有噪声干扰的。
我们只能从历史测量数据中推断出 系统的状态(可能概率--置信度)。
因此有必要通过置信度来表达,系统状态等于某一个绝对值(真值)的概率。bel (xt)表示。
已知历史测量值(条件下),后验概率(条件概率)表示为:
考虑了, t 时的测量值Zt, 所有的历史测量和历史控制。
(注意比较前面的公式,想一想,如果xn 不能准确获得,只能通过测量和控制量来预测,就能理解了。 这里和下面贝叶斯滤波器,冲突,感觉公式改成 bel(xt)=p(xt| xt-1,ut) 更make sense.)
如果只是用t-1之前的测量和,历史控制,获得的bet(xt)为预测阶段:(xt还未发生,还未测量),表示
, (注意算法时间的话,应该用积分(算法求和)来表示1:t的所有历史信息)测得zt之后,,结合预测的, 进行修正,来更新预测( 测量更新阶段):
注:priro --就是贝叶斯公式中右边,条件的 每一个取值的概率。)分布情况,只有已知了。
利用上面的公式预测和更新公式。
预测:,bel(xt-1),表示t-1时刻的置信度,前面的是状态转移概率。相乘表示同时发生的可能性。积分,表示历史信息的叠加.1到 t-1 时刻
更新;,p(xt|zt)= ?利用贝叶斯公式, 获得。
初始化:,bel(x0) =xxx(x0,所有取值空间对应的概率,-先验), u0...t (转移概率分布)已知, z0...t (测量概率分布)已知。
这样可以预测下个时刻的bel(xt). 后验估计。(注意积分项,算法中实现就是一个累加的过程。)
这样系统就迭代循环起来了。 推导过程参考:<中文page41>
注: 注意xt-1 的下标。
算法:
TBC: 如何初始化定义这三个概率分布。chapter 5--转移概率, chapter 6-测量概率, 先验概率 bel(x0) chapter 3&4
已知:
机器人可以测量, 取值空间为:开,关,对应测量概率分布p(zt|xt)--传感器概率模型),动作:ut,取值空间为:开门、关门, 对结果的影响,对应状态转移概率,p(xt|xt-1,ut), 系统x状态:开、关,对应的先验概率分布情况
这样可以估计任意时刻的置信度: bel(xt| zt,ut) = ??
本文发布于:2024-02-01 21:13:35,感谢您对本站的认可!
本文链接:https://www.4u4v.net/it/170679321439456.html
版权声明:本站内容均来自互联网,仅供演示用,请勿用于商业和其他非法用途。如果侵犯了您的权益请与我们联系,我们将在24小时内删除。
留言与评论(共有 0 条评论) |