课程笔记:非参数统计
参考教材:《非参数统计(第二版)》,王星,褚挺进,清华大学出版社
《应用非参数统计》薛留根,科学出版社
符号检验:通过符号“+”和“–”的个数来进行统计推断。 数值只和两类观测值有关。
假设总体 F ( M ) , M e mathcal{F}(M), M_{mathrm{e}} F(M),Me 是总体的中位数, 对于假设检验问题:
H 0 : M e = M 0 ↔ H 1 : M e ≠ M 0 H_{0}: M_{mathrm{e}}=M_{0} leftrightarrow H_{1}: M_{mathrm{e}} neq M_{0} H0:Me=M0↔H1:Me=M0
其中 , M 0 , M_{0} ,M0 是待检验的中位数值. 假设 X 1 , X 2 , ⋯ , X n X_{1}, X_{2}, cdots, X_{n} X1,X2,⋯,Xn 是从总体 F ( M ) mathcal{F}(M) F(M) 中产生的简单随机样木, 定义: Y i = I { X i > M 0 } , Z i = I { X i < M 0 } , Y_{i}=Ileft{X_{i}>M_{0}right}, Z_{i}=Ileft{X_{i}<M_{0}right}, Yi=I{Xi>M0},Zi=I{Xi<M0},
S + = ∑ i = 1 n Y i , S − = ∑ i = 1 n Z i S^{+}=sum_{i=1}^{n} Y_{i}, quad S^{-}=sum_{i=1}^{n} Z_{i} S+=i=1∑nYi,S−=i=1∑nZi
S + + S − = n ′ , n ′ ⩽ n , S^{+}+S^{-}=n^{prime}, n^{prime} leqslant n, S++S−=n′,n′⩽n, 令 K = min { S + , S − } . K=min left{S^{+}, S^{-}right} . K=min{S+,S−}. 在零假设之下,假设检验问题 (2.1) 寸
价于另一个结构问题: Y ∼ b ( 1 , p ) , p = P ( X > M 0 ) , Y sim b(1, p), p=Pleft(X>M_{0}right), Y∼b(1,p),p=P(X>M0),
H 0 : p = 0.5 ↔ H 1 : p ≠ 0.5 H_{0}: p=0.5 leftrightarrow H_{1}: p neq 0.5 H0:p=0.5↔H1:p=0.5
此时, K < k K<k K<k 可以按照抽样分布 b ( n ′ , 0.5 ) bleft(n^{prime}, 0.5right) b(n′,0.5) 求解得到,在显著性水平为 α alpha α 下的检验 的拒绝域为
2 × P binom ( K ⩽ k ∣ n ′ , p = 0.5 ) ⩽ α 2 times P_{text {binom }}left(K leqslant k mid n^{prime}, p=0.5right) leqslant alpha 2×Pbinom (K⩽k∣n′,p=0.5)⩽α
当样本量较大时,可以使用二项分布的正态近似进行检验,也就是说,当 S + ∼ S^{+} sim S+∼ b ( n ′ , 1 2 ) bleft(n^{prime}, frac{1}{2}right) b(n′,21) 时, S + ∼ ˙ N ( n ′ 2 , n ′ 4 ) , S^{+} dot{sim} Nleft(frac{n^{prime}}{2}, frac{n^{prime}}{4}right), S+∼˙N(2n′,4n′), 定义
Z = S + − n ′ 2 n ′ 4 → L N ( 0 , 1 ) , n → + ∞ Z=frac{S^{+}-frac{n^{prime}}{2}}{sqrt{frac{n^{prime}}{4}}} stackrel{mathcal{L}}{rightarrow} N(0,1), n rightarrow+infty Z=4n′ S+−2n′→LN(0,1),n→+∞
当 n ′ n^{prime} n′ 不台大时,可以用 Z Z Z 的正态性修正,如下式:
Z = S + − n ′ 2 + C n ′ 4 → c N ( 0 , 1 ) Z=frac{S^{+}-frac{n^{prime}}{2}+C}{sqrt{frac{n^{prime}}{4}}} stackrel{c}{rightarrow} N(0,1) Z=4n′ S+−2n′+C→cN(0,1)
一股, 当 S + < n ′ 2 S^{+}<frac{n^{prime}}{2} S+<2n′ 时, C = − 1 2 ; C=-frac{1}{2} ; C=−21; 当 S + > n ′ 2 S^{+}>frac{n^{prime}}{2} S+>2n′ 时, C = 1 2 C=frac{1}{2} C=21。(当 S + S^+ S+值较小时,服从的分布的均值增大1/2,当 S + S^+ S+的值较大时,服从的分布的均值减小一些)
相应的 p p p 值为 2 P N ( 0 , 1 ) ( Z < z 2 P_{N(0,1)}(Z<z 2PN(0,1)(Z<z). 同理,可以得到单侧检验的结论如下。
左侧检验: H 0 : M e ⩽ M 0 ↔ H 1 : M e > M 0 , p H_{0}: M_{mathrm{e}} leqslant M_{0} leftrightarrow H_{1}: M_{mathrm{e}}>M_{0}, p H0:Me⩽M0↔H1:Me>M0,p 值为 P N ( 0 , 1 ) ( Z < z ) ; P_{N(0,1)}(Z<z) ; PN(0,1)(Z<z);
右侧检验: H 0 : M e ⩾ M 0 ↔ H 1 : M e < M 0 , p H_{0}: M_{mathrm{e}} geqslant M_{0} leftrightarrow H_{1}: M_{mathrm{e}}<M_{0}, p H0:Me⩾M0↔H1:Me<M0,p 值为 P N ( 0 , 1 ) ( Z > z ) . P_{N(0,1)}(Z>z) . PN(0,1)(Z>z).
假设总体 F ( M p ) , M p mathcal{F}left(M_{p}right), M_{p} F(Mp),Mp 是总体的 p p p 分位数, 对于假设检验问题:
H 0 : M p = M p 0 ↔ H 1 : M p ≠ M p 0 H_{0}: M_{p}=M_{p_{0}} leftrightarrow H_{1}: M_{p} neq M_{p_{0}} H0:Mp=Mp0↔H1:Mp=Mp0
M p 0 M_{p_{0}} Mp0 是待检验的 p 0 p_{0} p0 分位数.上述检验问题等价于
H 0 : p = p 0 ↔ H 1 : p ≠ p 0 H_{0}: p=p_{0} leftrightarrow H_{1}: p neq p_{0} H0:p=p0↔H1:p=p0
类似于中位数检验,定义: Y i = I { X i > M p 0 } , Z i = I { X i < M p 0 } , Y_{i}=Ileft{X_{i}>M_{p_{0}}right}, Z_{i}=Ileft{X_{i}<M_{p_{0}}right}, Yi=I{Xi>Mp0},Zi=I{Xi<Mp0}, 我们注意到
在零假设之下, Z i ∼ B ( 1 , p 0 ) , Z_{i} sim Bleft(1, p_{0}right), Zi∼B(1,p0),
S + = ∑ i = 1 n Y i , S − = ∑ i = 1 n Z i S^{+}=sum_{i=1}^{n} Y_{i}, quad S^{-}=sum_{i=1}^{n} Z_{i} S+=i=1∑nYi,S−=i=1∑nZi
[外链图片转存失败,源站可能有防盗链机制,建议将图片保存下来直接上传(img-V6JD84g5-1615373438409)(D:大学BCD专业课a非参数统计非参数统计310.png)]
H 0 : H_{0}: H0: 数据序列无趋势 ↔ H 1 : leftrightarrow H_{1}: ↔H1: 数据序列有增长或下降趋势
假设数据序列 x 1 , x 2 , ⋯ , x n x_{1}, x_{2}, cdots, x_{n} x1,x2,⋯,xn 独立, 在零假设之下, 同分布为 F ( x ) , F(x), F(x), 令
c = { n / 2 , 如果 n 是偶数, ( n + 1 ) / 2 , 如果 n 是奇数. c=left{begin{array}{ll} n / 2, & text { 如果 } n text { 是偶数, } \ (n+1) / 2, & text { 如果 } n text { 是奇数. } end{array}right. c={n/2,(n+1)/2, 如果 n 是偶数, 如果 n 是奇数.
取 x i x_{i} xi 和 x i + c x_{i+c} xi+c 组成数对 ( x i , x i + c ) left(x_{i}, x_{i+c}right) (xi,xi+c)。
当 n n n 为偶数时, 共有 c c c 对, 当 n n n 为奇数时, 共有 c − 1 c-1 c−1 对。
计算每一数对前后两值之差: D i = x i − x i + c D_{i}=x_{i}-x_{i+c} Di=xi−xi+c. 用 D i D_{i} Di 的符号度量 增减。
令 S + S^{+} S+ 为正 D i D_{i} Di 的数目, 令 S − S^{-} S− 为负 D i D_{i} Di 的数目, S + + S − = n ′ , n ′ ⩽ n . S^{+}+S^{-}=n^{prime}, n^{prime} leqslant n . S++S−=n′,n′⩽n.。
令 K = min { S + , S − } , K=min left{S^{+}, S^{-}right}, K=min{S+,S−}, 显然当正号太多或负号太多, 即 K K K 过小的时候, 有趋势存在。
在没有趋势的零假设下, K K K 服从二项分布 b ( n ′ , 0.5 ) , bleft(n^{prime}, 0.5right), b(n′,0.5), 该检验在某种意义上是符号检验的应用的拓展。
[外链图片转存失败,源站可能有防盗链机制,建议将图片保存下来直接上传(img-PyHrACED-1615373438412)(D:大学BCD专业课a非参数统计非参数统计310_2.png)]
其中一个典型的序列是二元 0 / 1 0 / 1 0/1 序列出现顺序的随机性问题。 在一个二元序列中, 0 和 1 交替出现。
首先引入以下概念:
在一个二元序列中, 一个由 0 或 1 连续构成的串称为一个游程,
一个游程中数据的个数称为游程的长度.
一个序列中 游程个数 用 R R R 表示, R R R 表示 0 和 1 交替轮换的频累程度.
容易看出, R R R 是序列中 0 和 1 交替轮换的总次数加 1 。
Mood(1940) 提出关于这一问题的检验 : X 1 , X 2 , ⋯ , X n : X_{1}, X_{2}, cdots, X_{n} :X1,X2,⋯,Xn 是 一列由 0 或 1 构成的序列,假设检验问题:
H 0 : H_{0}: H0: 数据出现顺序随机 ↔ H 1 : leftrightarrow H_{1}: ↔H1: 数据出现顺序不随机,
R R R 为游程个数, 1 ⩽ R ⩽ n . 1 leqslant R leqslant n . 1⩽R⩽n. 在零假设成立的情况下, X i ∼ b ( 1 , p ) , p X_{i} sim b(1, p), p Xi∼b(1,p),p 是 1 出现的概 率, 由 n 1 / n n_{1} / n n1/n 确定 , R , R ,R 的分布与 p p p 有关. 假设有 n 0 n_{0} n0 个 0 和 n 1 n_{1} n1 个 1 , n 1 + n 0 = n , 1, n_{1}+n_{0}=n, 1,n1+n0=n, 出
现任何一种不同结构序列的可能性是1 / ( n n 1 ) = 1 / ( n n 0 ) , /left(begin{array}{c}n \ n_{1}end{array}right)=1 /left(begin{array}{c}n \ n_{0}end{array}right), /(nn1)=1/(nn0), 注意到 0 游程和 1 游程之间是者差 1 , 1, 1, 于是得到 R R R 的条件分布为
$$
P(R=2 k)=frac{2left(begin{array}{c}
n_{1}-1
k-1
end{array}right)left(begin{array}{c}
n_{0}-1
k-1
end{array}right)}{left(begin{array}{c}
n
n_{1}
end{array}right)}
P(R=2 k+1)=frac{left(begin{array}{c}
n_{1}-1
k-1
end{array}right)left(begin{array}{c}
n_{0}-1
k
end{array}right)+left(begin{array}{c}
n_{1}-1
k
end{array}right)left(begin{array}{c}
n_{0}-1
k-1
end{array}right)}{left(begin{array}{c}
n
n_{1}
end{array}right)} .
$$
当数据序列的量很大时,即 n → ∞ n rightarrow infty n→∞ 时,零假设下,根据精确分布的性质可以
得到:
E ( R ) = 2 n 1 n 0 n 1 + n 0 + 1 var ( R ) = 2 n 1 n 0 ( 2 n 1 n 0 − n 0 − n 1 ) ( n 1 + n 0 ) 2 ( n 1 + n 0 − 1 ) = ( E ( R ) − 1 ) ( E ( R ) − 2 ) n 1 + n 0 − 1 begin{array}{c} E(R)=frac{2 n_{1} n_{0}}{n_{1}+n_{0}}+1 \ operatorname{var}(R)=frac{2 n_{1} n_{0}left(2 n_{1} n_{0}-n_{0}-n_{1}right)}{left(n_{1}+n_{0}right)^{2}left(n_{1}+n_{0}-1right)}=frac{(E(R)-1)(E(R)-2)}{n_{1}+n_{0}-1} end{array} E(R)=n1+n02n1n0+1var(R)=(n1+n0)2(n1+n0−1)2n1n0(2n1n0−n0−n1)=n1+n0−1(E(R)−1)(E(R)−2)
当 n 1 n 0 → γ frac{n_{1}}{n_{0}} rightarrow gamma n0n1→γ 时,则
E ( R ) = 2 n 1 ( 1 + γ ) + 1 , var ( R ) ≈ 4 γ n 1 / ( 1 + γ ) 3 E(R)=frac{2 n_{1}}{(1+gamma)}+1, quad operatorname{var}(R) approx 4 gamma n_{1} /(1+gamma)^{3} E(R)=(1+γ)2n1+1,var(R)≈4γn1/(1+γ)3
于是
Z = R − E ( R ) var ( R ) = R − 2 n 1 / ( 1 + γ ) 4 γ n 1 / ( 1 + γ ) 3 → L N ( 0 , 1 ) Z=frac{R-E(R)}{sqrt{operatorname{var}(R)}}=frac{R-2 n_{1} /(1+gamma)}{sqrt{4 gamma n_{1} /(1+gamma)^{3}}} stackrel{mathcal{L}}{rightarrow} N(0,1) Z=var(R) R−E(R)=4γn1/(1+γ)3 R−2n1/(1+γ)→LN(0,1)
因此可以用正态分布表得到 p p p 值和检验结果. 这时,在给定水平 α alpha α 后,可以用 近似公式得到拒绝域的临界值:
r 1 = 2 n 1 n 0 n 1 + n 0 [ 1 + Z α 2 n 1 + n 0 ] , r u = 2 n 1 n 0 n 1 + n 0 [ 1 − Z α 2 n 1 + n 0 ] r_{1}=frac{2 n_{1} n_{0}}{n_{1}+n_{0}}left[1+frac{Z_{frac{alpha}{2}}}{sqrt{n_{1}+n_{0}}}right], quad r_{mathrm{u}}=frac{2 n_{1} n_{0}}{n_{1}+n_{0}}left[1-frac{Z_{frac{alpha}{2}}}{sqrt{n_{1}+n_{0}}}right] r1=n1+n02n1n0[1+n1+n0 Z2α],ru=n1+n02n1n0[1−n1+n0 Z2α]
要求:分布为对称分布
定理 2.1 X quad X X 服从分布函数为 F ( θ ) F(theta) F(θ) 的分布, 且 F ( θ ) F(theta) F(θ) 关于 θ theta θ 对称, 总体的对 称中心是总体的中位数之一。
W + = ∑ j = 1 n j W j = ∑ j = 1 n R j + S ( X j ) W^{+}=sum_{j=1}^{n} j W_{j}=sum_{j=1}^{n} R_{j}^{+} Sleft(X_{j}right) W+=j=1∑njWj=j=1∑nRj+S(Xj)
它是正的样本点按绝对值所得秩的和。
设 F ( x − θ ) F(x-theta) F(x−θ) 对称, 零假设为 H 0 : θ = 0 , H_{0}: theta=0, H0:θ=0, 有下面 3 个定理.
定理 2.2 2.2 quad 2.2 如果零假设 H 0 : θ = 0 H_{0}: theta=0 H0:θ=0 成立 , , , 则 S ( X 1 ) , S ( X 2 ) , ⋯ , S ( X n ) Sleft(X_{1}right), Sleft(X_{2}right), cdots, Sleft(X_{n}right) S(X1),S(X2),⋯,S(Xn) 独立于 ( R 1 + , R 2 + , ⋯ , R n + ) left(R_{1}^{+}, R_{2}^{+}, cdots, R_{n}^{+}right) (R1+,R2+,⋯,Rn+)
证明: quad 事实上, 因为 ( R 1 + , R 2 + , ⋯ , R n + ) left(R_{1}^{+}, R_{2}^{+}, cdots, R_{n}^{+}right) (R1+,R2+,⋯,Rn+) 是 ∣ X 1 ∣ , ∣ X 2 ∣ , ⋯ , ∣ X n ∣ left|X_{1}right|,left|X_{2}right|, cdots,left|X_{n}right| ∣X1∣,∣X2∣,⋯,∣Xn∣ 的函数, 而出自随机样本的 ( S ( X i ) , ∣ X j ∣ ) , i , j = 1 , 2 , ⋯ , n , j ≠ i left(Sleft(X_{i}right),left|X_{j}right|right), i, j=1,2, cdots, n, j neq i (S(Xi),∣Xj∣),i,j=1,2,⋯,n,j=i 是互相独立的数据对, 因此我们只要试明 S ( X i ) Sleft(X_{i}right) S(Xi) 和 ∣ X i ∣ left|X_{i}right| ∣Xi∣ 是互相独立的即可。事实上,
P ( S ( X i ) = 1 , ∣ X i ∣ ⩽ x ) = P ( 0 < X i ⩽ x ) = F ( x ) − F ( 0 ) = F ( x ) − 1 2 = 2 F ( x ) − 1 2 = P ( S ( X i ) = 1 ) P ( ∣ X i ∣ ⩽ x ) begin{aligned} Pleft(Sleft(X_{i}right)=1,left|X_{i}right| leqslant xright) &=Pleft(0<X_{i} leqslant xright)=F(x)-F(0)=F(x)-frac{1}{2} \ &=frac{2 F(x)-1}{2}=Pleft(Sleft(X_{i}right)=1right) Pleft(left|X_{i}right| leqslant xright) end{aligned} P(S(Xi)=1,∣Xi∣⩽x)=P(0<Xi⩽x)=F(x)−F(0)=F(x)−21=22F(x)−1=P(S(Xi)=1)P(∣Xi∣⩽x)
定理 2.3 2.3 quad 2.3 如果零假设 H 0 : θ = 0 H_{0}: theta=0 H0:θ=0 成立 , , , 则 S ( X 1 ) , S ( X 2 ) , ⋯ , S ( X n ) Sleft(X_{1}right), Sleft(X_{2}right), cdots, Sleft(X_{n}right) S(X1),S(X2),⋯,S(Xn) 独立于 ( D 1 , D 2 , ⋯ , D n ) left(D_{1}, D_{2}, cdots, D_{n}right) (D1,D2,⋯,Dn)
定理 2.4 2.4quad 2.4 如果零假设 H 0 : θ = 0 H_{0}: theta=0 H0:θ=0 成立, 则 W 1 , W 2 , ⋯ , W n W_{1}, W_{2}, cdots, W_{n} W1,W2,⋯,Wn 是独立同分布的, 其分布为 P ( W i = 0 ) = P ( W i = 1 ) = 1 2 . Pleft(W_{i}=0right)=Pleft(W_{i}=1right)=frac{1}{2} . P(Wi=0)=P(Wi=1)=21.
证明 : quad 令 D = ( D 1 , D 2 , ⋯ , D n ) , d = ( d 1 , d 2 , ⋯ , d n ) , boldsymbol{D}=left(D_{1}, D_{2}, cdots, D_{n}right), boldsymbol{d}=left(d_{1}, d_{2}, cdots, d_{n}right), D=(D1,D2,⋯,Dn),d=(d1,d2,⋯,dn),
P ( W 1 = w 1 , W 2 = w 2 , ⋯ , W n = w n ) = ∑ d P ( S ( X D 1 ) = w 1 , S ( X D 2 ) = w 2 , ⋯ , S ( X D n ) = w n ∣ D = d ) P ( D = d ) = ∑ d P ( S ( X d 1 ) = w 1 , S ( X d 2 ) = w 2 , ⋯ , S ( X d n ) = w n ) P ( D = d ) = ( 1 2 ) n ∑ d P ( D = d ) = ( 1 2 ) n begin{aligned} & Pleft(W_{1}=w_{1}, W_{2}=w_{2}, cdots, W_{n}=w_{n}right) \ =& sum_{d} Pleft(Sleft(X_{D_{1}}right)=w_{1}, Sleft(X_{D_{2}}right)=w_{2}, cdots, Sleft(X_{D_{n}}right)=w_{n} mid boldsymbol{D}=boldsymbol{d}right) P(boldsymbol{D}=boldsymbol{d}) \ =& sum_{d} Pleft(Sleft(X_{d_{1}}right)=w_{1}, Sleft(X_{d_{2}}right)=w_{2}, cdots, Sleft(X_{d_{n}}right)=w_{n}right) P(boldsymbol{D}=boldsymbol{d}) \ =&left(frac{1}{2}right)^{n} sum_{d} P(boldsymbol{D}=boldsymbol{d})=left(frac{1}{2}right)^{n} end{aligned} ===P(W1=w1,W2=w2,⋯,Wn=wn)d∑P(S(XD1)=w1,S(XD2)=w2,⋯,S(XDn)=wn∣D=d)P(D=d)d∑P(S(Xd1)=w1,S(Xd2)=w2,⋯,S(Xdn)=wn)P(D=d)(21)nd∑P(D=d)=(21)n
因此有 P ( W 1 , W 2 , ⋯ , W n ) = ∏ i = 1 n P ( W i = w i ) Pleft(W_{1}, W_{2}, cdots, W_{n}right)=prod_{i=1}^{n} Pleft(W_{i}=w_{i}right) P(W1,W2,⋯,Wn)=∏i=1nP(Wi=wi) 及 P ( W i = w i ) = 1 2 . Pleft(W_{i}=w_{i}right)=frac{1}{2} . P(Wi=wi)=21.
假设样本点 X 1 , X 2 , ⋯ , X n X_{1}, X_{2}, cdots, X_{n} X1,X2,⋯,Xn 来自连续对称总体分布 (符号检验不需要这个假设). 在这个假定下总体中位数等于均值.
它的检验目的和符号检验是一样的, 即要 检验双边问题 H 0 : M = M 0 H_{0}: M=M_{0} H0:M=M0 或检验单边问题 H 0 : M ⩽ M 0 H_{0}: M leqslant M_{0} H0:M⩽M0 及 H 0 : M ⩾ M 0 , H_{0}: M geqslant M_{0}, H0:M⩾M0,
Wilcoxon 符号秩检验均步骤如下:
(1) 对 i = 1 , 2 , ⋯ , n , i=1,2, cdots, n, i=1,2,⋯,n, 计算 ∣ X i − M 0 ∣ ; left|X_{i}-M_{0}right| ; ∣Xi−M0∣; 它们表示这些样本点到 M 0 M_{0} M0 的距离.
(2) 将上面 n n n 个绝对值排字,并找出它们蛇 n n n 个秩; 如果有相同的样本点,每 个点取平均秩.
的 ∣ X i − M 0 ∣ left|X_{i}-M_{0}right| ∣Xi−M0∣ 的秩物和. 注意: W + + W − = n ( n + 1 ) / 2 W^{+}+W^{-}=n(n+1) / 2 W++W−=n(n+1)/2.
(4) 对双边检验 H 0 : M = M 0 ↔ H 1 : M ≠ M 0 , H_{0}: M=M_{0} leftrightarrow H_{1}: M neq M_{0}, H0:M=M0↔H1:M=M0, 在零假设下, W + W^{+} W+ 和 W − W^{-} W− 应差不多. 因而,当其中之一很小时,应怀疑零假设;因此,取检验统计量 W = W= W= min { W + , W − } . min left{W^{+}, W^{-}right} . min{W+,W−}. 类似地, 对 H 0 : M ⩽ M 0 ↔ H 1 : M > M 0 H_{0}: M leqslant M_{0} leftrightarrow H_{1}: M>M_{0} H0:M⩽M0↔H1:M>M0 的单边检验取 W = W − ; W=W^{-} ; W=W−;
对 H 0 : M ⩾ M 0 ↔ H 1 : M < M 0 H_{0}: M geqslant M_{0} leftrightarrow H_{1}: M<M_{0} H0:M⩾M0↔H1:M<M0 的单边检验取 W = W + . W=W^+ . W=W+.
(5) 根据得到的 W W W 值, 查 Wilcoxon 符号秩检验的分布表以得到在零假设下的 p p p 值. 如果 n n n 很大要用正态近似,得到一个与 W W W 有关的正态随机变量 Z Z Z 的值, 再 查表得到 p p p 值,或直接在软件中计算得到 p p p 值。
(6) 如果 p p p 值小 (比如小于或寺于给定的显著性水平 0.05 ), 则可以拒绝零假设. 实际上显著性水平 α alpha α 可取任何大于或等于 p p p 值的数. 如果 p p p 值较大,则没有充分 证据来拒绝零假设,但不意味着接受零假设.
以下给出计算 W + W^{+} W+ 概率的一般方法。首先, ∀ j forall j ∀j 有
E ( exp ( t j W j ) ) = 1 2 exp ( 0 ) + 1 2 exp ( t j ) = 1 2 ( 1 + exp ( t j ) ) Eleft(exp left(t_{j} W_{j}right)right)=frac{1}{2} exp (0)+frac{1}{2} exp left(t_{j}right)=frac{1}{2}left(1+exp left(t_{j}right)right) E(exp(tjWj))=21exp(0)+21exp(tj)=21(1+exp(tj))
计算样本量为 n n n 时, W + W^{+} W+ 的母函数如下:
M n ( t ) = E ( exp ( t W + ) ) = E ( exp ( t ∑ j W j ) ) = ∏ j E ( exp ( t j W j ) ) = 1 2 n ∏ j = 1 n ( 1 + e t j ) begin{aligned} M_{n}(t) &=Eleft(exp left(t W^{+}right)right)=Eleft(exp left(t sum j W_{j}right)right) \ &=prod_{j} Eleft(exp left(t j W_{j}right)right)=frac{1}{2^{n}} prod_{j=1}^{n}left(1+mathrm{e}^{t j}right) end{aligned} Mn(t)=E(exp(tW+))=E(exp(t∑jWj))=j∏E(exp(tjWj))=2n1j=1∏n(1+etj)
母函数有展开式
M ( t ) = a 0 + a 1 e t + a 2 e 2 t + ⋯ M(t)=a_{0}+a_{1} mathrm{e}^{t}+a_{2} mathrm{e}^{2 t}+cdots M(t)=a0+a1et+a2e2t+⋯
则 $P_{H_{0}}left(W^{+}=jright)=a_{j} $。
可利用正态近似。
E ( W + ) = E ( ∑ j W j ) = 1 2 ∑ j = 1 n j = 1 2 n ( n + 1 ) 2 = 1 4 n ( n + 1 ) var ( W + ) = var ( ∑ j W j ) = 1 4 ∑ j n j 2 = 1 24 n ( n + 1 ) ( 2 n + 1 ) begin{array}{l} Eleft(W^{+}right)=Eleft(sum j W_{j}right)=frac{1}{2} sum_{j=1}^{n} j=frac{1}{2} frac{n(n+1)}{2}=frac{1}{4} n(n+1) \ operatorname{var}left(W^{+}right)=operatorname{var}left(sum j W_{j}right)=frac{1}{4} sum_{j}^{n} j^{2}=frac{1}{24} n(n+1)(2 n+1) end{array} E(W+)=E(∑jWj)=21∑j=1nj=212n(n+1)=41n(n+1)var(W+)=var(∑jWj)=41∑jnj2=241n(n+1)(2n+1)
在零假设下由此可构造大样本渐近正态统计量, 零假设下的近似计算如下:
Z = W + − n ( n + 1 ) / 4 n ( n + 1 ) ( 2 n + 1 ) / 24 → L N ( 0 , 1 ) Z=frac{W^{+}-n(n+1) / 4}{sqrt{n(n+1)(2 n+1) / 24}} stackrel{mathcal{L}}{rightarrow} N(0,1) Z=n(n+1)(2n+1)/24 W+−n(n+1)/4→LN(0,1)
计算出 Z Z Z 值后,可由正态分布表查出检验统计量对应的 p p p 值, 如果 p p p 值过小, 则拒 她零假设 H 0 : θ = M 0 H_{0}: theta=M_{0} H0:θ=M0. 小样本情况下使用连续性修正, 如下所示:
Z = W + − n ( n + 1 ) / 4 + C n ( n + 1 ) ( 2 n + 1 ) / 24 → L N ( 0 , 1 ) Z=frac{W^{+}-n(n+1) / 4 + C}{sqrt{n(n+1)(2 n+1) / 24}} stackrel{mathcal{L}}{rightarrow} N(0,1) Z=n(n+1)(2n+1)/24 W+−n(n+1)/4+C→LN(0,1)
当 W + > n ( n + 1 ) / 4 W^{+}>n(n+1) / 4 W+>n(n+1)/4 时, 用正连续性修正, C = 0.5 C=0.5 C=0.5; 当 W + < n ( n + 1 ) / 4 W^{+}<n(n+1) / 4 W+<n(n+1)/4 时, 用 负连续性修正, C = − 0.5. C=-0.5 . C=−0.5.
本文发布于:2024-01-28 17:07:38,感谢您对本站的认可!
本文链接:https://www.4u4v.net/it/17064328618946.html
版权声明:本站内容均来自互联网,仅供演示用,请勿用于商业和其他非法用途。如果侵犯了您的权益请与我们联系,我们将在24小时内删除。
留言与评论(共有 0 条评论) |