2024年2月7日发(作者:)
第一章 统计和统计数据
名词解释
1.统计学:收集处理分析解释数据并从数据中得出结论的科学。
2.描述统计:研究数据收集处理汇总图表描述概括与分析等统计方法。
3.推断统计:研究如何利用样本数据来推断总体特征的统计方法。
4.分类数据:只能归于某一类别的非数字型数据。
5.顺序数据:只能归于某一有序类别的非数字型数据。
6.数值型数据:按数字尺度测量的观察值。
7.总体:包含所研究的全部个体(数据)的集合。
8.样本:从总体中抽取的一部分元素的集合。
9.参数:用来描述总体特征的概括性数字度量。
10.变量:说明现象某种特征的概念。
11.分类变量:说明事物类别的一个名称。
12.顺序变量:说明事物有序类别的一个名称。
13.数值型变量:说明事物数字特征的一个名称。
14.概率抽样:随机抽样,遵循随机原则进行的抽样,总体中每个单位都有一定的机会被选入样本。
15.非概率抽样:不随机,根据研究目的对数据的要求,采用某种方式从总体中抽出部分单位对其实施调查。
16.简单随机抽样:从包括总体的N个单位的抽样框中随机,一个个抽取n个单位作为样本,每单位等概论。
17.分层抽样:将抽样单位按某种特征或某种规则划分为不同的层,然后从不同层中独立、随机地抽取样本。
18.整群抽样:总体中若干单位合并为组,群,抽样时直接抽取群,然后对中选群中的所有单位全部实施调查。
19.系统抽样:总体中所有单位按顺序排列,在规定范围内随机抽取一单位作为初始单位,然后按事先规则确定其它样本单位。
20. 抽样误差:由于抽样的随机性引起的样本结果与总体真值之的误差
简答题。
1.概率抽样与非概率抽样比较:性质不同,非概不依据随机原则选样本,样本统计量分布不确切,无法使用样本的结果对总体相应参数进行推断。操作简便,时效快,成本低,专业要求不很高。概率抽样依据随机原则抽选样本,理论分布存在,对总体有关参数可进行估计,计算估计误差,得到总体参数的置信区间。提出精度要求。
2.数据收集方法的选择:抽样框中有关信息,目标总体特征,调查问题的内容,有形辅助物的使用,实施调查的资源,管理与控制,质量要求
3.误差的控制:抽样误差是抽样随机性带来的,不可避免可以计算,改大样本量。选择合适改进的抽样框,设计好的调查问卷,调查过程的质量控制。
第二章 用图表展示数据。
名词解释
1.频数:落在某一特定类别或组中的数据个数。
2.频数分布:各个类别及其相应的频数形成的分布。
3.比例:一个样本(或总体)中各个部分的数据占全部数据比值。
4.比率:一个样本(或总体)中各不同类别数据之间的比值。
5.组距 :是一个组的上限与下限的差
6.组距分组:是将全部变量依次划分为若干个区间,将这一区间的变量值作为一组。
7.组中值=下限值+上限值/2 上下限的中间值
8.直方图:用矩形的宽度和高度(即面积)来表示频数分布的图形。
9.茎叶图:由茎和叶两部分组成的、反应原始数据分布的图形。
10.箱线图:由一组数据的最大值、最小值、中位数和两个四分位数5个特征值绘制而成的、反应原始数据分布图形。
简答题。
1.数据透视表作用:可以对数据表重要信息按使用者的习惯或分析要求进行汇总和作图,形成一个符合需要的交叉表
2.数据分布表的制作步骤:确定组数,确定组距,根据分组整理成频数分布表,上组限不在内不重不漏
3.直方图与条形图的差别:首先条形图是用条形的长度表示各类别频数的多少,宽度是固定的;直方图用面积表示各组频数的多少,矩形的高度表示每一组的频数或频率,宽度则表示各组的组距,高宽均有意义。其次由于分组数据具有连续性,直方图的各矩形通常是连续排列,而条形图则是分开排列。最后
条形图主要用于展示分类数据,直方图主要用于展示数值型数据。
4.茎叶图与直方图的区别:茎叶图既能给出数据的分布情况,又能保留原始数据的信息。直方图通常适用于批量数据,茎叶图小批量数据。
饼图与环形图差别:环形图中空洞,样本或总体中每一部分用环中的一段表示。饼图只能显示一个样本或总体各部分所占的比例 ,环形图可以同时绘制多个,有利比较研究。
5.好图形具备特征:显示数据,读者注意集中图形内容,避免歪曲,强调数据之间比较,服务明确目的,对图形统计描述与文字说明。
6.图形优劣准则:好图应当使复杂的观点简明、确切、高效阐述,最短时间内以最少的笔墨给读者提大信息,多维,表述数据真实情况。
7.制作统计表设计注意:合理安排表结构,包括表号总标题单位,上下两横线粗,中间细,必要注释、来源。
第三章 用统计量描述数据。
名词解释
1.众数:一组数据中出现频数最多的数值
2.中位数:一组数据排序后处于中间位置上的数值。
3.四分位数:一组数据排序后处在25%和75%位置上的数值。
4.平均数:又称均值,是全部数据的算术平均值
5.四分位差:75%位置上的四分位数与25%位置上的四分位数之差。顺序数据。
6.极差:也称全距,一组数据的最大值与最小值之差。
7.方差:各数据与其平均数离差平方的平均数。
8.标准差:方差的平方根。
9.标准分数:也称标准化值或 z 分数,某个数据与其平均数的离差除以标准差后的值。
10.离散系数:一组数据的标准差与其相应的平均数之比。
11.偏态:对数据分布对称性的测度。测度偏态的统计量偏态系数。
12.偏态系数:对数据分布不对称性的度量值。
13.峰态:对数据分布平峰或尖峰程度的测度,测度峰态的统计量则是峰态系数。
14.峰态系数:对数据分布峰态的度量值。
简答题。
1.数据分布的特征三方面:数据分布的集中趋势,离散程度,形状
众数的特点:不受极端值影响,分布角度上看是具有明显集中趋势点的数值,众数可能不存在也可能有多个。
2.众数、中位数和平均数的关系:从分布角度看,众数M0是最高峰值,中位数Me是数据中间位置上值,平均数是全部数据的算术平均。左偏X 3.众数、中位数和平均数的特点与应用场合:众数是一组数据的峰值,不受极端值影响,缺点是不唯一,在数据量较多时才有意义,数据量少时不宜,主要作分类数据的集中趋势测度值。 中位数是一组数据中间位置上的代表值,不受极端影响,数据分布偏斜程度较大时,中位数好,主要适合作顺序数据的集中趋势测度值。 平均数是对数值型数据计算的,利用了全部数据信息,应用广泛,数据呈对称或接近对称分布时3个代表值接近相等,此时选择平均数作为集中趋势代表值,其主要缺点是易受数据极端值的影响。对于偏态分布的数据,平均数的代表性较差。偏态程度较大数据用中位数或众数比平均好。 4.异众比率的应用场合:主要用于衡量众数对一组数据的代表程度,大,代表性差。主要适合分类数据的离散程度。顺序数据和数值型也可。 5.标准分数的性质:平均数为0,标准差为1 6.经验法则:一组数据对称分布时,约有68%的数据在平均数1个标准差范围内。 95% 99% 27.切比雪夫不等式:不对称 75% 2个标准差 89% 3个 94 4个 1-1/k 8.离散程度的测量值应用场合:分类数据用异众,顺序数据四分位,数值数据方差标准差,不同样本数据离散系数。 9.偏态系数的用途:0对称,>1 <-1高偏 0.5-1 -1—0.5中偏,接近0,偏度低,正值右偏。 第四章 名词解释 1.概率:对事件发生的可能性大小的度量值。 2.参数:对总体特征的某个概括性度量。 3.统计量:对样本特征的某个概括性度量,是样本的函数。 4.抽样分布:样本统计量的概率分布,是由样本统计量的所有可能取值形成相对频数分布。 简答题。 1.正态分布曲线的性质:(1)f(x)>=0整个概率密度曲线都在x轴上方(2)曲线相对x=μ对称,在x=μ处最大值f(μ)=1/σ(3)曲线陡缓程度由σ决定,越大,越缓;(4)x趋于无穷时,曲线以x轴为渐近线。 第五章 参数估计 名词解释 1.参数估计:是用样本统计量去估计总体的参数。 2.估计量:用于估计总体参数的统计量的名称。 3.估计值:估计参数时计算出来的统计量的具体值。 4.点估计:用样本估计量 的取值直接作为总体参数θ的估计值 5.区间估计:在点估计的基础上,给出总体参数估计的一个估计区间,该区间通常由样本统计量加减估计误差组成. 6.置信区间:由样本统计量构造出的总体参数在一定置信水平下的估计区间。 7.置信水平:也称为置信度或置信系数,在重复构造的总体参数的多个置信区间中包含总体参数真值的次数所占的比例。 第六章 假设检验。 名词解释 1.假设检验:先对总体参数提出某种假设,然后利用样本信息判断假设是否成立的过程。 2.原假设:也称零假设,是研究者想收集证据予以反对的假设, 3.备择假设:也称研究假设,是研究者想收集证据予以支持的假设, 简答题。 1.假设检验的步骤:1提出原假设H0和备择假设H12确定适当的检验统计量3确定显著性水平α和临界值及拒绝域4根据样本数据计算检验统计量的值P5将检验统计量值与临界值比较,作出拒绝或接受原假设的决策。 2.假设检验和参数估计有什么相同点和不同点?参数估计和假设检验是统学推断的两个组成部分,都是利用样本对总体进行某种推断,然而推断的角度不同。参数估计讨论的是样本统计量估计总体参数的方法,总体参数μ在估计前是未知的。而在参数假设检验中,则是先对μ的值提出一个假设,然后利用样本信息去检验这个假设是否成立。 第七章 分类变量的推断。 名词解释 2 2 1. χ拟合优度检验:利用 χ 停机梁来判断某个分类变量个类别的观察频数与某一理论频数或期望频数是否一直的检验方法。 2.列联表:有两个或两个以上分类变量交叉分类的频数分布表。 2 2 3. χ独立性检验:利用 χ 统计量来判断两个分类变量是否独立的检验方法。 3.φ系数:测度两个分类变量之间相关程度的统计量,主要用于2X2列联表。 ’s V 系数:测度两个分类变量之间相关程度的统计量,可用于rXc的列联表。 5.列联系数:测度两个分类变量之间相关程度的统计量,主要用于大于2X2列联表。 简答题。 1.一致性检验和独立性检验的区别:首先,两种检验抽取样本的方法或对观察值进行测定的方法有所不同,如果在各类别中分别进行,属于拟合优度检验,如果事先未分类,抽取样本后根据研究内容分类形成列联表就是独立性检验。其次,两者检验假设的内容有差异,似~通常假设各类别总体比例等于某个期望概率,而独立性检验中,原假设则假设两个变量之间相互独立。最后,计算期望频数时,在拟合优度检验中利用原假设中的期望概率,用观察频数乘以期望概率,直接得到期望频数,如果独立性检验, 则假设两个变量的分类是独立的,因而两个水平的联合概率是两个单独的概率的乘积。 2.简述φcV相关系数各自的特点:φ2X2列联表,0-1范围,0完全相关|φ|=1完全相关,绝对值越大,相关程度越高, φ无上限;c大于2X2列联表,相互独立时 c=0,不可能大于1,最大值依赖于列联表的行数列数,且随着R、C的增大而增大。V 0相关独立,1完全相关,1 第八章 名词解释 1.方差分析:通过检验各总体均值是否相等来判断分类型自变量对数值型因变量是否有显著影响。 2.因素:也称因子,是方差分析中所要检验的对象。 3.处理:因素的不同表现称为水平或处理 4.组内误差:来自水平内部的数据误差。 5.组间误差:来自不同水平之间的数据误差。 6.总平方和:反映全部数据误差大小的平方和,记为SST。自变量效应加残差效应。n-1 7.组内平方和:反映组内误差大小的平方和,记为SSE。残差变量,残差效应;n-k 8.组间平方和:反映组间误差大小的平方和,记为SSA。自变量效应或因子效应;k-1 9.单因素方差分析:只涉及一个分类型自变量的方差分析。 10.组内方差:组内平方和除以相应的自由度。 11.组间方差:组间平方和除以相应的自由度。 12.双因素方差分析:方差分析中涉及两个分类型自变量时,称为~ 简答题。 1.误差分解:总误差(SST)=组内误差(SSE)+组间误差(SSA) 22.方差分析中的三个基本假定:每个总体都应该服从正态分布,各个总体的方差σ必须相同,观测值是独立的。 3.方差分析中假设的提法:H0:u1=u2=… 自变量对因变量没有显著影响 H1:u1,u2…不全相等 4.方差分析的基本思想:1.图形描述,散点图 2.误差分解 3.误差分析,显著性 5.方差分析的基本步骤:1.提出假设2.构造检验的统计量:1)计算各样本均值2)计算全部观测值的总均值3)计算各误差平方和 总平方和 组间平方和 组内平方和4)计算统计量3.统计决策 4.方差分析表 5.方差分析 6.要检验多个总体均值是否相等时,为什么不两两比而用方差分析?两两比烦销,增大犯I类错误的概率,降低置信水平。方差分析是同时考虑所有样本,排除了错误累积的概率,从而避免拒绝一个真实的原假设。 第九章 名词解释 1.相关关系:变量之间存在的不确定的数量关系。 2.相关系数:是根据样本数据计算的度量两个变量之间线性关系强度的统计量。 3.回归模型:描述因变量y如何依赖于自变量x和误差项的方程。 4.最小二乘法:也称最小平方法,使因变量的观察之余估计值之间的离差平方和达到最小来求得和的方法。 5.判定系数:回归平方和占总平方和的比例,用R2表示,是对回归方程拟合优度的度量。 6.估计量的标准误差:均方残差(MSE)的平方根,用来表示。实际意义反映了用估计的回归方程预测因变量y时的预测误差的大小。越小,各观测点的代表性就越好,预测越准确,从另一个角度说明了回归直线的拟合优度。 7.平均值的置信区间估计:对于自变量的一个给定值X0,求出的因变量y的平均值的估计区间。 8.个别值的预测区间估计:对于自变量的一个给定值X0,求出的因变量y的一个个别值的估计区间。 9.残差:因变量的观测值yi与根据估计的回归方程求出的预测值yi^之差,用e表示。 10.标准化残差:残差除以它的标准差后得到的数值用Ze表示。 简答题。 1.相关关系的特点:一个变量的取值不能由另一个变量唯一确定,当变量x取某个值时,变量y的取值可能有几个,这种关系不确定的变量显然不能用函数关系进行描述,但变量之间存在一定的规律。相关与回归分析正是描述探索这类变量关系及其统计规律的方法。 2.相关系数的性质:(1)取值范围在-1~+1 0-1正线性相关,反负相关,1完全正线性相关|r|=1 y取值完全依赖于x,两者函数关系,r=0,y取值与x无关,两者不存在线性相关关系 (2)对称性 rxy=ryx(3)r大小与xy原点及尺度无关(4)仅是线性关系度量(5)xy线性关系的度量但非因果关系 高0.8中0.5低0.3不相关 3.回归分析的内容:(1)从一组样本数据出发,确定出变量之间的数学关系式;(2)对这些关系式的可信程度进行各种统计检验,并从影响某一特定变量的诸多变量中找出哪些变量的影响显著不显著。(3)利用所求的关系式,根据一个或几个变量的取值来估计或预测另一个待定变量的取值,并给出这种估计或预测的可靠程度。 4.理论回归模型的假定:(1)因变量y与自变量x之间有线性关系。(2)重复抽样中,x取值固定非随2机的。(3)误差项是期望0的随机变量E()=0,假定模型为直线。(4)对所有x值,的方差σ都2相同。(5)误差项服从正态分布随机变量且独立,即~N(0, σ) 5.回归分析结果的评价:(1)所估计的回归系数的符号是否与理论或事先预期的相一致(2)如果理论上认为y与x之间关系不仅正,而且统计上显著,所建立的回归方程也应该如此。(3)回归模型在多大程度上解释了因变量y取值的差异?用判定系数来回答。(4)考察关于误差项的正态性假定是否成立。 第十章 名词解释 1.多元线性回归方程:描述因变量y如何依赖于自变量x1,x2,…,xk和误差项ε的方程。一般形式为:y=β0+β1x1+β2x2+⋯+βkxk+ε。 2.估计的多元线性回归方程:根据样本数据得到的多元线性回归方程的估计。 3.多重判定系数:在多元回归中,回归平方和占总平方和的比例。 4.修正的多重判定系数:用模型中自变量的个数和样本量进行调整的多重判定系数,记为R2a。 5.多重共线性:回归模型中两个或两个以上的自变量彼此相关。 6.虚拟变量(哑变量):变量的取值本身用文字来描述,要把它们放进回归模型,必须先将其文字型数据用数字代码来表示,这种代码化的定性自变量称为虚拟变量。 简答题。 1.线性关系检验与回归系数检验的区别:在一元中是等价的,在多元回归中不等价,线性关系检验主要是检验因变量同多个自变量的线性关系是否显著,k个自变量只要有一个线性关系显著,F检验就能通过。但并不代表每个关系都显著。回归系数检验则是对每个回归系数分别进行单独的检验,主要用于检验每个自变量对因变量的影响是否都显著,如果某个自变量没有通过检验就说明这处自对因影响不显著,没有必要将自放进回归模型中。 2.多重共线性对回归模型的影响:(1)变量之间高相关,使回归结果混乱(2)对参数估计值的正负号产生影响 3.多重共线性的判别:(1)模型中各对自变量之间显著相关(2)线性关系检验显著时,几乎所有的回归系数检验却不显著(3)回归系数的正负号与预期的相反。 4.多重共线性的处理方法:(1)将一个或多个相关自变量从模型中剔除,保留的尽可能不相关(2)如果要保留所有就应该避免根据t统计量对单个参数B进行检验,对因变量y值的推断限定在自变量样本值范围内。 第十一章 名词解释 1.时间序列:同一现象在不同时间上的相继观察值排列而成的序列。 2.平稳序列:基本上不存在趋势的序列。 3.趋势:也称长期趋势,指时间序列在长时期内呈现出某种持续向上或持续下降的变动。 4.季节变动:时间序列呈现出的一年为周期长度的固定变动模式,这种模式年复一年重复出现。 5.循环波动:时间序列呈现出的非固定长度的周期性变动。 6.不规则波动:时间序列中除去趋势,季节变动和周期波动之后的随机波动。 7.自相关:时间序列中的观测值Y1,Y2,…,Yn与他以前时期Yt−1,Yt−2,…,Yt−k的观测值之间的相关。 8.自回归:时间序列的观测值Yt与以前时期的观测值之间的回归。 简答题 1.时间序列预测的程序:第1步,确定时间序列所包含的成分,也就是确定时间序列的类型。第2步,找出适合此类时间序列的预测方法第3步,对可能的预测方法进行评估,以确定最佳预测方案。第4步,利用最佳预测方案进行预测。 2.复合型时间序列的预测步骤:1.确定并分离季节成分。计算季节指数,确定季节成分,分离出去,即用每个时间序列的观测值除以相应的季节指数,以消除季节性。2.建立预测模型并进行预测。3.计算出最后的预测值。用预测值乘以相应的季节指数,得到最终的预测值。 3.计算季节指数的步骤:平均趋势剔除法 1.计算移动平均值,并将其结果中心化处理,得出中心化移动平均值 2.计算移动平均的比值,季节比率,即将序列的各观察值除以相应的中心化移动平均值,再计算出各比值的季度或月份平均值。3.季节指数调整。将2计算的每个季节比率的平均值除以它们的总平均值。 第十二章 名词解释 1.主成分:最为原始变量线性组合的新的变量。 2.主成分分析:通过考察变量间的相关性,找到少数几个主成分代表原来多个变量的一种多元统计方法。 3.特征根:又称方差,反应主成分对原始变量影响程度的一个量,表示引入该主成分后可以皆是缘是变量的信息。 4.方差贡献率:某个特征根占总特征根的比例。范应该主成分综合员是变量信息的能力。 5.累计方差贡献率:前k个特征根占总特征根的比例,反映前k个主成分综合原始变量信息的能力。 6.因子分析:通过对变量之间关系的研究,找出能综合原始变量的少数几个因子代表多个原始变量的一种多元统计方法。 7.因子载荷:载荷aij为第i各变量xi与第j个因子fj之间的线性相关系数,反映xi与fj之间的相关程度。 8.变量共同度量:k各因子对第i各变量的方差贡献率,反映变量xi的信息能够被k个公因子所解释的程度,记为h2i。 第十三章 名词解释 1.聚类分析:按照相似性把对象进行分类的一种多元统计方法。 2.Q型聚类:根据变量对所观察样本进行分类的聚类方法。 3.R型聚类:根据样本对多个变量进行分类的聚类方法。 第十四章 名词解释 1.非参数检验:不依赖于总体的分布的统计检验方法。 2.秩:一组数据按照从小到大顺序排列后,每一个观测值所在的位置。 on 符号秩检验:检验两个配对总体是否相同的一种非参数检验方法。 -Whitney 检验:也称为 Wilcoxon 秩和检验,它是用于检验两个独立总体是否相同的一种非参数检验方法。 l-Wallis 检验:检验多个独立总体是否相同的一种非参数检验方法。 an 秩相关系数:也称等级相关系数,度量两个顺序变量之间相关程度的一个统计量,记为rs。 l 秩相关系数:度量两个顺序变量之间相关程度的一个统计量,记为τ。 计算题。
本文发布于:2024-02-07 21:13:07,感谢您对本站的认可!
本文链接:https://www.4u4v.net/it/170731158765759.html
版权声明:本站内容均来自互联网,仅供演示用,请勿用于商业和其他非法用途。如果侵犯了您的权益请与我们联系,我们将在24小时内删除。
留言与评论(共有 0 条评论) |