统计学原理课件下(编辑修改稿)内容摘要:
的无偏估计时, 方差 越 小,无偏估计越有效。 ˆ 2)ˆ( Eˆ一致性 对于无限总体, 如果对任意 , 0>0)|ˆ(| nn PL im , 则称 是 的一致估计。 充分性 一个估计量如能完全地包含未知参数信息,即为充分量。 估计量 的 ˆ 区间估计 估计未知参数所在的可能的区间。 评价准则 随机区间 置信度 精确度 随机区间 1)ˆˆ( ULP <<)ˆ,ˆ( UL 包含 (即可靠程度 )越大越好。 的概率 )ˆ,ˆ( UL 的平均长度 (误差范围 )越小越好。 )ˆ,ˆ( LUE 一般形式 )ˆ()ˆ( △<<△ △ ˆ或 总体参数 估计值 误差范围 △ :一定倍数的抽样误差 nZx2△例如: 抽样误差 n/ 一定时, 2Z 越大, x△概率(可靠性)大; 随之增大, 精确度就差。 样本数的确定 待估计参数 已知条件 样本数的确定 重复抽样 总体均 值( μ) 例:误差范围 简 单 随 机 抽 样 不重复抽样 总体成数 ( P) xx tu pp tu ˆˆ 22(1 )pt P Pn重复抽样 不重复抽样 222( 1 )( 1 )pt P P NnN t P P222xtn =222 2 2xtNNt 抽样方案的设计 抽样调查的组织方式: 1. 简单随机抽样(纯随机抽样) 方法:将总体单位编成抽样框,而后用抽签或随机数表抽取样本单位。 适用:总体规模不大;总体内部差异小。 2. 类型抽样(分层抽样) 方法:将总体全部单位分类,形成若干个类型组,后从各类型中分别抽取样本单位,合成样本。 总体 N 样本 n 等额 等比例 最优 kiiknnnnn121 nNNn i 1nNNniiii 221 2NkN1N 1n2nkn 3. 等距抽样(机械抽样) 方法:将总体单位按某一标志排序,而后按一定的间隔抽取样本单位。 排序依据的标志: ( 1) 无 关标志; ( 2) 有 关标志。 (总体单位按某一标志排序) 4. 整群抽样 方法: 将总体全部单位分为许多个 “ 群 ” , 然后随机抽取若干 “ 群 ” , 对被抽中的各 “ 群 ” 内的所有单位登记调查。 例 : 总体群数 R=16 样本群数 r=4 样本容量 例: A B C D E F G H I J K L M N O P L H P D hlpd nnnnn 例 : 在某省 100多万农户中抽取 1000户调查农户生产性投资情况。 5. 多阶段抽样 第一阶段:从省内部县中抽取 5个县 第二阶段:从抽中的 5个县中各抽 4个乡 第三阶段:从抽中的 20个乡中各抽 5个村 第四阶段:从抽中的 100个村中各抽 10户 样本 n=100 10=1000(户 ) 相关分析的意义和内容 相关关系的判断 简单线性回归分析 相关和回归分析 是研究事物的相互关系,测定它们联系的紧密程度,揭示其变化的具体形式和规律性的统计方法,是构造各种经济模型,进行结构分析、政策评价、预测和控制的重要工具。 主要内容 第 8章 相关分析 相关分析的意义和内容 概念 种类 线性相关 变量之间关系 函数关系 相关关系 因果关系 互为因果关系 共变关系 确定性依存关系 随机性依存关系 种类 一元相关 多元相关 负 相 关 正 相 关 线性相关 曲线相关 x y 正 相 关 x y 负 相 关 x y 曲线相关 x y 不 相 关 相关系数 测定两变量是否线性相关。 相关图和相关表 yxxyryxnyyxxr ))((定义式: 未分组: 已分组: 2222 )()( yynxxnyxxynr ])([])([))((2222yyxxyxxyfyfynfxfxnfyfxfyxnr值: |r|=0 不存在线性关系; |r|= 1 完全线性相关 0|r|1不同程度线性相关 (0~ 微弱; ~ 低度; ~ 显著; ~1 高度 ) 符号: r0 正相关; r0 负相关 计算公式 相关系数的检验( t检验) 检验统计量 212||rnrt0:,0 10 HH =: 相关关系的判断 简单线性回归分析 特点 线性回归 非线性回归 回归分析和相关分析的联系和区别 1. 理论和方法具有一致性; 2. 无相关就无回归,相关程度越高,回归越好; 3. 相关系数和回归系数方向一致,可以互相推算。 1. 相关分析中, x与 y对等,回归分析, x与 y要确定自变量和因变量; 2. 相关分析中 x, y均为随机变量,回归分析中,只有 y为随机变量; 3. 相关分析测定相关程度和方向,回归分析用回归模型进行预测和控制。 线性回归 一元线性回归模型 1. 一元线性回归模型的一般形式 总体一元线性回归模型的一般形式 Y的数学期望 E( Y) 随机误差 ,xYE +)=( 也称一元线性回归方程,是对应于自变量 X 某一取值时因变量 Y的均值。 , 未知参数 样本的一元线性回归模型和回归方程 一元线性回归模型 , ++= xY, bxaY =一元线性回归方程 bxay ˆ截距 斜率(回归系数) 回归系数 b表明自变量 x每变化一个单位因变量 y的增(减)量。 •b与 r的关系: r> 0 r< 0 r=0 b> 0 b< 0 b=0 xyyx rbbr 。 是理论模型,表明 x与 y两变量之间的平均变动关系。 bxay ˆ(实际值): jjij ybxay ˆ)(X对 y的线性影响而形成的系统部分,反映两变量的平均变动关系,即本质特征。 随机。统计学原理课件下(编辑修改稿)
相关推荐
定义为 , 统计量 取该值或更极端的值 的概率等于 a。 也就是说 ,“ 统计量的实现值比临界值更极端 ”等价于 “ p值小于 a”。 使用临界值的概念进行的检验不计算 p值。 只比较统计量的取值和临界值的大小。 167。 假设检验的过程和逻辑 • 使用临界值而不是 p值来判断拒绝与否是前计算机时代的产物。 当时计算 p值不易 ,只采用临界值的概念。 但从给定的 a求临界值同样也不容易 ,
有次品的个数及概率如下表 次品数 X = xi 0 1 2 3 概率 P(X=xi)pi 每 100个配件中的次品数及概率分布 求该供应商次品数的数学期望和标准差 iii px22( ) , ( ) 0 . 7 0 5 1 0 . 8 3 9 7iiiD X x p 167。 连续变量的分布 • 取连续值的变量 , 如高度 、 长度 、重量
数 1个主成分和原来的第一个变量 (人均 GDP)之间的线性相关系数。 这个系数越大 , 说明主成分对该变量的代表性就越大 12 29 统计学STATISTICS (第四版 ) 2020105 根据主成分分析模型和因子载荷 , 可以得到两个主成分与原来 6个变量之间的线性组合表达式如下 怎样解释主成分。 (主成分与原始变量的关系 )
累计频数) 向下累计分布:(变量下限,累计频数) 变量的组数无限增多时,折线便趋于一条光滑的曲线。 图形 0102030405060708090第一季度 第二季度 第三季度 第四季度0102030405060708090100第一季度 第二季度 第三季度 第四季度东部第一季度第二季度第三季度第四季度01020304050607080901000 2 4 6东部返回 综合指标概述 总量指标
025 1921 101835 310505 170094 2x2y xy解:( 1)绘制散点图 ( 2)建立简单直线回归方程: )1025(101835121921102517009412222 XXnYXXYnb 24121 02 54 20 121 92 11 XbYXbYna00ˆ bxay 其中 a=
VC维 :对于一个指示函数(即只有 0和 1两种取值的函数)集,如果存在 h个样本能够被函数集里的函数按照所有可能的 2h种形式分开,则称函数集能够把 h个样本打散,函数集的 VC维就是能够打散的最大样本数目。 如果对任意的样本数,总有函数能打散它们,则函数集的 VC维就是无穷大。 VC维(续) 一般而言 ,VC维越大 , 学习能力就越强 ,但学习机器也越复杂。