统计的基本概念
总体和样本
总体是人们研究对象的全体,也称母体,如:工厂一天生产的全部产品,学校全体学生的身高。
总体中的每一个基本单位称为个体。
从总体中随机产生的若干个个体的集合称为样本,或子样。
统计的任务是由样本推测总体。
频数表和直方图
可以用于对数据进行初步整理和直观描述。
将数据的取值范围划分为若干个区间,然后统计这组数据在每个区间中出现的次数,称为频数,由此得到一个频数表。以数据的取值为横坐标,频数为纵坐标,画出一个阶梯形的图,称为直方图,或频数分布图。
数据量大的时候可以借助matlab来画图~
统计量
统计量是加工出来的、反映样本数量特征的函数,不包含任何未知量。
表示位置:算术平均值和中位数
表示变异程度:标准差、方差、极差
中心矩:表示分布形状:偏度和峰度
公式看不懂就很烦,好在可以直接用matlab来求,这里就不附公式了
偏度反映分布的对称性,大于0称为右偏态,此时数据位于均值右边的比左边的多;小于0相反;等于0可以认为是对称的
峰度用来衡量数据偏离正态分布的程度:正态分布的峰度为3,若比3大得多,表示分布有沉重的尾巴,说明样本中含有较多远离均值的数据
统计中几个重要的概率分布
分布函数、密度函数和分位数
设有随机变量 X ,其分布函数定义为 X ≤ x 的概率,即 $F(x)=P\{X≤x\}$ 。
若 X 是连续型随机变量,则其密度函数 p(x) 和 F(x) 的关系为 $F(x)=\int_{-\infty}^xp(x)dx$ 。
上 $\alpha$ 分位数的定义:对于 $0<\alpha<1$,使得某分布函数 $F(x)=1-\alpha$ 的 $x$ ,称为这个分布的上 $\alpha$ 分位数,记作 $x_a$ 。
补充:连续型随机变量: 连续型随机变量是指如果随机变量X的所有可能取值不可以逐个列举出来,而是取数轴上某一区间内的任一点的随机变量。例如,一批电子元件的寿命、实际中常遇到的测量误差等都是连续型随机变量。
几种概率分布
正态分布
是最常见的(连续型)概率分布,各种特征查书自取。
$\chi^2$ 分布(卡方分布)
若 $X_1,X_2,…,X_n$ 为相互独立的、服从标准正态分布 $N(0,1)$ 的随机变量,则它们的平方和 $Y=\sum^n_{i=1}X_i^2$ 服从 $\chi^2$ 分布,记作 $y \sim\chi^2(n)$ ,$n$ 称自由度,它的期望为 $n$ ,方差为 $2n$ 。
$t$ 分布(学生氏分布)
用于根据小样本来估计呈正态分布且方差未知的总体的均值。如果总体方差已知(例如在样本数量足够多时),则应该用正态分布来估计总体均值。
由于在实际工作中,往往σ(总体方差)是未知的,常用s(样本方差)作为σ的估计值,为了与u变换区别,称为t变换,统计量t 值的分布称为t分布。
若 $X\sim N(0,1)$ ,$Y\sim \chi^2(n)$ ,且相互独立,则 $T=\cfrac{X}{\sqrt{Y/n}}$ 服从 $t$ 分布,记作 $T\sim t(n)$,$n$ 称自由度。
自由度 $n$ 的值越大, $t$ 分布的密度函数曲线和正态分布 $N(0,1)$ 就越接近,实际上当 $n>30$ 时就已经相差无几了。
$F$ 分布
若 $X\sim \chi^2(n_1)$ ,$Y\sim \chi^2(n_1)$ ,且相互独立,则 $F=\cfrac{X/n_1}{Y/n_2}$ 服从 $F$ 分布,记作 $F\sim F(n_1,n_2)$,$(n_1,n_2)$ 称自由度。
正态总体统计量的分布
参数分布
就是利用样本对总体进行统计推断的一类问题,即假定已知总体的分布(通常是正态分布),估计有关的参数,如 $\mu、\sigma^2$。
参数估计分点估计和区间估计两种。
点估计
用样本统计量确定总体参数的一个数值。
评价估计优劣的标准:无偏性、最小方差性、有效性等
估计的方法:矩法、极大似然法
最常用的是对总体均值 $\mu$ 和方差 $\sigma^2$ 作点估计:计算出样本均值 $\overline{x}$ 和方差 $s^2$ 后,可得出合理点估计
区间估计
点估计虽然给出了待估参数的一个数值,却没有告诉我们估计值的精度和可信程度。而区间估计可以给出点估计的误差范围。
有关置信区间、置信水平的定义略,见书208
假设检验
是统计推断的另一类重要问题。在总体的分布函数完全未知或只知其形式但不知其参数的情况,为了推断总体的某些性质,提出某些关于总体的假设。假设检验就是根据样本所提出的假设做出判断:接受还是拒绝。
单个总体 $N(\mu,\sigma^2)$ 均值 $\mu$ 的检验
有三种:
双边检验:$H_0:\mu=\mu_0,H_1:\mu\neq\mu_0$
右边检验:$H_0:\mu\le\mu_0,H_1:\mu>\mu_0$
左边检验:$H_0:\mu\ge\mu_0,H_1:\mu<\mu_0$
$\sigma^2$已知,关于 $\mu$ 的检验( Z 检验)
matlab中的 ztest 函数
$\sigma^2$未知,关于 $\mu$ 的检验( t 检验)
matlab中的 ttest 函数
两个正态总体均值差的检验( t 检验)
用来检验具有相同方差的 2 个正态总体均值差的假设(使用matlab中的ttest2函数)。
例题见书209
ttest2 也可以做方差不相等的假设检验。
分布拟合检验
在实际问题中,有时不知道总体服从什么类型的分布,这就需要根据样本来检验关于分布的假设。
$\chi^2$检验法
$H_0$:总体 $x$ 的分布函数为 $F(x)$
$H_1$:总体 $x$ 的分布函数不是 $F(x)$
(如果此时 $F(x)$ 的形式已知但参数值未知,就需要先用极大似然估计法 估计参数,然后再做检验)