统计的基本概念

总体和样本

总体是人们研究对象的全体，也称母体，如：工厂一天生产的全部产品，学校全体学生的身高。

总体中的每一个基本单位称为个体。

从总体中随机产生的若干个个体的集合称为样本，或子样。

统计的任务是由样本推测总体。

频数表和直方图

可以用于对数据进行初步整理和直观描述。

将数据的取值范围划分为若干个区间，然后统计这组数据在每个区间中出现的次数，称为频数，由此得到一个频数表。以数据的取值为横坐标，频数为纵坐标，画出一个阶梯形的图，称为直方图，或频数分布图。

数据量大的时候可以借助matlab来画图~

统计量

统计量是加工出来的、反映样本数量特征的函数，不包含任何未知量。

表示位置：算术平均值和中位数
表示变异程度：标准差、方差、极差
中心矩：表示分布形状：偏度和峰度

公式看不懂就很烦，好在可以直接用matlab来求，这里就不附公式了

偏度反映分布的对称性，大于0称为右偏态，此时数据位于均值右边的比左边的多；小于0相反；等于0可以认为是对称的

峰度用来衡量数据偏离正态分布的程度：正态分布的峰度为3，若比3大得多，表示分布有沉重的尾巴，说明样本中含有较多远离均值的数据

统计中几个重要的概率分布

分布函数、密度函数和分位数

设有随机变量 X ，其分布函数定义为 X ≤ x 的概率，即 $F(x)=P\{X≤x\}$ 。

若 X 是连续型随机变量，则其密度函数 p(x) 和 F(x) 的关系为 $F(x)=\int_{-\infty}^xp(x)dx$ 。

上 $\alpha$ 分位数的定义：对于 $0<\alpha<1$，使得某分布函数 $F(x)=1-\alpha$ 的 $x$ ，称为这个分布的上 $\alpha$ 分位数，记作 $x_a$ 。

补充：连续型随机变量： 连续型随机变量是指如果随机变量X的所有可能取值不可以逐个列举出来，而是取数轴上某一区间内的任一点的随机变量。例如，一批电子元件的寿命、实际中常遇到的测量误差等都是连续型随机变量。

几种概率分布

正态分布

是最常见的（连续型）概率分布，各种特征查书自取。

$\chi^2$ 分布（卡方分布）

若 $X_1,X_2,…,X_n$ 为相互独立的、服从标准正态分布 $N(0,1)$ 的随机变量，则它们的平方和 $Y=\sum^n_{i=1}X_i^2$ 服从 $\chi^2$ 分布，记作 $y \sim\chi^2(n)$ ，$n$ 称自由度，它的期望为 $n$ ，方差为 $2n$ 。

$t$ 分布（学生氏分布）

用于根据小样本来估计呈正态分布且方差未知的总体的均值。如果总体方差已知（例如在样本数量足够多时），则应该用正态分布来估计总体均值。

由于在实际工作中，往往σ(总体方差)是未知的，常用s（样本方差）作为σ的估计值，为了与u变换区别，称为t变换，统计量t 值的分布称为t分布。

若 $X\sim N(0,1)$ ，$Y\sim \chi^2(n)$ ，且相互独立，则 $T=\cfrac{X}{\sqrt{Y/n}}$ 服从 $t$ 分布，记作 $T\sim t(n)$，$n$ 称自由度。

自由度 $n$ 的值越大， $t$ 分布的密度函数曲线和正态分布 $N(0,1)$ 就越接近，实际上当 $n>30$ 时就已经相差无几了。

$F$ 分布

若 $X\sim \chi^2(n_1)$ ，$Y\sim \chi^2(n_1)$ ，且相互独立，则 $F=\cfrac{X/n_1}{Y/n_2}$ 服从 $F$ 分布，记作 $F\sim F(n_1,n_2)$，$(n_1,n_2)$ 称自由度。

正态总体统计量的分布

参数分布

就是利用样本对总体进行统计推断的一类问题，即假定已知总体的分布（通常是正态分布），估计有关的参数，如 $\mu、\sigma^2$。

参数估计分点估计和区间估计两种。

点估计

用样本统计量确定总体参数的一个数值。

评价估计优劣的标准：无偏性、最小方差性、有效性等

估计的方法：矩法、极大似然法

最常用的是对总体均值 $\mu$ 和方差 $\sigma^2$ 作点估计：计算出样本均值 $\overline{x}$ 和方差 $s^2$ 后，可得出合理点估计

$\widehat{\mu}=\overline{x},\widehat{\sigma}^2=s^2,\widehat{\sigma}=s$

区间估计

点估计虽然给出了待估参数的一个数值，却没有告诉我们估计值的精度和可信程度。而区间估计可以给出点估计的误差范围。

有关置信区间、置信水平的定义略，见书208

假设检验

是统计推断的另一类重要问题。在总体的分布函数完全未知或只知其形式但不知其参数的情况，为了推断总体的某些性质，提出某些关于总体的假设。假设检验就是根据样本所提出的假设做出判断：接受还是拒绝。

单个总体 $N(\mu,\sigma^2)$ 均值 $\mu$ 的检验

有三种：

双边检验：$H_0:\mu=\mu_0,H_1:\mu\neq\mu_0$

右边检验：$H_0:\mu\le\mu_0,H_1:\mu>\mu_0$

左边检验：$H_0:\mu\ge\mu_0,H_1:\mu<\mu_0$

$\sigma^2$已知，关于 $\mu$ 的检验（ Z 检验）

matlab中的 ztest 函数

$\sigma^2$未知，关于 $\mu$ 的检验（ t 检验）

matlab中的 ttest 函数

两个正态总体均值差的检验（ t 检验）

用来检验具有相同方差的 2 个正态总体均值差的假设（使用matlab中的ttest2函数）。

例题见书209

ttest2 也可以做方差不相等的假设检验。

分布拟合检验

在实际问题中，有时不知道总体服从什么类型的分布，这就需要根据样本来检验关于分布的假设。

$\chi^2$检验法

$H_0$：总体 $x$ 的分布函数为 $F(x)$

$H_1$：总体 $x$ 的分布函数不是 $F(x)$

（如果此时 $F(x)$ 的形式已知但参数值未知，就需要先用极大似然估计法估计参数，然后再做检验）