【数学建模】第十章数据的统计描述和分析

统计的基本概念

总体和样本

总体是人们研究对象的全体,也称母体,如:工厂一天生产的全部产品,学校全体学生的身高。

总体中的每一个基本单位称为个体

从总体中随机产生的若干个个体的集合称为样本,或子样

统计的任务是由样本推测总体

频数表和直方图

可以用于对数据进行初步整理和直观描述。

将数据的取值范围划分为若干个区间,然后统计这组数据在每个区间中出现的次数,称为频数,由此得到一个频数表。以数据的取值为横坐标,频数为纵坐标,画出一个阶梯形的图,称为直方图,或频数分布图

数据量大的时候可以借助matlab来画图~

统计量

统计量是加工出来的、反映样本数量特征的函数,不包含任何未知量

  • 表示位置:算术平均值和中位数

  • 表示变异程度:标准差、方差、极差

  • 中心矩:表示分布形状:偏度和峰度

    公式看不懂就很烦,好在可以直接用matlab来求,这里就不附公式了

    偏度反映分布的对称性,大于0称为右偏态,此时数据位于均值右边的比左边的多;小于0相反;等于0可以认为是对称的

    峰度用来衡量数据偏离正态分布的程度:正态分布的峰度为3,若比3大得多,表示分布有沉重的尾巴,说明样本中含有较多远离均值的数据

统计中几个重要的概率分布

分布函数、密度函数和分位数

设有随机变量 X ,其分布函数定义为 X ≤ x 的概率,即 $F(x)=P\{X≤x\}$ 。

若 X 是连续型随机变量,则其密度函数 p(x) 和 F(x) 的关系为 $F(x)=\int_{-\infty}^xp(x)dx$ 。

上 $\alpha$ 分位数的定义:对于 $0<\alpha<1$,使得某分布函数 $F(x)=1-\alpha$ 的 $x$ ,称为这个分布的上 $\alpha$ 分位数,记作 $x_a$ 。

补充:连续型随机变量: 连续型随机变量是指如果随机变量X的所有可能取值不可以逐个列举出来,而是取数轴上某一区间内的任一点的随机变量。例如,一批电子元件的寿命、实际中常遇到的测量误差等都是连续型随机变量。

几种概率分布

正态分布

是最常见的(连续型)概率分布,各种特征查书自取。

$\chi^2$ 分布(卡方分布)

若 $X_1,X_2,…,X_n$ 为相互独立的、服从标准正态分布 $N(0,1)$ 的随机变量,则它们的平方和 $Y=\sum^n_{i=1}X_i^2$ 服从 $\chi^2$ 分布,记作 $y \sim\chi^2(n)$ ,$n$ 称自由度,它的期望为 $n$ ,方差为 $2n$ 。

$t$ 分布(学生氏分布)

用于根据小样本来估计呈正态分布且方差未知的总体的均值。如果总体方差已知(例如在样本数量足够多时),则应该用正态分布来估计总体均值。

由于在实际工作中,往往σ(总体方差)是未知的,常用s(样本方差)作为σ的估计值,为了与u变换区别,称为t变换统计量t 值的分布称为t分布

若 $X\sim N(0,1)$ ,$Y\sim \chi^2(n)$ ,且相互独立,则 $T=\cfrac{X}{\sqrt{Y/n}}$ 服从 $t$ 分布,记作 $T\sim t(n)$,$n$ 称自由度。

自由度 $n$ 的值越大, $t$ 分布的密度函数曲线和正态分布 $N(0,1)$ 就越接近,实际上当 $n>30$ 时就已经相差无几了。

$F$ 分布

若 $X\sim \chi^2(n_1)$ ,$Y\sim \chi^2(n_1)$ ,且相互独立,则 $F=\cfrac{X/n_1}{Y/n_2}$ 服从 $F$ 分布,记作 $F\sim F(n_1,n_2)$,$(n_1,n_2)$ 称自由度。

正态总体统计量的分布

参数分布

就是利用样本对总体进行统计推断的一类问题,即假定已知总体的分布(通常是正态分布),估计有关的参数,如 $\mu、\sigma^2$。

参数估计分点估计和区间估计两种。

点估计

用样本统计量确定总体参数的一个数值。

评价估计优劣的标准:无偏性、最小方差性、有效性等

估计的方法:矩法、极大似然法

最常用的是对总体均值 $\mu$ 和方差 $\sigma^2$ 作点估计:计算出样本均值 $\overline{x}$ 和方差 $s^2$ 后,可得出合理点估计

区间估计

点估计虽然给出了待估参数的一个数值,却没有告诉我们估计值的精度和可信程度。而区间估计可以给出点估计的误差范围。

有关置信区间、置信水平的定义略,见书208

假设检验

是统计推断的另一类重要问题。在总体的分布函数完全未知或只知其形式但不知其参数的情况,为了推断总体的某些性质,提出某些关于总体的假设。假设检验就是根据样本所提出的假设做出判断:接受还是拒绝。

单个总体 $N(\mu,\sigma^2)$ 均值 $\mu$ 的检验

有三种:

双边检验:$H_0:\mu=\mu_0,H_1:\mu\neq\mu_0$

右边检验:$H_0:\mu\le\mu_0,H_1:\mu>\mu_0$

左边检验:$H_0:\mu\ge\mu_0,H_1:\mu<\mu_0$

$\sigma^2$已知,关于 $\mu$ 的检验( Z 检验)

matlab中的 ztest 函数

$\sigma^2$未知,关于 $\mu$ 的检验( t 检验)

matlab中的 ttest 函数

两个正态总体均值差的检验( t 检验)

用来检验具有相同方差的 2 个正态总体均值差的假设(使用matlab中的ttest2函数)。

例题见书209

ttest2 也可以做方差不相等的假设检验。

分布拟合检验

在实际问题中,有时不知道总体服从什么类型的分布,这就需要根据样本来检验关于分布的假设。

$\chi^2$检验法

$H_0$:总体 $x$ 的分布函数为 $F(x)$

$H_1$:总体 $x$ 的分布函数不是 $F(x)$

(如果此时 $F(x)$ 的形式已知但参数值未知,就需要先用极大似然估计法 估计参数,然后再做检验)

Author: iwannaeat
Link: https://iwannaeat.github.io/2020/02/16/【数学建模】第十章数据的统计描述和分析/
Copyright Notice: All articles in this blog are licensed under CC BY-NC-SA 4.0 unless stating additionally.