在概率论中,我们引入了事件这一概念,它表示试验的结果。这个结果有时是一个数值,如投掷一枚骰子,结果可能是1、2、3……;有时是用文字描述的,如检验一个产品,结果可能是合格、不合格。
为了方便数学上的处理,我们需要将随机事件进行数量化,如将合格指定为0,不合格指定为1。经过这样的处理后,随机事件就可以用一个数量标识$X$来表示,如某次检验的可能结果为合格和不合格,则$X$的可能取值为0(代表合格)和1(代表不合格)。
随机变量、概率函数
一次试验有n种结果,则$X$的可能取值有$x_1,x_2,...,x_n$,且每个值对应的概率为$P(x_1),P(x_2),...,P(x_n)$,其中$P(x_i)=P(X=x_i)$。我们把这样的数量标识$X$称为$P(X)$的随机变量,$P(X)$称为随机变量$X$的概率函数。
各随机事件对应一定的概率,随机变量也对应于一定的概率,随机变量可视为随机事件的推广。随机变量可分为2类:离散型随机变量和连续型随机变量。
离散型随机变量
如果随机变量$X$的取值可以列举出来,则称$X$为离散型随机变量。
离散型随机变量的概率分布
设$X$的可能取值为$x_1,x_2,...,x_n$,对应的概率为$p_1,p_2,...,p_n$,如下表所示:
这样的表格就是$X$的概率分布,其中$P(X=x_i)=p_i$是$X$的概率函数。
离散型随机变量的期望值和方差
对于一个随机变量$X$,我们当然希望知道它的概率分布(如上面的表格),但这是比较困难的,在很多情况下,我们只需要知道它的某些数字特征就足够了。而在这些数字特征中,最重要的就是期望值和方差。
期望值
期望值的定义:
随机变量$X$的完备事件组中,各可能值$x_i$与其概率$p_i$的乘积之和,称为该随机变量的期望值,记为$E(X)$或$\mu $。
期望值可以表示随机变量的集中程度,离散型随机变量$X$的期望值为:
$$E(X)=x_1p_1+x_2p_2+\cdots +x_np_n=\sum_{i=1}^{n}x_ip_i$$
方差
方差的定义:
每一个随机变量的取值与期望值的离差平方和的期望,称为方差,记为$D(X)$或$\sigma ^{2}$:
$$\sigma ^{2}=D(X)=E\left [ X-E(X) \right ]^2$$
常用的简化公式:
$$\sigma ^{2}=D(X)=E(X^2)-\left [ E(X) \right ]^2$$
方差可以反映随机变量的离散程度,离散型随机变量$X$的方差为:
$$\sigma ^{2}=D(X)=\sum_{i=1}^{n}\left [ x_i-E(X) \right ]^2\cdot p_i$$
标准差
$$\sigma =\sqrt{D(X)}$$
离散系数
标准差与期望值之比,用于比较不同期望值的总体之间的离中趋势:
$$V=\frac{\sigma }{E(X)}$$
常见离散型随机变量的概率分布
二项分布
- n重伯努利试验
- 概率函数:
$$P\left \{ X=x \right \}=C_{n}^{x}p^xq^{n-x},x=0,1,2,\cdots ,n$$
- 期望值:
$$E(X)=np$$
- 方差:
$$D(X)=npq$$
- 特别地,当n=1时,二项分布转化为0-1分布
泊松分布
- 描述在指定时间范围内或在指定的面积或体积内,某事件出现的次数的分布
- 概率函数:
$$P(X)=\frac{\lambda ^xe^{-\lambda}}{x!},x=0,1,2,\cdots$$
- 期望值:
$$E(X)=\lambda$$
- 方差:
$$D(X)=\lambda$$
- 当$p$很小,$n$很大时,二项分布可近似为泊松分布($\lambda=np$)
连续型随机变量
如果随机变量$X$的取值无法逐个列举出来,而是取数轴上某一区间的任一点,则称$X$为连续性随机变量。
概率密度、分布函数
我们知道在离散型随机变量中,有一个表格来描述其概率分布,但是在连续型随机变量中,是无法一一列举出每个取值以及相应的概率的,那么如何描述连续型随机变量的概率函数呢?
首先介绍一个概念叫概率密度函数$f(x)$,它满足2个条件:
(1)$f(x)\geq 0$
(2)$\int_{-\infty }^{+\infty }f(x)dx=1$
有了概率密度函数之后,我们引入了分布函数$F(x)$这一概念,它定义为:
$$F(x)=P(X\leqslant x)=\int_{-\infty }^{x}f(t)dt,-\infty< x< + \infty $$
要注意,$f(x)$并不是一个概率,其曲线下面积(积分)才是概率,$F(x)$表示随机变量$X$的取值在$(-\infty ,x)$范围内的概率。概率密度函数和分布函数的引入非常有意义,它使得我们可以在概率论中运用微积分这一重要的工具了。
连续型随机变量的期望值和方差
1.期望值
$$E(X)=\int_{-\infty }^{+\infty}xf(x)dx=\mu$$
2.方差
$$D(X)=\int_{-\infty }^{+\infty}\left [ x-E(x) \right ]^2f(x)dx=\sigma ^2$$
正态分布
在所有的连续型随机变量中,有一种叫正态随机变量,其概率分布称为正态分布,它是最重要的连续分布。
随机变量$X$服从正态分布,记作$X\sim N(\mu,\sigma^2)$,它有2个参数$\mu$和$\sigma$,概率密度函数是:
$$f(x)=\frac{1}{\sigma \sqrt{2\pi}}e^{-\frac{1}{2\sigma^2}(x-\mu)^2},-\infty<x<+\infty$$
标准正态分布
当正态分布的2个参数,$\mu=0,\sigma=1$时,称$X$服从标准正态分布,$X\sim N(0,1)$,概率密度函数为:
$$f(x)=\frac{1}{\sigma \sqrt{2\pi}}e^{-\frac{x^2}{2}},-\infty<x<+\infty$$
$\varphi(x)$表示概率密度函数,$\Phi(x) $表示分布函数,图形如下:
标准正态化
将任意一个正态分布经线性变换转化为标准正态分布,设$X\sim N(\mu,\sigma^2)$,则
$$Z=\frac{X-\mu}{\sigma}\sim N(0,1)$$
正态分布表
标准正态分布可以查表,对于负的$x$,由下式转换:
$$\Phi(-x)=1- \Phi(x) $$