统计学笔记-描述性统计


1.描述性统计

1.1基础

1.1 .1数据的类型

定义:数据是为了描述和解释所搜集、分析、汇总的事实和数字

数据相关概念:

  • 个体(记录,行,观测值):指搜集数据的实体,比如一个人及其各个特征;

  • 变量(列,特征):个体中感兴趣的特征,如人的身高、体重等;、

  • 总体:关心的全部数据是总体;

  • 样本:为了方便研究从总体中抽取的部分个体组成的对象;

数据的类型:

按不同的分类标准:

  • 按测量尺度的不同

    • 名义尺度:不可比较大小的文字或数值,如性别:男、女

    • 顺序尺度:用文字或数值表示,可比较大小但是不能进行四则运算,如学历:小学,中学、大学

    • 间隔尺度:可以用一定固定的度量单位表示数值之间的间隔,可以排序且差值是有意义的,如六年级、五年级、四年级等,可以相减,但比值无意义

    • 比率尺度:具有间隔数据的所有性质,且数据之比是有意义的,如身高、体重等

  • 按是否连续

    • 连续型变量:包括间隔尺度和比率尺度

    • 离散型变量:包括名义尺度(可以onehot)和顺序尺度

  • 按是否有时间变量

    • 截面数据:在相同或近似同一时间点上搜集的数据

    • 时间序列数据:在不同时期搜集到的同一类数据

1.1.2数据的来源

  • 现有数据:内部数据、外部公共渠道获得或专业渠道购买的数据

  • 通过统计研究获取的数据:如医学、生物学实验数据等,或抽样调查等

获取到的数据可能存在误差或错误,一定要检查

误差的类型包括:<!--可能有错误-->

  • 抽样误差:由于抽样过程或抽样设计产生的误差

  • 非抽样误差:其他原因产生的误差

1.1.3 统计研究内容

统计研究内容包括:描述性统计、统计推断、预测

统计推断三大核心:抽样分布、参数估计、假设检验

统计预测:线性回归、时间序列预测、指数合成

1.2描述性统计(图形)

  • 单个变量(展示数据分布)

    • 分类变量:

    图形(表):

    频数分布表(频率分布表、百分比频率分布)、柱图(条形图)、饼图,

    用法:

    柱图和条形图选择:类别多时用条形图

    饼图和柱图(条形图选择):一般用柱图(条形图),除非特别强调比重

    • 连续变量(数值型):

    图形(表):

    频数分布表(频率分布表、百分比频率分布)、直方图、累积频数分布(累积频率分布、累积百分比频率分布)、茎叶图、打点图,

    用法:

    一般不用后两个

    频数分布表是分组后计算的,分组的方法有多种,最基本的是:等宽法(固定组距),计算每组的上下限,然后统计组频数。

    累积分布,累积分布用的不多,但是在QQ图(判断数据的正态性)中有使用,ROC-AUC曲线的原理中也有用到。

    连续型数据直方图类似于分类数据的柱图,只是因为数据连续,所以不同柱子之间不分开。

  • 两个变量

    • 交叉分组表、散点图和趋势线、复合条形图、堆积条形图和百分比堆积条形图、时间序列图(折线)

      交叉分组表,行、列分别表示两个变量类别,交叉点的数据为满足对应行列的统计量、可以是频数、也可以是频率或百分数,

      辛普森悖论:从两个或多个交叉分组表得到的结论与从一个交叉分组表得到的结论可能截然相反,遇到这种情况时,要审查交叉分组表是综合形式还是未综合的形式,对综合形式的表要审查其中是否存在可能影响结论的隐藏变量。

      下面是某餐厅一周的评价数据:

      preview

      下面是拆开后的数据:

      preview

      preview

      从综合评价看,B餐厅更好,但是从分开午餐和晚餐看,都是A餐厅更好

      这是一个加权平均的trick,A餐厅在【84%,89%】,B餐厅在【81%,88%】之间。

      散点图和趋势线:

      散点图用来展示两个变量之间的关系,趋势线是显示线性相关性的一条直线;相关不一定线性相关;

      复合条形图(堆积条形图、百分比堆积条形图):一般不用,看起来太不直观

      时间序列图:

      横坐标是时间,纵坐标是指标值。

       

1.3 描述性统计(指标)

主要介绍位置、离散程度、形态和相关程度的度量。

如果数据来自样本,计算的度量为样本统计量;如果数据来自总体,则计算的度量称为总体参数。在统计推断中,样本统计量是响应总体参数的点估计值。

  • 位置的度量

    • 平均数:易受极端值的影响

    • 加权平均数:各个样本权重不一致时使用

    • 几何平均数:一般计算年均增长时使用。

    • 中位数:处于中间位置的数或两个中间位置的平均数,在数据中有极端值时,用中位数衡量数据的集中趋势更好。

    • 分位数:四分位数、百分位数,一般四分位数用的比较多,

    • 众数:集合中数量最多的数据,一般对离散型变量

  • 离散(变异)程度的度量:

    • 极差:最大值-最小值,易受极端值的影响

    • 四分位间距:IQR=Q3(75%分位数)-Q1(25%分位数),

    • 方差:依赖于每个观测值和平均值之间的差异,量纲为原有量纲的平方。

    • 标准差:方差正的平方根。

    • 标准差系数(变异系数):标准差/平均数,

  • 形态的度量

    • 偏度:相对于均值的对称程度,

      • 左偏:平均数<中位数,偏度为负值;此时,左侧有极小值,极小值会使平均数小于中位数

      • 右偏:平均数>中位数,偏度为正值;右偏说明有极大值,极大值会使平均数大于中位数

      • 对称分布:平均数=中位数,偏度为0.

    • 峰度:与正态分布相比,尖峰值更大则为正,否则为负;正态分布峰度值为0。

  • 相对位置的度量:

    • z-score:(样本-平均数)/标准差,衡量样本和均值的距离有多少个标准差,无量纲,不同总体可比较。

    切比雪夫定理:与平均数距离在z个标准差的数据项所占的比例至少为

     

    特殊的,如果数据服从或近似服从正态分布时:

    • 大约68%的数据与平均值的距离在一个标准差内;

    • 大约95%的数据与平均值的距离在两个标准差内;

    • 几乎所有的数据与平均值的距离在三个标准差内。

    异常值的检测

    • 利用四分位间距:Q1-1.5*IQR,Q3+1.5*IQR范围内正常,超过这个范围的则判定为异常值

    • 利用3sigma原则:对于近似正态分布的数据,由于所有数据与平均值的距离都在3个标准差内,所以z-score大于3或小于-3的所有数据可视为异常值。

  • 五数法和箱型图:

    五数:采用Q1-1.5*IQR、25%分位数、50%分位数(中位数)、75%分位数、Q3+1.5*IQR,这五个数来刻画数据的分布情况

    采用箱型图展示,

  • 相关程度的度量

    • 协方差:衡量两个变量的线性相关程度,但是会受到数值本身的影响

    • 相关系数:协方差的标准化,不会受到数值本身的影响,范围在【-1,1】之间,-1表示完全负相关,1表示完全正相关。

    •  

 


免责声明!

本站转载的文章为个人学习借鉴使用,本站对版权不负任何法律责任。如果侵犯了您的隐私权益,请联系本站邮箱yoyou2525@163.com删除。



 
粤ICP备18138465号  © 2018-2025 CODEPRJ.COM