最近正在进行ETL后台系统数据的日志分析,查看运行耗时长的TASK,并找出耗时长的JOB,进行逻辑层面和数据库层面的优化.本文仅从数据库层面上的优化着手(包括SQL语句的调整以及greenplum table dk的调整).查看一个耗时30分钟左右的JOB,找到相应的源表,进行如下分析 ...
. 打开数据,依次选择 分析 gt 描述统计 gt 探索 . 将要分析的变量选入因变量列表 . 单击 探索中的 图 对话框中勾选 直方图 贺 含检验的正态图,单机继续 . 选择显示 两者,这里的两者指的是同时显示 统计表以及 统计图,单击确定。 . 此时会输出数据的缺失情况 描述统计 直方图 Q Q图以及箱线图,其中箱线图中会标注出离群值情况。 参考资料: https: www.sohu.com ...
2021-05-21 10:47 0 4324 推荐指数:
最近正在进行ETL后台系统数据的日志分析,查看运行耗时长的TASK,并找出耗时长的JOB,进行逻辑层面和数据库层面的优化.本文仅从数据库层面上的优化着手(包括SQL语句的调整以及greenplum table dk的调整).查看一个耗时30分钟左右的JOB,找到相应的源表,进行如下分析 ...
以下内容摘自:公众号- SPSS生活统计学 保存做复习之用。 峰度(Kurtosis) 峰度是描述总体(样本)中所有取值分布形态陡缓程度的统计量。通过计算可以得到峰度系数,峰度系数与分布形态的关系是: 峰度系数=3,扁平程度适中; 峰度系数<3,为扁平分布; 峰度系数> ...
最近看资料时总是会看到箱形图, 上大学时候曾经学过这个东西,不过这么多年也都忘记差不多了,正好借这机会再次学习学习。 箱型图: 主要包含六个数据节点,将一组数据从大到小排列,分别计算出他的上边缘,上四分位数Q3,中位数,下四分位数Q1,下边缘,还有一个异常 ...
在 Doris 中,数据都以表(Table)的形式进行逻辑上的描述 名词解释 数据分布:数据分布是将数据划分为子集, 按一定规则, 均衡地分布在不同节点上,以期最大限度地利用集群的并发性能 短查询:short-scan query,指扫描数据量不大,单机就能完成扫描的查询 长查询 ...
1、读取数据 2、查看数据基本特征 3、绘制图形 在直方图的基础上画一个真正的正态分布的图与绘制QQ图 5、检验是否符合正态 这个正态分布的假设检验的零假设当然就是分布是正态分布的。结果我们发现,p-value很大,所以我 ...
更详细的资料请看课程的课程资料哦! 数据分析的三大类型: 探索型:简单点说就是画图 验证型 预测型 探索型:数据收集—>数据处理—>数据清理 数据处理和数据清理是通过探索型的图表来进行相互对照,可以进行多次的 探索型数据分析作用: 通过探索型 ...
1.离解数据与离散分布 离解数据通常是那些只能用整数表现的数据。比如某省的人口数,宇宙中单位体积内的星球个数等。 1.1统计中常见的描述离散型数据的离散分布: 1.退化分布:一个随机变量X以概率1取某一常数,即 P{X ...
1.什么是峰度与偏度? 峰度(kurtosis)是描述分布形态的陡缓程度。表征概率密度函数分布曲线在平均值处峰值高低的特征数。用bk表示。直观看来,峰度反映了数据尾部 厚度。 在相同的标准差下,峰度系数越大,分布就有更多的极端值,那么其余值必然要更加集中在众数周围,其分布必然 ...