统计学两天课程笔记(12.19-12.20)

分类

描述统计

对已有信息的梳理

推论统计

推论统计学是指在统计学中,研究如何根据样本数据去推断总体数量特征的方法。它是在对样本数据进行描述的基础上,对统计总体的未知数量特征做出以概率形式表述的推断。更概括地说,是在一段有限的时间内,通过对一个随机过程的观察来进行推断的。

少数 ——> 多数
局部 ——> 总体

两者共同点:从混乱中找出规律。

思考

何为数字化?何为信息化?

数字化是颠覆;
信息化不改变原有性质,只是将其搬到线上。

理解一句话

统计学不会说谎,别有用心的人会说谎。

获取知识的途径

  • 权威
  • 观察
  • 推理
  • 科学实验

一句话

想成为任何领域的专家都离不开统计学。

统计会帮助我们

  1. 提升批判性思维
  2. 更好揭露事实

对照

对照是统计的核心

没有对比就没有结论

现实生活变异无处不在

黑天鹅

置信度

信心、把握

两种事件

独立事件

两个事件没关系。

独立事件可用概率乘法

互斥事件

两个事件相互排斥,有我没你。

互斥事件可用概率加法

互斥事件一定不是独立事件。

一些名词

总体

样本

参数

对应总体

μ

总体平均值

统计量

描述样本特征的数值

×

样本平均值。X头上有一横,读 X爸?

统计量与样本之间的差异叫做抽样误差。

数据类型(统计力由弱到强 )

类别数据

仅仅用于区分和识别,无顺序(就数数)

频次

绝对 => 次数
相对 => 比率

顺序数据

单位间:

  • 无相同价值
  • 有相同价值

可向上、向下累加

等距数据(有相同价值)

零点人为规定的,只能加减。

如:学生成绩(0分不代表没有)

等比数据(有相同价值)

零点表示没有,可加减可乘除。

如:0°C、海平面

离散数据

独立的数据

连续数据

代表一个范围

分组

  1. 求全距(最大值 - 最小值)
  2. 定组数
  3. 定组距(全距/组数,有余数向上取整。)
  4. 写出组限(即每组的范围 最小值落到最小组,最大值落到最大组;组下限最好能整除组距。

直方图

直方图(Histogram),又称质量分布图,是一种统计报告图,由一系列高度不等的纵向条纹或线段表示数据分布的情况。 一般用横轴表示数据类型,纵轴表示分布情况。

直方图是数值数据分布的精确图形表示。 这是一个连续变量(定量变量)的概率分布的估计,并且被卡尔·皮尔逊(Karl Pearson)首先引入。它是一种条形图。 为了构建直方图,第一步是将值的范围分段,即将整个值的范围分成一系列间隔,然后计算每个间隔中有多少值。 这些值通常被指定为连续的,不重叠的变量间隔。 间隔必须相邻,并且通常是(但不是必须的)相等的大小。

直方图与条形图的差别?(重要)

直方图类型

正态分布

均匀分布

J型分布

反J型分布

正偏态分布

反偏态分布

双峰分布

U型分布

研究数据关心的两点

  • 平均值(中心位置)
  • 变异量/分散性(离散)

三种数

平均数(M)

平均数离两边距离总相等;
平均数是距离的中心;
所有的值加常数C和乘常数C,平均数也跟着加和乘常数C;
离均差(距离平均数的差值)和等于0。 (∑ 加和符号

中位数(Md)

顺序从小到大,位于中间的数

奇数个数,取两个中位数和除2

中位数是一组数据的位置中心。

存在极端情况下,中位数总能更好地反映数据的中心位置。

存在不确定值、空端分布、极端情况,请使用中位数。

众数(M0)

出现最多的数,双峰时两个数都要报告。

数据分布类型与三者间的关系

  • 正态分布:三者相等
  • 正偏态分布:M > Md > M0
  • 负偏态分布:M < Md < M0

偏态分布下,Md离M较近,而离M0较远。

图片

加权平均数
几何平均数


本博客所有文章除特别声明外,均采用 CC BY-SA 4.0 协议 ,转载请注明出处!