龙空技术网

数据分析|有哪些基本的统计学知识是鞋服人员应该了解的?

冷芸时尚博士 54

前言:

如今同学们对“数据离散程度的意义是什么”可能比较关心,朋友们都想要知道一些“数据离散程度的意义是什么”的相关文章。那么小编在网摘上搜集了一些对于“数据离散程度的意义是什么””的相关文章,希望同学们能喜欢,小伙伴们快快来学习一下吧!

以下的冷芸时尚圈讨论是就行业问题的讨论及总结。这些分享属于集体智慧的结晶。(它们并不代表冷芸个人观点)。希望通过此种方式能让更多行业人士受益!

描述性统计基本概念

1.平均值,中位数,众数

如果我们要做同类属性数据对比,要比较A和B店谁表现更好,怎么比较更好?有芸友提到了函数,函数就是基于统计学的。如果知道函数却不懂相应的统计学,那只能说明知其然而不知其所以然。大家回答了一些行业目前在用的方法,但都是有问题的做法。只能说,行业整体水平有待提高。

先和大家解释下标题这些数据的意思。然后请大家回复以下表格中,这3个数值应该是什么?

平均值(AVE):平均数。

中位数(MEDIAN):按从小到大排列,排在最中间位的数字。这里给大家一个小测试,如果一组数据的数量正好是偶数,怎么计算中位数?

众数(MODE):出现频次最高的数字。

(图片来源:庄主提供)

这个EXCEL表格大家可以试试在5分钟以内计算这两组数据“销量”的平均数,中位数和众数。

我是想以这种方式告诉大家数据怎么对比。因为行业里大家经常做对比,但现在对比只有数量和金额对比,其实很片面。数据比较才有意义,并且如果只有一组数据也是没有意义的。大家对比以后再看,假如这个是不同品类的SKU销量,哪组数据表现更好?

2.方差、标准方差、极差

方差的公式,原理非常简单,就是把每个数值和平均值相减,平方,总和,再除以N(总共多少个数据)。方差在EXCEL里,用的是VARIANCE。我演示下给大家就明白了。

(图片来源:庄主提供)

大家看下这个表格,能不能理解?大家不要先把它想得难度,自己假设很难,就会觉得很难。本质上,它们都是很简单的计算。

大家知道为什么要平方和吗?大家可以统计下不做平方和的数据结果是什么?不要算平方,直接算-0.75-0.75+0.25+1.25=?

再来看看标准方差。标准方差就是在方差基础上直接开根号即可。标准方差EXCEL用STDEV。

为什么有了方差,还要标准差?因为方差是平方数,和实际数据还是有相差的,很难进行数据比较。所以再平方根一下,这样和实际数据的离散程度就比较真实。方差和标准差都是为了看数据的离散程度。大家知道何为数据的离散程度吗?

离散程度大的意思就是,各个数值离平均值的距离远近不一。数据比较分散。

(图片来源:鸿网互联)

看这两张图,哪个离散程度大?

大家可以为两组数据计算方差,标准方差和极差,然后再比较数据,就能明白为什么这组数据那么重要(虽然鞋服公司几乎不用它)。

离散数据可能是什么原因造成的呢?请大家再比较下两组数据,假如这两个数据来自两个品类,我们要评估哪个品类表现更好,是否看得出他们谁表现更好?还是各有千秋?

大家有没有发现,第二组数据是第一组数据极差几乎两倍?这说明了什么?说明第二组的平均数是靠个别高销量款拉高的,其实有个别款表现比第一组差很多。所以其实不能简单下结论,第二组产品线一定比第一组表现好。

另外,极差和方差还能帮我们找到异常值。比如如果极差太大,有可能是人工输入错误等等。但检查异常值也还有其他更好的方法,所以千万不要被经验所蒙蔽。

从数据分析来说,我刚才给大家的一组数据,是“描述性”统计,是在做数据分析时最基本的手段。

描述性统计除了让我们了解业务基本面包括但不仅限于做数据比较(比如店铺与店铺,与竞品比较等),也是数据分析过程中清洗、整理数据的一种方法。通过这个方法发现异常值或者缺失值等。同时也是做预测分析的基础。

3.连续性数据变量与离散型数据变量

大家看看表格中的两组数据,哪组是连续性变量,哪组是离散型?

(图片来源:庄主提供)

这两组数据类型是一致的。离散可以是小数,只是有限而已。去理解这两组数据类型最简单的方法是想象一个坐标横轴,类似这种:

(图片来源:庄主提供)

连续性变量:比如上面这个横轴,0-1之间,有无数种数值的可能,比如0.01,0.0001,在数据和数据之间所有的数据都可能是数值,这就是连续变量。

离散变量:则是在数值与数值之间,只有有限的数值。比如,在0和1之间,只有0和1,数据是有限的。

大家可以看看表格中,哪些是离散型变量?哪些是连续性变量?

销量的数值,是有限,还是可能无限的呢?销量不会是无限的。它只可能是1,2,3,不可能是1.1, 1.111,诸如此类。销量是离散型数据,而金额是连续的。因为销量只可能是整数,不可能是小数点,所以它是有限的数量。这个结合坐标轴看,最有意义。

我们为什么要了解这个数据类型,因为它们后期涉及的统计方法(比如做概率预测)不太一样。不过我们这次并不会涉及,大家可以自学下。概率预测也是很有用的方法论,等我新书出来,大家可以关注下。

4.概率

(图片来源:庄主提供)

平均值概率,其实也很好理解。这里的销量占比,大家知道怎么计算的吗?

我们其实可以从概率学来理解这个数据。比如第一个产品数据,RA14041362,可以理解为,如果我们卖了100件产品,有15%的概率卖的是这款产品。

这个主要帮我们做什么呢?除了了解当下产品的销售状况,也能帮我们预测同类产品未来的销售概率,对预测很有帮助。这个也有专门的公式,但是涉及稍微复杂的统计学知识,所以今天也不展开说明。但是大家可以网搜或者买书看,今天我最主要还是和大家分享些基本概念,给大家一些启发和工具。

现在预测模型也有现成的,不少公司的订货和促销都是用数据模型做的了,所以也不需要买手来做。但预测模型也会需要人工做评估的。大家可以了解下预测模型是怎么做的,就知道为何一线企业都在开始做自己的数据模型来做销量预测。

预测当然不是万能的,所以如果大家仔细咀嚼,我前面用的是‘概率”二字。我们做的一切预测,都是为了提高更大的概率。预测当然不是万能的,但肯定比传统时代人工拍脑袋决策有意义得多了。没有什么工具是绝对有用的,因为还取决于你具体如何使用工具,还取决于人的判断力。但是,数字化对比过去传统时代大家拍脑袋(凭所谓的经验)做事,肯定是进步的。

5.四分位与五分位数

这两组数据对平时分析也很有用。“四分位数(Quartile)也称四分位点,是指在统计学中把所有数值由小到大排列并分成四等份,处于三个分割点位置的数值。多应用于统计学中的箱线图绘制。它是一组数据排序后处于25%和75%位置上的值。”(本段来自百度百科。)

五分位数逻辑一样,只是把数据由小到大排列并五等份,处于4个分割点数值。20%-40%-80%-100%

那么它的意义何在呢?这里就再给大家介绍一个箱型图概念,非常有用。

箱型图制作方法如下(大家都练习下,光看无用)。选好要分析的数据,“插入”——“推荐的图表“, 找到箱型图,就会看到和我这里一样的图片。大家先做出来,我们再解释它的意义。

(图片来源:庄主提供)

具体应用

1.重点做零售数据比较

大家看下这个箱型图,比较下数据。大家看看这两张图对比,有哪些信息?

(图片来源:庄主提供)

可以看出,右图主要有几个特点:

1)它的异常值虽然只有1个,但是远高于左图。所以大概率它的平均值是由这个异常值拉高的。首先,要查两组异常数值的原因——是人工错误?还是什么原因造成异常?其次,去掉异常数据再进行比较,看看究竟哪组数据表现更好。

2)对比上限、下限、中位数、四分位数,看看差异。比如右图数据明显数量偏高,就是卖的数量普遍比左图的多。左图上下限是1和14,右图是4和34。左图25%的数据是9件,右图是27件。中位数也是右图更高。75%的数据也是右图更高。去掉异常数据,右图还是表现更好些,但右图离散程度也更高(矩形的高度更高)。

这样来做数据对比很直观,也是能发现异常值的好方法。

芸友佾瞳有一个问题:有的产品的单量就是下得很大,整体数据肯定表现更好,但是纯看销量不能武断说它就是好款,因为还会受到打折等等一些手段的影响。还可以辅助什么指标来判断呢?比如售罄率?折扣率?

对于这个具体问题,我提出的第一个问题是“好”的定义是什么?这个是按企业的战略目标去定义的。所以一般注重数据分析的企业都会有一套指标体系。它们就好像我们体检报告,针对标准指标就看得出企业经营状况的好坏。

所以回答芸友问题,我的问题是企业内部有没有衡量好坏的指标体系?

文字整理:张怀楷

文字编辑:陈畅

美术编辑:李宁

标签: #数据离散程度的意义是什么