数据描述的第一个维度是数据的集中趋势描述。数据的集中趋势描述是寻找反应事物特征的数据集合的代表值或中心值,这个代表值或中心值可以很好反映事物目前所处的位置和发展水平,通过对事物集中趋势指标的多次测量和比较,还能够说明事物的发展和变化趋势。数据的集中趋势描述的形式主要有如下几种:
算术平均值是最常用的数据集中趋势指标,可以分为简单算术平均值和加权算术平均值。算术平均值主要用于定距数据,表示数据集合的集中趋势。也能用于定类数据和定序数据,决定算术平均值是否使用的前提条件是,求得的算术平均值是否具有现实意义。
简单算术平均值是最典型,最常用,最具有代表性的集中趋势指标。将数据集合的所有数据值相加的和除以数值个数就得到简单算术平均值。
因为简单算术平均值认为所有的数据都具有同等的重要性,所以每个数据值都具有相同的权重。但有些时候,每个数据值的权重是不一样的,需要用加权算术平均值来表示数据集合的集中趋势。
数学概念:
(1)若n个数 的权分别是 ,那么 叫做这n个数的加权平均值。
(2)此外,加权平均值也可用下图表示,其中 表示权数。理解方法:将原式看作 即可。
算术平均值虽然是应用最广泛的集中趋势指标,受样本数据波动的影响最小,具有一定的稳定性,但是也有明显的缺陷。当数据集合中有极大值或极小值存在时,会对算术平均值产生很大的影响,其计算结果会掩盖数据集合的真实特征,这时算术平均值就失去了代表性。
有些数据之间的关系不是加减关系,而是乘除关系。此时,应该用几何平均值来表示由这样的数值组成的数据集合的集中趋势。
定义:
几何平均数是n个变量值连乘积的n次方根。
分为简单几何平均数与加权几何平均数。
几何平均数示意图
特点:
1、几何平均数受极端值的影响较算术平均数小;
2、如果变量值有负值,计算出的几何平均数就会成为负数或虚数;
3、它仅适用于具有等比或近似等比关系的数据;
4、几何平均数的对数是各变量值对数的算术平均数。
数据集合中出现次数最多的数值被称为众数。如果在一个数据集合中,只有一个数值出现的次数最多,那么这个数值就是该数据集合的众数;如果有两个或多个数值出现的次数并列最多,那么这两个或多个数值都是该数据集合的众数;如果数据集合中所有数据值出现的次数相同,那么该数据集合没有众数。众数对定类数据,定序数据,定距数据和定比数据都是用,都能表示由它门组成的数据集合的数据集中趋势。
对于有限的数集,可以通过把所有观察值高低排序后找出正中间的一个作为中位数。如果观察值有偶数个,通常取最中间的两个数值的平均数作为中位数。
定义:
中位数,又称中点数,中值。中位数是按顺序排列的一组数据中居于中间位置的数,即在这组数据中,有一半的数据比他大,有一半的数据比他小,这里用 来表示中位数。(注意:中位数和众数不同,众数指最多的数,众数有时不止一个,而中位数只能有一个。)
有一组数据:
将它按从小到大的顺序排序为:
则当N为奇数时, ;当N为偶数时, 。
一个数集中最多有一半的数值小于中位数,也最多有一半的数值大于中位数。如果大于和小于中位数的数值个数均少于一半,那么数集中必有若干值等同于中位数。
特点:
1)中位数是以它在所有标志值中所处的位置确定的全体单位标志值的代表值,不受分布数列的极大或极小值影响,从而在一定程度上提高了中位数对分布数列的代表性。
2)有些离散型变量的单项式数列,当次数分布偏态时,中位数的代表性会受到影响。
3)趋于一组有序数据的中间位置
以上就是本篇文章【数据统计分析(3):数据的集中趋势描述】的全部内容了,欢迎阅览 ! 文章地址:http://dfvalve.xrbh.cn/news/245.html 资讯 企业新闻 行情 企业黄页 同类资讯 首页 网站地图 返回首页 迅博思语资讯移动站 http://keant.xrbh.cn/ , 查看更多