一、什么是箱形图
箱形图(Box-plot)又称为盒须图、盒式图或箱线图,是一种用作显示一组数据分散情况的统计图。因形状如箱子而得名,它特别适用于比较不同数据集的分布情况。这种图表通过箱体和须线来展示数据的四分位数和极端值,从而帮助用户快速理解数据的中心倾向、变异性以及是否存在异常值。
箱形图由以下几个关键部分组成:
最小值(Minimum):数据集中的最小值,但不包括被识别为离群值的数据点。
下四分位数(Q1):数据集被分为四等份时,处于下25%位置的数值。
中位数(Median):数据集的正中间值,即将数据集分为完全相等的两部分的值。
上四分位数(Q3):数据集被分为四等份时,处于上25%位置的数值。
最大值(Maximum):数据集中的最大值,同样不包括被识别为离群值的数据点。
箱须(Whiskers):连接下四分位数和最小值、上四分位数和最大值的线段,但通常不包括超出这些范围的离群值。
离群值(Outliers):那些远离数据集中大多数值的点,通常以星号(*)或其他符号单独表示。
平均值(Mean,可无):数据集的平均数。
值得注意的是,每个须线包含分布的24.65%,而不是精确的25%。箱形图将超出须线的观测值视为离群值。
二、阅读箱形图的步骤
(一)识别中位数:
中位数是箱形图中最重要的参考线,它表示数据集的中心位置。
观察不同组别的中位数,可以比较各组数据的中心倾向。
(二)观察四分位数:
下四分位数和上四分位数分别表示数据集的四分之一和四分之三位置。
通过四分位数,可以了解数据的分布范围和集中程度。
(三)注意箱须长度:
箱须的长度反映了数据的变异性和分散程度。
较长的箱须表示数据分布较广,变异性较大;较短的箱须则表示数据分布较集中,变异性较小。
(四)识别离群值:
离群值是那些远离数据集主体部分的点,它们可能对数据分析结果产生显著影响。
注意离群值的存在,并考虑它们是否对分析结论产生重要影响。
(五)比较不同组别:
如果箱形图用于比较不同组别的数据分布,可以观察各组别的中位数、四分位数和箱须长度等特征。
通过这些特征的对比,可以了解各组别数据之间的差异和相似性。
三、箱形图的优点
直观性:箱形图以图形的形式直观地展示了数据的分布情况,便于理解和分析。
简洁性:箱形图通过少量的统计量(如中位数、四分位数等)就能概括数据的分布特征,避免了大量原始数据的繁琐展示。
鲁棒性:箱形图对异常值不敏感,能够稳定地展示数据的主体部分特征。
四、注意事项
样本量:当样本量较小时,四分位数的估计可能不够准确,此时箱形图的效果可能受到影响。
离群值的处理:离群值可能是数据错误或极端情况的反映,需要根据实际情况进行甄别和处理。
比较标准:在比较不同组别的箱形图时,需要确保各组别的数据具有相同的度量标准和可比性。
五、如何利用EXCEL进行制作
随机生成了一堆数据。
(一)如果你的EXCEL是2016及以上版本
1.选中所有数据,在EXCEL中单击“插入”>“插入统计图表”>“箱形图”。
或者在“所有图表”的选项下选择“箱形图”。
2.双击某个箱体,在右侧根据自己的需要对箱体颜色等进行调整。
(二)如果是其他版本的EXCEL
1.利用QUARTILE或QUARTILE.INC计算几个关键点的数据
(1)利用QUARTILE函数
最小值:=QUARTILE(B2:B19,0)
下四分位:=QUARTILE(B2:B19,1)
中位数:=QUARTILE(B2:B19,2)
上四分位:=QUARTILE(B2:B19,3)
最大值:=QUARTILE(B2:B19,4)
(2)利用QUARTILE.INC函数
最小值:=MIN(B2:B19)
下四分位:=QUARTILE.INC(B2:B19,1)
中位数:=QUARTILE.INC(B2:B19,2)
上四分位:=QUARTILE.INC(B2:B19,3)
最大值:=MAX(B2:B19)
2.计算四分位差值
3.创建堆积柱状图
(1)选中所有数据,然后单击“插入”>“堆积柱形图”>“插入柱形图”
图表这里不类似于盒装图,因为默认情况下 Excel 水平数据集而不是垂直数据集绘制堆积柱形图。
(2)若要反转图表轴,请右键单击图表,然后单击"选择数据",单击"切换行/列"。这里隐藏了图例。
4.将堆积柱形图转化为盒状图样式
隐藏数据
若要将堆积柱形图转换为盒装图,首先隐藏底部数据系列:
(1)选择列的底部部分,双击打开“格式”面板。
注意: 单击单个列时,将选择同一系列的所有实例。
(2)“格式选择”位于“格式”选项卡中。
在"填充"选项卡上的"正式"面板中,选择"无填充"。
底部数据系列在图表中处于隐藏状态。
在此图中,底部数据处于隐藏状态。
为箱形图创建箱形
下一步是使用线条或须线替代蓝色区域的最顶端和橙色区域的次下端区域。
(3)选择最顶端的数据系列。在"填充"选项卡上的"正式"面板中,选择"无填充"。在功能区中,单击"设计">"将图表元素>误差线>标准偏差。
单击绘制的误差线之一。在"格式"面板中打开"错误栏选项"选项卡,并设置以下内容:
将方向设置为减号。
将结束样式设置为"无上限"。
对于错误量,将"百分比"设置为100。
为次从下到下的数据系列重复上述步骤。
堆积柱形图现在应开始类似于盒装图。
为中间区域着色
(4)箱形图通常以一种填充颜色绘制,轮廓边框略带轮廓。 以下步骤介绍如何完成布局。
选择箱形图的顶部区域。
在"格式"&的"填充线条"选项卡上,单击"纯色填充"。
选择填充颜色。
在同 一选项卡上 单击"实线"。
选择轮廓颜色和笔划 宽度。
为箱形图的另外一些区域设置相同的值。
最终结果应如箱形图一样。
5.为画好的箱形图添加平均值
(1)计算平均值
利用AVERAGE函数计算三所学校的平均值
(2)为画好的箱形图增加平均值数据
右键单击图表,然后单击"选择数据",将平均值那行数据加入数据源中,单击“确定”
(3)修改图表类型
在“设计”选项中单击“更改图表类型”,选择“组合”,并将平均值系列图表类型改为“散点图”,点击“确定”
(4)美化图表
双击圆点,打开“设置数据系列格式”面板,单击“标记”,选择“内置”,可以修改散点的样式
最终做好的箱形图如下所示。
评论 (0)