热线电话:13121318867

登录
首页大数据时代【CDA干货】JMP 绘制箱线图:从数据分布可视化到深度统计分析
【CDA干货】JMP 绘制箱线图:从数据分布可视化到深度统计分析
2025-10-28
收藏

箱线图(Box Plot)作为展示数据分布的核心统计图表,能直观呈现数据的中位数、四分位数、离散程度与异常值,是质量控制、实验分析、市场调研等领域的 “基础分析工具”。而 JMP 作为专业的统计分析软件,不仅能快速绘制标准箱线图,更通过 “统计集成 + 动态交互” 功能,让箱线图从 “静态展示” 升级为 “可探索、可验证的分析载体”—— 无需切换工具,即可完成 “分布可视化→异常值定位→组间比较→统计检验” 的全流程分析。本文将系统讲解 JMP 绘制箱线图的实操方法、特色功能与实战应用,帮助分析师最大化挖掘数据分布价值。

一、先懂 “箱” 再画 “图”:箱线图的统计意义与 JMP 优势

在使用 JMP 绘制箱线图前,需先明确箱线图的核心组成与统计含义 —— 这是后续解读结果的基础;同时理解 JMP 相比 Excel、Python 等工具的独特优势,才能充分发挥其价值。

1. 箱线图的核心组成:5 个关键统计量

箱线图通过 “箱体 + 须 + 异常值” 的组合,浓缩展示数据分布的关键信息,标准结构包含 5 个核心统计量(以 “销售额数据” 为例):

  • 箱体:代表数据的 “中间 50%”(四分位距 IQR=Q3-Q1),箱体长度越短,数据越集中;

    • 箱体下沿(Q1):第 25 百分位数,25% 的数据小于该值;

    • 箱体上沿(Q3):第 75 百分位数,75% 的数据小于该值;

    • 箱体中线(Median):第 50 百分位数(中位数),数据分布的中心位置,比均值更抗异常值影响;

  • 须(Whiskers):代表数据的 “合理范围”,JMP 默认按 “1.5×IQR 规则” 计算:

    • 下须:max(最小值,Q1-1.5×IQR);

    • 上须:min(最大值,Q3+1.5×IQR);

  • 异常值(Outliers):超出 “须” 范围的数据点,JMP 中用 “圆点” 标记,需重点分析(如是否为数据错误或特殊事件)。

例如:某产品的销售额箱线图中,中位数为 50 万元,Q1=30 万、Q3=70 万(IQR=40 万),下须 = 30-1.5×40= -30(取最小值 10 万),上须 = 70+1.5×40=130 万,超出 130 万的销售额即为异常值(可能是大订单或数据录入错误)。

2. JMP 绘制箱线图的 4 大核心优势

相比 Excel(需手动计算四分位数)、Python(需代码调试样式),JMP 在箱线图绘制与分析上的优势尤为明显:

  • 统计自动化:自动计算中位数、四分位数、异常值,无需手动处理,支持直接导出统计报告;

  • 交互性强:点击箱线图的任意元素(如中位数线、异常值),可直接查看对应原始数据、筛选子集或进行假设检验

  • 分组灵活:支持多维度分组(如 “区域 + 月份” 双分组),快速对比不同类别数据的分布差异;

  • 功能集成箱线图可与 “直方图、正态性检验、方差分析” 等功能联动,无需切换窗口即可完成深度分析。

二、JMP 绘制箱线图全流程:从数据准备到基础绘制

以 “某连锁超市各门店月度销售额数据” 为例(数据包含 “门店编号、区域、月份、销售额”4 个字段),详解 JMP 绘制基础箱线图的步骤,适用于 “单变量分布展示” 或 “单维度分组比较” 场景。

1. 步骤 1:数据准备 —— 确保 JMP 兼容的数据格式

JMP 对数据格式的核心要求是 “结构化数据”,即 “每一行是一个观测值,每一列是一个变量”,避免 “宽格式数据”(如多列均为销售额,列名是门店编号)。

门店编号 区域 月份 销售额(万元)
001 华东 1 45
001 华东 2 52
002 华北 1 38
003 华南 1 60
  • 数据导入
  1. 打开 JMP,点击菜单栏 “文件”→“打开”,选择 Excel/Csv 格式的数据文件;

  2. 若数据为 “宽格式”,需先通过 “表格”→“堆叠列” 转换为长格式(例如:将 “门店 001 销售额、门店 002 销售额” 列堆叠为 “门店编号、销售额” 两列)。

2. 步骤 2:两种绘制路径 —— 按需选择 “快速绘图” 或 “深度分析”

JMP 提供 “图形生成器”(灵活绘图)与 “分析→分布”(统计分析)两种路径,分别适用于不同需求:

路径 1:图形生成器(适用于快速绘制、自定义样式)

适合需要 “调整图表样式、添加辅助元素” 的场景,步骤如下:

  1. 点击菜单栏 “图形”→“图形生成器”,打开图形生成器窗口;

  2. 将 “销售额(万元)” 字段拖到 “Y 轴”(纵轴,代表要分析的数值变量);

  3. 将 “区域” 字段拖到 “X 轴”(横轴,代表分组变量,若无需分组则不拖);

  4. 在右侧 “元素” 面板中,点击 “箱线图”(默认是 “箱线图 + 须 + 异常值” 组合,可选择 “仅箱线图”“箱线图 + 均值点” 等变体);

  5. (可选)自定义样式:

  • 双击箱体,在 “填充颜色” 中选择 “按区域着色”(不同区域用不同颜色,便于区分);

  • 双击 Y 轴,设置 “轴范围”(如销售额 0-100 万元),避免自动缩放导致的视觉偏差

  • 点击 “添加”→“参考线”,添加 “总体均值线”(红色虚线),便于对比各组与总体的差异;

  1. 点击 “确定”,生成基础箱线图

路径 2:分析→分布(适用于深度统计分析

适合需要 “自动生成统计报告、进行异常值检验” 的场景,步骤如下:

  1. 点击菜单栏 “分析”→“分布”,打开分布窗口;

  2. 将 “销售额(万元)” 字段拖到 “Y,列”(数值变量);

  3. 将 “区域” 字段拖到 “By”(分组变量,按区域分组展示分布);

  4. 点击 “确定”,JMP 会自动生成:

  1. (可选)优化箱线图:右键箱线图→“箱线图选项”,可调整 “须的计算方式”(如改为 “2×IQR”)、“异常值标记样式”(如改为三角形)。

三、JMP 箱线图的特色功能:从 “展示” 到 “分析” 的升级

JMP 的核心价值在于 “箱线图不仅是画图工具,更是分析入口”,以下 5 个特色功能能大幅提升分析效率,是其他工具难以替代的关键:

1. 功能 1:点击交互 —— 定位异常值与原始数据

JMP 箱线图的 “交互性” 是核心优势,无需额外操作即可追溯异常值来源:

  • 查看异常值详情:双击箱线图中的异常值(圆点),JMP 会自动在数据表格中 “高亮选中” 对应的原始数据行,显示该异常值的 “门店编号、月份、销售额” 等完整信息;

  • 筛选异常值子集:右键异常值→“选择匹配行”,可筛选出所有异常值数据,单独保存为新表格,便于后续分析(如判断异常值是 “大订单” 还是 “数据错误”);

  • 示例:某异常值销售额为 150 万元,双击后发现对应门店是 “华东 005 店”,月份为 “12 月(双 12 大促)”,说明该异常值是合理的业务峰值,无需剔除。

2. 功能 2:多维度分组 —— 对比复杂类别差异

当需要按 “多个维度” 分组(如 “区域 + 月份”)时,JMP 可快速实现多层级对比:

  • 操作步骤
  1. 用 “图形生成器” 绘制箱线图,将 “销售额” 拖到 Y 轴;

  2. 将 “区域” 拖到 X 轴,将 “月份” 拖到右侧 “分组” 面板(或直接拖到 X 轴,与 “区域” 形成嵌套分组);

  3. JMP 会生成 “按区域分栏、按月份分组” 的箱线图,每个区域下展示 12 个月的销售额分布;

  • 分析价值:可同时对比 “不同区域的月度差异” 与 “同一区域内的月度波动”,例如:发现 “华东区域 12 月销售额中位数显著高于其他月份”,而 “华北区域各月分布相对平稳”。

3. 功能 3:添加统计标记 —— 直观展示均值、置信区间

默认箱线图仅显示中位数,JMP 可添加 “均值点、置信区间” 等统计标记,丰富分析维度:

  • 添加均值点:右键箱线图→“添加”→“均值点”,JMP 会在箱体内添加 “红色圆点” 标记均值,对比 “中位数与均值” 的差异(若均值 > 中位数,说明数据右偏;反之左偏);

  • 添加置信区间:右键箱线图→“添加”→“置信区间”,选择 “均值的 95% 置信区间”,JMP 会在均值点周围添加 “误差线”,展示均值的统计可靠性(误差线越短,均值估计越稳定);

  • 示例:华南区域销售额的 “中位数 = 55 万,均值 = 62 万”,且均值置信区间较窄,说明该区域销售额右偏(存在少量高值订单),且均值估计可靠。

4. 功能 4:联动统计检验 —— 验证组间差异是否显著

箱线图可直观展示组间差异,但 “差异是否显著” 需统计检验支撑,JMP 可直接联动 “方差分析(ANOVA)”:

  • 操作步骤
  1. 用 “分析→分布” 生成箱线图后,点击窗口顶部的 “红色三角(分析选项)”→“比较均值”→“单因子 ANOVA”;

  2. JMP 会自动生成方差分析报告,包含 “F 值、P 值” 等关键指标;

  • 结果解读:若 P 值 <0.05(显著性水平),说明 “不同组间的差异显著”;若 P 值 > 0.05,说明差异可能是随机波动;

  • 示例:区域间销售额的 ANOVA 报告显示 P 值 = 0.02<0.05,说明 “华东、华北、华南区域的销售额差异显著”,并非随机偶然。

5. 功能 5:导出与复用 —— 生成标准化报告

JMP 支持将箱线图与统计报告导出为 “可编辑格式”,便于报告撰写与复用:

  • 导出图表:右键箱线图→“保存图形”,可导出为 “PNG、EMF、PDF” 等格式,其中 EMF 格式支持在 Word 中编辑(如调整颜色、字体);

  • 导出统计报告:点击 “分析→分布” 窗口的 “红色三角”→“保存报表”,可将 “箱线图 + 统计表格 + 正态性检验” 打包导出为 “JMP 报表文件” 或 “Excel 文件”,支持他人打开后直接查看完整分析结果;

  • 复用模板:若需定期绘制相同格式的箱线图(如每月销售分析),可将当前箱线图保存为 “图形模板”,后续导入新数据后直接应用模板,无需重复调整样式。

四、实战案例:用 JMP 箱线图分析 “超市销售额区域差异”

以 “某连锁超市 2024 年各门店月度销售额数据” 为例,完整演示 JMP 箱线图的分析流程,解决 “区域间销售额是否存在差异”“异常值是否合理”“哪些区域表现更稳定” 三个核心问题。

1. 案例目标

分析华东、华北、华南三个区域的销售额分布差异,为 2025 年区域营销策略制定提供数据支撑。

2. 数据准备

数据包含 “门店编号(30 个门店)、区域(华东 10 家、华北 10 家、华南 10 家)、月份(1-12 月)、销售额(万元)”,共 360 条观测值,数据格式为 JMP 兼容的长格式。

3. 分析步骤

步骤 1:绘制基础分组箱线图

  1. 点击 “分析”→“分布”,将 “销售额” 拖到 “Y,列”,“区域” 拖到 “By”;

  2. 点击 “确定”,生成三个区域的箱线图与统计报告。

步骤 2:解读分布特征

箱线图中初步观察:

  • 中位数差异:华东区域销售额中位数(58 万)> 华南(52 万)> 华北(45 万),华东区域整体表现最优;

  • 离散程度:华北区域箱体最短(IQR=15 万),华东区域箱体最长(IQR=25 万),说明华北区域销售额更稳定,华东区域波动更大;

  • 异常值:华东区域有 3 个异常值(>130 万),华南有 1 个,华北无异常值

步骤 3:验证异常值合理性

  1. 双击华东区域的异常值,高亮对应原始数据:发现均为 “12 月双 12 大促” 期间的门店数据,且销售额最高的门店是 “华东 008 店”(线上线下联动销售),属于合理业务峰值;

  2. 结论:异常值无需剔除,需在报告中注明 “华东区域 12 月大促对销售额的显著提升作用”。

步骤 4:检验区域差异显著性

  1. 在 “分布” 窗口点击 “红色三角”→“比较均值”→“单因子 ANOVA”;

  2. 方差分析报告显示:F 值 = 8.62,P 值 = 0.0003<0.05,说明 “三个区域的销售额差异显著”,并非随机波动。

步骤 5:生成最终报告

  1. 调整箱线图样式:按区域着色(华东蓝色、华北绿色、华南橙色),添加均值点与 95% 置信区间;

  2. 导出 “箱线图 + 统计报告 + ANOVA 结果” 为 PDF 文件,附分析结论:

  • 华东区域销售额最高但波动大,需优化大促期间的库存管理;

  • 华北区域销售额稳定但偏低,需加强营销策略;

  • 华南区域表现中等,可借鉴华东的大促经验提升业绩。

五、常见问题与解决方案:避免 JMP 箱线图的 “踩坑” 指南

在实际操作中,易因数据格式、参数设置不当导致箱线图异常,以下为高频问题及解决方法:

1. 问题 1:数据导入后无法分组 —— 提示 “分组变量不是分类变量”

  • 原因:JMP 将 “区域”“月份” 识别为 “数值变量”(如月份存储为 1、2、3...),而非 “分类变量”;

  • 解决方案

  1. 右键 “区域” 字段列→“列属性”→“名义”(或 “有序”),将其设置为分类变量;

  2. 重新绘制箱线图,“区域” 即可正常作为分组变量使用。

2. 问题 2:箱线图异常值 —— 实际存在极端数据

  • 原因:JMP 默认按 “1.5×IQR” 计算须的范围,若数据离散程度极大(如存在超高峰值),可能导致须覆盖极端值,未标记为异常值

  • 解决方案

  1. 右键箱线图→“箱线图选项”→“须长度”,将 “1.5×IQR” 改为 “1.0×IQR”(缩小须的范围,让更多极端值显示为异常值);

  2. 或在 “分析→分布” 窗口查看 “统计报告” 中的 “最小值、最大值”,手动判断是否存在需关注的极端值。

3. 问题 3:多维度分组后图表拥挤 —— 无法清晰查看

  • 原因:分组维度过多(如 “区域 + 月份 + 门店类型”),导致 X 轴标签重叠、箱体过窄;

  • 解决方案

  1. 用 “分栏” 替代 “嵌套分组”:将 “区域” 拖到 “分栏” 面板,每个区域生成独立子图,X 轴仅显示 “月份”,避免标签拥挤;

  2. 调整图表尺寸:右键图表→“调整大小”,增大宽度,让箱体有足够显示空间;

  3. 筛选关键维度:若无需分析所有维度,可先通过 “行筛选器” 筛选核心维度(如仅分析 “旺季 3 个月”),简化图表。

4. 问题 4:导出的箱线图字体模糊 —— 不符合报告要求

  • 原因:导出时未设置 “高分辨率”,或字体格式未适配;

  • 解决方案

  1. 导出时选择 “PDF 格式”(矢量图,放大后不失真),而非 PNG(位图,放大后模糊);

  2. 导出前双击图表中的 “轴标签、标题”,将字体改为 “宋体、12 号”,确保与报告字体一致;

  3. 若需插入 Word,选择 “EMF 格式”,可在 Word 中进一步调整字体与大小。

六、总结:JMP 箱线图的核心价值 ——“可视化 + 统计” 的无缝融合

JMP 绘制箱线图的优势,不在于 “画图速度”,而在于 “将可视化与统计分析深度集成”—— 让分析师无需在 “画图工具” 与 “统计软件” 之间切换,即可完成从 “数据分布展示” 到 “异常值分析”“组间检验”“结论导出” 的全流程工作。

对于数据分析师而言,JMP 箱线图的核心价值体现在三个层面:

  1. 效率提升:自动计算统计量、支持交互定位,减少手动处理时间;

  2. 分析深度:联动方差分析、正态性检验,让 “直观差异” 转化为 “统计显著结论”;

  3. 报告标准化:可导出高质量图表与完整统计报告,满足业务汇报需求。

最终,JMP 箱线图的目标不是 “画一张漂亮的图”,而是 “帮助分析师从数据分布中挖掘业务洞察”—— 无论是发现区域销售差异、定位异常订单,还是验证营销策略效果,都能以数据为支撑,做出更科学的决策。

推荐学习书籍 《CDA一级教材》适合CDA一级考生备考,也适合业务及数据分析岗位的从业者提升自我。完整电子版已上线CDA网校,累计已有10万+在读~ !

免费加入阅读:https://edu.cda.cn/goods/show/3151?targetId=5147&preview=0

数据分析师资讯
更多

OK
客服在线
立即咨询
客服在线
立即咨询