【CDA干货】鸢尾花识别案例：一文读懂特征值与目标值的核心定义与应用-CDA数据分析师官网

热线电话：13121318867

首页大数据时代【CDA干货】鸢尾花识别案例：一文读懂特征值与目标值的核心定义与应用

【CDA干货】鸢尾花识别案例：一文读懂特征值与目标值的核心定义与应用

2025-10-15

在机器学习入门领域，“鸢尾花数据集（Iris Dataset）” 是理解 “特征值” 与 “目标值” 的最佳案例 —— 它结构清晰、维度适中，包含了植物学中可量化的形态特征，以及明确的品种分类目标，几乎所有初学者的第一个分类模型都会基于此数据集构建。

本文将以鸢尾花识别任务为核心，从数据集背景出发，精准定义 “特征值” 与 “目标值” 的具体内容，通过数据可视化展示两者的关联关系，结合 Python 实战代码演示如何提取与使用这两类数据，最终说明它们在分类模型中的核心作用，为后续机器学习建模打下基础。

一、鸢尾花数据集背景：为什么它是入门首选？

鸢尾花数据集由英国统计学家罗纳德・费希尔（Ronald Fisher）在 1936 年发表的论文中提出，是机器学习领域最经典的 “多类别分类” 数据集之一，其核心优势在于：

数据量适中：包含 150 个样本，每个类别各 50 个样本，既避免了小样本的偶然性，又不会因数据量过大增加入门难度；
特征可量化：4 个特征均为连续型数值（如花瓣长度、萼片宽度），无需复杂的特征预处理；
类别易区分：3 个鸢尾花品种在形态特征上有明显差异，模型容易学习到分类规律；
无噪声干扰：数据集经过严格筛选，无缺失值、异常值，适合初学者专注于 “特征值 - 目标值” 的关联学习。

简言之，鸢尾花数据集是 “特征值” 与 “目标值” 对应关系的 “完美范例”，能帮助初学者快速建立对机器学习任务的基本认知。

二、核心定义 1：鸢尾花识别中的 “特征值”—— 哪些数据用于 “区分品种”？

在机器学习中，“特征值（Features）” 是指 “用于描述样本属性的可量化数据”，它们是模型判断 “样本属于哪个类别” 的依据。在鸢尾花识别任务中，特征值来源于鸢尾花的形态学特征—— 这些特征是植物学家长期观察后，确定的能区分不同品种的关键指标。

1. 4 个核心特征值：具体维度与含义

鸢尾花数据集的每个样本（即 1 株鸢尾花）包含 4 个特征值，均为长度类指标（单位：厘米），具体如下：

特征值名称（英文）	特征值名称（中文）	含义说明	取值范围（150 个样本统计）	核心作用
Sepal Length	萼片长度	鸢尾花萼片（花瓣外的绿色保护结构）的纵向长度	4.3~7.9 cm	区分 “山鸢尾” 与其他品种（山鸢尾萼片最短）
Sepal Width	萼片宽度	鸢尾花萼片的横向宽度	2.0~4.4 cm	辅助区分 “山鸢尾”（山鸢尾萼片最宽）
Petal Length	花瓣长度	鸢尾花花瓣（彩色观赏部分）的纵向长度	1.0~6.9 cm	最核心的区分特征（山鸢尾花瓣最短，维吉尼亚鸢尾最长）
Petal Width	花瓣宽度	鸢尾花花瓣的横向宽度	0.1~2.5 cm	辅助验证花瓣长度的分类结果（与花瓣长度正相关）

2. 特征值的本质：“可区分性” 是核心

为什么选择这 4 个特征作为 “区分品种的依据”？核心原因是不同品种的鸢尾花在这些特征上存在显著差异：

山鸢尾（Iris setosa）：花瓣最短（1.0~2.0 cm）、萼片较宽（2.9~4.4 cm），特征与另外两个品种差异极大，仅凭花瓣长度就能轻松识别；
变色鸢尾（Iris versicolor）：花瓣长度中等（3.0~5.1 cm）、花瓣宽度中等（1.0~1.8 cm），处于中间区间；
维吉尼亚鸢尾（Iris virginica）：花瓣最长（4.5~6.9 cm）、花瓣宽度最宽（1.4~2.5 cm），与山鸢尾形成明显对比。

这种 “特征值差异” 是机器学习模型能实现分类的前提 —— 若所有品种的特征值都高度重叠（如花瓣长度都在 3~4 cm），则模型无法通过特征值判断品种。

三、核心定义 2：鸢尾花识别中的 “目标值”—— 模型要 “预测什么”？

在机器学习中，“目标值（Target）” 是指 “模型最终要预测的结果”，也称为 “标签（Label）”。在鸢尾花识别任务中，目标值是鸢尾花的品种类别—— 即通过 4 个特征值，让模型判断 “这株鸢尾花属于哪个品种”。

1. 3 个目标值类别：品种定义与编码

鸢尾花数据集的目标值包含 3 个不同的鸢尾花品种，在数据集中通常以 “英文名称” 或 “数字编码” 两种形式存在，具体对应关系如下：

品种英文名称	品种中文名称	数字编码（常用）	样本数量	核心形态特征（与特征值对应）
Iris setosa	山鸢尾	0	50	花瓣短（1.0~2.0 cm）、萼片宽（2.9~4.4 cm）
Iris versicolor	变色鸢尾	1	50	花瓣中等（3.0~5.1 cm）、颜色多为蓝紫色
Iris virginica	维吉尼亚鸢尾	1	50	花瓣长（4.5~6.9 cm）、花瓣边缘有锯齿

2. 目标值的本质：“分类任务的结果标签”

鸢尾花识别属于 “多类别分类任务”（3 个类别），目标值的作用是：

训练阶段：告诉模型 “当前样本的特征值对应哪个品种”，让模型学习 “特征值→目标值” 的映射规律；
预测阶段：模型根据新样本的特征值，输出对应的目标值（品种），完成 “识别” 任务。

例如：当模型输入 “萼片长度 5.1 cm、萼片宽度 3.5 cm、花瓣长度 1.4 cm、花瓣宽度 0.2 cm” 的特征值时，应输出目标值 “0（山鸢尾）”—— 这是因为这组特征值完全符合山鸢尾的形态特征。

四、实战演示：鸢尾花数据集的特征值与目标值提取（Python 代码）

通过 Python 的scikit-learn库可直接加载鸢尾花数据集，直观查看特征值与目标值的具体形式，以下是完整代码演示：

1. 加载数据集并查看基本信息

# 导入必要库

from sklearn.datasets import load_iris

import pandas as pd

# 加载鸢尾花数据集

iris = load_iris()

# 1. 查看特征值相关信息

print("=== 特征值（Features）信息 ===")

print(f"特征值名称：{iris.feature_names}")  # 输出4个特征的名称

print(f"特征值数据形状：{iris.data.shape}")  # 输出(150, 4)：150个样本，4个特征

print("前5个样本的特征值：")

print(iris.data[:5])  # 输出前5个样本的4个特征值（每行对应1个样本）

# 2. 查看目标值相关信息

print("n=== 目标值（Target）信息 ===")

print(f"目标值名称（品种）：{iris.target_names}")  # 输出3个品种名称

print(f"目标值数据形状：{iris.target.shape}")  # 输出(150,)：150个样本的目标值

print("前5个样本的目标值：")

print(iris.target[:5])  # 输出前5个样本的目标值（均为0，对应山鸢尾）

# 3. 将特征值与目标值合并为DataFrame，更直观查看

iris_df = pd.DataFrame(

   data=iris.data,

   columns=iris.feature_names

)

iris_df["target"] = iris.target  # 添加目标值列

iris_df["target_name"] = iris_df["target"].map({0: "setosa", 1: "versicolor", 2: "virginica"})  # 映射为品种名称

print("n=== 特征值与目标值合并后的前5行数据 ===")

print(iris_df.head())

2. 输出结果解读

特征值输出：前 5 个样本的特征值均为 “萼片长度约 5.0 cm、萼片宽度约 3.5 cm、花瓣长度约 1.4 cm、花瓣宽度约 0.2 cm”，对应目标值 “0（山鸢尾）”，符合山鸢尾的特征；
目标值输出：前 5 个样本的目标值均为 0，说明前 50 个样本（索引 0~49）均为山鸢尾，后续 50~99 为变色鸢尾（目标值 1），100~149 为维吉尼亚鸢尾（目标值 2），数据集按品种顺序排列。

五、特征值与目标值的关联：可视化展示 “特征如何区分品种”

通过数据可视化（如散点图）可直观看到 “特征值差异如何对应目标值（品种）”，以下以 “花瓣长度” 和 “花瓣宽度” 两个核心特征为例，展示三者的区分关系：

1. 可视化代码

import matplotlib.pyplot as plt

import numpy as np

# 设置中文字体

plt.rcParams['font.sans-serif'] = ['SimHei']

plt.rcParams['axes.unicode_minus'] = False

# 提取特征值和目标值

petal_length = iris.data[:, 2]  # 第3列：花瓣长度

petal_width = iris.data[:, 3]   # 第4列：花瓣宽度

target = iris.target            # 目标值

target_names = iris.target_names  # 品种名称

# 创建散点图

plt.figure(figsize=(10, 6))

colors = ['red', 'green', 'blue']  # 每个品种对应一种颜色

markers = ['o', 's', '^']          # 每个品种对应一种标记

for i, (color, marker) in enumerate(zip(colors, markers)):

   # 筛选当前品种的特征值

   mask = (target == i)

   plt.scatter(

       petal_length[mask],

       petal_width[mask],

       c=color,

      marker=marker,

       label=f'{target_names[i]}（目标值{i}）',

       s=80  # 点的大小

   )

# 添加图表标签和图例

plt.xlabel('花瓣长度（cm）', fontsize=12)

plt.ylabel('花瓣宽度（cm）', fontsize=12)

plt.title('鸢尾花花瓣长度与宽度的分布（按品种区分）', fontsize=14)

plt.legend(fontsize=10)

plt.grid(alpha=0.3)  # 添加网格线

plt.show()

2. 可视化结果解读

山鸢尾（目标值 0，红色圆点）：花瓣长度集中在 1.0~2.0 cm，花瓣宽度集中在 0.1~0.6 cm，与另外两个品种完全分离，仅凭这两个特征就能 100% 正确识别；
变色鸢尾（目标值 1，绿色方形）：花瓣长度 3.0~5.1 cm，花瓣宽度 1.0~1.8 cm，处于中间区域；
维吉尼亚鸢尾（目标值 2，蓝色三角形）：花瓣长度 4.5~6.9 cm，花瓣宽度 1.4~2.5 cm，与变色鸢尾有少量重叠，但整体差异明显。

这一可视化结果清晰说明：特征值的差异是区分目标值（品种）的核心依据，而选择 “区分度高的特征”（如花瓣长度、花瓣宽度）能大幅提升模型的分类效果。

六、特征值与目标值在建模中的作用：从数据到模型的流程

理解特征值与目标值后，可进一步明确它们在鸢尾花识别建模中的具体作用，完整流程如下：

1. 数据拆分：特征值与目标值的 “训练 - 测试” 划分

将数据集分为 “训练集” 和 “测试集”，训练集用于让模型学习 “特征值→目标值” 的规律，测试集用于验证模型的识别效果：

from sklearn.model_selection import train_test_split

# 特征值X，目标值y

X = iris.data  # 150×4的特征矩阵

y = iris.target  # 150×1的目标向量

# 拆分训练集（80%）和测试集（20%）

X_train, X_test, y_train, y_test = train_test_split(

   X, y, test_size=0.2, random_state=42  # random_state确保结果可复现

)

print(f"训练集特征值形状：{X_train.shape}，训练集目标值形状：{y_train.shape}")

print(f"测试集特征值形状：{X_test.shape}，测试集目标值形状：{y_test.shape}")

2. 模型训练：用训练集的 “特征值 - 目标值” 学习规律

以简单的 “逻辑回归” 模型为例，训练模型学习特征值与目标值的映射关系：

from sklearn.linear_model import LogisticRegression

from sklearn.metrics import accuracy_score

# 初始化模型

model = LogisticRegression(max_iter=200)  # max_iter增大以确保收敛

# 训练模型：输入训练集特征值X_train，目标值y_train

model.fit(X_train, y_train)

# 模型预测：输入测试集特征值X_test，输出预测目标值y_pred

y_pred = model.predict(X_test)

# 评估模型：比较预测目标值y_pred与真实目标值y_test的一致性（准确率）

accuracy = accuracy_score(y_test, y_pred)

print(f"模型在测试集上的准确率：{accuracy:.2f}")  # 典型结果：准确率≈1.0（100%）

3. 结果解读：特征值与目标值的 “预测闭环”

模型训练阶段：通过 120 个训练样本的 “4 个特征值” 和对应的 “目标值”，学习到 “花瓣长度 > 4.5 cm→目标值 2（维吉尼亚鸢尾）”“花瓣长度 < 2.0 cm→目标值 0（山鸢尾）” 等规律；
模型预测阶段：输入测试集的特征值（如 “花瓣长度 5.1 cm、花瓣宽度 2.0 cm”），模型根据训练学到的规律，输出目标值 “2（维吉尼亚鸢尾）”，与真实目标值一致，实现准确识别。