京公网安备 11010802034615号
经营许可证编号:京B2-20210330
这里有些关键的机器学习概念可以帮助我们理解这一领域的相关知识。
在这篇文章中,你会接触到一些相关的专业术语(常用的术语),它们用来描述数据和数据集。你也会学习到一些相关概念和术语,它们用来描述数据的学习和建模过程,而这些又给你的学习旅程提供了一些关于机器学习的宝贵经验。
机器学习方法可以从实际案例进行学习。对于我们来说,掌握数据的输入和各种描述数据的术语是很重要的,而在这一部分中,你会在涉及到数据的机器学习中学到一些相关术语。
但我在思考数据是什么样的时候,我的感觉一般都是行和列,就像是一个数据集图表或者是Excel的电子表。这是数据的传统格式,而且在机器学习中也是一种常见的格。其它数据如图像、视频,以及文本,而所谓的没有结构的数据并不会在这篇文章中进行描述。

展示一个相关例子、特征和数据集的形式的数据的图表
实例:数据的单行称之为实例。这是某一个域所观察的结果。
特征:数据的单列称之为特征。它是观察的一个组成部分,而它也被称之为一个数据实例的属性。一些特征也许会输入一个模型(预测值),而其它可能有输出或预测的特征。
数据类型:特征有其数据类型。它们也许是真实数或者是整数,又或者是分类值又或者又是序数。你可以有字符串、日期、时间或更多复杂的数据类型。但是,通常情况下,它们都会在使用传统机器学习方法的时候被换算成实数或者是分类值。
数据集:实例的集合是一个数据集,而且当我们使用传统机器学习方法的时候,我们通常需要几个不同的数据集处理不同的问题。
训练数据集:训练数据集就是一个我们通过使用机器学习算法进行建模的数据集。
测试数据集:一个用于检验我们模型精准度而不用于建模的数据集。我们可以把它称之为检验数据集。
我们也许会收集一些实例来建立我们的数据集,或者给定一个有限数据集,我们需要把它分解成若干个子数据集。
机器学习,确切来说是一个动态的学习算法。在这一部分中,我们会考虑几个学习方面的高级概念。
前序:机器学习算法通过一个叫归纳或者归纳学习的方法进行学习。归纳是一个合理的过程,它可以从一些特殊信息(训练数据)进行概括总结。
概括:概括这一过程是必要的,那是因为模型是由机器学习算法为我们准备的,而我们需要用这个模型,基于在训练过程中我们看不到的数据,我们会对它们进行预测或决策。
过度学习:当一个模型从一些训练数据中学习过多而不能进行概括的时候,这个过程称之为过度学习。结果就是处理数据的性能很差,而它有不同于训练数据。这也称之为过度拟合。
缺乏学习:当一个模型因为与它们相关的数据集提前结束学习过程,从而导致这个模型无法获得一个完整的结果,这就称之为缺乏学习。它的结果则是可以作一个好的概括但是对所有数据,包括训练数据集在内的处理的性能却很差。这也称之为欠拟合。
在线学习:在线学习就是当一个域变得可用的时候,这种方法会从来自这个域的数据实例进行更新。在线学习需要数据在噪音情况下具有很强的健壮性,但是也要产生一个符合这个域当前状态的模型。
线下学习:线下学习就是一个通过现成的数据进行创建的方法,而这个方法对未被观察的数据进行相关操作。这个训练过程可以被很好的控制和调整,原因在于训练数据的范围是未知的。在这个模型早已被创建好,同时在相关域发生了改变从而导致模型的性能可能被改变的情况下,这个模型不再进行更新。
监督学习:这是一个针对需要进行相关预测的问题进行概括的学习过程。一个“教学”过程会与一个有未知答案的模型进行比较,并对模型进行修正。
非监督学习:这是一个对不需要预测的数据的结果进行概括的学习过程。默认情况下,数据的结构都可以得到相关的确认和利用。
我们在之前的一篇文章 machinelearning algorithms就已经对监督学习和非监督学习过程进行详细的阐述。
一个由机器学习创建的产品被视为是一个程序的权利。
模型选择:我们可以这样认为,模型的设定和训练过程就是模型的选择过程。对于我们所拥有的每个模型的迭代可以让我们选择是直接使用这个模型,还是对它进行修改,甚至,算法的选择也是模型选择过程的一部分。然而,每个模型都存在一个共同的问题,那就是对于一个可能被选到的数据集的一个给定的模型以及模型的设置会提供一个最终的模型选择。
诱导偏差:偏差就是选定模型所产生的限制。每个模型都存在其自己的偏差,这也引入了模型的误差,以及对每个模型进行定义时产生的误差(它们是来自观察的概括)。偏差是通过一个包含模型的设定以及产生一个模型的算法的模型所做的概括引入的。一个机器学习方法可以创建一个或高或低的模型,而相关的手段可以对一个误差较高的基本模型进行一定程度的误差消除。
模型方差:方差就是检验对已经进行过训练的数据建立的模型是否灵敏的术语。一个由数据集产生的模型的机器学习方法,都有一个或大或小的方差,而消除方差的相关手段有在不同的初始化环境下对一个数据集进行重复运行,然后取平均值精准度作为模型性能好坏的参考标准。
偏差方差权衡:模型的选择可以被认为是一个权衡偏差和方差的过程。一个误差较小的模型有较大的方差,这时我们要对相关数据进行多长且长时间的训练以求得到一个合适的模型。一个误差较高的模型往往其方差比较小,所以训练时间短一点,但是要承担性能差的后果。
数据分析咨询请扫描二维码
若不方便扫码,搜微信号:CDAshujufenxi
在数字化时代,用户是产品的核心资产,用户运营的本质的是通过科学的指标监测、分析与优化,实现“拉新、促活、留存、转化、复购 ...
2026-04-15在企业数字化转型、系统架构设计、数据治理与AI落地过程中,数据模型、本体模型、业务模型是三大核心基础模型,三者相互支撑、各 ...
2026-04-15数据分析师的一天,80%的时间花在表格数据上,但80%的坑也踩在表格数据上。 如果你分不清数值型和文本型的区别,不知道数据从哪 ...
2026-04-15在人工智能与机器学习落地过程中,模型质量直接决定了应用效果的优劣——无论是分类、回归、生成式模型,还是推荐、预测类模型, ...
2026-04-14在Python网络编程、接口测试、爬虫开发等场景中,HTTP请求的发送与响应处理是核心需求。Requests库作为Python生态中最流行的HTTP ...
2026-04-14 很多新人学完Python、SQL,拿到一张Excel表还是不知从何下手。 其实,90%的商业分析问题,都藏在表格的结构里。 ” 引言:为 ...
2026-04-14在回归分析中,因子(即自变量)的筛选是构建高效、可靠回归模型的核心步骤——实际分析场景中,往往存在多个候选因子,其中部分 ...
2026-04-13在机器学习模型开发过程中,过拟合是制约模型泛化能力的核心痛点——模型过度学习训练数据中的噪声与偶然细节,导致在训练集上表 ...
2026-04-13在数据驱动商业升级的今天,商业数据分析已成为企业精细化运营、科学决策的核心手段,而一套规范、高效的商业数据分析总体流程, ...
2026-04-13主讲人简介 张冲,海归统计学硕士,CDA 认证数据分析师,前云南白药集团资深数据分析师,自媒体 Python 讲师,全网课程播放量破 ...
2026-04-13在数据可视化与业务分析中,同比分析是衡量业务发展趋势、识别周期波动的核心手段,其核心逻辑是将当前周期数据与上年同期数据进 ...
2026-04-13在机器学习模型的落地应用中,预测精度并非衡量模型可靠性的唯一标准,不确定性分析同样不可或缺。尤其是在医疗诊断、自动驾驶、 ...
2026-04-10数据本身是沉默的,唯有通过有效的呈现方式,才能让其背后的规律、趋势与价值被看见、被理解、被运用。统计制图(数据可视化)作 ...
2026-04-10在全球化深度发展的今天,跨文化传播已成为连接不同文明、促进多元共生的核心纽带,其研究核心围绕“信息传递、文化解读、意义建 ...
2026-04-09在数据可视化领域,折线图是展示时序数据、趋势变化的核心图表类型之一,其简洁的线条的能够清晰呈现数据的起伏规律。Python ECh ...
2026-04-09在数据驱动的时代,数据分析早已不是“凭经验、靠感觉”的零散操作,而是一套具备固定逻辑、标准化流程的系统方法——这就是数据 ...
2026-04-09长短期记忆网络(LSTM)作为循环神经网络(RNN)的重要改进模型,凭借其独特的门控机制(遗忘门、输入门、输出门),有效解决了 ...
2026-04-08在数据分析全流程中,数据质量是决定分析结论可靠性的核心前提,而异常值作为数据集中的“异类”,往往会干扰统计检验、模型训练 ...
2026-04-08在数字经济飞速发展的今天,数据已渗透到各行各业的核心场景,成为解读趋势、优化决策、创造价值的核心载体。而数据分析,作为挖 ...
2026-04-08在数据分析全流程中,数据处理是基础,图形可视化是核心呈现手段——前者负责将杂乱无章的原始数据转化为干净、规范、可分析的格 ...
2026-04-07