京公网安备 11010802034615号
经营许可证编号:京B2-20210330
这里有些关键的机器学习概念可以帮助我们理解这一领域的相关知识。
在这篇文章中,你会接触到一些相关的专业术语(常用的术语),它们用来描述数据和数据集。你也会学习到一些相关概念和术语,它们用来描述数据的学习和建模过程,而这些又给你的学习旅程提供了一些关于机器学习的宝贵经验。
机器学习方法可以从实际案例进行学习。对于我们来说,掌握数据的输入和各种描述数据的术语是很重要的,而在这一部分中,你会在涉及到数据的机器学习中学到一些相关术语。
但我在思考数据是什么样的时候,我的感觉一般都是行和列,就像是一个数据集图表或者是Excel的电子表。这是数据的传统格式,而且在机器学习中也是一种常见的格。其它数据如图像、视频,以及文本,而所谓的没有结构的数据并不会在这篇文章中进行描述。

展示一个相关例子、特征和数据集的形式的数据的图表
实例:数据的单行称之为实例。这是某一个域所观察的结果。
特征:数据的单列称之为特征。它是观察的一个组成部分,而它也被称之为一个数据实例的属性。一些特征也许会输入一个模型(预测值),而其它可能有输出或预测的特征。
数据类型:特征有其数据类型。它们也许是真实数或者是整数,又或者是分类值又或者又是序数。你可以有字符串、日期、时间或更多复杂的数据类型。但是,通常情况下,它们都会在使用传统机器学习方法的时候被换算成实数或者是分类值。
数据集:实例的集合是一个数据集,而且当我们使用传统机器学习方法的时候,我们通常需要几个不同的数据集处理不同的问题。
训练数据集:训练数据集就是一个我们通过使用机器学习算法进行建模的数据集。
测试数据集:一个用于检验我们模型精准度而不用于建模的数据集。我们可以把它称之为检验数据集。
我们也许会收集一些实例来建立我们的数据集,或者给定一个有限数据集,我们需要把它分解成若干个子数据集。
机器学习,确切来说是一个动态的学习算法。在这一部分中,我们会考虑几个学习方面的高级概念。
前序:机器学习算法通过一个叫归纳或者归纳学习的方法进行学习。归纳是一个合理的过程,它可以从一些特殊信息(训练数据)进行概括总结。
概括:概括这一过程是必要的,那是因为模型是由机器学习算法为我们准备的,而我们需要用这个模型,基于在训练过程中我们看不到的数据,我们会对它们进行预测或决策。
过度学习:当一个模型从一些训练数据中学习过多而不能进行概括的时候,这个过程称之为过度学习。结果就是处理数据的性能很差,而它有不同于训练数据。这也称之为过度拟合。
缺乏学习:当一个模型因为与它们相关的数据集提前结束学习过程,从而导致这个模型无法获得一个完整的结果,这就称之为缺乏学习。它的结果则是可以作一个好的概括但是对所有数据,包括训练数据集在内的处理的性能却很差。这也称之为欠拟合。
在线学习:在线学习就是当一个域变得可用的时候,这种方法会从来自这个域的数据实例进行更新。在线学习需要数据在噪音情况下具有很强的健壮性,但是也要产生一个符合这个域当前状态的模型。
线下学习:线下学习就是一个通过现成的数据进行创建的方法,而这个方法对未被观察的数据进行相关操作。这个训练过程可以被很好的控制和调整,原因在于训练数据的范围是未知的。在这个模型早已被创建好,同时在相关域发生了改变从而导致模型的性能可能被改变的情况下,这个模型不再进行更新。
监督学习:这是一个针对需要进行相关预测的问题进行概括的学习过程。一个“教学”过程会与一个有未知答案的模型进行比较,并对模型进行修正。
非监督学习:这是一个对不需要预测的数据的结果进行概括的学习过程。默认情况下,数据的结构都可以得到相关的确认和利用。
我们在之前的一篇文章 machinelearning algorithms就已经对监督学习和非监督学习过程进行详细的阐述。
一个由机器学习创建的产品被视为是一个程序的权利。
模型选择:我们可以这样认为,模型的设定和训练过程就是模型的选择过程。对于我们所拥有的每个模型的迭代可以让我们选择是直接使用这个模型,还是对它进行修改,甚至,算法的选择也是模型选择过程的一部分。然而,每个模型都存在一个共同的问题,那就是对于一个可能被选到的数据集的一个给定的模型以及模型的设置会提供一个最终的模型选择。
诱导偏差:偏差就是选定模型所产生的限制。每个模型都存在其自己的偏差,这也引入了模型的误差,以及对每个模型进行定义时产生的误差(它们是来自观察的概括)。偏差是通过一个包含模型的设定以及产生一个模型的算法的模型所做的概括引入的。一个机器学习方法可以创建一个或高或低的模型,而相关的手段可以对一个误差较高的基本模型进行一定程度的误差消除。
模型方差:方差就是检验对已经进行过训练的数据建立的模型是否灵敏的术语。一个由数据集产生的模型的机器学习方法,都有一个或大或小的方差,而消除方差的相关手段有在不同的初始化环境下对一个数据集进行重复运行,然后取平均值精准度作为模型性能好坏的参考标准。
偏差方差权衡:模型的选择可以被认为是一个权衡偏差和方差的过程。一个误差较小的模型有较大的方差,这时我们要对相关数据进行多长且长时间的训练以求得到一个合适的模型。一个误差较高的模型往往其方差比较小,所以训练时间短一点,但是要承担性能差的后果。
数据分析咨询请扫描二维码
若不方便扫码,搜微信号:CDAshujufenxi
在数据统计分析、数据清洗、异常值识别与数据分布研究中,箱型图是最直观、高效、专业的可视化分析工具。相较于柱状图、折线图仅 ...
2026-05-29Tkinter是Python内置的标准GUI图形界面库,具备无需额外安装、调用简单、兼容性强、轻量化高效等优势,是Python快速开发桌面小程 ...
2026-05-29 很多分析师在设计标签时思路清晰,但真到落地环节却面临“数据在手,不知如何转化为可用标签”的困境:或因加工方式选择不当 ...
2026-05-29【核心关键词】大数据、经理、专业、金融、客户、传统、建模、数据产品、互联网金融、产品经理、数据分析、金融行业、数据模型 ...
2026-05-28 很多分析师每天和数据打交道,但当被问到“标签是什么”“标签和指标有什么区别”“标签体系如何设计”时,却常常答不上来。 ...
2026-05-28随着大数据技术的快速普及,各行各业积累了海量的用户数据、交易数据、生产数据与行为数据。单纯的数据统计与报表分析只能呈现表 ...
2026-05-28在Python网络请求、接口测试、数据爬取、业务对接开发中,Requests库是最简洁、最高效的HTTP请求工具,凭借简洁的语法、完善的适 ...
2026-05-272025 年,零售与服务行业的竞争已从 “经验驱动” 全面转向 “数据驱动”。中小企业门店普遍面临数据零散、分析浅层、决策凭感觉 ...
2026-05-27 很多数据分析师每天都在写SQL,但当被问到“数据查询语言(DQL)的本质是什么”“SELECT语句中各子句的书写顺序与实际执行顺 ...
2026-05-27在统计学分析、实验研究、业务数据复盘过程中,单因素方差分析是检验自变量对因变量是否存在显著影响的核心方法。其中,两个水平 ...
2026-05-26【核心关键词】算法、客户、大数据、互联网、调优、建模、模型优化、机器学习、评分卡模型、模型开发、智能风控、业务场景、数 ...
2026-05-26 很多数据分析师写过无数个 SELECT,但当被问到“新建一张表,该如何定义字段类型来保证数据质量”“创建视图和存储物理表有 ...
2026-05-26在数据清洗、统计分析与数据质量检测工作中,箱型图(又称箱线图、Box Plot)是最直观、最高效的可视化分析工具之一。相较于柱状 ...
2026-05-25在大数据分析、数据清洗、质量管控、风险监测等领域,异常数据识别是保障数据质量、确保分析结论精准、规避业务决策失误的核心基 ...
2026-05-25 很多数据分析师精通Excel函数和透视表,但当被问到“数据从哪里来”“表和视图有什么区别”“数据库管理系统和SQL是什么关系 ...
2026-05-25数字化经营时代,企业的市场竞争早已从经验决策转向数据决策。门店营收、用户转化、产品销量、成本损耗、存量资产等所有经营行为 ...
2026-05-22在MySQL数据库日常运维、业务数据校验、数据迁移与数据清洗场景中,自增主键ID的连续性校验是一项基础且关键的工作。MySQL的Auto ...
2026-05-22 很多企业团队并非缺乏指标,而是陷入“指标失控”:仪表盘上堆满实时跳动的数据,却无法回答“当前瓶颈在哪、下一步该做什么 ...
2026-05-22【核心关键词】大数据、可视化、存储、架构、客户、离线、产品、同步、实时、数据仓库、数据分析、数据可视化、存储数据、离线 ...
2026-05-21在电商流量红利消退、公域获客成本持续走高的当下,存量用户深度挖掘已成为店铺增收增效的核心抓手。相较于付费投放获取的陌生新 ...
2026-05-21