京公网安备 11010802034615号
经营许可证编号:京B2-20210330
数据科学能回答什么样的问题
机器学习是数据科学的发动机。每种机器学习方法(也称为算法)获取数据,反复咀嚼,输出结果。机器学习算法负责数据科学里最难以解释又最有趣的部分。数学的魔法在此发生。
机器学习算法可以根据它们所回答的问题分成几组。这种分组能够在你提炼问题时帮助思考。
A类还是B类?
这组算法被称为二类分类( two-class classification )。适用于任何有两个可能选项的问题:是或否、开或关、吸烟或不吸烟、买或不买。许多数据科学问题看起来是这种形式,或者可以被组织成这种形式。这是最简单也最常提到的数据科学问题。几个典型的例子:
A类、B类、C类还是D类?
这组算法被称作多类分类( multi-class classification )。如同名字所示,这组算法回答有多个可能答案的问题:哪种口味、哪个人、哪个部分、哪个公司、哪位候选人。大多数多类分类算法只是二类分类算法的延伸。一些典型例子如下:
是否异常?
这组算法进行异常检测( anomaly detection )。它们识别出异常的数据点。如果仔细留意,你会发现异常检测看起来像二元分类问题。问题可以用“是”或“否”来回答。不同之处时,二元分类假定你已经有一些“是”/“不是”的案例。异常检测则不是这样。当你所寻找的东西如此稀少(如设备失灵),以至于没能收集太多有关案例时,异常检测尤其有用。 当“不正常”包含多种情况时(如信用卡诈骗),异常检测也很有帮助。一些常见的异常检测问题:
多少?
当你想求一个数字,而不是一个分级或类别,此时要用到的是回归。
通常来说,回归算法给出一个实值作为答案。答案可能会有小数或负数。对于一些问题,尤其是以“多少个”开头的问题,负数需要被解读为0,分数要取近似整数。
多类分类作为回归问题
有时看似多元分类的问题事实上比较适合做回归。比如,“哪个新闻故事对读者来说更有趣?”看似在询问类别——新闻故事清单里的一个条目。然而,问题可以重新组织成“对于读者来说,清单上的每个故事在多大程度上有趣?”给每篇文章一个数字作为分数。之后就是一个简单的识别最高分文章问题。这种类型的问题通常以排名或比较形式出现。
二类分类作为回归问题
并不奇怪,二元分类也可以被转述为回归问题。(事实上,一些算法私下把所有二元分类问题转化为回归。)当一个案例可能属于A或B,或有一定几率属于任意一方时,这种方法尤其有帮助。当答案可能为部分的“是”或“否”,可能是“开”也可能是“关”,回归能够体现这种情况。这种问题通常由“多大可能”或“多大比例”开头:
你可能已经猜到,二元分类、多类分类、异常检测和回归全部是紧密相关的。它们属于同一个延伸的家庭,监督学习。它们有许多相同之处,问题通常能被修改为不止一种形式。它们的共性是,它们都是通过一组加了标签的样本建立(被称作“训练”的过程),之后它们能对于无标签的样本赋予值或类别(被称作“打分”的过程)。
无监督学习和增强学习的算法家族则有完全不同的数据科学问题。
数据是如何构成?
有关数据如何构成的问题属于无监督学习。有许多技术试图提炼数据的结构。其中一组算法进行聚类,也被称作分块、分组、聚群、分隔等。它们试图把一个数据集分为一些直觉式的区块。聚类与监督学习的不同之处,是没有数字或名称可以告诉你数据点属于哪个类别,这些分组代表什么,或应该有多少个组。如果监督学习是在夜空群星中挑选出星球,那么聚类就是在构造星座。聚类试图把数据分成自然的“丛”,以便作为分析师的人类能更轻易地向他人解释。聚类一贯依赖于一个紧密度或相似性的定义,如智商差异、相同基因对或鸟瞰直线距离。聚类问题都试着把数据分解成近乎一致的群组。
另一组无监督学习算法叫维度归约(dimensionality reduction)技术。维度归约是另一种简化数据的方式,让数据能更容易传播,更快速计算,更容易存储。
在根本上,维度归约都是在创造一种描述数据点的简易方法。一个简单的例子是GPA学分绩点。一个大学生的学术能力,由数十个课程的数百场考试和数千个作业衡量。每个作业在某种程度上反映学生在多大程度上理解课程资料,但一个完整的作业清单任何招聘者来说都消化不了。幸运的是,你可以创造一个简易方法把所有分数平均在一起。靠这个大型的简化可以蒙混过关,因为在一项作业/课程表现突出的学生通常在其他作业/课程依然如此。通过使用学分绩点而不是整个清单,丰富性无疑会受到损失。 比如,你不会知道是否这学生更擅长数学/英文,以及是否她在编程家庭作业中比随堂测验表现更好。但却收获了简单,使得谈论和比较学生能力变得容易许多。
维度归约相关问题大多有关倾向于共同变化的因素。
如果目标是总结、简化、压缩或提炼一些数据,要选用的工具就是维度归约和聚类。
我现在该做什么?
第三个机器学习算法家族重视采取行动。它们被称为增强学习(reinforcement learning)算法。回归算法能预测出明天的最高气温是37°C,但它无法决定对此做些什么。增强学习算法迈向下一步并选择一种行为,如,趁天气还凉爽提前为办公楼高层降温。
增强学习的灵感最早来源于老鼠和人类大脑如何对奖惩做出反应。它们采取行动,努力获得能带来最高奖励的行为。你提供给它们一系列可能的选项。它们需要对于某个行为获得反馈,判断此行为是好或中性或大错特错。
通常增强学习算法很适合需要在无人类监督下做出许多小决策的自动化系统。电梯、供热、降温和灯光系统是不错的选择。增强学习最初是被开发用于控制机器人,以便所有东西能够自动,不管是侦察无人机还是真空吸尘器。增强学习回答的问题一贯关于该采取什么行为,尽管这行为通常是由机器执行。
增强学习通常需要比其他算法做更多努力,因为它与系统的其他部分紧密相连。这里的优势是多数增强学习算法可以在没有数据的情况下开始工作。它们在运行中收集数据,从尝试和错误中学习。
数据分析咨询请扫描二维码
若不方便扫码,搜微信号:CDAshujufenxi
在数字化商业环境中,数据已成为企业优化运营、抢占市场、规避风险的核心资产。但商业数据分析绝非“堆砌数据、生成报表”的简单 ...
2026-01-20定量报告的核心价值是传递数据洞察,但密密麻麻的表格、复杂的计算公式、晦涩的数值罗列,往往让读者望而却步,导致核心信息被淹 ...
2026-01-20在CDA(Certified Data Analyst)数据分析师的工作场景中,“精准分类与回归预测”是高频核心需求——比如预测用户是否流失、判 ...
2026-01-20在建筑工程造价工作中,清单汇总分类是核心环节之一,尤其是针对楼梯、楼梯间这类包含多个分项工程(如混凝土浇筑、钢筋制作、扶 ...
2026-01-19数据清洗是数据分析的“前置必修课”,其核心目标是剔除无效信息、修正错误数据,让原始数据具备准确性、一致性与可用性。在实际 ...
2026-01-19在CDA(Certified Data Analyst)数据分析师的日常工作中,常面临“无标签高维数据难以归类、群体规律模糊”的痛点——比如海量 ...
2026-01-19在数据仓库与数据分析体系中,维度表与事实表是构建结构化数据模型的核心组件,二者如同“骨架”与“血肉”,协同支撑起各类业务 ...
2026-01-16在游戏行业“存量竞争”的当下,玩家留存率直接决定游戏的生命周期与商业价值。一款游戏即便拥有出色的画面与玩法,若无法精准识 ...
2026-01-16为配合CDA考试中心的 2025 版 CDA Level III 认证新大纲落地,CDA 网校正式推出新大纲更新后的第一套官方模拟题。该模拟题严格遵 ...
2026-01-16在数据驱动决策的时代,数据分析已成为企业运营、产品优化、业务增长的核心工具。但实际工作中,很多数据分析项目看似流程完整, ...
2026-01-15在CDA(Certified Data Analyst)数据分析师的日常工作中,“高维数据处理”是高频痛点——比如用户画像包含“浏览次数、停留时 ...
2026-01-15在教育测量与评价领域,百分制考试成绩的分布规律是评估教学效果、优化命题设计的核心依据,而正态分布则是其中最具代表性的分布 ...
2026-01-15在用户从“接触产品”到“完成核心目标”的全链路中,流失是必然存在的——电商用户可能“浏览商品却未下单”,APP新用户可能“ ...
2026-01-14在产品增长的核心指标体系中,次日留存率是当之无愧的“入门级关键指标”——它直接反映用户对产品的首次体验反馈,是判断产品是 ...
2026-01-14在CDA(Certified Data Analyst)数据分析师的业务实操中,“分类预测”是高频核心需求——比如“预测用户是否会购买商品”“判 ...
2026-01-14在数字化时代,用户的每一次操作——无论是电商平台的“浏览-加购-下单”、APP的“登录-点击-留存”,还是金融产品的“注册-实名 ...
2026-01-13在数据驱动决策的时代,“数据质量决定分析价值”已成为行业共识。数据库、日志系统、第三方平台等渠道采集的原始数据,往往存在 ...
2026-01-13在CDA(Certified Data Analyst)数据分析师的核心能力体系中,“通过数据建立模型、实现预测与归因”是进阶关键——比如“预测 ...
2026-01-13在企业数字化转型过程中,业务模型与数据模型是两大核心支撑体系:业务模型承载“业务应该如何运转”的逻辑,数据模型解决“数据 ...
2026-01-12当前手游市场进入存量竞争时代,“拉新难、留存更难”成为行业普遍痛点。对于手游产品而言,用户留存率不仅直接决定产品的生命周 ...
2026-01-12