
认为你的公司需要数据科学家?你可能错了
当我在15年前开始从事数据工作时,我从未想过近年来数据科学家会如此备受追捧。如今,数据科学家被认为是全球最热门的职位之一,市场上对数据科学家的需求供不应求。
创业公司在产品生命周期的早期招聘数据科学家的情况并不罕见。其实很多情况下,他们并不需要数据科学家。
作为一名数据科学方面的倡导者,为什么我会这么认为呢?
首先,我想声明的是雇用数据科学家确实有很多好处。如果使用得当,数据科学家将成为强大的商业武器。我想强调的是,数据科学当中涉及到大量的数据相关操作和技巧,这不是在短期培训中就能掌握的。
因此,当企业需要聘请数据科学家时,需要慎重考虑应该何时聘请哪种数据科学家。
当企业打算聘请数据科学家之前,可以先试着问自己以下四个问题:
1. 有多少数据?
如果你是一家尚未启动的创业公司,那么你们可能并不需要全职数据科学家。其实,如果你的公司已经发展的较为成熟,但只有小规模的客户、产品或会员基础,那么你也不需要数据科学家。
为什么呢?显然数据科学家需要数据。不是任何数据都可以。许多技术需要至少数万个、甚至数百万个数据点才能构建。
如今,深度学习备受关注。在针对数据科学家的工作描述中充满了神经网络、计算机视觉和自然语言处理等术语。而这类技术依赖于大量的训练数据。谷歌翻译就是建立在超过1.5亿个词汇基础上的神经网络。成功部署这型模型所需的数据量超过了许多公司加起来的数据总量。
很多技术比深度学习使用更少的数据,但是当中仍然需要相当大的样本,还需要能够判断何时使用哪种方法的知识储备。目前需要大量的投入才能创建数据科学所需要的环境,拥有资金和昂贵的资源是远远不够的。
2. 是否有已制定的关键绩效指标(KPI)和商业智能报表?
如果没有对企业驱动因素的基本了解,那么将难以利用先进技术。
数据科学家能够通过机器学习进行预测,例如哪些用户会流失、哪些用户很活跃。但是如果缺乏对流失和高度活跃的定义,那么在构建预测模型之前会遇到问题。
此外,如果没有足够的指标进行评估,那么将很难验证模型。A/B测试等其他技术需要总体评估标准(OEC),这通常是业务驱动的KPI。
3. 数据科学家要做什么?
这是四个问题中最主观和最有趣的问题,“你想让数据科学家做什么?”我得到的最常见的答案是:“我们不知道,这也是为什么我们需要雇用一位。”
在这种情况下,我会告诉该企业这是行不通的。虽然聘请数据科学家时,你并不需要成为该方面的专家,但是你应该清楚哪些是可行的、哪些是不可行的,从而不会设定不切实际的期望。
数据科学不是魔术,但也不是传统科学。数据科学是一门艺术,也是一门科学,这意味着当中技术和能力的可变性很大。企业可以考虑让现有团队的成员发展成数据科学家。对现有分析师来说,进入数据科学领域的方式之一是对现有的KPI进行预测。一方面,他们有机会学习熟悉的数据; 另一方面,对现有员工进行投资意味着将来市场招聘的需求减少。
4. 数据科学家有哪些内部支持?
如果数据科学家在你的企业没有适当的支持,那么请不要为招募他们而投资。近年来,数据科学课程数量激增,然而许多毕业生并没有准备好解决业务问题。绝大多数课程都让学生解决预先清洁好的数据。在现实世界中,干净的数据并不存在。
在没有高级数据科学家指导的前提下,聘请初级数据科学家并不明智,初级数据科学家会遇到难题,而且往往会导致错误的分析。初级的数据科学家团队难以将业务问题转化为技术问题,而错误的分析会导致任务难以完成。
聘请高级数据科学家并不能完全缓解这个问题,部分原因在于很难证明雇佣人员的水平和资历。如果你很幸运地聘请到优秀的人员,他仍然需要来自领导团队的大量支持。比如,创建从未使用过的模型;或者进行A/B测试但结果被忽略。更糟的是,分析问题所需的数据并没有被收集。
通常,必要的第一步是强大的数据收集程序,这需要由工程师或数据库管理员提供,而不是数据科学家。在很多企业中,高级数据科学家需要花大量时间完成数据需求和团队部署,而这很容易导致高级数据科学家的流失。
结语
招聘和留住优秀的数据科学家的成本是很昂贵的。但如果能明确何时聘用、如何聘用、聘用哪种人才,则能够有效地减少成本。
不要陷入招聘广告的陷阱,那些只是对工作技能的简单罗列。不要奢望数据科学家会魔法。一定要明确自身的真实需求,如果可能的话,在进行招聘之前咨询专业人员。企业数据方面的成功取决于以上这几点。
数据分析咨询请扫描二维码
若不方便扫码,搜微信号:CDAshujufenxi
线性相关点分布的四种基本类型:特征、识别与实战应用 在数据分析与统计学中,“线性相关” 是描述两个数值变量间关联趋势的核心 ...
2025-09-25深度神经网络神经元个数确定指南:从原理到实战的科学路径 在深度神经网络(DNN)的设计中,“神经元个数” 是决定模型性能的关 ...
2025-09-25在企业数字化进程中,不少团队陷入 “指标困境”:仪表盘上堆砌着上百个指标,DAU、转化率、营收等数据实时跳动,却无法回答 “ ...
2025-09-25MySQL 服务器内存碎片:成因、检测与内存持续增长的解决策略 在 MySQL 运维中,“内存持续增长” 是常见且隐蔽的性能隐患 —— ...
2025-09-24人工智能重塑工程质量检测:核心应用、技术路径与实践案例 工程质量检测是保障建筑、市政、交通、水利等基础设施安全的 “最后一 ...
2025-09-24CDA 数据分析师:驾驭通用与场景指标,解锁数据驱动的精准路径 在数据驱动业务的实践中,指标是连接数据与决策的核心载体。但并 ...
2025-09-24在数据驱动的业务迭代中,AB 实验系统(负责验证业务优化效果)与业务系统(负责承载用户交互与核心流程)并非独立存在 —— 前 ...
2025-09-23CDA 业务数据分析:6 步闭环,让数据驱动业务落地 在企业数字化转型中,CDA(Certified Data Analyst)数据分析师的核心价值,并 ...
2025-09-23CDA 数据分析师:以指标为钥,解锁数据驱动价值 在数字化转型的浪潮中,“用数据说话” 已成为企业决策的共识。但数据本身是零散 ...
2025-09-23当 “算法” 成为数据科学、人工智能、业务决策领域的高频词时,一种隐形的认知误区正悄然蔓延 —— 有人将分析结果不佳归咎于 ...
2025-09-22在数据分析、金融计算、工程评估等领域,“平均数” 是描述数据集中趋势最常用的工具之一。但多数人提及 “平均数” 时,默认指 ...
2025-09-22CDA 数据分析师:参数估计助力数据决策的核心力量 在数字化浪潮席卷各行各业的当下,数据已成为驱动业务增长、优化运营效率的核 ...
2025-09-22训练与验证损失骤升:机器学习训练中的异常诊断与解决方案 在机器学习模型训练过程中,“损失曲线” 是反映模型学习状态的核心指 ...
2025-09-19解析 DataHub 与 Kafka:数据生态中两类核心工具的差异与协同 在数字化转型加速的今天,企业对数据的需求已从 “存储” 转向 “ ...
2025-09-19CDA 数据分析师:让统计基本概念成为业务决策的底层逻辑 统计基本概念是商业数据分析的 “基础语言”—— 从描述数据分布的 “均 ...
2025-09-19CDA 数据分析师:表结构数据 “获取 - 加工 - 使用” 全流程的赋能者 表结构数据(如数据库表、Excel 表、CSV 文件)是企业数字 ...
2025-09-19SQL Server 中 CONVERT 函数的日期转换:从基础用法到实战优化 在 SQL Server 的数据处理中,日期格式转换是高频需求 —— 无论 ...
2025-09-18MySQL 大表拆分与关联查询效率:打破 “拆分必慢” 的认知误区 在 MySQL 数据库管理中,“大表” 始终是性能优化绕不开的话题。 ...
2025-09-18DSGE 模型中的 Et:理性预期算子的内涵、作用与应用解析 动态随机一般均衡(Dynamic Stochastic General Equilibrium, DSGE)模 ...
2025-09-17Python 提取 TIF 中地名的完整指南 一、先明确:TIF 中的地名有哪两种存在形式? 在开始提取前,需先判断 TIF 文件的类型 —— ...
2025-09-17