
如何成为一名数据科学家并得到一份工作
大数据科学家被认为是21世纪最性感的职业,且未来薪水优渥。其工资高达10万美金每年,而市场对最优秀的数据科学家的需求正强劲。另一方面,很多20世纪流行的工作将会因为机器人,人工智能和机器学习的发展而消失。那么,如何做才能确保自己得到这份性感的工作,成为一名数据科学家并被雇佣呢?
出人意料的是,一切都是从获得正确的技能开始。成为一名数据科学家的挑战在于,你需要掌握一长串技能来确保自己得到一份工作。前些时候,我发表了一篇文章,描述了大数据科学家的典型职业要求,同时其他的图表也表明,成为一名大数据科学家,有很长的路要走。但是,至2020年时,英国将有56000名大数据科学家缺口,美国将有14万至19万缺口,成为一名大数据科学家无疑是值得追求的。
能够选择正确的技术
一个数据科学家应该能够在不同数据源中成千上万的数据点中发现规律,并能够从那些可用于制定决策的规律中得出洞见。数据科学家应当能够发现可以促使优化这些洞见的关键条件,比如一个工厂中的传感器数据或者识别零售行业中的客户行为因果关系。基于这些要求,数据科学家应当能够选择最优的工具和技术来得到最好的结果。所以,大数据科学家应当能够明智地从一堆技术中选出可以最优化结果的方法,而不是仅仅知道很多不同的技术方法。
理解商业背景
当然,要选择正确的技术方法需要对具体行业有了解,并且更重要的是,要能正确理解商业背景。在一个数据科学家一头扎进数据的海洋之前,他或她应当明确理解数据应用的背景并深刻理解眼前的问题。要做到这一点,最好的办法是和商业伙伴进行合作,向他们提问来弄清楚问题背景,以便彻底明白需要做什么。所以一个数据科学家也需要对商业模式是如何运作的有一些了解,了解到什么程度取决于公司和行业的规模。
不同的行业有不同的问题,不同的问题要求不同的解决办法。为了在某一具体行业找到一份工作,你需要对这个行业有一些认知,来帮助你更好的理解商业背景。对商业背景更深入地了解可以促使你形成更优的洞见。
通过项目来获得工作经验
对于初入职场的数据科学家来说,特别是有雄心壮志的人,他们需要有处理不同来源数据和解决各种各样问题的经验。尽管大数据科学家人才短缺,如果想得到这份工作的话,展示相关经验仍然是十分重要的。当然,有一点儿经验听起来很容易办到,但是做过越多不同的项目,你才能掌握更多的技能并且更好的理解不同的商业模式。诸如由哈佛创新实验室开发的Kaggle和Experfy这样的网站,能够帮你获得相关经验并助你得到最喜欢的公司的理想工作。
给组织机构的福利:雇佣合适数据科学家的建议
对于各种组织机构来说,雇佣到合适的数据科学家也是一个挑战。在此我给出三点相关建议:
由于人才短缺,最合适的数据科学家现在可能并没出现。掌握不同技术的顶尖数据科学家甚至根本不存在。所以如果你想开展大数据战略,找一个既有行业知识又有基本数据分析技能的专业人士吧。以此为起点,这个数据科学家也可以从工作中学习和提升技能。
合适的数据科学家可能远在千里之外。要么你可以等待这种局面的改变(有数据科学家搬到单位所在城市),要么你可以试着让你看中的人才搬到单位附近或者开展远程办公。数据分析活动可以远程开展,而通过视频会议,你们仍可以进行合作。
培训现有职员并让他们互相学习。你可以看看是否可以培训现有雇员并让他们提升技能,而非雇佣一个昂贵的数据科学家。甚至可能你已经雇了一个数据科学家而你自己都不知道。
数据分析咨询请扫描二维码
若不方便扫码,搜微信号:CDAshujufenxi
在实际业务数据分析中,我们遇到的大多数数据并非理想的正态分布 —— 电商平台的用户消费金额(少数用户单次消费上万元,多数集 ...
2025-10-20在数字化交互中,用户的每一次操作 —— 从电商平台的 “浏览商品→加入购物车→查看评价→放弃下单”,到内容 APP 的 “点击短 ...
2025-10-20在数据分析的全流程中,“数据采集” 是最基础也最关键的环节 —— 如同烹饪前需备好新鲜食材,若采集的数据不完整、不准确或不 ...
2025-10-20在数据成为新时代“石油”的今天,几乎每个职场人都在焦虑: “为什么别人能用数据驱动决策、升职加薪,而我面对Excel表格却无从 ...
2025-10-18数据清洗是 “数据价值挖掘的前置关卡”—— 其核心目标是 “去除噪声、修正错误、规范格式”,但前提是不破坏数据的真实业务含 ...
2025-10-17在数据汇总分析中,透视表凭借灵活的字段重组能力成为核心工具,但原始透视表仅能呈现数值结果,缺乏对数据背景、异常原因或业务 ...
2025-10-17在企业管理中,“凭经验定策略” 的传统模式正逐渐失效 —— 金融机构靠 “研究员主观判断” 选股可能错失收益,电商靠 “运营拍 ...
2025-10-17在数据库日常操作中,INSERT INTO SELECT是实现 “批量数据迁移” 的核心 SQL 语句 —— 它能直接将一个表(或查询结果集)的数 ...
2025-10-16在机器学习建模中,“参数” 是决定模型效果的关键变量 —— 无论是线性回归的系数、随机森林的树深度,还是神经网络的权重,这 ...
2025-10-16在数字化浪潮中,“数据” 已从 “辅助决策的工具” 升级为 “驱动业务的核心资产”—— 电商平台靠用户行为数据优化推荐算法, ...
2025-10-16在大模型从实验室走向生产环境的过程中,“稳定性” 是决定其能否实用的关键 —— 一个在单轮测试中表现优异的模型,若在高并发 ...
2025-10-15在机器学习入门领域,“鸢尾花数据集(Iris Dataset)” 是理解 “特征值” 与 “目标值” 的最佳案例 —— 它结构清晰、维度适 ...
2025-10-15在数据驱动的业务场景中,零散的指标(如 “GMV”“复购率”)就像 “散落的零件”,无法支撑系统性决策;而科学的指标体系,则 ...
2025-10-15在神经网络模型设计中,“隐藏层层数” 是决定模型能力与效率的核心参数之一 —— 层数过少,模型可能 “欠拟合”(无法捕捉数据 ...
2025-10-14在数字化浪潮中,数据分析师已成为企业 “从数据中挖掘价值” 的核心角色 —— 他们既要能从海量数据中提取有效信息,又要能将分 ...
2025-10-14在企业数据驱动的实践中,“指标混乱” 是最常见的痛点:运营部门说 “复购率 15%”,产品部门说 “复购率 8%”,实则是两者对 ...
2025-10-14在手游行业,“次日留存率” 是衡量一款游戏生死的 “第一道关卡”—— 它不仅反映了玩家对游戏的初始接受度,更直接决定了后续 ...
2025-10-13分库分表,为何而生? 在信息技术发展的早期阶段,数据量相对较小,业务逻辑也较为简单,单库单表的数据库架构就能够满足大多数 ...
2025-10-13在企业数字化转型过程中,“数据孤岛” 是普遍面临的痛点:用户数据散落在 APP 日志、注册系统、客服记录中,订单数据分散在交易 ...
2025-10-13在数字化时代,用户的每一次行为 —— 从电商平台的 “浏览→加购→购买”,到视频 APP 的 “打开→搜索→观看→收藏”,再到银 ...
2025-10-11