京公网安备 11010802034615号
经营许可证编号:京B2-20210330
大数据时代 寻找数据科学家
数据科学家已供不应求,这已经不是什么秘密了。数据爆炸以及相应的防爆工具,还有摩尔定律和梅特卡夫定律,他们的连锁影响导致与以往相比有更多的数据、链接、以及技术需要处理。在去年的Hadoop世界中,掀起了一股培养数据科学家的狂潮,他们只能勉强满足相形见绌以技术为导向的数据结构师的需求。这意味着:

1.潜在的MacArthur Grant受助人,他需要对数据、数学和统计学技能的有热情和洞察力,它能够明白运算法则,了解绘画图片的艺术性,并且明白所有数据的导向性。这就是数据科学家的意思。
2.这些人可以了解大数据平台的侧面,也就是数据结构师或者数据工程师。
数据结构师将会是更加直面困难的一方。了解大型的数据平台(Hadoop, MongoDB,
Riak)和新兴的高级SQL产品(Exadata, Netezza, Greenplum, Vertica,
以及最近崛起的一项技术,比如说Calpont),这是一项技术技能,可以通过明确的课程来进行教授。供给和需求的法则将会解决这一问题——就像早在1999年泡沫创造了对Java程序员的需求一样。
在所有需要Hadoop程序员的呼声背后,还有一个类似的,但是非常安静的,人们争先恐后的急于招聘数据科学家的趋势。就像一些数据科学家称数据科学家是一个流行语一样,这种需求是真实存在的。[page]
然而,数据科学将会有很多的困难需要克服。这所有的一切都是与连接点相关的,并不像听起来那么容易。大数据的V——容量,品种,速度和价值——都需要某些人根据对数据的洞察力而有所发现;传统上,该角色是由数据开发人员来完成的。但数据开发人员只能处理好有限的问题,以及有界(已知)的数据集,这使问题更加二维化。
各种各样的大数据——在形式和来源上引进了一种未知的元素。大数据的解读需要进行精明的调查、沟通技巧、创意/艺术,并且还要有对数字非常直觉的思考能力。并且不要忘记这一切都要建立在坚实的统计和机器学习背景,加上对工具和贸易编程语言的技术知识的基础之上。
有时好像我们正在寻找爱因斯坦或某些智者。
自然界讨厌真空
正像自然界讨厌真空一样,现在人们不但急于定义什么样的人是数据科学家,而且也都在考虑开发出一些程序,通过这些程序来进行教学,通过软件包在某些程度上将这些信息包含在里面,否则就将它们扔到其他的地方。EMC和其他厂商正在加紧开发板块来提供培训,不仅仅是在平台上,还要针对数据科学。kaggle提供一种创新性的基于云的,众包方式的数据科学,提供了预测性的建模平台,然后再分段发起24小时的比赛,用于潜在培养数据科学家制定针对特殊问题的最佳的解决方案(这使人联想到Netflix的100万美元的奖金制度,设计出一个更聪明的算法来预测观众的口味)。
随着数据科学的人才奇缺,我们期望顾问公司购买更多的人才,然后可以“租”给多个客户端。除了少数的国外公司之外,很少有系统集成商(SI)已经加紧推出板块,正式推出大数据实践(逻辑数据科学家将驻留的地方),但我们期望这种情况会很快改变。[page]
Opera的解决方案,自2004年以来,它已经参与到了预测性分析咨询的比赛中来,这一方案下一步采用的是下行的包装路线。去年在系列A中增加了8400万美元的资金,该公司已配备了近200个数据科学家,在谷歌的这一边成为了最大的天才组合之一。Opera的预测分析解决方案是专为各种不同的平台设计的,SQL和Hadoop,今天他们加入了SAP Sapphire的宣布潮流中,同时发布了他们对HANA内存数据库的报价。安德鲁?布鲁斯特对本公告的细节进行了很好的深入分析。
从SAP的角度来看,Opera的预测分析解决方案在逻辑上是合适HANA的,因为它们涉及到各种复杂问题(例如,一个计算触发其他计算),其新的内存中的数据库平台是专门为其设计的。
期望Opera继续保持作为唯一的大型聚集数据科学家的公司,这些科学家可供其他的公司租用,这种期望对于Opera公司来说,具有非常大的价值。但具有讽刺意味的是,市场进入壁垒将会使竞争的空间一直非常狭窄并且高度集中。当然,随着市场需求的增加,将不可避免地出现对数据科学家定义的下行态势,这样越来越多的公司就可以声称他们已经得到了一个或许多的数据科学家。
供给和需求的法则将在数据科学家方面出现偏差,但供给的上升速度不会像更加注重平台的数据建筑师或工程师一样迅速。不可避免的,数据科学家的供应将会受到软件的加强,软件可以自动的解释机器学习的内容,但是软件的功能只能仅止于此,你可以在机器上编制具有创造力和反直觉洞察力的程序。
数据分析咨询请扫描二维码
若不方便扫码,搜微信号:CDAshujufenxi
金融统计不是单纯的 “数据计算”,而是贯穿金融业务全流程的 “风险量化工具”—— 从信贷审批中的客户风险评估,到投资组合的 ...
2025-11-11这个问题很有实战价值,mtcars 数据集是多元线性回归的经典案例,通过它能清晰展现 “多变量影响分析” 的核心逻辑。核心结论是 ...
2025-11-11在数据驱动成为企业核心竞争力的今天,“不知道要什么数据”“分析结果用不上” 是企业的普遍困境 —— 业务部门说 “要提升销量 ...
2025-11-11在大模型(如 Transformer、CNN、多层感知机)的结构设计中,“每层神经元个数” 是决定模型性能与效率的关键参数 —— 个数过少 ...
2025-11-10形成购买决策的四个核心推动力的是:内在需求驱动、产品价值感知、社会环境影响、场景便捷性—— 它们从 “为什么买”“值得买吗 ...
2025-11-10在数字经济时代,“数字化转型” 已从企业的 “可选动作” 变为 “生存必需”。然而,多数企业的转型仍停留在 “上线系统、收集 ...
2025-11-10在数据分析与建模中,“显性特征”(如用户年龄、订单金额、商品类别)是直接可获取的基础数据,但真正驱动业务突破的往往是 “ ...
2025-11-07在大模型(LLM)商业化落地过程中,“结果稳定性” 是比 “单次输出质量” 更关键的指标 —— 对客服对话而言,相同问题需给出一 ...
2025-11-07在数据驱动与合规监管双重压力下,企业数据安全已从 “技术防护” 升级为 “战略刚需”—— 既要应对《个人信息保护法》《数据安 ...
2025-11-07在机器学习领域,“分类模型” 是解决 “类别预测” 问题的核心工具 —— 从 “垃圾邮件识别(是 / 否)” 到 “疾病诊断(良性 ...
2025-11-06在数据分析中,面对 “性别与购物偏好”“年龄段与消费频次”“职业与 APP 使用习惯” 这类成对的分类变量,我们常常需要回答: ...
2025-11-06在 CDA(Certified Data Analyst)数据分析师的工作中,“可解释性建模” 与 “业务规则提取” 是核心需求 —— 例如 “预测用户 ...
2025-11-06在分类变量关联分析中(如 “吸烟与肺癌的关系”“性别与疾病发病率的关联”),卡方检验 P 值与 OR 值(比值比,Odds Ratio)是 ...
2025-11-05CDA 数据分析师的核心价值,不在于复杂的模型公式,而在于将数据转化为可落地的商业行动。脱离业务场景的分析只是 “纸上谈兵” ...
2025-11-05教材入口:https://edu.cda.cn/goods/show/3151 “纲举目张,执本末从。” 若想在数据分析领域有所收获,一套合适的学习教材至 ...
2025-11-05教材入口:https://edu.cda.cn/goods/show/3151 “纲举目张,执本末从。” 若想在数据分析领域有所收获,一套合适的学习教材至 ...
2025-11-04【2025最新版】CDA考试教材:CDA教材一级:商业数据分析(2025)__商业数据分析_cda教材_考试教材 (cdaglobal.com) ...
2025-11-04在数字化时代,数据挖掘不再是实验室里的技术探索,而是驱动商业决策的核心能力 —— 它能从海量数据中挖掘出 “降低成本、提升 ...
2025-11-04在 DDPM(Denoising Diffusion Probabilistic Models)训练过程中,开发者最常困惑的问题莫过于:“我的模型 loss 降到多少才算 ...
2025-11-04在 CDA(Certified Data Analyst)数据分析师的工作中,“无监督样本分组” 是高频需求 —— 例如 “将用户按行为特征分为高价值 ...
2025-11-04