我们无须更多的数据科学家只须降低大数据使用门槛-CDA数据分析师官网

热线电话：13121318867

我们无须更多的数据科学家只须降低大数据使用门槛

2016-03-24

我们无须更多的数据科学家只须降低大数据使用门槛

这个国家急缺数据科学家”，目前几乎所有关于大数据的文章都提出了这么一种观点。广受热议的McKinsey公司2011年度调查指出许多机构即缺少对大数据有深刻洞见和理解的人，也没有运用大数据来做出明智决断并执行的动力。

然而在这些讨论中有些东西似乎被忽视了，那就是如何打破瓶颈进而使得大数据能够直接为企业家们所用。我们曾经在软件工业中做到过这一点，我们能够再次做到。

为了达成这个目标，透彻理解数据科学家在大数据中所扮演的角色是很重要的。目前，大数据是一个熔炉，分发着数据结构以及类似Hadoop、NoSQL、Hive以及R这样的工具。在这个技术含量非常高的环境中，数据科学家的工作就像是系统与那些来自不同领域专家之间的门卫与调解人。

虽然有点难以概括，但基本上数据科学家发挥着三种作用：数据架构、机器学习以及数据分析。虽然这些职责很重要，但事实上不是每个公司都需要一个像Google或者Facebook有的那种高度专业的数据团队。关于创造符合目标产品以及剔除技术复杂性的解决方案可以使大数据为商家所用。

随便举个例子，想想发生在世纪之交的网络内容管理革命吧。网站成了一时的时尚，但是各领域专家们却遭遇了源源不断的麻烦，因此我们有了一个瓶颈。所有网站上新的内容都需要IT编辑去编排内容甚至硬编码。那最后又是怎么解决的呢？我们把网络内容管理系统中所需要的核心内容概括并提取出来，然后把它们做成不懂技术的人也会用的模式。

让我们以电子商务为背景，稍微深挖掘一下现今的数据科学家所扮演的角色吧。

用数据架构降低复杂性

缩小范围是降低复杂性的关键。几乎所有的电子商务业务都对获取用户行为感兴趣——预约、购买、线下交易以及社交数据，几乎以上每一项都有目录及客户档案。

对这些基本功能限制范围可以使我们创建标准数据录入的模板，使得数据获取及连通更为简单。我们也需要找到打包不同数据结构与工具（现今包括Hadoop、Hbase、Hive、Pig、Cassandra and Mahout）的有意义的方法。这些数据包必须要符合目标要求，归结起来就是80/20法则：80%的大数据使用方法（所有电商业务需要的全部），可以用20%的努力和技术实现。

巧用机器学习

在机器学习上我们当然需要数据科学家，对吗？好吧，如果你有非常个性化的需求的话，或许对吧。但大部分需要用到大数据的标准需求，比如推荐引擎及个性化系统，都可以被提取出来。举例来说，数据科学家工作的一大块内容是制作“特征”，这是在数据录入里面使得机器学习更有效率的一种东西。我们想一下，所有的数据科学家都要把数据塞进机器并启动它们，那事实就是机器需要人们帮它们指出正确看待世界的方式。

然而，在每一个领域基础上的特征创建都是可以被模板化的。例如每个商务网站都有购买流以及用户分割这些概念。如果各领域专家们可以直接把他们在各自领域的想法和理念直接编码到系统里呢，是不是就可以避开作为中间人及翻译的科学家们了呢？

借用数据分析工具

从数据中自动提取那些最有价值的信息从来都是不容易的。然而，有一些获取特定领域观点的办法可以使商家们更像一个数据科学家去行动。这似乎是最容易解决的一个问题，因为市面上已经有了各种领域的分析产品。

但这些产品目前对各领域专家们来说还是限制太多门槛太高。绝对还需要一个更加友好的界面。我们也需要将机器如何通过分析结果学习放入考虑的范畴。这是非常关键的一个反馈系统，商家们希望把修正放进这个系统中。这也是另一个可能提供模板化界面的地方。

就像我们在内容管理系统中学到的那样，这些方法不能够在任何时间解决任何问题。但将这些技术型解决方案运用在一系列更广泛的数据问题上将会减轻数据科学家们遭遇的瓶颈。当各行业专家能直接用机器学习系统工作时，我们可能就进入了一个能够相互学习的崭新的大数据时代。或许到那时候大数据能解决的问题才会多于它所引起的问题。

CDA数据分析师考试相关入口一览（建议收藏）：

▷ 想报名CDA认证考试，点击>>> “CDA报名” 了解CDA考试详情；

▷ 想学习CDA考试教材，点击>>> “CDA教材” 了解CDA考试教材；

▷ 想加入CDA考试题库，点击>>> “CDA题库” 了解CDA考试题库；

▷ 想了解CDA考试含金量，点击>>> “CDA含金量” 了解CDA考试详情；

▷ 想了解CDA院校合作，点击>>> “院校合作” 了解咨询CDA院校合作；

大数据机器学习特征 Hive Hadoop 数据架构数据分析 Hbase

数据分析咨询请扫描二维码

若不方便扫码，搜微信号：CDAshujufenxi

上一篇回归系列（一）| 怎样正确地理解线性回归

下一篇2020美国总统竞选大戏开锣，川普当选的奇迹会再发生吗？

数据分析师考试动态

CDA报考指南

数据分析学习

数据分析师资讯

京公网安备 11010802034615号经营许可证编号：京B2-20210330

联系电话：13321103290 (微信同号)

客服在线

立即咨询

客服在线

立即咨询

免密码登录

提交首次登录验证后自动注册

我们无须更多的数据科学家只须降低大数据使用门槛

数据分析师考试动态

CDA报考指南

数据分析学习

数据分析师资讯

【CDA干货】OSM指标体系：自上而下拆解逻辑、搭建流 ...

【CDA干货】选择统计方法前最重要的核心工作：避免9 ...

从“零散明细”到“多维洞察”：CDA数据分析师视角 ...

【CDA干货】问卷效度高与后续因子分析：逻辑关系、 ...

CDA持证人专访：唐一楠谈应届生数据分析就业与学习 ...

从“静态数据”到“动态资产”：CDA数据分析师视角 ...

【CDA干货】SQL统计月度每日夜间数据：口径定义、多 ...

【CDA干货】特征置换重要性分析：原理、计算流程、 ...

从“单元格”到“字段”：CDA数据分析师视角下的表 ...

CDA持证人专访：张继荣谈销售转岗数据分析的追梦路 ...

【CDA干货】Excel卡方检验实操指南：原理、步骤、结 ...

从“单元格”到“洞察”：CDA数据分析师视角下的表 ...

【CDA干货】Excel透视表数据直接跨单元格相乘：风险 ...

从“行列规范”到“业务洞察”：CDA数据分析师视角 ...

数据分析师就业难不难？薪资待遇如何？考 CDA 证书 ...

CDA 持证人专访：刘燕谈数据分析师业务落地与项目实 ...

【CDA干货】数据清洗核心技术体系：缺失值填充、去 ...

从“数据”到“洞察”：CDA数据分析师视角下的统计 ...

【CDA干货】指标生命周期全链路管理：从规划设计到 ...

【CDA干货】留存运营指标体系：计算口径、分析方法 ...

CDA教育闭环

常见问题

关于我们

CDA数据分析师公众号

CDA考试中心小程序

CDA数据分析师App下载

我们无须更多的数据科学家 只须降低大数据使用门槛

数据分析师考试动态

CDA报考指南

数据分析学习

数据分析师资讯

【CDA干货】OSM指标体系：自上而下拆解逻辑、搭建流 ...

【CDA干货】选择统计方法前最重要的核心工作：避免9 ...

从“零散明细”到“多维洞察”：CDA数据分析师视角 ...

【CDA干货】问卷效度高与后续因子分析：逻辑关系、 ...

CDA持证人专访：唐一楠谈应届生数据分析就业与学习 ...

从“静态数据”到“动态资产”：CDA数据分析师视角 ...

【CDA干货】SQL统计月度每日夜间数据：口径定义、多 ...

【CDA干货】特征置换重要性分析：原理、计算流程、 ...

从“单元格”到“字段”：CDA数据分析师视角下的表 ...

CDA持证人专访：张继荣谈销售转岗数据分析的追梦路 ...

【CDA干货】Excel卡方检验实操指南：原理、步骤、结 ...

从“单元格”到“洞察”：CDA数据分析师视角下的表 ...

【CDA干货】Excel透视表数据直接跨单元格相乘：风险 ...

从“行列规范”到“业务洞察”：CDA数据分析师视角 ...

数据分析师就业难不难？薪资待遇如何？考 CDA 证书 ...

CDA 持证人专访：刘燕谈数据分析师业务落地与项目实 ...

【CDA干货】数据清洗核心技术体系：缺失值填充、去 ...

从“数据”到“洞察”：CDA数据分析师视角下的统计 ...

【CDA干货】指标生命周期全链路管理：从规划设计到 ...

【CDA干货】留存运营指标体系：计算口径、分析方法 ...

CDA教育闭环

常见问题

关于我们

CDA数据分析师公众号

CDA考试中心小程序

CDA数据分析师App下载

我们无须更多的数据科学家只须降低大数据使用门槛