京公网安备 11010802034615号
经营许可证编号:京B2-20210330
2016年可以说是大数据市场热火朝天的一年,无论是大型企业、中小型企业纷纷伸长了脖子想要和大数据这个互联网因素浓郁的技术挂钩。许多的企业也走在开始尝试用大数据技术进行转型的路上…
然而“大数据切实利用起来”还是需要落实落地,与几年前我们刚开始接触的Hadoop相比,数据分析变得更重要。
先来看2017大数据行业的五大趋势
物联网(IoT)和大数据是同一枚硬币的两面;数十亿与互联网连接的“物件”将生产大量数据;深度学习是一套基于神经网络的机器学习技术,它仍在发展之中,不过在解决业务问题方面显示出大有潜力。它让计算机能够从大量非结构化数据和二进制数据中找出感兴趣的内容,并且推导出关系,而不需要特定的模型或编程指令;内存中分析不像常规的商业智能(BI)软件对存储在服务器硬盘上的数据运行查询,内存中技术查询的是载入到内存中的信息,这可以通过减少或甚至消除磁盘输入/输出瓶颈来显著提升分析性能。就大数据而言,正是由于TB级系统和大规模并行处理,让内存中分析技术更令人关注;云计算混合云和公共云服务越来越受欢迎。大数据成功的关键是在弹性基础设施上运行(Hadoop)平台;Apache Spark点亮在大数据。流行的Apache Spark项目提供了Spark Streaming技术,通过主要采用一种在内存中微批量处理的方法,近实时地处理数据流。它已从Hadoop生态系统的一部分,变成许多企业青睐的一种大数据平台。
再看大数据行业最火爆的职位需求
数据分析到底是什么?很多人都在嘴边讨论它们,却没有几个人真正见过它。这是当下科技行业最为火爆的职位,这里举例一个互联网科技公司Twitter对于一个数据分析师的要求是什么?他们的实际工作内容究竟是哪些?
1. 机器学习已经在产品中扮演越来越重要的角色,而这之前完全是「机器学习」的禁区。最典型的例子就是「当你离开时」这个功能。当用户离开页面或者电脑,去干别的事情后再次返回页面,电脑会立刻给你推送出来某些由你关注的人所发出,而有可能被你错过的「优质内容」。
2. 开发工具越来越优秀了。整个团队摆脱了对 Pig 的依赖,全新的数据管道是在 Scalding 中写出来的。
3. 从团队组织上而言, 已经转向了一个嵌入式的模型中。其中数据分析比以往更加紧密地与产品/工程团队发生着联系。
现如今,有太多的人在如何快速成为一名数据分析师上表达着看法,给出自己的建议。小编在知乎上面也发现了网友们的热烈讨论:
网友邹昕认为可以有一个快速成为数据分析师的途径,但是他给了一个前提:
不同行业不同公司要求会很不一样,比如说银行做数据分析、建模会要求 SAS/SQL,而互联网行业数据分析只要会 SQL 就可以了。再比如说小公司可能会要求还会 R/Python 什么的,但是稍微中型一点的公司比如说 Facebook 只需要会 SQL 就行了。乍一看有点奇怪,但其实也不奇怪,因为大一点的公司基础设施 (infra) 做得好,很多事情比如说 A/B test 这种都自动化了,不需要专门写代码。
接下来的内容都可以参照中型以上互联网公司为例:数据分析师需要三个方面的能力——技术(编程),数据分析方法,行业知识。
1. 技术
技术方面刚刚说了,就是SQL, 20 个小时,假设文科生,同时对自己要求高一点,最多 80 个小时可以搞定了。(参考SQL教程-w3cschool)重点需要注意的:where / group by / order by / left join / right join / inner join / null / not null / having / distinct / like / union / avg / sum / min / max,学完之后再搜索一下 "SQL hardest questions", 做做练习。
当然除了 SQL 之外,Excel 也是要会一点的。不过 Excel 这玩意儿基本多少都会那么些吧,比如说做个图,算算总合、平均之类的,稍微复杂点的数据透视表 (pivot) 就够了。话说我第一份工作的时候连数据透视表都不会,所以说如果你不会这个,那也没关系。
如果 SQL 上手比较快,时间充裕,那就练练 Tableau, 主要目的是看看都有什么样的图表,感受一下各自适用什么样的场景。具体怎么做图不是非常重要,真要用的时候搜索一下现学就好了。Tableau 很贵,所以下个试用版的就可以了,然后试用期学点最基本的就可以了。
这一共就假设用了 80 个小时吧,那么 8 天过去了(没算错,都要速成了,那还不每天学习 10 个小时)。
2. 数据分析方法
这里推荐一些书:Case in point. 经典的管理咨询的书,哪个版本的都无所谓了,印象中大概看了一半左右。好像是因为懒,所以没看完,也因为套路都是类似的,看一半也就差不多可以了。——5 天
Introduction to Probability Models by Sheldon M. Ross. 应该是出到第 11 版了,但内容应该区别不大,看第一章就可以了,需要搞清楚条件概率,这个概念还是有点重要的。——4 天
然后再找本统计基础的书(随便哪本教科书都差不多,实在不行的话把 wiki 上统计长条目下的多看几遍也可以),不要太纠结于理论、证明,时刻记住你要能把这些概念解释给不懂统计的人听,解释不清楚的东西你也不用搞清楚。搞清楚几种常见的分布,假设检验,假阳性,假阴性,区别估算,显著性差异,p-value,平均值,中位数,p1/p25/p50/p75/p99,相关性,因果性,幸存者偏差,大数定律,80/20。——10 天
Thinking, Fast and Slow. 当科普书看看就好,如果看不下去的话那就看《牛奶可乐经济学》。——2 天
3. 行业知识
很不幸,这一部分就真的没有什么书可以看的了,基本都靠搜索,总结,思考,再搜索,总结,思考。。。如果平时对互联网、科技行业相对比较关注,这一部分会上手很快,了解一些基本概念,试用一些产品,基本上 20 天肯定可以了。基本上把这些搞清楚,也差不多可以入门了吧。
知乎网友此人已死说:统计学无需置疑是一个数据分析师的核心功底,你只有学好了统计学才能谈得上数据分析。
但是统计学又常常是不够用的,我们还需要一些高级的模型来解决我们实际业务中的问题,比如:银行需要判断是否给某个客户发放信用卡 这就需要一个高级的二分类模型。这里我们的数据挖掘理论就派上用场了。
有了理论知识,我们需要用工具去实现我们的理论并加以应用。这个年代,已经没有人会去手工计算某个问题了,R和PYTHON就是最负盛名的数据分析工具。 关于R和PYTHON的地位,题主可以百度,谷歌,知乎等搜索一遍。 至于如何学习,请看上面的书单!
如果致力于在互联网领域发展,那么网页分析是你必看的一本书籍。这本是是大名鼎鼎的GA创始人著作,看一遍,做一遍会有一个不错的收获。
数据分析师是跟数据打交道的,我们的数据都是存储在数据库里面的,因此掌握必备的数据库技术是肯定要的!
结语
数据分析入门并不难,难的是之后的积累才是重点,如何在实际工作、项目中真正发挥数据分析的作用,产生价值。
数据分析咨询请扫描二维码
若不方便扫码,搜微信号:CDAshujufenxi
在数据统计分析、数据清洗、异常值识别与数据分布研究中,箱型图是最直观、高效、专业的可视化分析工具。相较于柱状图、折线图仅 ...
2026-05-29Tkinter是Python内置的标准GUI图形界面库,具备无需额外安装、调用简单、兼容性强、轻量化高效等优势,是Python快速开发桌面小程 ...
2026-05-29 很多分析师在设计标签时思路清晰,但真到落地环节却面临“数据在手,不知如何转化为可用标签”的困境:或因加工方式选择不当 ...
2026-05-29【核心关键词】大数据、经理、专业、金融、客户、传统、建模、数据产品、互联网金融、产品经理、数据分析、金融行业、数据模型 ...
2026-05-28 很多分析师每天和数据打交道,但当被问到“标签是什么”“标签和指标有什么区别”“标签体系如何设计”时,却常常答不上来。 ...
2026-05-28随着大数据技术的快速普及,各行各业积累了海量的用户数据、交易数据、生产数据与行为数据。单纯的数据统计与报表分析只能呈现表 ...
2026-05-28在Python网络请求、接口测试、数据爬取、业务对接开发中,Requests库是最简洁、最高效的HTTP请求工具,凭借简洁的语法、完善的适 ...
2026-05-272025 年,零售与服务行业的竞争已从 “经验驱动” 全面转向 “数据驱动”。中小企业门店普遍面临数据零散、分析浅层、决策凭感觉 ...
2026-05-27 很多数据分析师每天都在写SQL,但当被问到“数据查询语言(DQL)的本质是什么”“SELECT语句中各子句的书写顺序与实际执行顺 ...
2026-05-27在统计学分析、实验研究、业务数据复盘过程中,单因素方差分析是检验自变量对因变量是否存在显著影响的核心方法。其中,两个水平 ...
2026-05-26【核心关键词】算法、客户、大数据、互联网、调优、建模、模型优化、机器学习、评分卡模型、模型开发、智能风控、业务场景、数 ...
2026-05-26 很多数据分析师写过无数个 SELECT,但当被问到“新建一张表,该如何定义字段类型来保证数据质量”“创建视图和存储物理表有 ...
2026-05-26在数据清洗、统计分析与数据质量检测工作中,箱型图(又称箱线图、Box Plot)是最直观、最高效的可视化分析工具之一。相较于柱状 ...
2026-05-25在大数据分析、数据清洗、质量管控、风险监测等领域,异常数据识别是保障数据质量、确保分析结论精准、规避业务决策失误的核心基 ...
2026-05-25 很多数据分析师精通Excel函数和透视表,但当被问到“数据从哪里来”“表和视图有什么区别”“数据库管理系统和SQL是什么关系 ...
2026-05-25数字化经营时代,企业的市场竞争早已从经验决策转向数据决策。门店营收、用户转化、产品销量、成本损耗、存量资产等所有经营行为 ...
2026-05-22在MySQL数据库日常运维、业务数据校验、数据迁移与数据清洗场景中,自增主键ID的连续性校验是一项基础且关键的工作。MySQL的Auto ...
2026-05-22 很多企业团队并非缺乏指标,而是陷入“指标失控”:仪表盘上堆满实时跳动的数据,却无法回答“当前瓶颈在哪、下一步该做什么 ...
2026-05-22【核心关键词】大数据、可视化、存储、架构、客户、离线、产品、同步、实时、数据仓库、数据分析、数据可视化、存储数据、离线 ...
2026-05-21在电商流量红利消退、公域获客成本持续走高的当下,存量用户深度挖掘已成为店铺增收增效的核心抓手。相较于付费投放获取的陌生新 ...
2026-05-21