
如何系统学习数据分析
很多学习数据分析的同学也都有这样一种困惑‘为什么学了那么多工具,还是不会数据分析?’,原因无外乎两个,一是只学到了碎片的知识,没有建立知识之间的连接,无法形式自己的知识体系,二是缺乏实践,导致无法形成‘知行合一’的工作技能。
知识超载和碎片化
当代人都面临两个问题-信息超载和知识碎片化。
信息超载老话题不多说了,讲几个数据:
全世界每天有4000本书出版,超过4亿个字;
纽约时报一天的文字量等于牛顿同时代的人一生的阅读量;
一个专业领域,每天大概有200个公众号正在注册,有近1000篇文字正在产生
过去杂家、博物家在现代社会已经不可能存在,即使有,也干不过谷歌度娘。
结论1:知识的储存能力,人类早就被电脑完胜了,知识的搜索和链接能力,才是学习的核心竞争力。
另一个趋势也很明显:知识碎片化。这个碎片化从3个方面开始
首先时间和空间被打碎,移动手机允许你在三站地铁里听完一本书;
其次被打碎的是信息,如果你翻知乎、今日头条或者某个博客,你并不会像看一本书一样,知道前面一章讲什么的,后面即将讲什么,除了标题党,你根本对下一个博客、内容毫无预期,只能被动接受;
最糟糕的其实是知识结构碎片化-你并不知道是谁,在什么情况下,针对什么问题讲的这句话。所有的信息缺乏了上下文,就是废话。
比如说有段时间我刷管理类的文,你会发现在雷军、傅盛、彼得德鲁克、吴伯凡、马云、吴晓波各位大佬针对同一个问题讲的内容完全不同。到底信哪个?其实雷军讲的是互联网行业;傅盛讲的是小企业逆袭,他正在做投资;彼得德鲁克用管理在讲哲学;吴伯凡老师在讲中西方文化;马云老师在对大众励志;吴晓波其实是用管理谈财经-更重要的是,他们讲话的场合,时间点和对象你一无所知。
结论2如果一个人没有搜索能力,他不会知道背景;没有思考能力,不会知道为什么-这样单纯知道一句话,比不知道更糟糕。
把前面两个结论放一块,结果很清晰时间空间碎片化确实能够提高学习的效率(其实也干不过电脑),而信息碎片化和知识结构碎片化带来的,则是学习效率的倒退和焦虑之源因为他毁掉你的主动搜索能力和主动链接的能力,也就是深度思考的能力。
这就是碎片化的陷阱,极大的提高了并没有什么卵用的信息,而降低了最重要的独立思考的能力。
知识可以零售吗?
最近的问答类APP非常火,先是知乎4月份在其微信公众号悄然上线了【值乎】,而后果壳网在5月份不甘示弱,上线了【分答】并且后来居上,用户活跃一下子超越了【值乎】。
【分答】是一款付费语音问答产品,它的规则非常简单,有三种角色设定:回答者、提问者、偷听者。回答者只需说明自己擅长的领域,然后设置付费问答的价格,价格规定在1-500元之间,感兴趣的用户可以作为提问者付费后对回答者进行<=50字的文字提问,然后回答者通过<=60s的语音来回答问题。在此过程中,其他用户可以作为偷听者通过1元的付费来‘偷听’回答者的语音回答。被‘偷听’一次,提问者和回答者可以各得0.5元。
【分答】吸引人的地方有两个,一个是提问和回答能赚钱,让知识不再是免费的分享,真正做到了书中自有黄金屋;一个是明星效应,或者说是网红效应。【分答】一开始能够点爆市场,看它的卡司就知道了。
有亚洲首富之子同时也是国民老公的王思聪,有各类综艺大咖如《最强大脑》的帅气教授魏坤琳、《奇葩说》第一季冠军马薇薇、《逻辑思维》创始人罗振宇等,还有演艺界的明星佟大为、汪峰等,这样强大的阵容,让【分答】在上线20几天的时候,就拿到一亿美金的估值,而国民老公王思聪,仅仅回答了25个问题,短短的25分钟时间,就赚了11万多。
在一片喧嚣,全民欢腾过后,静下心想一想,以‘知识的零售平台’为目的的【分答】一类的问答社区,真的能达到传播知识,提升能力的效果?
如果说【知乎】的一问多答,干货至上的模式,收获的是多角度的价值观、人生观以及知识体系;【果壳】的科技报道,收获的是科技的不为人知的小细节,是沧海遗珠。那么【分答】一类的60s的语音回答,收获的或许只是跟明星的亲密接触,以及搞一个大新闻赚钱的欲望的满足。为什么这么说呢?
首先,对于答题者来说,60s的时间仅足够讲1、2个笑话,对于一个知识点来说根本不足以讲透,所以这60s的回答不是用来提供知识的;
其次,对于提问者来说,提问字数限制在50个字以内,提问的东西只能非常直接,根本无暇顾及问题的背景。因此在【分答】上经常出现以下的问题: 如果非要二选一做你的女朋友,你选XXX还是XXX,为啥? 你和XXX的性福生活是真是假? 你多久啪啪啪一次,最近的一次啪啪啪是什么时候和谁?
最后,对于提问者来说,提问的目的不再是单纯的希望获得知识,而是想获得更多的人偷听,从而达到赚钱的目的,这样的目的,不利于知识的正向分享。
我们都有这样的经历,在上学的时候,准确而准时地划重点的老师会往往被同学们点赞。曾几何时,划重点成为课堂最激动人心和最令人期待的一刻。在信息爆炸时代,尤其如此,最重要的不是增加信息,而是筛选和删除信息。
任何学习知识,都是相互联系,相互作用的。因此第一步就是找出各部分间的直接联系,把网络结构初步地建立起来。但是有些部分和其他部分并不一定能够建立直接的联系,那么还需要发掘第二层、第三层关系。 要明确各部分之间的关系,以及综合运用。 学习是先模糊概括,再逐渐在大框架下逐步明晰细节、完善结构、针对缺陷和不足专攻的学习方法。
行动学习理论认为,人要掌握一门技能,需要有10%的时间学习知识和信息,70%的时间练习和践行,还有20%的时间与人沟通和讨论。这个原则叫做721原则。
碎片化学习对于10%的信息接收非常有用,而剩下独处练习的70%和讨论的20%,则需要留出大量时间来系统学习——碎片化学习永远只是系统化学习的辅助。你需要留出足够多整块时间学习。
所谓系统学习法,是指把所学内容当成是一个系统看待,力求从大方向出发指导学习,这样,在学习的时候不是按部就班按章节行进,而是先模糊概括,再逐渐在大框架下逐步明晰细节、完善结构、针对缺陷和不足专攻的学习方法。
如何系统学习数据分析?
在学习数据分析之前应该明白几点
数据初期的准备通常占整个数据挖掘项目工作量的70%左右。
数据分析师本身融合了业务知识、统计学和计算机等学科,并不是新的技术。
数据分析更适合业务人员学习(相比技术人员学习业务来的更高效)
数据分析项目通常需要重复一些毫无技术含量的工作。
职业规划
以数据分析师为例,先看一下国内知名互联网数据分析师的招聘要求:
计算机、统计学、数学等相关专业本科及以上学历;
具有深厚的统计学、数据挖掘知识,熟悉数据仓库和数据挖掘的相关技术,能够熟练地使用SQL;
三年以上具有海量数据挖掘、分析相关项目实施的工作经验,参与过较完整的数据采集、整理、分析和建模工作;
对商业和业务逻辑敏感,熟悉传统行业数据挖掘背景、了解市场特点及用户需求,有互联网相关行业背景,有网站用户行为研究和文本挖掘经验尤佳;
具备良好的逻辑分析能力、组织沟通能力和团队精神;
富有创新精神,充满激情,乐于接受挑战
前三个属于硬件要求,一般而言,有专业基础(计算机、统计学、数学等相关专业)入行需要3个月以上的学习。对于非专业背景的同学,入行的时间可能需要的更长,建议给自己预留6-12月的时间。而要成为一个熟手(企业用工需求最多)则需要2-3年以上的行业经验。
从业务开始
学习一门技术要和行业靠拢,没有行业背景的技术如空中楼阁。技术尤其是计算机领域的技术发展是宽泛且快速更替的(十年前做网页设计都能成立公司),一般人没有这个精力和时间全方位的掌握所有技术细节。但是技术在结合行业之后就能够独当一面了,一方面有利于抓住用户痛点和刚性需求,另一方面能够累计行业经验,使用互联网思维跨界让你更容易取得成功。不要在学习技术时想要面面俱到,这样会失去你的核心竞争力。
大数据是技术工具,最终的应用需要深入理解业务企业的业务场景和商业模式,甚至有人说不懂业务就不要谈大数据,可见领域知识的重要性。值得一提的是,近几年在顶尖科学杂志《Nature》与《Science》上发表的大数据文章都是来自行业专家,而并非计算机专家,这从另外一个方面反映了业务知识的重要性。
get技能
数学知识
数学知识是数据分析师的基础知识。对于初级数据分析师,了解一些描述统计相关的基础内容,有一定的公式计算能力即可,了解常用统计模型算法则是加分。对于高级数据分析师,统计模型相关知识是必备能力,线性代数(主要是矩阵计算相关知识)最好也有一定的了解。
分析工具
对于初级数据分析师,玩转Excel是必须的,数据透视表和公式使用必须熟练,VBA是加分。另外,还要学会一个统计分析工具,SPSS作为入门是比较好的。对于高级数据分析师,使用分析工具是核心能力, SPSS/SAS/R至少要熟练使用其中之一,其他分析工具(如Matlab)视情况而定。
编程语言
对于初级数据分析师,会写SQL查询,有需要的话写写Hadoop和Hive查询,基本就OK了。对于高级数据分析师,除了SQL以外,学习Python是很有必要的,用来获取和处理数据都是事半功倍。当然其他编程语言也是可以的。
勤于学习
大数据时代的知识,没有像印刷时代对知识结构视为必须具备的‘基础’知识,知识是非线性的,可以自由组合、切割,处于一种分散和游离的状态。未来,你必须具备快速自学和捕捉知识的能力,学习将从一个‘知识储备,学以致用’的过程,向‘知识构建,用时再学’的过程转变,学习将是一个持续的,乃至终身学习的过程。为此你需要具备一种快速而灵活的学习方式
数据分析咨询请扫描二维码
若不方便扫码,搜微信号:CDAshujufenxi
t 检验与 Wilcoxon 检验:数据差异比较的两大统计利器 在数据分析中,“比较差异” 是核心需求之一 —— 如新药疗效是否优于旧药 ...
2025-08-26季节性分解外推法:解锁时间序列预测的规律密码 在商业决策、资源调度、政策制定等领域,准确的预测是规避风险、提升效率的关键 ...
2025-08-26CDA 数据分析师:数据治理驱动下的企业数据价值守护者 在数字经济时代,数据已成为企业核心战略资产,其价值的释放离不开高 ...
2025-08-26基于 SPSS 的 ROC 曲线平滑调整方法与实践指南 摘要 受试者工作特征曲线(ROC 曲线)是评估诊断模型或预测指标效能的核心工具, ...
2025-08-25神经网络隐藏层神经元个数的确定方法与实践 摘要 在神经网络模型设计中,隐藏层神经元个数的确定是影响模型性能、训练效率与泛 ...
2025-08-25CDA 数据分析师与数据思维:驱动企业管理升级的核心力量 在数字化浪潮席卷全球的当下,数据已成为企业继人力、物力、财力之后的 ...
2025-08-25CDA数据分析师与数据指标:基础概念与协同逻辑 一、CDA 数据分析师:数据驱动时代的核心角色 1.1 定义与行业价值 CDA(Certified ...
2025-08-22Power Query 移动加权平均计算 Power Query 移动加权平均设置全解析:从原理到实战 一、移动加权平均法的核心逻辑 移动加权平均 ...
2025-08-22描述性统计:CDA数据分析师的基础核心与实践应用 一、描述性统计的定位:CDA 认证的 “入门基石” 在 CDA(Certified Data Analy ...
2025-08-22基于 Python response.text 的科技新闻数据清洗去噪实践 在通过 Python requests 库的 response.text 获取 API 数据后,原始数据 ...
2025-08-21基于 Python response.text 的科技新闻综述 在 Python 网络爬虫与 API 调用场景中,response.text 是 requests 库发起请求后获取 ...
2025-08-21数据治理新浪潮:CDA 数据分析师的战略价值与驱动逻辑 一、数据治理的多维驱动引擎 在数字经济与人工智能深度融合的时代,数据治 ...
2025-08-21Power BI 热力地图制作指南:从数据准备到实战分析 在数据可视化领域,热力地图凭借 “直观呈现数据密度与分布趋势” 的核心优势 ...
2025-08-20PyTorch 矩阵运算加速库:从原理到实践的全面解析 在深度学习领域,矩阵运算堪称 “计算基石”。无论是卷积神经网络(CNN)中的 ...
2025-08-20数据建模:CDA 数据分析师的核心驱动力 在数字经济浪潮中,数据已成为企业决策的核心资产。CDA(Certified Data Analyst)数据分 ...
2025-08-20KS 曲线不光滑:模型评估的隐形陷阱,从原因到破局的全指南 在分类模型(如风控违约预测、电商用户流失预警、医疗疾病诊断)的评 ...
2025-08-20偏态分布:揭开数据背后的非对称真相,赋能精准决策 在数据分析的世界里,“正态分布” 常被视为 “理想模型”—— 数据围绕均值 ...
2025-08-19CDA 数据分析师:数字化时代的价值创造者与决策智囊 在数据洪流席卷全球的今天,“数据驱动” 已从企业战略口号落地为核心 ...
2025-08-19CDA 数据分析师:善用 Power BI 索引列,提升数据处理与分析效率 在 Power BI 数据分析流程中,“数据准备” 是决定后续分析质量 ...
2025-08-18CDA 数据分析师:巧用 SQL 多个聚合函数,解锁数据多维洞察 在企业数据分析场景中,单一维度的统计(如 “总销售额”“用户总数 ...
2025-08-18