
作者李·贝克,Chi-Squared Innovations的联合创始人兼首席执行官。
这些年来,我经常被初学者问到,他们应该从哪里开始统计,他们应该首先做什么,他们应该优先考虑统计的哪些部分,以使他们达到他们想要的地方(这通常是一个高薪的工作)。
现在,由于我几乎完全是自学成才,我并不真的认为自己是一个人应该从哪里开始的权威,我很难用任何坚定的信念来回答这个问题。
当然,我对这个问题有一些想法,但这些想法是由我自己的经历决定的。
所以我想我应该联系一下我们的一些统计学朋友,看看他们能给派对带来什么。
这篇文章中的每个统计人员都被问到了同样的问题:
答案令人震惊--结果是如何从零开始成为一名现代统计学家的路线图。
简而言之,如何成为一名未来的统计学家而不需要任何一节课!
统计上存在分歧。一方面,你有那些在统计理论方面受过正规教育的人,另一方面,那些在实践中学习的人。如果你像我一样,你会是一个完全自学成才的统计学家,他渴望地看着另一边甜美的绿草,希望我得到了适当的教育,这样我就不会犯那么多愚蠢的错误。
但其他统计学家对此怎么看?
杰奎琳·诺里斯和我有相同的道路,但她和我的感觉不一样。Jacqueline(@skyetetra)是一名数据科学顾问,也是《在数据科学中建立职业生涯》一书的作者之一,她告诉我,她从未接受过正规的统计学教育,而是学会了工作中需要的一切:
“如果我必须重新开始,我会做和第一次一样的事情!我的背景是应用数学,所以我只在学术界上了一门统计学课程。统计方面的在职教育对我很有帮助,我认识的那些有更严格统计背景的人似乎没有用到他们学到的很多东西。任何时候,我需要一些像不寻常的统计方法,我都可以自己阅读和学习它。作为一名数据科学家,你需要对数据进行更广泛的理性思考,这种思考可能来自许多领域,而不仅仅是统计学。对我来说,这是数学,但我见过许多人从许多背景中获得它。“
我对我从有限的统计教育中获得的职业生涯非常满意--如果我重新开始,我会害怕踩到统计蝴蝶,害怕改变时间表,以至于我最终成为一名用户体验设计师什么的。“
另一方面,你有数据移动我(@datamovesher)的克里斯汀·凯尔,他受过正规的统计学教育。她告诉我:
“我在本科阶段学习的大部分概率和统计都是理论上的。如果我必须重新开始,我会在本科阶段学习更实用的统计课程。但即使我从头开始学习,我也不会改变我在这个主题上攻读正式学位的决定。”
有趣的是,Chatroulette(@lisachwinter)的高级产品研究员丽莎-克里斯蒂娜·温特(Lisa-Christina Winter)给我的建议恰恰相反:
“我会从统计理论开始--通过理解基本概念和它们的重要性。为了把它放在一个易于理解的框架中,我会在简单的实验设计的背景下研究理论。”
那么为什么统计学的理论基础对你来说很重要呢?
“虽然我在第一次学习统计学的时候并不欣赏,但我现在看到了通过使用公式书和分布表手工解决统计问题有多重要。现在和某人一起工作时,很快就会非常清楚,更深入的统计理解是超级重要的。”
怎么会呢?
“在忙于应用统计数据之前,先浏览大量理论统计数据,这让我远离了大量错误,而这些错误是我通过简单地编写语法永远不会意识到的。”
为商科学生创建数据科学课程的马特·丹乔(@mdancho84)有一些关于学习统计的建议可以分享,他告诉我:
“我会做尽可能多的项目--构建产品是你学习的方式。当你遇到错误时,排除故障,创建,学习。这是一种可以直接转移到你的业务中的技能。”
他还告诉所有那些告诉我们如何学会多任务处理的人(我相信你们都知道一位大学讲师告诉你们要学会这一点):
“我会专注于一个学习目标--这很容易分心。这会让你花费数年时间。相反,专注于一个项目或一个学习目标。不是你听到的每一项新技术。这会扼杀你的生产力。专注对学习至关重要。”
OpenIntro团队(@Minebocek)的米恩·切廷卡亚-伦德尔也建议遵循应用的统计路线:
“我从传统的统计学入门课程开始学习统计学,让我们记住一些公式,但并不真正接触数据。在第一堂课之后,我花了一段时间才把这些东西放在一起,理解(并爱上!)整个数据分析周期。”
那么如果她不得不重新开始统计数据,她会怎么做?
“如果我重新开始,我很乐意在可以处理数据的地方开始学习统计学,进行实际数据分析(用R!),并专注于如何提出正确的问题,以及如何开始在真实、复杂的数据集中寻找这些问题的答案。”
Garrett Grolemund在他给统计学新手的建议的第三部分的第二部分(看,我告诉过你我们会再收到他的信,不是吗?)说如果他有机会重新开始统计:
“我会认真思考随机性到底是什么。统计学是这些东西的应用版本,但我们太快就直接跳到数学/计算上了。”
所以我们有了。十分之九cats统计学家更喜欢应用统计学!因此,下次当你为自己没有理论背景而分析数据而感到遗憾时,请记住,你正在遵循许多受过正式培训的统计学家如果有时间的话会走的道路。如果对他们来说足够好,你知道剩下的...
在统计学中有一个分裂,那就是频率论者和贝叶斯论者之间的分裂。
让我们看看统计学家对这场辩论有什么看法。
我们从柯克·伯恩(@kirkdborne),天体物理学家和火箭科学家(嗯,火箭数据科学家)开始。令人惊讶的是,他告诉我他对当宇航员从来没有任何兴趣!
“我不是统计学家,也没有上过一门统计学课程,尽管我在大学里教过。这怎么可能?”
有趣的是,这对我来说也是一样的!他从哪里得到所有的数据?
“我在本科物理中学到了基本的统计学,然后在研究生院及以后,我作为天体物理学家做了多年的数据分析,学到了更多。大约22年前,当我开始探索数据挖掘、统计学习和机器学习时,我学到了更多的统计学。从那以后,我就没有停止学习统计学。”
这听起来有点像我的统计教育。你所需要做的就是从天体物理学中去掉“Astro”,它们是完全相同的!那么他对重新开始统计数据有什么看法?
“我会从贝叶斯推理开始,而不是把早年的所有时间都投入到简单的描述性数据分析中。这会让我更早地学习统计学习和机器学习。我会更早地学会探索和利用贝叶斯网络的奇迹和力量。”
这也是作者、纳什维尔范德比尔特大学医学院生物统计学教授弗兰克·哈勒尔(Frank Harrell)对按下统计重置按钮(@f2harrell)的看法。他告诉我:
当我问Data-Mania的首席执行官莉莲·皮尔森(Lillian Pierson)从哪里开始时,她也提到了贝叶斯统计学:
“如果我必须重新开始统计,我会从3个基础开始:t检验、贝叶斯概率和皮尔森相关性。”
就我个人而言,我没有做过很多贝叶斯统计,这是我在统计方面最大的遗憾之一。我可以看到用贝叶斯方法做事的潜力,但因为我从来没有老师或导师,我从来没有真正找到一种方法。
也许有一天我会--但在那之前,我会继续传递来自这里统计学家的信息。
跟我重复:
学习贝叶斯统计。
学习贝叶斯统计。
学习贝叶斯统计!
谷歌决策情报主管凯西·科济尔科夫(Cassie Kozyrkov)也给了我一个非常有趣的观点,她告诉我她:
“大概喜欢用打印的统计表生篝火吧!”
嗯,阿门,但说真的,你会从哪里开始统计数据?
“模拟!如果我必须从头开始,我想从基于模拟的统计方法开始。”
好吧,我同意你的观点,但为什么特别是模拟呢?
“在大多数STAT101课程中教授的‘传统’方法是在计算机出现之前发展起来的,不必要地依赖于限制性假设,这些假设将统计问题塞进你可以用常见的分布和那些讨厌的过时印刷表格分析解决的格式。”
我抓到你了。那么你对打印的表格到底有什么不同呢?
“嗯,我经常想知道传统课程是否弊大于利,因为我不断看到它们的幸存者犯‘第三类错误'--正确回答错误的方便问题。有了模拟,你可以回到第一原理,发现统计学的真正魔力。”
统计有魔力?
“当然可以!我最喜欢的部分是,通过模拟学习统计学迫使你面对你的假设所扮演的角色。毕竟,在统计学中,你的假设至少和你的数据一样重要,如果不是更重要的话。”
当谈到他的建议时,KDnuggets(@KDnuggets)的创始人格雷戈里·皮亚特斯基建议:
“我会从利奥·布雷曼关于两种文化的论文开始,另外我会研究贝叶斯推理。”
如果你还没有读过那篇论文(这篇论文是开放存取的),Leo Breiman为算法建模做了铺垫,在算法建模中,统计数据被模拟成一个黑箱模型,而不是遵循一个规定的统计模型。
这就是凯西得到的--统计模型很少适合现实世界的数据,我们要么试图将数据复制到模型中(对错误的问题得到正确的答案),要么切换它,做一些完全不同的事情--模拟!
这是我的原始帖子的摘录,它相当长--太长了,不能完整地在这里发布(有30多个世界级的贡献者!)。
如果你喜欢阅读,你可能会有兴趣听听Dez Blanchfield对领域专家的看法,或者Michael Friendly和Alberto Cairo对数据可视化的过去、现在和未来的看法。
还有一本免费下载的书详细介绍了贡献者的所有评论,包括Natalie Dean和Jen Stirrup对信息流和侦探工作的看法。
不要让我从Charles Wheelan和Chelsea Parlett-Pelleriti关于交流的史诗般的建议开始,或者Apache Crunch项目创始人Josh Wills关于统计食谱、微积分和模拟统计之间的比较。
太棒了--你真的不想错过他们!
请过来阅读原始帖子。
简历:李·贝克里斯是一位获奖的软件创建者,他住在黑暗的房间里的键盘后面。只有监视器发出的光照亮他,他渴望找到电灯开关。他在科学、统计和人工智能方面有几十年的经验,他热爱用数据讲故事,然而尽管解释了十几次,他的母亲仍然不明白他是做什么的。他坚持认为数据分析比我们想象的简单得多,他创作了友好、易懂的书籍和视频课程,教授数据分析和统计的基础知识。作为卡方创新公司的首席执行官,有一天他想退休去做一些更简单的事情,比如鳄鱼摔跤。
数据分析咨询请扫描二维码
若不方便扫码,搜微信号:CDAshujufenxi
在AI渗透率超85%的2025年,企业生存之战就是数据之战,CDA认证已成为决定企业存续的生死线!据麦肯锡全球研究院数据显示,AI驱 ...
2025-07-2035岁焦虑像一把高悬的利刃,裁员潮、晋升无望、技能过时……当职场中年危机与数字化浪潮正面交锋,你是否发现: 简历投了10 ...
2025-07-20CDA 数据分析师报考条件详解与准备指南 在数据驱动决策的时代浪潮下,CDA 数据分析师认证愈发受到瞩目,成为众多有志投身数 ...
2025-07-18刚入职场或是在职场正面临岗位替代、技能更新、人机协作等焦虑的打工人,想要找到一条破解职场焦虑和升职瓶颈的系统化学习提升 ...
2025-07-182025被称为“AI元年”,而AI,与数据密不可分。网易公司创始人丁磊在《AI思维:从数据中创造价值的炼金术 ...
2025-07-18CDA 数据分析师:数据时代的价值挖掘者 在大数据席卷全球的今天,数据已成为企业核心竞争力的重要组成部分。从海量数据中提取有 ...
2025-07-18SPSS 赋值后数据不显示?原因排查与解决指南 在 SPSS( Statistical Package for the Social Sciences)数据分析过程中,变量 ...
2025-07-18在 DBeaver 中利用 MySQL 实现表数据同步操作指南 在数据库管理工作中,将一张表的数据同步到另一张表是常见需求,这有助于 ...
2025-07-18数据分析师的技能图谱:从数据到价值的桥梁 在数据驱动决策的时代,数据分析师如同 “数据翻译官”,将冰冷的数字转化为清晰的 ...
2025-07-17Pandas 写入指定行数据:数据精细化管理的核心技能 在数据处理的日常工作中,我们常常需要面对这样的场景:在庞大的数据集里精 ...
2025-07-17解码 CDA:数据时代的通行证 在数字化浪潮席卷全球的今天,当企业决策者盯着屏幕上跳动的数据曲线寻找增长密码,当科研人员在 ...
2025-07-17CDA 精益业务数据分析:数据驱动业务增长的实战方法论 在企业数字化转型的浪潮中,“数据分析” 已从 “加分项” 成为 “必修课 ...
2025-07-16MySQL 中 ADD KEY 与 ADD INDEX 详解:用法、差异与优化实践 在 MySQL 数据库表结构设计中,索引是提升查询性能的核心手段。无论 ...
2025-07-16解析 MySQL Update 语句中 “query end” 状态:含义、成因与优化指南 在 MySQL 数据库的日常运维与开发中,开发者和 DBA 常会 ...
2025-07-16如何考取数据分析师证书:以 CDA 为例 在数字化浪潮席卷各行各业的当下,数据分析师已然成为企业挖掘数据价值、驱动决策的 ...
2025-07-15CDA 精益业务数据分析:驱动企业高效决策的核心引擎 在数字经济时代,企业面临着前所未有的数据洪流,如何从海量数据中提取有 ...
2025-07-15MySQL 无外键关联表的 JOIN 实战:数据整合的灵活之道 在 MySQL 数据库的日常操作中,我们经常会遇到需要整合多张表数据的场景 ...
2025-07-15Python Pandas:数据科学的瑞士军刀 在数据驱动的时代,面对海量、复杂的数据,如何高效地进行处理、分析和挖掘成为关键。 ...
2025-07-15用 SQL 生成逆向回滚 SQL:数据操作的 “后悔药” 指南 在数据库操作中,误删数据、错改字段或误执行批量更新等问题时有发生。 ...
2025-07-14t检验与Wilcoxon检验的选择:何时用t.test,何时用wilcox.test? t 检验与 Wilcoxon 检验的选择:何时用 t.test,何时用 wilcox. ...
2025-07-14