京公网安备 11010802034615号
经营许可证编号:京B2-20210330
本文由CDA数据分析师小编根据中国人民大学教授吴喜之在“2015年中国数据分析师行业峰会”的演讲整理而成,如需转载请注明出处
上午嘉宾的讲课,讲的东西大部分是给管理阶层和领导阶层说的。我是讲给学生,给年轻人听的。如果你管理阶层再好,你找不到人也什么也没有,而对于每个人来说最重要的就是把自己的价值提高,而不是地位。
这是一些调查的结果,数据科学家的年薪是多少,这是美国的。
程序员的平均年薪不是我们的目标,也不是成功的标志,这是一种价值的标志。怎么样才能有价值?我说的可能有点过分,但是我必须这么说,现在的统计,特别数据统计问题很严重。
美国的一个调查报告说人才缺口很多,说明在美国培养这样的人数也不够,可以用大数据来做的缺少的更多。美国是这样,中国将来肯定也是这样,现在实际上有很多缺口。现在就怕跳槽,怕找不着(工作),我们的成功不是要通过关系,不是通过老子有个什么样的头衔,我们要有能力,谁都想要你,这才是价值。我们要的是价值,而不是所谓的成功。
如果你擅长数学,有很清晰的逻辑思维能力(文科的人是没有的,但是可以训练,因为大部分知识都是自学的),并且对某个行业了如指掌,如果你有这样的技能组合,就可能当上数据科学家。曾经LinkedIn有个投票显示,数据分析和数据挖掘是最大的求职法宝。那些高科技团队都有自己的数据科学团队,而那些非科技公司和大公司也需要做这些东西,他们现在需要的是人才,你们就是要把自己做变成被需要的人才。
数据科学家专业人才干什么呢?对公司来说,他们可以挖掘新的信息,帮助公司开源节流,所以它需要的是人才,关键是人才。我们说数据科学,科学意味着没有权威,不要迷信那些权威,中国人喜欢崇拜权威。任何科学研究的目的是基于数据,颠覆理论,这样才能往前进。中国人从小学会的就是听老师话,听爸爸妈妈话,听家长话,古人什么都好,现代人什么都不好,这样一代不如一代,所以你必须要有科学精神。诺贝尔物理奖没有一个是承认过去怎么样的,而是推翻过去的事情,这是科学,是颠覆性的。
数据科学有很多很多定义,最基本的定义就是这个,就是Computer science,还有数学、统计、目标、知识,这是最基本的,再说多了就过分了。
对于现在的你们来说,一般不会细到那种程度。我们应该变成一个通才,哪个公司都应该愿意要我们。清华大学之所以现在变成这个样子,就是因为在1952年院系调整的时候,每一个专业就是一个生产线,弄的很细很细,没有一个更宽广的视野。
主要是三部分:数学、统计、知识。
数学关键是逻辑而不是具体的方法,不是你怎么求多项式的根,而是它的基本逻辑,它的数学语言,这一点要懂。数学逻辑是各种学科当中最严格的逻辑,无论你是学逻辑的,学物理的,学什么的,文科学逻辑的肯定是不如学物理的,学物理的逻辑肯定不如学数学的,所以你要跟学数学的辩论的话就很困难。文理分科造成没有逻辑的文章,没有逻辑的法官,现在法官错判率那么高,他们中学平面几何没学好,基本的常识,基本的逻辑推理都不会。
统计学的是批判性思维。你们在统计学课本上学到的是70年前、100年前的知识,是前计算机时代的东西。那时候没有那么多计算机,数据量不大,所以他做什么都用假定来做结论。中国在数据统计方面的研究大部分还是遵循着70年前、100年前的东西来做,你不能假定地球是方的,然后得出结论去发表,这没有什么意义的,你必须根据现实生活的意义来做。
所以我们要学的也不是基于无法验证的假定而形成的假设检验和区间估计。就像我说的你假设检验,什么显著,0.05就是显著。亲子鉴定100个人有5个鉴定错了,能接受吗?能认为这是小概率吗?区间估计就更难说了。
这是我们所要学学习和了解的,最近20年发展而且仍然在发展的最新的经济学方法,这是最根本的。像我现在正在寻找经典方法,比经济学法好的方法,我每天都在算数据,我就想找这样的例子。我举个例子,对于做出贡献性的方法,回归什么的那一大堆方法,我如果做的话,我没找到一个例子说用这些方法比神经网络做的更好的。所以说你不能从理论出发,不能从你在数学杂志上发表出发,一定要从数据出发。
有一个瑞士人到科学院讲课,就讲这些东西,底下科研的学究们,那么研究生们说,这个系数有什么意义啊?他说贡献的变量的系数,没有任何意义,只要这个方法对预测好,那就是好。中国人学呆了。像回归分析,在别的变量不变的时候,我这个量增加不增加?别的变量肯定不变的,特别经济统计,没有两个变量是完全不变的。
计算机科学,不是一两个盗版傻瓜软件+点鼠标就是计算机科学了。还加上网络漫游能力和泛型编程能力,我说的这个泛型编程能力是计算机编程理念,我用了很多编程理念没有一个是在课堂上学的,就是自己在编的时候自己领会。一切东西依赖于自学,而不是依赖老师,这可能跟我的经历有关。
这是2015年的一个网站调查,用的最多的是R,这是2014年的,R在图片当中也是最多的,其他的软件加起来是17%,底下这个是2014年,也是R,为什么是这样?第一,它们是开源的,它们的代码是公开的。
这是计算机的亲和性,还有SQL,亲和性很大,就是它的语言你懂一个,再学一个,直到后来一天一个就学下来了,真是这样的,不是开玩笑。我不想说SAS,我在美国的第一个研究就是SAR,它的亲和力小。实际上现在很多R,很多会R的都可以去做东西。这也是转换性的,就是R跟Python转化的多,所以第一学的编程语言应该是R,然后Python,然后是其他的语言。其他点鼠标的语言是用不着学的。
最根本的就是领域知识,你必须了解领域知识,你才能够知道该怎么做。如果你仅仅是一个干巴巴的统计学家,就不会了解实际问题。
原来在医学杂志发表的一个很有名的文章讲,如果父母在婴儿房间内睡觉总是开着灯,婴儿就会有高度近视。后来再发现,凡是父母高度近视的,往往有给小孩开灯的习惯。到底什么造成小孩高度近视,现在你们知道的,但是当时的人不知道,所以要有很深刻的领域知识,只有明白目标领域知识的人才能明白它的意义,知道往哪个方向努力,去判断分析结果的可能性。所以用数据来说话,其他的一切都是废话,不要做一些莫名其妙假定,我每年看到很多很多的文章,包括一些大赛,好多比赛题目都是莫名其妙的假定,就连31个省市自治区的数据都假设是正态分布,这31个省市自治区的就不是样本,更不用说是正态分布。
科学,对年轻人来说就是要明白这些基本的东西,太花哨的东西就没意义了。你离得越远看得越清楚,站得越高对全局的了解越好,不要太具体了,不要迷信这些炒作的新名词、新概念。用自己的大脑,用常识判断,想想合不合理。过去某个人的经验是他的经验,不是你的经验,他在特定环境、特定时间有作用,如果你要跟风就意味着永远是跟随,也绝对不会有出息。
个人要有快速的自学能力和对数据分析的爱好,我从来没学过计算机,也没学过计算机编程。英文都没学过,全都是自学的,所以我对自学很相信。现在我教的东西都是最近这几年的东西,我现在实际上比一个全职教师教的课还多,但是我教的东西好多都是前一天网上才出现的,我看到觉得有价值,第二天就放到课堂上了。只有这样,只有不断的自学,不断的学习才能当老师。如果你不断的跟学生演示80年前的推导过程,只能显示你的记忆力好,那不是好老师。
另外是不是做数据科学家的材料?你专长于任何特定变成语言相比,泛型变成技巧更重要。最重要的素质就是能快速学习东西,在这个时代技术发展的突飞猛进,语言很快会过时,新的语言会迅速普及,所以学习东西快的人比单独领域的专家更有前途。我要看你这个人的潜力,而不是你知道什么。知识再多你也超不过一个硬盘吧?但是硬盘没有创造力。
如果你每天花大量的时间编程,分析控制面板上的数据,获得相关知识和信息,你对这样的工作感兴趣,你就适合干这行。现在我没事就处理变成数据。如果仅仅是想拿高工资,那可能觉得这样的日子就很苦了。实际上不光是这个工作,干任何工作,即使是坐牢你也要把它当成乐趣,这个不是玩儿的。
真正适合干这一行的人,会在业余时间里编程序、分析数据,他的目的就是自娱自乐,而不是为了要拿着什么学位,拿到什么样的头衔,最终他自己把自己的价值就提高了。如果你爱的不是数据本身,而是它给你带来的高薪,那你很难跟上来的人来竞争了。要学会干一行爱一行,每个人都应该学会热爱数据,即使是为了自己的事业前途也应该这样想,为了自己的心里也应该这样想。
还需要什么呢?刚才我说了,学习能力比知识更重要,欢迎挑战、乐于攀登。有点挑战的我就很高兴,我相信很多人都这样,这样活着才有意义,像猪一样的活着没有意义。你像富二代开着宝马到处飙车,他是找不到活着的意义啊,穿名牌什么的,是让别人觉得你有点价值,实际上别人一看你更没有价值了。马克思的座右铭怀疑一切,在怀疑中成长。
不要给自己贴标签,就是我学什么方向的,别的不搞,岁数大了,学不会了,很多人都有这样的借口,这实际上是借口,我现在每天都在网上学东西,所以我现在教的东西总是新的,我的书一版再版,我现在大概写了有30本书了,为什么再版,因为我发现原来的有错或者不全面,我一定要把事情说的更透彻一点,说的更好一点。
什么人最快乐?被人需要,这是很重要的,就是你得有价值。因为你的专长,能力、善良、尊重、爱心、品质、性格、智力、分享。在公司里跟人家能相处,至少你得是可爱的。还要关心他人,能让别人快乐的人是快乐的。尊敬别人的人是快乐的,诚实坦荡的人是快乐的,心胸开阔,不去计较一些小事情。最关键的就是爱人如己,你爱人不是因为他能爱你回来,也不是因为他可爱,而是对任何事情都尊重,这是最根本的一点。如果这点你要做到了,人人都能做到,那世界就太理想了。不管怎么样,我希望大家能够快乐。
数据分析咨询请扫描二维码
若不方便扫码,搜微信号:CDAshujufenxi
【核心关键词】贷款、报表、课程、专业、建模、缺失值、营销、互联网、银行、办公自动化、数据分析、数据预处理、特征工程、贷 ...
2026-06-05在数据库数据查询、业务报表统计、多表关联分析中,LEFT JOIN左连接是使用率最高的SQL关联查询语句。其核心特性是保留左表全部数 ...
2026-06-05 很多数据分析师能熟练地写SQL、做透视表、算描述性统计,但当被问到“如何预测用户流失概率”“如何归因销量下滑的关键因素 ...
2026-06-05任何一款产品从诞生、普及到最终退出市场,都会遵循一套固定的发展规律,这就是产品生命周期理论。在市场竞争日益激烈、产品迭代 ...
2026-06-04在Excel数据分析、办公统计、业务报表制作场景中,数据透视表是数据汇总、分类统计、快速复盘的核心工具,能够高效完成海量原始 ...
2026-06-04 很多数据分析师拿到数据就开始清洗、建模,但当被问到“这批数据属于什么类型——结构化还是非结构化?分类变量还是数值变量 ...
2026-06-04在问卷调查与社会科学数据分析中,卡方检验是最常用、最基础的非参数检验方法,广泛应用于市场调研、用户分析、行为统计、满意度 ...
2026-06-03【核心关键词】贷款、报表、课程、专业、建模、缺失值、营销、互联网、银行、办公自动化、数据分析、数据预处理、特征工程、贷 ...
2026-06-03 很多数据分析师画过趋势图、做过业绩预测,但当被问到“这个月销售额增长20%,到底是长期趋势自然增长,还是促销活动的短期 ...
2026-06-03逻辑回归是数据分析、机器学习、统计建模中应用最广泛的二分类预测模型,常用于风险判断、行为预测、归因分析等场景。在SPSS、Py ...
2026-06-02数字经济时代,市场竞争日趋同质化,用户消费需求愈发个性化、多元化,传统依托经验、粗放式、广撒网的营销模式弊端日益凸显。长 ...
2026-06-02 很多数据分析师做过按月份的销售额趋势图,画过按天的流量折线图,但当被问到“时间序列和普通数据有什么本质区别”“季节性 ...
2026-06-02在市场竞争日趋饱和、用户需求不断细分的当下,企业创业创新、产品迭代与市场拓展不再依赖经验决策,而是需要系统化、工具化的商 ...
2026-06-01【核心关键词】调度、岗位、数据库、企业、报表、培训、程序、数据分析、数据加工、业务部门、企业数据、调度工具、业务指标、 ...
2026-06-01 很多数据分析师能熟练地计算指标、搭建标签体系,但当被问到“画像到底在解决什么问题”“画像和标签是什么关系”“画像如何 ...
2026-06-01在数据统计分析、数据清洗、异常值识别与数据分布研究中,箱型图是最直观、高效、专业的可视化分析工具。相较于柱状图、折线图仅 ...
2026-05-29Tkinter是Python内置的标准GUI图形界面库,具备无需额外安装、调用简单、兼容性强、轻量化高效等优势,是Python快速开发桌面小程 ...
2026-05-29 很多分析师在设计标签时思路清晰,但真到落地环节却面临“数据在手,不知如何转化为可用标签”的困境:或因加工方式选择不当 ...
2026-05-29【核心关键词】大数据、经理、专业、金融、客户、传统、建模、数据产品、互联网金融、产品经理、数据分析、金融行业、数据模型 ...
2026-05-28 很多分析师每天和数据打交道,但当被问到“标签是什么”“标签和指标有什么区别”“标签体系如何设计”时,却常常答不上来。 ...
2026-05-28