京公网安备 11010802034615号
经营许可证编号:京B2-20210330
大数据应该也必将走下神坛_数据分析师培训
2013年,大数据[注]在中国异常火爆,有人认为2013年是中国的大数据元年,结合自己的学习和了解,谈几点心得。
一、大数据应用的分类和实例
目前业界对大数据的描述五花八门,但其实大数据应用主要分为两大类:一类是通过大数据来治理国家,这方面倡导的主要以学者涂子沛为主流;另一类就是大数据商业应用,提高商业效益和价值。
涂子沛先生先后写了两本书《大数据》、《数据之颠》;这两本书在国内的政商界引起过较大的反响。但看完他的书,通篇讲的是美国的信息开放、美国采用数据治理国家的过程及感想。结合他的这两本,以及本人近期看的《蓝血十杰》中的案例,简要说明一下大数据治国的案例。
美国是大数据治国做得最好的,其最早的应用就是人口普查,为什么要进行人口普查呢?主要是为了分配参议院的权利席位,每10年开展一次全国人口普查,然后对各州的参议院席位按人口比例进行分配;后来由于农业、工业生产的需要,逐步将普查扩展到农业、工业等多个领域。
美国是一个发现问题后很善于解决问题的国家,二战刚开始时,前线作战指挥官连战争中死亡和杀敌的数据都无法精准掌握,后勤补给更是一团乱麻,于是就有蓝血十杰之一的桑顿牵头,通过哈佛商学院定制培养,组建5000多人的统计管制处,这个部门其实就是用大数据的方法,对美国空军的各种飞机、备件、弹药武器等进行统计分析,并精准的投放到前线,有力的保障了前线的作战;深层次的就是精准分析那种飞机的作战性能,得出B17比B19更适合轰炸日本,为作战提供参谋,其实他们应用的就是今天所说的大数据。
还有一个案例就是911发生后,小布什紧急问周边的人员世贸大厦里面有多少人上班,死亡多少人,周边没有一个人能精准说出来,有人说13000多,有人说 3000多。911后,美国政府就建立了一个信息系统,这个系统能精准统计每个企业办公地址,企业的人员分布,每个住宅楼的家庭人数,这个系统后来为人口流动能提供依据,如果再次发生911,美国就能知道哪个大楼里面大致有多少人在办公,晚上哪个住宅发生火灾,那个楼里面大致住着多少人,这个系统通过对人员的流动还能预测经济运行健康情况等。
在大数据商业开发应用方面,目前主导的很多企业都在开展这些工作,特别是互联网公司走在行业的前列,如Google的无人驾驶汽车,Google、 Baidu、Taobao等开展精准营销、还有沃尔玛的尿布与啤酒的故事,淘宝对经济危机的提前预测、Goole对流行病的提前预测等。这些都是基于海量数据等归纳统计分析的结果。
二、大数据应该也必将走下神坛
大数据概念被吵得很热,很多人觉得很神秘,很高深,甚至有专家呼吁国家层面加大产业的投入,不能让大数据的技术落后,其实我倒是觉得大数据没有那么神秘高深,它必将走下神坛。
我认为,大数据是以“化石能源”为基础的这波工业经济发展到顶峰之后,人口红利已到尽头,靠规模取胜的时代已去,其他手段都难以大幅提升效益的情况下,通过精细化、精准化的数据分析做精做细就成了产业发展的必然。
任何事物发展都是倒置的抛物线,当整个全球经济、一个国家、一个产业处在爆发增长阶段,靠规模效应就能获得好的收益,就像20~10年前通信行业一样,发展一个用户就100%赠钱,谁会提精细化运作、流量经营。只有当用户发展遇到天花板、竞争异常激烈之后,大家才发现,粗暴式发展不行了,就需要经营出效益,就需要精细化。
当前的国际、国内无论是治国、还是工农商经济发展都遇到了瓶颈,各行各业大量的产能过剩,靠提高产量发展获得经济收益的时代一去不返了,所以一些经济学家提出了大数据。
大数据说白了,就是对过去的大量数据进行精准分析,归纳统计,精耕细作,他是改变过去那种粗犷的发展模式,向精细化要效益。所以它压根就不神秘,不高端,只是一个思维和行动方式的转变。
基于这种考虑,国家与其给钱扶持,不如给政策扶持,可以学习美国奥巴马政府,完善立法,如颁布《信息公开法》,引导国家机器、企业、个人强化精细化的意识,完善数据采集、共享、开放、应用的产业环境。
三、大数据是一个细致的技术活
基于上面我的分析,大数据是其他手段都用尽,而采用的从内部要效益的技术活,所以大数据还真是一个难度很高的技术活。
这个就好比一个学生,从60分努力提升到90分相对比较容易,而从90分提高到100分就是很难的活了。
而大数据就是一个从90分提高到100分的活,大家要想到,当前国际产业届,从60分提到90分的事情大家都想完了,早就干了。
这就好比,汽车行业,其实烧汽油让热能转化成动能让汽车跑起来这活,能量转化效益已提高到极致了,谁都难以找到一个好的办法将能量转化效益再提高10%, 除非进行能源革新,在汽油这事上可能性不大了。所以从节省能源的角度就有人提出无人驾驶,智能控制,减少因为人的原因造成的能源损失,当然节省能源只是无人驾驶汽车目的的一个方面。
四、大数据将应用到各行各业
当今社会,国家的竞争最主要的是经济实力的竞争,所以将治国和经济生活的界线其实很难划分的,治国也是为了经济服务,特别是目前国内的环境,我觉得中国的大数据可能最先在商业领域应用,然后倒逼应用到国家的治理之中,将来,我们的衣食住行都离不开大数据,因为当社会解决了生产力与人民需要之间的矛盾,国家发展到一定富裕阶段,人们的物质文化生活需要得到极大满足之后,靠人口红利的粗犷式发展模式必将转变,这就是政府提出的产业转型,其实转变的方式就是各行各业做精、做深、做细,因此所谓的大数据的思维模式必将在我们的农、工、商各行各业应用。
农业:国家现在的食物生产完全是粗犷式的,猪肉、葱、姜暴涨暴跌,如果应用大数据,这些问题将大幅减少,政府可以将全国、各个地区的各种食材需求、消费、生产、流通建立数据库,公开上网,可以精准指导各个地区的生产、调配、消费。这个事美国政府早就干了,可喜的国内生猪养殖已开始这么做了,所以近几年猪肉没有像以前那样暴涨暴跌了。
工业:现在国内的各行各业生产过剩,钢筋、水泥等都过剩,温氏内阁不是通过抑制产能,而且通过扩大应用消耗来救市。如果应用大数据,其实可以将各个地区的钢筋、水泥需求量化的,将这些信息公开就可以很好的指导工业生产了。美国其实也是这么干的。
商业:这方面的例子就更多了,最典型的就是电商的崛起对电脑城、家电连锁、传统商场、超市的冲击了。现在去电脑城,那个萧条简直让人无法相信。这些商业信息的公开,其实是有利于政府对商圈的规划、商业机构的招商、资金资源的最优流动和配置。
五、大数据将带来几个行业快速发展
首先是IDC行业的发展,目前中国的数据总量是250PB,而欧洲是4000PB、美国是3500PB.而且未来随着移动互联网、物联网、车联网、各种传感器的应用,数据采集存储处理的需求空间十分巨大。
其次是带来数据挖掘领域的崛起,有人嘲笑“现在有一台服务器就叫大数据”,其实这种以数据规模来衡量大数据是片面的,未来的大数据将应用在各行各业,比方说全国的不动产统计系统可能就很庞大,而未来针对个人的健康监控系统规模就很小,将来每个人可以将自己每天的吃喝拉撒睡数据进行统计分析,实时监控个人的健康状况,这个也是大数据啊。
再就是与数据相关的各种智能:如人工智能、无人驾驶、智能城市等,这些东西就是通过数据处理、分析、应用来替代人工,提高行业效益。
六、任重道远、且行且珍惜
奥巴马政府对大数据异常重视,将其定位为国家战略,从立法、政策制定、组织匹配、产业扶持等各个方面推动大数据的应用。
而我国政界目前仍是“雷声大、雨点小”,可喜的是这届政府比较开明,有几个可喜的事件:1、今年三月习总带队七常委考察中关村,重点听取李彦宏、雷军讲解大数据;2、主管工业的汪洋副总理多次提到大数据,其在广东主政期间,大力推动政务公开;3、北京市政府已开始开放部分数据信息,开信息开放先河。
当然国内的环境还很不健全,主要是法律、政策等方面很不健全,民间出现信任危机,导致信息公开、共享、合作的气氛不健全。
最后用两句流行的话做结语:“前途是光明的,道路是曲折的”,“且行且珍惜!”
数据分析咨询请扫描二维码
若不方便扫码,搜微信号:CDAshujufenxi
在数据分析、业务监控、运营复盘等场景中,列值趋势计算是核心需求之一。无论是分析销售额的月度增长、用户活跃的变化趋势、库存 ...
2026-06-12在数字经济深度渗透的当下,消费者的购买行为已从过去的 “被动接受” 转变为 “主动决策”。流量红利消退、获客成本攀升、用户 ...
2026-06-12CDA三级认证是三个级别中的塔尖,全面考察数据战略、团队领导和复杂项目的综合能力。它所对应的《敏捷数据挖掘》教材,不再局限 ...
2026-06-12在游戏产业的商业逻辑中,付费玩家是支撑游戏生存与发展的核心支柱。行业普遍遵循 “二八定律”:20% 的付费玩家贡献了游戏 80% ...
2026-06-11【核心关键词】企业、定位、传统、产品、互联网、可视化、业务侧、数字化、结构化、数据分析、传统制造业、市场状态、发展空间 ...
2026-06-11 解读《CDA二级教材:量化策略分析(2025)》的全景结构与学习逻辑 ” CDA二级认证是企业招聘数据分析师时最常提及的证书门槛 ...
2026-06-11【核心关键词】药企、可视化、营销、分类、数据分析师、销售数据、业务人员、指导方向、分析报告、营销数据、营销医生 【专访摘 ...
2026-06-10在统计学分析、问卷调研、实验验证、业务复盘等场景中,卡方检验与 T 检验是应用最广泛的两类基础假设检验方法。前者专门处理分 ...
2026-06-10 很多数据分析师每天都在计算指标、制作报表,但当被问到“什么叫指标数据元”“指标数据标准包含哪些核心维度”“指标数据质 ...
2026-06-10在MySQL数据库日常查询、数据统计、后台接口开发、数据导出等场景中,开发者经常需要查询数据表除某几列之外的所有字段。例如查 ...
2026-06-09在Python网络请求、爬虫开发、接口测试、数据抓取等实操场景中,requests库是最常用的第三方请求工具,而content属性是requests ...
2026-06-09 数据分析正在重塑每一个行业。CDA认证的三本官方教材,分别对应Level I、Level II、Level III,为你铺就从业务数据分析到数 ...
2026-06-09在数字财务、智慧财税、业财融合深度推进的当下,传统财务模式下数据标准混乱、业务流程碎片化、知识无法沉淀、系统互通性差等问 ...
2026-06-08随着数字经济深度渗透各行各业,数据正式成为继土地、劳动力、资本、技术之后的第五大生产要素,是企业数字化转型、精细化运营、 ...
2026-06-08 很多数据分析师能熟练写SQL、做透视表,但当被问到“数据是从哪里来的?经过哪些加工才进入数据仓库?ETL具体做了什么?”时 ...
2026-06-08【核心关键词】贷款、报表、课程、专业、建模、缺失值、营销、互联网、银行、办公自动化、数据分析、数据预处理、特征工程、贷 ...
2026-06-05在数据库数据查询、业务报表统计、多表关联分析中,LEFT JOIN左连接是使用率最高的SQL关联查询语句。其核心特性是保留左表全部数 ...
2026-06-05 很多数据分析师能熟练地写SQL、做透视表、算描述性统计,但当被问到“如何预测用户流失概率”“如何归因销量下滑的关键因素 ...
2026-06-05任何一款产品从诞生、普及到最终退出市场,都会遵循一套固定的发展规律,这就是产品生命周期理论。在市场竞争日益激烈、产品迭代 ...
2026-06-04在Excel数据分析、办公统计、业务报表制作场景中,数据透视表是数据汇总、分类统计、快速复盘的核心工具,能够高效完成海量原始 ...
2026-06-04