京公网安备 11010802034615号
经营许可证编号:京B2-20210330
大数据产业或成未来希望 企业又该如何入局
大数据产业是中国未来的希望,是未来的朝阳行业,但各个企业不要过于冒进,进入这个产业的企业必须了解这六个问题,找到解决这六个问题的方法,以技术和数据为基础,才能够创造价值,通过大数据这个工具帮助和推动传统产业发展。
之前参加了Italk活动,听取的有关大数据公司和产业机构的讲座,因此萌生出一个写文章的冲动,想对目前大数据产业中的一些错误现象进行讨论。
陈宇认为大数据是哲学层面上的问题,属于统计学范畴,部分揭示了大数据产业的本质,但是实际上大数据这个概念自身就有着不同的诠释。利用数据进行军事分析,产品定位,交通管理,风险管理,精准营销等等,其实在几十年前就有了。最早的保险产品就是来源于偶然事件的概率分析,其参考历史数据分析,依据计算出的概率来,来对保险产品进行定价。中国古代的军事学家孙膑在战争中,通过逐步减少行军灶坑来迷惑对手,利用其师弟庞涓对数据信任,制造其带领军队溃败的假象,最后在对方轻敌冒进的前提下,突袭了对手,赢得了战争胜利。因此数据分析其实在很久远的古代就存在了。为什么过去的数据分析换成了时髦的名称大数据了呢?

相对于过去的数据,我们来讨论大数据的含义:
1)过于一些记录是以模拟形式出现的,或者以数据形式出现但是存贮在本地,不是公开数据资源,没有开放给互联网用户,例如音乐、照片、视频、监控录像等影音资料。现在这些数据不但数据量巨大,并且放到了互联网上,开放给整个互联网用户,其数量之大是前所未有了。举个例子Facebook每天有18亿张照片上传或被传播,形成了海量的开放数据。
2)移动互联网出现后,移动设备的很多传感器收集了大量的用户点击行为数据,已知iphone有3个传感器,三星有6个传感器。它们每天产生了大量的点击数据,这些数据被某些公司所有拥有,形成用户大量行为数据。
3)移动地图出现后,例如高德、百度、google地图,其产生了大量的数据流数据,这些数据不同于传统数据,传统数据代表一个属性或一个度量值,但是这些地图产生的流数据代表着一种行为、一种习惯,这些流数据经频率分析后会产生巨大的商业价值。基于地图产生的数据流是一种新型的数据类型,在过去是不存在的。
4)进入了社交网络的年代后,互联网行为主要由用户参与创造,因此有大量的互联网用户创造出大量的社交行为数据。这些数据是过去不曾想像的,是海量的。某些数据代表特定人群的特点和个性。
5)电子商户崛起带来了大量网上交易行为,其产生了大量的交易数据,包含支付行为,查询行为,物流运输、购买行为等等,产生了海量的信息流和资金流数据。
6)传统的互联网入口转向搜索引擎之后,用户的搜索行为和提问行为产生了海量数据。单位存贮价格的下降也为存储这些数据提供了技术上的可能。
现在我们所指的大数据不同与过去传统的数据,其产生方式、存储载体、访问方式、表现形式、来源特点等都同传统的数据不同。简单的讲大数据范围更接近于某个群体行为特点数据,全面的数据。移动互联网和社交网络创造出来了大量的行为数据。
大数据产业是朝阳产业,任何一个想进入此产业的公司和个人向先要思考好以下几个问题。
1、数据在哪里?
2、哪些是有用的数据?
3、如何分析这些数据?(如何将非结构化数据变成结构化数据)
4、需要用数据解决的问题是什么?或者是分析后数据后提出的观点是什么?
5、如何展现你的数据和推理?(图形、图表、曲线、分值、评价、归类、等级、概率、模型等等,大数据要么解决目前的问题,要么支持你的假设,要们引导出另一个未知观点)
6、重新审核数据分析的逻辑和数据来源,是否可以展现一份可以经过推敲的数据分析报告?
如果以上的问题都可以解决,这时你可以进入正产业。中国的大数据产业近几年来逐渐升温,政府有投入了大量的资金。目前正在困扰很多大数据公司的问题是数据在哪里?目前我们了解的大数据来源主要有以下几个方面;
1)电信运行商(由于其提供互联网接入服务,互联网行为记录数据)
2)第三方支付(支付行为产生的资金流和信息流数据)
3)电商平台(阿里为代表,几亿的淘宝用户和2万亿的网络购买行为的数据)
4)社交平台(微信和微博为代表的社区网络产生的互联网行为数据)
5)电子游戏平台(大量用户产生的数据)
6)移动入口产生大量数据(包含移动APP,导航,地图等)
7)搜索引擎上产生的数据
除了这些新兴的大数据来源,其实在传统行业,由于很多数据是不能公开和共享的,还有很多大数据来源没有被重点关注。例如:
1)政府掌握的经济社会的统计数据
2)金融行业内部交易和支付数据
3)医疗行业的病历数据
4)教育行业的考试数据
5)交通运输行业物流数据
6)科学研究方面大量重复的论文、专利、科研实验的数据
7)生物工程、农林牧渔等方面的数据
目前在中国大数据产业投入最多的是政府,这是一个好事情,因为在中国政府是最大数据的拥有者,最财大气粗的投资者,最具有资源的市场参与者。如果政府可以有效利用手中的数据,经过科学严谨的分析后,利用其进行资源的配置、重大经济决策、市场未来趋势预见、经济风险提示、产业管理、投资管理、财政费用管理、等,将有利于政府进行宏观调控、技术干预、行政管理、资源配置、财富分配。同时也有助于政府提高对公共事务包含社会福利的管理水平。
但是我发现目前很多政府参与的大数据产业集中在两个领域,第一个搭建云计算和云存储平台,利用政府具有的资源,委托研究机构搭建政府主导的大数据生态圈,让企业将数据提供出来,政府提过产业机构来帮助企业分析数据,提供大数据解决方案。简单的讲营造大数据平台和生态圈,从事大数据收集和开发的工作。
第二个是委托具有大数据技术的公司,利用互联网公开的数据和政府拥有的数据进行舆情监控,了解自己重视和关心的焦点问题,关注社会群体的舆论行为、社交行为,以及区域电商交易行为、服务投诉行为等等。简单的讲是利用互联网采集技术来了解舆情,作为一种情报输入来帮助政府来制定工作决策。
这两种参与方式我都不十分赞同,第一种明显是过度参与市场,政府应该制定规则来帮助大数据产业健康发展,而不是作为运动员参与产业发展。政府应该制定相关制度,对不能采集和公开的数据进行管理,保护个体利益,同时应对大数据技术公司提供研发资金支持,鼓励大数据企业利用技术研发实力来推动产业发展,帮企业解决问题。千万不要搭建一个生态圈,产业平台,政府委托的机构会由于机制问题,效率较低,对人才和资源造成浪费,最终会阻碍这个产业发展。第二种虽然有部分积极意义,但是个人觉得舆情监控产生不了巨大的社会经济价值,投入的资金不会有效帮助整个社会的发展,反而在某些方面束缚了部分合理的商业行为,由于我们国家老百姓自身文化和科学常识的不全面,群体舆论的导向不一定代表正确的方向。前瞻性的政治经济决策往往来源于具有远见卓识的领导者,想一想我们的朱隆基总理在98年的几大经济决策,国企改革、金融改革、住房改革、大学生分配改革等等,如果采用舆情监控所得出的结论,肯定不能够推行,因为其影响大多数人的利益。但是正是这几个重大经济决策,将中国经济的活力释放出来,使中国经济保持15年左右的高速发展。
最后对本文进行个总结,大数据产业是中国未来的希望,是未来的朝阳行业,但各个企业不要过于冒进,进入这个产业的企业必须了解这六个问题,找到解决这六个问题的方法,以技术和数据为基础,才能够创造价值,通过大数据这个工具帮助和推动传统产业发展。政府在大数据产业的定位应该清晰,千万不要成为产业的主要参与者,应该从保护产业和个人、商业信息角度出发,成为产业规则制定者,产业技术投资者,大数据技术公司的投资者。政府应该公布自己拥有的、不涉及国家利益和个人隐私,可以公开的大数据,为大数据产业提供土壤和阳光。政府应该打破主要大数据公司对数据的垄断、要求大数据拥有的公司将可以公开的数据公开,在保护客人和企业隐私前提下,为大数据产业提供数据来源。政府可以作为技术伯乐,推动产业进行技术升级换代,成为大数产业发展的助推火箭。
数据分析咨询请扫描二维码
若不方便扫码,搜微信号:CDAshujufenxi
主讲人简介 张冲,海归统计学硕士,CDA 认证数据分析师,前云南白药集团资深数据分析师,自媒体 Python 讲师,全网课程播放量破 ...
2026-04-10在数据可视化与业务分析中,同比分析是衡量业务发展趋势、识别周期波动的核心手段,其核心逻辑是将当前周期数据与上年同期数据进 ...
2026-04-10在机器学习模型的落地应用中,预测精度并非衡量模型可靠性的唯一标准,不确定性分析同样不可或缺。尤其是在医疗诊断、自动驾驶、 ...
2026-04-10数据本身是沉默的,唯有通过有效的呈现方式,才能让其背后的规律、趋势与价值被看见、被理解、被运用。统计制图(数据可视化)作 ...
2026-04-10在全球化深度发展的今天,跨文化传播已成为连接不同文明、促进多元共生的核心纽带,其研究核心围绕“信息传递、文化解读、意义建 ...
2026-04-09在数据可视化领域,折线图是展示时序数据、趋势变化的核心图表类型之一,其简洁的线条的能够清晰呈现数据的起伏规律。Python ECh ...
2026-04-09在数据驱动的时代,数据分析早已不是“凭经验、靠感觉”的零散操作,而是一套具备固定逻辑、标准化流程的系统方法——这就是数据 ...
2026-04-09长短期记忆网络(LSTM)作为循环神经网络(RNN)的重要改进模型,凭借其独特的门控机制(遗忘门、输入门、输出门),有效解决了 ...
2026-04-08在数据分析全流程中,数据质量是决定分析结论可靠性的核心前提,而异常值作为数据集中的“异类”,往往会干扰统计检验、模型训练 ...
2026-04-08在数字经济飞速发展的今天,数据已渗透到各行各业的核心场景,成为解读趋势、优化决策、创造价值的核心载体。而数据分析,作为挖 ...
2026-04-08在数据分析全流程中,数据处理是基础,图形可视化是核心呈现手段——前者负责将杂乱无章的原始数据转化为干净、规范、可分析的格 ...
2026-04-07在数据分析与统计推断中,p值是衡量假设检验结果显著性的核心指标,其本质是在原假设(通常为“无效应”“无差异”)成立的前提 ...
2026-04-07在数字经济深度渗透的今天,数据已成为企业生存发展的核心资产,企业的竞争本质已转变为数据利用能力的竞争。然而,大量来自生产 ...
2026-04-07Python凭借简洁的语法、丰富的生态库,成为算法开发、数据处理、机器学习等领域的首选语言。但受限于动态类型、解释性执行的特性 ...
2026-04-03在深度学习神经网络中,卷积操作是实现数据特征提取的核心引擎,更是让模型“看懂”数据、“解读”数据的关键所在。不同于传统机 ...
2026-04-03当数字化转型从企业的“战略口号”落地为“生存之战”,越来越多的企业意识到,转型的核心并非技术的堆砌,而是数据价值的深度挖 ...
2026-04-03在日常办公数据分析中,数据透视表凭借高效的汇总、分组功能,成为Excel、WPS等办公软件中最常用的数据分析工具之一。其中,“计 ...
2026-04-02在数字化交互的全场景中,用户的每一次操作都在生成动态的行为轨迹——电商用户的“浏览商品→点击详情→加入购物车”,内容APP ...
2026-04-02在数字化转型深度推进的今天,企业数据已成为驱动业务增长、构建核心竞争力的战略资产,而数据安全则是守护这份资产的“生命线” ...
2026-04-02在数据驱动决策的浪潮中,数据挖掘与数据分析是两个高频出现且极易被混淆的概念。有人将二者等同看待,认为“做数据分析就是做数 ...
2026-04-01