京公网安备 11010802034615号
经营许可证编号:京B2-20210330
大数据小白的一些浅见
近期关注大数据比较多,也接触了一些大数据领域的专业人士,收获颇丰。听了诸多专家的观点,对南大通用杜国旺总和华云数据集团的首席技术官郑军博士观点深有感触。在此,基于二位的观点,谈谈我对大数据发展的一些看法。
要谈论大数据,如果学究一点,首先要弄清楚的一个问题就是什么是大数据,怎样来解构大数据这个概念。对于此,杜总的分析还是比较清楚的。
在杜总看来,大数据分为三个层面:
第一, 画像数据,包含人物静态画像、事件动态画像和群类画像。人物静态画像是以人或物为基本线索进行数据关联(如:万科),事件动态画像是以事件主题为线索的数据关联(如:雷阳事件),Hadoop技术为实现以上两个需求提供了良好的技术支撑。群类画像是基于二级标引的多维属性画像,数据源以前两类为基础,将典型特征属性进行标引,然后以某个特征属性为线索进行关联,图数据库为该需求提供较好的技术支撑(如地质测绘、套牌车发现)。在我看来,杜总实际指的是数据的三种类型,这三类数据具有某种层度的递进关系,后一类比前一类更抽象更有价值,尤其是群类画像数据。实际上,我们所指的大数据更多的是指群类画像数据,是对很多个体某一特征的抽象概括数据,这样的数据才更有价值。
第二, 数据的统计分析,基于人物或事件的典型特征统计分析或动态查询,主要是基于统计概念的(如金融精准营销),数据源一般为典型的结构化数据,分析方法也较为成熟,mpp数据库为该需求提供快捷方便的技术支撑。
第三, 数据挖掘,这是目前大数据应用最难的,也是最有价值的,就是分析数据关联关系,主要是基于逻辑概念的,如(气象预报、风险预警、趋势分析、 机器人、watson等等),大部分人认为业务建模是一个非常复杂的事情,需要丰富的行业经验。这也正是大数据的应有之意。要从大量数据中挖掘有价值得信息,这与传统的数据统计分析有很大的不同,是深入数据的价值实体的,从海量数据中发现规律。
华云数据集团的郑军博士认为机器学习对于大数据的发展具有特殊的意义,我深表赞同。按照杜总对大数据的解构分析,数据挖掘才是大数据的本质,而要进行数据挖掘,机器学习方面技术的发展就必不可少了。毕竟要进行海量数据的复杂计算,靠人工来进行传统的统计分析是不现实的。
对于此,我有一个公式:云计算+大数据+机器学习=智能互联网。
其实云计算、大数据、机器学习这三个概念并不是孤立的,而是相辅相成,缺一不可的。要进行大量数据的处理,并且要将这种数据处理能力像水电一样作为基础设施提供给社会,那就必然要向全社会输出计算能力。目前来看,云计算技术承担了为社会提供计算能力的任务。另外,要将打通各个信息孤岛,共享局部甚至是全社会的数据,必然需要一个基于云架构的信息系统,云计算也承担了打通社会数据的使命。
在拥有强大的计算能力之后,只有通过对海量数据的处理,通过数据挖掘发现其中的价值,才算是发挥了云计算的功用。所以云计算和大数据是一枚硬币的两面,相辅相成。云计算和大数据的紧密关系,已经在业界得到普遍认知,但是要将这项事业推向深入,机器学习技术的发展就必不可少。因为人脑虽然具有很强的创造力,但是对大量信息的存储和处理能力却很缺乏,面对大量结构化和非结构化的数据,单靠人工来进行统计分析,是没效率甚至是不可能的。为计算系统赋予一定的智能,发挥其强大的存储和计算能力,是大数据发展的必然之路。
上面从概念上谈了大数据的理论,但如果要将大数据技术进行实际应用,应该怎么做,又会遇到什么困难呢?对于这个问题,华云数据集团的郑军博士给予了我一些启发。郑博士认为,我们的信息化进程可分为三个阶段:IT化阶段、数字化阶段、数据化阶段。目前阻碍我国大数据产业发展的一个重要障碍就是信息化进程的落后。用郑博士的话说,要进行大数据应用,首先必须得有大量数据,而目前我国的很多企业尤其是小型企业,还处在IT化阶段,几乎没有数据积累。如果“小数据”都没有,谈何大数据。阻碍大数据产业发展的另一障碍就是信息孤岛的大量存在,要想大数据获得发展,首先必须进行全社会数据的打通。
那么,我国的大数据应用情况到底怎么样了,是处于什么阶段呢?带着这样的问题,中国软件网进行了市场调研,并对调研结果进行分析,得出了一些有意思的结论,在此也跟大家分享一下:
1. 大数据主要是从公司的日常运营中产生,其次是从外部引入。

2.产生和存储的大数据类型主要有交易数据、生产数据,其次为移动数据、机器和传感器数据,可以看到企业产生和存储的主要数据都与其业务相关。产生的数据略多于存储的数据,说明还有部分产生的数据没能获得存储。
3. 从数据处理的全生命周期来看,目前采用的大数据技术方案主要集中于数据采集、分布式存储、分布式计算等靠前的环节。值得注意的是,在大数据分析处理环节,较多的企业也采用了相应的技术方案。
4.目前已经有和需求较多的大数据应用主要集中新业务拓展、提升客户体验、优化客户市场细分、精细化管理、市场和用户行为预测等几个方面。大数据应用的需求普遍高于已经有的大数据应用,说明市场需求还没有得到满足。但在精细化生产方面,已经有的大数据应用已经超过需求。

5.在大数据应用过程中的难点方面,主要集中在数据安全、数据存储压力、数据类型多样化、数据资源不丰富等几个方面。
6. 在大数据应用部署方面,已经在使用、计划1年内部署、计划2年内部署的企业相当,各占30%左右。
7. 企业在大数据应用方面,最希望获得技术支持、其次是数据业务发展规划支持,以及业务需求管理、产品/服务开发方面的支持。
以上是通过走访行业专家和我们自己的一些研究,对大数据产业发展的一些发现和看法。一方面为我国大数据领域的快速发展而兴奋,另一方面也深感挑战的艰巨。前路漫漫,我国大数据的发展还得靠大家的共同努力。但我始终坚信,道路是曲折的,前途是异常光明的。
数据分析咨询请扫描二维码
若不方便扫码,搜微信号:CDAshujufenxi
在数据可视化领域,单一图表往往难以承载多维度信息 —— 力导向图擅长展现节点间的关联结构与空间分布,却无法直观呈现 “流量 ...
2025-10-27这个问题问到了 Tableau 中两个核心行级函数的经典组合,理解它能帮你快速实现 “相对位置占比” 的分析需求。“index ()/size ( ...
2025-10-27对 CDA(Certified Data Analyst)数据分析师而言,“假设检验” 绝非 “套用统计公式的机械操作”,而是 “将模糊的业务猜想转 ...
2025-10-27在数字化运营中,“凭感觉做决策” 早已成为过去式 —— 运营指标作为业务增长的 “晴雨表” 与 “导航仪”,直接决定了运营动作 ...
2025-10-24在卷积神经网络(CNN)的训练中,“卷积层(Conv)后是否添加归一化(如 BN、LN)和激活函数(如 ReLU、GELU)” 是每个开发者都 ...
2025-10-24在数据决策链条中,“统计分析” 是挖掘数据规律的核心,“可视化” 是呈现规律的桥梁 ——CDA(Certified Data Analyst)数据分 ...
2025-10-24在 “神经网络与卡尔曼滤波融合” 的理论基础上,Python 凭借其丰富的科学计算库(NumPy、FilterPy)、深度学习框架(PyTorch、T ...
2025-10-23在工业控制、自动驾驶、机器人导航、气象预测等领域,“状态估计” 是核心任务 —— 即从含噪声的观测数据中,精准推断系统的真 ...
2025-10-23在数据分析全流程中,“数据清洗” 恰似烹饪前的食材处理:若食材(数据)腐烂变质、混杂异物(脏数据),即便拥有精湛的烹饪技 ...
2025-10-23在人工智能领域,“大模型” 已成为近年来的热点标签:从参数超 1750 亿的 GPT-3,到万亿级参数的 PaLM,再到多模态大模型 GPT-4 ...
2025-10-22在 MySQL 数据库的日常运维与开发中,“更新数据是否会影响读数据” 是一个高频疑问。这个问题的答案并非简单的 “是” 或 “否 ...
2025-10-22在企业数据分析中,“数据孤岛” 是制约分析深度的核心瓶颈 —— 用户数据散落在注册系统、APP 日志、客服记录中,订单数据分散 ...
2025-10-22在神经网络设计中,“隐藏层个数” 是决定模型能力的关键参数 —— 太少会导致 “欠拟合”(模型无法捕捉复杂数据规律,如用单隐 ...
2025-10-21在特征工程流程中,“单变量筛选” 是承上启下的关键步骤 —— 它通过分析单个特征与目标变量的关联强度,剔除无意义、冗余的特 ...
2025-10-21在数据分析全流程中,“数据读取” 常被误解为 “简单的文件打开”—— 双击 Excel、执行基础 SQL 查询即可完成。但对 CDA(Cert ...
2025-10-21在实际业务数据分析中,我们遇到的大多数数据并非理想的正态分布 —— 电商平台的用户消费金额(少数用户单次消费上万元,多数集 ...
2025-10-20在数字化交互中,用户的每一次操作 —— 从电商平台的 “浏览商品→加入购物车→查看评价→放弃下单”,到内容 APP 的 “点击短 ...
2025-10-20在数据分析的全流程中,“数据采集” 是最基础也最关键的环节 —— 如同烹饪前需备好新鲜食材,若采集的数据不完整、不准确或不 ...
2025-10-20在数据成为新时代“石油”的今天,几乎每个职场人都在焦虑: “为什么别人能用数据驱动决策、升职加薪,而我面对Excel表格却无从 ...
2025-10-18数据清洗是 “数据价值挖掘的前置关卡”—— 其核心目标是 “去除噪声、修正错误、规范格式”,但前提是不破坏数据的真实业务含 ...
2025-10-17