7个步骤让大数据开口说话-CDA数据分析师官网

热线电话：13121318867

7个步骤让大数据开口说话

2014-09-03

      “让大数据开口说话”，并不是一件容易的事。下面7个步骤能让大数据开口说话，如同人类要想开口说话，信息的输入、储存、加工、处理，最终把思想以一种合适的方式表达出来，需要经过一个复杂的化学反应过程。对计算机系统而言，要想让大数据开口说话，也要经过一个复杂的电子信息处理过程。在数据量呈爆炸式增长，数据类型呈多样化表现，数据价值日益受到重视的大数据时代，这个过程会变得更加复杂，应用也会更加广泛。
      我们知道，看似或零碎、或杂乱的数据，要想变成对企业业务有价值的决策参考信息或营销建议，需要经历数据采集、存储、处理、加工、管理、监控、分析、展现等多道工序。

大数据

     大数据火热的时代，我们来看看如何一步步让那些枯燥的大数据开始说话的。将其归纳为7个步骤：

第一步：数据采集

把数据采集上来，这是首要基础，无论是网站的用户访问日志，运营商网络设备端口信息，银行的交易记录，高炉里的温度数据等等，只有采集起来，才有进行下一步的可能。东方国信提供的Dprobe大数据采集设备从网络接口采集数据，可以为运营商的智能管道应用、政府的网络安全监管等领域实现海量数据的实时采集，通过硬件加速和软件相结合的方式，可以实现单台设备每秒10G的采集速度，远远高于传统x86方案的每秒3G，而且功耗只有1/8，体积只有1/6。

第二步：数据存储

在硬件层面，根据不同应用环境对于计算能力和存储能力的不同要求，东方国信推出了三种大数据专用设备：计算存储均衡型、计算密集型和存储密集型。比如对于银行环境中身份证扫描图像这种非结构化数据的存储，由于容量大，业务流转过程中也需要在线存取，就需要一种高性比、可扩展的方案来支撑。

第三步：数据处理

今天对于大数据的存储和处理，一般会想到使用Hadoop技术。Hadoop也已发展成为继Linux之后最成功的开源软件之一，成本低廉，扩展灵活。但问题在于，这种原生于互联网生态环境中的技术，要想用到传统企业计算环境，却并非易事。开源的Hadoop之所以不能直接用于企业信息系统，就在于其需求、服务、研发和运维体系都不同于互联网应用，比如访问网页时允许一定程度上的出错和数据丢失，但在银行转帐时如果出错，其后果就可能是灾难性的了。据中科院计算所副研究员查礼博士介绍，要想在企业环境中使用Hadoop，必须满足几个条件：兼容关系模型和SQL语言，完善关系模型产品与Hadoop“混搭”的架构，增强系统运维和数据处理工具，软硬一体优化配置硬件效能，集成开源社区Hadoop最新版本等。

第四步：数据加工

      数据加工的关键在于找到数据之间的关联性，这些零散的信息关联在一起才能产生价值。比如在运营商环境中的“用户画像”，就是把某个用户的上网行为数据、关系链、交易信息、搜索数据等关联在一起，才得以实现，进而可以为这个用户提供更精准的个性能服务。李云峰谈到，东方国信解决方案的核心点在于通过云化ETL(提取-转换-加载)平台实现了数据的统一规范，并可实现横向扩展，满足对PB级数据的加工处理。

      显然，统一数据管理对于拥有多家子公司、多个系统的企业来说更为关键，否则即便是一个最简单的KPI指标，从不同的系统调出来都会大相径庭，导致企业领导无法决策。通过ETL工具来整合这些来自不同“孤岛”系统的数据，经过转换、清洗等步骤，让数据具备了开口说话的能力。

      除了ETL工具，元数据管理工具则可以弄清楚数据的来源、含义、类型等，进一步提高数据质量。数据质量平台可以实现全生命周期的质量监控和审核，保障数据的完整性、准确性、一致性和及时性。正是通过数据的加工，进而让数据建模、数据分析挖掘成为可能，大数据也才能正常说话，而不是胡言乱语。
第五步：数据分析

数据分析的目的是在海量的数据中挖掘出有价值的信息。李云峰谈到，东方国信的探索式分析工具，可以将几十亿条明细数据用思维导图的方式进行分析，以更直观的丰富视图来展示结果，从而深入洞察数据之间的关联性及潜在影响。在这一方面，东方国信的首眼点是，速度要快，而且分析的结果要方便共享，以展现给不同需要的人。至此，大数据平台已经准备好了要说的内容了。

第六步：数据展现

数据分析出来的结果往往会用于决策参考或辅助营销。东方国信通过自助报表的方式来构建展现过程，允许业务端的用户在终端对数据进行存取和个性化展现，这可以理解为大数据说话时非常灵活的表达方式。其中三个最典型的应用是统计报表、即席查询、OLAP分析，比如按时间、地域来关联分析以找到有用的信息。

当然，针对不同的人，大数据要说的话也是不一样的。以东方国信的一大重要客户中国联通为例，针对内部的公司高层、分析人员、一线客户经理，以及外部的行业客户、咨询机构，大数据平台所呈现出来的内容也是丰富多彩，各不相同。正是基于东方国信的个性化定制工具以及自助报表，使得大数据在中国联通获得了极为广泛的实际应用价值。

第七步：移动应用

      在移动互联网时代，如果能把数据分析的结果推送到手机或iPad上面，显然会进一步提高业务效率。东方国信已经将自助分析能力扩展到了移动设备，方便用户快速的看到自己喜欢的各种分析图表。

      比如，中国联通位于各地的一些一线客户经理，可能之前的职业是幼儿园的老师、护士，甚至不会使用EXCEL表，而“掌上营销”这样一款应用，无疑是为她们配上了一个“贴身的分析师”，随时随地查看自己客户的动态，根据分析结果判断哪些客户可能会流失，哪些客户需要生日问候，从而更快速地采取行动。

      可见，“让大数据开口说话”，看似简单，却是个复杂的系统工程。不同于其他厂商针对于单一产品的发力，东方国信此次推出的是一站式的解决方案，涉及产品众多。其实在笔者看来，今天的大数据领域并不缺乏技术层面的创新，市场上已经有很多不错的产品或技术出现，但能用好的并不多，真正缺乏的是应用层面的创新和落地。东方国信的大数据产品线聚合了很多先进的技术，如Hadoop、ARM服务器、流式计算、数据建模、移动计算等等，但其生命力还在于跟电信、金融等各行业业务实践的深度结合。毕竟，一个人要想说话，光有嘴巴是不行的，还需要耳朵、脑袋……以及源源不断的信息输入。大数据系统要想发挥出自身的价值，实时、准确地说得有见地的话，亦然!

数据分析师

CDA数据分析师考试相关入口一览（建议收藏）：

▷ 想报名CDA认证考试，点击>>> “CDA报名” 了解CDA考试详情；