大数据的简单介绍_大数据-CDA数据分析师官网

热线电话：13121318867

大数据的简单介绍_大数据

2014-09-06

大数据的简单介绍_大数据

一、大数据的定义和特征
1.大数据的定义
对于大数据还没有一个正式的定义，目前最为普遍的定义就是“用传统方法或工具不能处理或分析的数据”。不同的定义基本是从大数据的特征出发通过这些特征的阐述和归纳试图给出其定义。在这些定义中比较有代表性的是3V定义，即认为大数据需满足3个特点：规模性(volume)多样性(variety)和高速性(velocity)。除此之外还有提出4V定义的，即尝试在3V的基础上增加一个新的特性。关于第4个V的说法并不统一，国际数据公司(International Data Corporation, IDC)认为大数据还应当具有价值性(value)，大数据的价值往往呈现出稀疏性的特点。而IBM认为大数据必然具有真实性(veracity)。维基百科对大数据的定义则简单明了：大数据是指利用常用软件工具捕获、管理和处理数据所耗时间超过可容忍时间的数据集。
2.大数据的特征
3V认为大数据具有规模性、高速性和多样性三大特征，这些特征是传统数据处理方法和工具所无法胜任的。
2.1规模性(Volume)是指数据量非常庞大，主要体现在数据存储量大和计算量大。根据IDC《数字宇宙膨胀：到2010年全球信息增长预测》中统计的数据，2006年全球每年制造、复制出的数字信息量共计16.1万PB，当年信息产生量大约是历史上图书信息总量的3000倍；至2010年，数字信息总量达98.8万PB。专家指出，2020年年度数据将增加43倍。因此，大数据中的数据不再以几个GB或几个TB为单位来衡量，而是以PB（1千个T）、EB（1百万个T）或ZB（10亿个T）为计量单位。
2.2高速性(Velocity)一方面是指数据在不断更新，增长的速度快，另一方面是指数据存储、传输等处理速度很快。短短60秒，YouTube用户会上传48小时的视频；Google会收到200万次搜索请求并极快地返回结果；Twitter要处理100万条Tweets信息；网购产生27.2万美元的交易；App Store有4.7万次下载；全球新增网页571个。数据处理的速度也要求越来越快，甚至是实时处理，比如灾难的预测，需很快的对灾难发生的程度、影响的区域范围等进行量化。如日本大地震发生后仅9分钟，美国国家海洋和大气管理局（NOAA）就发布了详细的海啸预警。
2.3多样性(Variety)指数据包含结构化的数据表和半结构化、非结构化的文本、视频、图像等信息，而且数据之间的交互非常频繁和广泛。
具体包括三个方面：
一是数据来源多，企业所面对的传统数据主要是交易数据，而互联网和物联网的发展，带来了诸如微博、社交网站、传感器等多种来源。
二是数据类型多，并且以非结构化数据为主。传统的企业中，数据都是以表格的形式保存。而大数据中70%-85%的数据是如图片、音频、视频网络日志、链接信息等非结构化和半结构化的数据。
三是数据之间关联性强，频繁交互。如游客在旅游途中上传的照片和日志，就与游客的位置、行程等信息有了很强的关联性。
二、传统数据库和大数据的比较
1.最基本的区别在于数据规模、数据类型、产生模式。
2.处理对象的变化。传统的数据库中数据仅作为处理对象，而在大数据时代，要将数据作为一种资源来辅助解决其他诸多领域的问题。
3.处理工具的改变。从以计算为中心转变到以数据处理为中心。
三、大数据的处理模式
大数据的应用类型有很多主要的处理模式可分为流处理(stream processing)和批处理(batch processing)两种。批处理是先存储后处理(store-then-process)，而流处理则是直接处理(right-through processing)。
1.大数据流处理
流处理的基本理念是数据的价值会随着时间的流逝而不断减少，因此尽可能快地对最新的数据作出分析并给出结果是所有流数据处理模式的共同目标。需要采用流数据处理的大数据应用场景主要有网页点击数的实时统计、传感器网络、金融中的高频交易等。
流处理的处理模式将数据视为流，源源不断的数据组成了数据流。当新的数据到来时就立刻处理并返回所需的结果。
快且规模巨大等特点，因此通常不会对所有的数据进行永久化存储，而且数据环境处在不断的变化之中，系统很难准确掌握整个数据的全貌。
  由于响应时间的要求，流处理的过程基本在内存中完成，其处理方式更多地依赖于在内存中设计巧妙的概要数据结构(synopsis data structure)，内存容量是限制流处理模型的一个主要瓶颈。以PCM（相变存储器）为代表的储存级内存(storage class memory, SCM)设备的出现或许可以使内存未来不再成为流处理模型的制约。
数据流的理论数据的实时处理是一个很有挑战性的工作，数据流本身具有持续达到，速度及技术研究已经有十几年的历史，目前仍旧是研究热点。与此同时很多实际系统也已开发和得到广泛的应用，比较代表性的开源系统如Twitter的Storm、Yahoo的S4以及Linkedin的Kafka22等．
  2.大数据批处理
Google公司在2004年提出的MapReduce编程模型是最具代表性的批处理模式。
MapReduce模型首先将用户的原始数据源进行分块，然后分别交给不同的Map任务区处理。Map任务从输入中解析出健/值(Key/Value)对集合,然后对这些集合执行用户自行定义的Map函数得到中间结果，并将该结果写入本地硬盘。Reduce任务从硬盘上读取数据之后会根据Key值进行排序，将具有相同Key值的组织在一起。最后用户自定义的Reduce函数会作用于这些排好序的结果并输出最终结果。
从MapReduce的处理过程我们可以看出MapReduce的核心设计思想在于:
  a)将问题分而治之
b)把计算推到数据而不是把数据推到计算,有效地避免数据传输过程中产生的大量通信开销。
MapReduce模型简单，且现实中很多问题都可用MapReduce模型来表示。因此该模型公开后立刻受到极大的关注，并在生物信息学、文本挖掘等领域得到广泛的应用。
无论是流处理还是批处理都是大数据处理的可行思路。大数据的应用类型很多，在实际的大数据处理中?常常并不是简单地只使用其中的某一种而是将二者结合起来。互联网是大数据最重要的来源之一，很多互联网公司根据处理时间的要求将自己的业务划分为在线(online)、近线(nearline)和离线(offline)，比如著名的职业社交网站Linkedin的划分方式是按处理所耗时间来划分的。其中在线的处理时间一般在秒级甚至是毫秒级，因此通常采用上面所说的流处理。离线的处理时间可以以天为基本单位，基本采用批处理方式，这种方式可以最大限度地利用系统I/O。近线的处理时间一般在分钟级或者是小时级，对其处理模型并没有特别的要求，可以根据需求灵活选择，但在实际中多采用批处理模式。
3.大数据的基本处理流程
  "数据分析师"整个大数据的处理流程可以定义为在合适工具的辅助下，对广泛异构的数据源进行抽取和集成，结果按照一定的标准统一存储。数据分析师利用合适的数据分析技术对存储的数据进行分析，从中提取有益的知识并利用恰当的方式将结果展现给终端用户。具体来说可以分为数据抽取与集成，数据分析以及数据解释。
四、大数据与云计算的关系
  1.相同点。它们都是为数据存储和处理服务的，都需要占用大量的存储和计算资源，而且大数据用到的海量数据存储技术、海量数据管理技术、MapReduce等并行处理技术也都是云计算的关键技术。
2.不同点。
2.1云计算的目的是通过互联网更好地调用、扩展和管理计算及存储资源和能力，以节省企业的IT部署成本，其处理对象是IT资源、处理能力和各种应用。云计算从根本上改变了企业的IT架构，产业发展的主要推动力量是存储及计算设备的生产厂商和拥有计算及存储资源的企业。
2.2大数据的目的是充分挖掘海量数据中的信息，发现数据中的价值，其处理对象是各种数据。大数据使得企业从“业务驱动”转变为“数据驱动”，从而改变了企业的业务架构，其直接受益者不是?IT?部门，而是业务部门或企业CEO，产业发展的主要推动力量是从事数据存储与处理的软件厂商和拥有大量数据的企业。
因此，不难发现云计算和大数据实际上是工具与用途的关系，即云计算为大数据提供了有力的工具和途径，大数据"数据分析师"为云计算提供了很有价值的用武之地。而且，从所使用的技术来看，大数据可以理解为云计算的延伸。
大数据若与云计算相结合，将相得益彰，互相都能发挥最大的优势。云计算能为大数据提供强大的存储和计算能力，更加迅速地处理大数据的丰富信息，并更方便地提供服务；而来自大数据的业务需求，能为云计算的落地找到更多更好的实际应用。当然大数据的出现也使得云计算会面临新的考验。数据分析师培训