京公网安备 11010802034615号
经营许可证编号:京B2-20210330
大数据知识科普:什么叫大数据
近些年来,大数据越来越火热,但是有不少网友对大数据基本的概念还有些模糊。从字面上来看,大数据就是比较大的数据。那么这个“大”到底是指形状大,还是数量大呢?同时,这个大数据是怎么来的,它到底又有什么样的作用呢?下面我们将一一解答。
大数据产生的背景
进入2012年,大数据(big data)一词越来越多地被提及,人们用它来描述和定义信息爆炸时代产生的海量数据,并命名与之相关的技术发展与创新。它已经上过《纽约时报》《华尔街日报》的专栏封面,进入美国白宫官网的新闻,现身在国内一些互联网主题的讲座沙龙中,甚至被嗅觉灵敏的国金证券、国泰君安、银河证券等写进了投资推荐报告。
最早提出“大数据”时代到来的是全球知名咨询公司麦肯锡,麦肯锡称:“数据,已经渗透到当今每一个行业和业务职能领域,成为重要的生产因素。人们对于海量数据的挖掘和运用,预示着新一波生产率增长和消费者盈余浪潮的到来。” “大数据”在物理学、生物学、环境生态学等领域以及军事、金融、通讯等行业存在已有时日,却因为近年来互联网和信息行业的发展而引起人们关注。
大数据到底是什么
对于“大数据”(Big data)研究机构Gartner给出了这样的定义。“大数据”是需要新处理模式才能具有更强的决策力、洞察发现力和流程优化能力的海量、高增长率和多样化的信息资产。维基百科的定义,大数据是指无法在可承受的时间范围内用常规软件工具进行捕捉、管理和处理的数据集合。
简单来说,大数据具有4V的特点:Volume(大量)、Velocity(高速)、Variety(多样)、Value(价值)。
根据国际数据公司(IDC)的《数据宇宙》报告显示:2008年全球数量为0.5ZB,2010年为1.2ZB,人类正式进入ZB时代。更为惊人的是,2020年以前全球数据量仍将保持每年40%多的高速增长,大约每两年就翻一倍,这与IT界的摩尔定律极为相似,姑且称之为“大数据爆炸定律”。
上面内容中提到了“ZB”的概念,那么它具体是指什么意思呢?
我们平常所熟知的数据的大小是“G”、"M"等,比如说,一部高清电影大约1个G左右,一首歌曲的大小为几M。
1G=1024M
1M=1024KB
1B=8bit
bit中文名称是位,音译“比特”,是用以描述电脑数据量的最小单位。
bit 来自binary digit (二进制数字),由数学家John Wilder Tukey提出(可能是1946年提出,但有资料称1943年就提出了)。这个术语第一次被正式使用,是在香农著名的论文《通信的数学理论》(A Mathematical Theory of Communication)第1页中。[1]
二进制数系统中,每个0或1就是一个位(bit)。
上面KB中的“B”就是字节的意思,英文为“byte”.我们电脑文档中的汉字占两个字节,英文字母占一个字节。路遥先生的《平凡的世界》这本书约有一百万字,换算成字节就是两百万个字节,为2000000B。
而具体的换算方法为
1KB=1024B;1MB=1024KB=1024×1024B。其中1024=210。
1B(byte,字节)= 8 bit(见下文);
1KB(Kibibyte,千字节)=1024B= 2^10 B;
1MB(Mebibyte,兆字节,百万字节,简称“兆”)=1024KB= 2^20 B;
1GB(Gigabyte,吉字节,十亿字节,又称“千兆”)=1024MB= 2^30 B;
1TB(Terabyte,万亿字节,太字节)=1024GB= 2^40 B;
1PB(Petabyte,千万亿字节,拍字节)=1024TB= 2^50 B;
1EB(Exabyte,百亿亿字节,艾字节)=1024PB= 2^60 B;
1ZB(Zettabyte,十万亿亿字节,泽字节)= 1024EB= 2^70 B;
1YB(Yottabyte,一亿亿亿字节,尧字节)= 1024ZB= 2^80 B;
1BB(Brontobyte,一千亿亿亿字节)= 1024YB= 2^90 B;
1NB(NonaByte,一百万亿亿亿字节) = 1024 BB = 2^100 B;
1DB(DoggaByte,十亿亿亿亿字节) = 1024 NB = 2^110 B;
从上面可知, 1ZB(Zettabyte,十万亿亿字节,泽字节)= 1024EB= 2^70 B;,这个数量级实在是恐怖,可想而知大数据到底有多大。
大数据有什么用呢?
大数据的应用其实早已渗透到人们生活中的方方面面:亚马逊运用大数据为客户推荐商品信息,阿里用大数据成立了小微金融服务集团,而谷歌更是计划用大数据接管世界??当下,很多行业都开始增加对大数据的需求。大数据时代不仅处理着海量的数据,同时也加工、传播、分享它们。不知不觉中,数据可视化已经遍布我们生活的每一个角落,毕竟普通用户往往更关心结果的展示。伴随去年底百度地图采用LBS定位春运的可视化大数据,就引起了学界对新闻创新和大数据可视化的热议。
就拿我们手中的智能手机来说吧,它既是一款数据采集工具,同时也是一个多媒体的数据可视化展示平台;现在的新闻播报也越来越多的用到数据图表,动态演示且立体化的呈现报道内容;影视剧和电子游戏频繁出现的数据可视化元素,无疑让作品的科技与未来感更加丰满;教育与科普方面则是数据可视化更大的应用领域,人们开始对单调保守的讲述方式失去兴趣,期待更加直观、高效的信息呈现形式,数据可视化正好弥补了这项需求。在智能手机、平板电脑和车载电脑等平台日渐普及的当下,新的交互手段将会成为数据可视化的趋势。
数据可视化起源于1960年计算机图形学,那时候人们使用计算机创建图形图表,可视化提取出来的数据,可以将数据的各种属性和变量呈现出来。随着计算机硬件的发展,人们创建更复杂规模更大的数字模型,于是乎发展了数据采集设备和数据保存设备,而此时也需要更高级的计算机图形学技术及方法来创建这些规模庞大的数据集。随着数据可视化平台的拓展,应用领域的增加,表现形式的不断变化,以及增加了诸如实时动态效果、用户交互使用等,数据可视化像所有新兴概念一样边界不断扩大。
数据分析咨询请扫描二维码
若不方便扫码,搜微信号:CDAshujufenxi
在Python面向对象编程(OOP)中,类方法是构建模块化、可复用代码的核心载体,也是实现封装、继承、多态特性的关键工具。无论是 ...
2026-02-27在MySQL数据库优化中,索引是提升查询效率的核心手段—— 面对千万级、亿级数据量,合理创建索引能将查询时间从秒级压缩到毫秒级 ...
2026-02-27在数字化时代,企业积累的海量数据如同散落的珍珠,若缺乏有效的梳理与分类,终将难以发挥实际价值。CDA(Certified Data Analys ...
2026-02-27在问卷调研中,我们常遇到这样的场景:针对同一批调查对象,在不同时间点(如干预前、干预后、随访期)发放相同或相似的问卷,收 ...
2026-02-26在销售管理的实操场景中,“销售机会”是核心抓手—— 从潜在客户接触到最终成交,每一个环节都藏着业绩增长的关键,也暗藏着客 ...
2026-02-26在CDA数据分析师的日常工作中,数据提取、整理、加工是所有分析工作的起点,而“创建表”与“创建视图”,则是数据库操作中最基 ...
2026-02-26在机器学习分析、数据决策的全流程中,“数据质量决定分析价值”早已成为行业共识—— 正如我们此前在运用机器学习进行分析时强 ...
2026-02-25在数字化时代,数据已成为企业决策、行业升级的核心资产,但海量杂乱的原始数据本身不具备价值—— 只有通过科学的分析方法,挖 ...
2026-02-25在数字化时代,数据已成为企业核心资产,而“数据存储有序化、数据分析专业化、数据价值可落地”,则是企业实现数据驱动的三大核 ...
2026-02-25在数据分析、机器学习的实操场景中,聚类分析与主成分分析(PCA)是两种高频使用的统计与数据处理方法。二者常被用于数据预处理 ...
2026-02-24在聚类分析的实操场景中,K-Means算法因其简单高效、易落地的特点,成为处理无监督分类问题的首选工具——无论是用户画像分层、 ...
2026-02-24数字化浪潮下,数据已成为企业核心竞争力,“用数据说话、用数据决策”成为企业发展的核心逻辑。CDA(Certified Data Analyst) ...
2026-02-24CDA一级知识点汇总手册 第五章 业务数据的特征、处理与透视分析考点52:业务数据分析基础考点53:输入和资源需求考点54:业务数 ...
2026-02-23CDA一级知识点汇总手册 第四章 战略与业务数据分析考点43:战略数据分析基础考点44:表格结构数据的使用考点45:输入数据和资源 ...
2026-02-22CDA一级知识点汇总手册 第三章 商业数据分析框架考点27:商业数据分析体系的核心逻辑——BSC五视角框架考点28:战略视角考点29: ...
2026-02-20CDA一级知识点汇总手册 第二章 数据分析方法考点7:基础范式的核心逻辑(本体论与流程化)考点8:分类分析(本体论核心应用)考 ...
2026-02-18第一章:数据分析思维考点1:UVCA时代的特点考点2:数据分析背后的逻辑思维方法论考点3:流程化企业的数据分析需求考点4:企业数 ...
2026-02-16在数据分析、业务决策、科学研究等领域,统计模型是连接原始数据与业务价值的核心工具——它通过对数据的规律提炼、变量关联分析 ...
2026-02-14在SQL查询实操中,SELECT * 与 SELECT 字段1, 字段2,...(指定个别字段)是最常用的两种查询方式。很多开发者在日常开发中,为了 ...
2026-02-14对CDA(Certified Data Analyst)数据分析师而言,数据分析的核心不是孤立解读单个指标数值,而是构建一套科学、完整、贴合业务 ...
2026-02-14