
大数据时代来临 如何挖掘数据中的宝藏
继云计算之后,“大数据时代”这一热词成为媒体争相追逐的焦点。那么,何为大数据,大数据价值几许?大数据时代又会给业界带来哪些机遇和挑战呢?
大数据时代悄然来临
不是我不明白,这世界变化快12000年还是一张软盘打天下的时代,短短十多年光景,硬盘的存储容量已从4GB、16GB、32GB迅速攀升到1TB。原来仅有1.44MB的软盘在当时感觉存储容量还是蛮大的,到现在硬盘容量蹿升至1TB了,反而感觉存储空间捉襟见肘,到底是哪里出现了问题?
大数据!一语惊醒梦中人,大数据时代已经悄然来临。随着社交网络的逐渐成熟,移动带宽迅速提升,云计算、物联网应用更加丰富。更多的传感设备、移动终端接入到网络,由此产生的数据及增长速度迅速攀升。
一项由UnisohereResearch对531名独立Oracle用户进行的调查发现,90%的企业的数据量在迅速上涨,其中16%的企业的数据量每年增长率达到50%或更高。不少企业已经感受到失控的数据增长对绩效造成的冲击,其中87%的受访者将企业的应用程序性能下降归咎于不断增长的数据量。调研机构IDC在2011年6月的报告则显示,全球数据量在2011年已达到1.8ZB,在过去5年里增加了5倍。
1.8ZB是什么样的概念呢?首先从二进制上解读一下,从我们最熟悉的GB开始,1TB(TrillionByte)=1024GB;1PB(PetaByte)=1024TB;1EB(ExaByte)=1024PB;1ZB(ZettaByte)=1024 EB;1YB(YottaByte)=1024 ZB;1BB(BrontoByte)=1024YB。
再来直接形象地形容一下1.8ZB的数据量,如果把所有这些数据都刻录存入普通DVD光盘里,光盘的高度将等同于从地球到月球的一个半来回也就是大约720000英里。相当于每位美国人每分钟写3条Twitter微博,而且还要不停地写2.6976万年,是不是很恐怖?这还不是最恐怖的,IDC还预测全球数据量大约每两年翻一番,2015年全球数据量将达到近8ZB,到2020年,全球将达到35ZB。
所谓的大数据最直白的理解是海量数据,通常用来形容一个公司创造的大量非结构化和半结构化数据,这些数据在下载到关系型数据库用于分析时会花费很多时间和金钱。调研机构IDC认为,某项技术要想成为大数据技术,必须满足IBM所描述的三个“V”条件,即多样性(Variety)、大容量(Volume)和时效性高(Velocity)。多样性是指数据应包含结构化的和非结构化的数据;大容量是指聚合在一起供分析的数据量必须是非常庞大的;时效性高则是指数据处理的速度必须很快。
大数据中的大价值
现在有很多通过大数据分析受益的经典案例。在科研民生领域,美国的海啸预警系统一直为人们津津乐道,去年3月11日日本大地震发生后仅9分钟,美国国家海洋和大气管理局(NOAA)就发布了详细的海啸预警。随即,NOAA通过对海洋传感器获得的实时数据进行计算机模拟,制作的海啸影响模型便出现在YouTube等网站。大数据分析在指导人们有效规避自然灾害面前发挥了很大的作用。
而在商业领域,eBay则很好地起到了示范作用。eBay定义了超过500种类型的数据,对顾客的行为进行跟踪分析,每天处理的数据量高达100PB,通过准确分析用户的购物行为,达到了减少广告投入、稳定高端卖家、实现持续增长的目的。
通过上述两个案例不难看到,大数据分析的价值是非常大的。伴随着传统的商业智能系统向纵深应用的拓展,企业也逐渐步入到大数据时代。传统的标准化、结构化的数据只占到15%左右,85%的数据来源于广泛存在于社交网络、物联网、电子商务等中的非结构化数据。这些非结构化数据的产生往往伴随着社交网络、移动计算和传感器等新的渠道和技术的不断涌现和应用。
企业用来分析的数据越全面,分析的结果就越接近于真实,因此,大数据具有很大的商业价值。大数据分析是企业在未来发展过程中必须面对的,大数据分析意味着企业能够从这些新的数据中获取新的洞察力,并将它与已知业务的各个细节相融合。只有那些能够运用这些新数据形态的企业,方能打造可持续发展的竞争优势。
淘金大数据时代
云计算和大数据是2012年IT业界密切关注,且又最为火热的两大关键词,对于嗅觉相当灵敏的IT业界,很多企业早已嗅出了商机。
大数据跟普通数据一样,从产生到处理,再到价值提取,再到最后被消费掉,都有一个过程,每个步骤中都存在着不同的商业需求,目前已经有企业开始深耕细作或正在跑马圈地。
拥抱大数据时代
当大数据时代大步向我们走来的时候,企业有足够的准备来迎接这场革命吗?面对汹涌而来的大数据时代,从目前的态势来看,由于大数据的技术门槛较高,在大数据领域展开竞争的IT公司,大都仍然是在数据存储、数据分析等领域有着传统优势的厂商。而对于其他IT厂商,尽管也意识到了大数据时代的淘金价值,但是无论是土壤、理念,还是技术、市场层面,都还任重而道远。
第一,大数据的急剧蔓延使得企业在存储架构方面逐渐面临着史无前例的考验,由此引发了数据仓库、数据挖掘、商业智能、云计算等应用的一连串连锁反应。
第二,网络带宽急待升级。中国平均网速不到全球一半,带宽过小势必会成为大数据时代的瓶颈,升级带宽是目前面临的最迫切的问题。
第三,无处不在的大数据安全问题。2011年CSDN等网站大规模的数据泄露给业界上了生动的一课,如何保证大数据的安全性是又一只横亘在大数据时代发展路上的拦路虎。要通过技术的、行政的、法律的手段,全面阻击不正当应用和新型知识犯罪。
第四,大数据分析人才紧缺;大数据是海洋,分析工具是轮船,而分析人才则是舵手。只有通过掌握了分析工具的人才指引,大数据分析才能抵达成功的彼岸。目前,大数据分析门槛高,分析人才稀缺是不言的事实。
第五,大数据时代的数据学的理论和方法将改进现有的科学研究方法,形成新的科学研究方法,并且针对各个研究领域开发出专门的理论、技术和方法,从而形成专门领域的数据学,例如行为数据学、生命数据学、脑数据学、气象数据学、金融数据学、地理数据学等。
大数据时代不但会对IT业界甚至会对整个人类社会产生巨大且意义深远的影响,大到国家治理、企业决策,小到个人生活服务,都会因大数据而改变。数据的大航海时代已经来临,唯有扬帆应变才是正途……
数据分析咨询请扫描二维码
若不方便扫码,搜微信号:CDAshujufenxi
CDA数据分析师与数据指标:基础概念与协同逻辑 一、CDA 数据分析师:数据驱动时代的核心角色 1.1 定义与行业价值 CDA(Certified ...
2025-08-22Power Query 移动加权平均计算 Power Query 移动加权平均设置全解析:从原理到实战 一、移动加权平均法的核心逻辑 移动加权平均 ...
2025-08-22描述性统计:CDA数据分析师的基础核心与实践应用 一、描述性统计的定位:CDA 认证的 “入门基石” 在 CDA(Certified Data Analy ...
2025-08-22基于 Python response.text 的科技新闻数据清洗去噪实践 在通过 Python requests 库的 response.text 获取 API 数据后,原始数据 ...
2025-08-21基于 Python response.text 的科技新闻综述 在 Python 网络爬虫与 API 调用场景中,response.text 是 requests 库发起请求后获取 ...
2025-08-21数据治理新浪潮:CDA 数据分析师的战略价值与驱动逻辑 一、数据治理的多维驱动引擎 在数字经济与人工智能深度融合的时代,数据治 ...
2025-08-21Power BI 热力地图制作指南:从数据准备到实战分析 在数据可视化领域,热力地图凭借 “直观呈现数据密度与分布趋势” 的核心优势 ...
2025-08-20PyTorch 矩阵运算加速库:从原理到实践的全面解析 在深度学习领域,矩阵运算堪称 “计算基石”。无论是卷积神经网络(CNN)中的 ...
2025-08-20数据建模:CDA 数据分析师的核心驱动力 在数字经济浪潮中,数据已成为企业决策的核心资产。CDA(Certified Data Analyst)数据分 ...
2025-08-20KS 曲线不光滑:模型评估的隐形陷阱,从原因到破局的全指南 在分类模型(如风控违约预测、电商用户流失预警、医疗疾病诊断)的评 ...
2025-08-20偏态分布:揭开数据背后的非对称真相,赋能精准决策 在数据分析的世界里,“正态分布” 常被视为 “理想模型”—— 数据围绕均值 ...
2025-08-19CDA 数据分析师:数字化时代的价值创造者与决策智囊 在数据洪流席卷全球的今天,“数据驱动” 已从企业战略口号落地为核心 ...
2025-08-19CDA 数据分析师:善用 Power BI 索引列,提升数据处理与分析效率 在 Power BI 数据分析流程中,“数据准备” 是决定后续分析质量 ...
2025-08-18CDA 数据分析师:巧用 SQL 多个聚合函数,解锁数据多维洞察 在企业数据分析场景中,单一维度的统计(如 “总销售额”“用户总数 ...
2025-08-18CDA 数据分析师:驾驭表格结构数据的核心角色与实践应用 在企业日常数据存储与分析场景中,表格结构数据(如 Excel 表格、数据库 ...
2025-08-18PowerBI 累计曲线制作指南:从 DAX 度量到可视化落地 在业务数据分析中,“累计趋势” 是衡量业务进展的核心视角 —— 无论是 “ ...
2025-08-15Python 函数 return 多个数据:用法、实例与实战技巧 在 Python 编程中,函数是代码复用与逻辑封装的核心载体。多数场景下,我们 ...
2025-08-15CDA 数据分析师:引领商业数据分析体系构建,筑牢企业数据驱动根基 在数字化转型深化的今天,企业对数据的依赖已从 “零散分析” ...
2025-08-15随机森林中特征重要性(Feature Importance)排名解析 在机器学习领域,随机森林因其出色的预测性能和对高维数据的适应性,被广 ...
2025-08-14t 统计量为负数时的分布计算方法与解析 在统计学假设检验中,t 统计量是常用的重要指标,其分布特征直接影响着检验结果的判断。 ...
2025-08-14