
大数据实践 基础架构先行_数据分析师
大数据被认为是下一个创新、竞争和生产力的前沿,谁率先抓住大数据的先机即意味着能够在未来市场竞争之中取得杆位。当前大数据市场除了传统厂商之外,还同时涌现出一大批创新技术厂商,并且像零售、金融、互联网、政府机构、科研教育等行业用户对于大数据的认知与认可大大超过了以往任何一项IT技术。归根结底,这是因为大数据能够对业务产生最直接的影响。因此,国内外用户纷纷开始对采用、部署大数据解决方案或技术跃跃欲试,就像着名调研机构Garnter的技术发展规律周期(Hype Cycle)所述,大数据当前处于上升期和快速发展时期,人们当前对于大数据的期望值也是越来越高。从而使得很多用户并不能够冷静思考和对待大数据,甚至一开始狂热追求各种大数据分析技术与算法,这种本末倒置的做法最终很大可能会让期望走向功亏一篑。俗话说,工欲善其事必先利其器,在大数据实践之中,基础架构就犹如基石一般,是构建一切的基础,基础架构基石不稳,大数据“大厦将倾”,具有优秀的基础架构才能够让用户在未来的大数据之路中越走越宽。
图一:Garnter着名的技术发展规律周期(Hype Cycle)图,每项技术的发展过程均可分为五个阶段:上升期、快速发展期、下降期、爬坡期和稳定应用期,当前大数据异常火爆,正在快速发展期。
大数据时代下的基础架构挑战
毫无疑问,大数据时代下,要想实现更大的业务价值,首先需要解决的就是基础架构问题,基础架构之中存储又是重中之重。当前趋势下,社交媒体、移动互联网、物联网、多媒体应用等趋势兴起使得非结构化、半结构化数据大幅增长,加上传统的结构化数据增长,用户的整体数据量呈现出海量、高增长的状态。如何面对数据源繁多、数据增长速度快速、数据种类丰富化、数据存取形式复杂化以及应用需求多样化就成为当前大部分用户首要面对的挑战和难题。
图二:全球知名调研机构IDC公司 对全球数据增长以及数据类型分布情况的调研与预测,未来几年,数据增长会越来越快,其中非结构化、半结构化数据所占比重将会越来越大。
着名咨询机构麦肯锡认为,大数据是指其大小超出了典型数据库软件的采集、存储、管理和分析等能力的数据集。大数据公认的4V特征包括:容量、类型、速度以及价值(volume、variety、velocity和value)。着名调研机构IDC对于大数据技术定位为:通过高速捕捉、发现和/或分析,从大容量数据中获取价值的一种新的技术架构。另外一方面,我们也可以发现当前对于大数据的一个误区广泛存在于用户之中:当前仍然有很大一部分用户认为新兴起的Hadoop技术、商业智能分析(BI)这些就意味着大数据,他们认为掌控好Hadoop或者BI即可掌控大数据。事实上,大数据不仅仅是Hadoop或者商业智能分析,这些热门技术是大数据分析和处理过程中当前热门的领域,而要想真正实现大数据的价值、为业务发展服务,则需要从全面的角度考虑,比如:大数据不仅仅是海量小文件数据,那些容量巨大的文件数据同样属于大数据的范畴,你的基础架构是否同时能够快速、有效地应对不同类型、大小的文件数据的存储、分析与处理呢?因此,对于用户的基础架构而言,在容量足够大的数据存储需求前提下,首先需要更高的速度和存储效率来满足海量数据存储,从而可以满足多样性的数据要求,最终实现大数据存储的价值。
图三:大数据公认的4V特征:容量、类型、速度以及价值,大数据这四个特征使得传统基础架构已经无法应对,要想实现价值这个环节,首先需要在基础架构上做好充足的准备。
图四:2012针对大数据应用需求的调查,在目前企业数据系统架构中主要存在着扩展性差、资源利用率低、应用部署复杂、运营成本高等问题。
因此,传统存储产品由于自身的设计缺陷,在扩展性方面、与上层应用集成度、高性能、自动化能力、成本等方面已经很难满足大数据诸多的存储特征,根本很难肩负起企业大数据存储、分析以及应用的诸多需求。尤其当前数据的类型丰富程度、容量愈发变大的情况下,并且在业务部门跟IT日益紧密的趋势下,对于数据的存储与分析的速度和性能要求越来越高,对海量数据的快速、高效存储绝对应该是大数据时代存储系统的第一必备要求,否则大数据后续相关的数据分析、处理都将成为空谈。对于用户而言,寻求符合大数据时代下全新需求的存储产品就成为大势所趋。据悉,华为将于9月2号在上海世博中心举办云计算大会,其中海量存储分论坛将于9月2号下午召开,该分论坛将重点讨论大数据存储发展趋势和行业洞察。参会者将能了解到华为大数据存储战略以及大数据技术在石油、卫星测绘等行业领域的应用,对于国内想了解大数据存储相关内容的用户将会是一次难得的良机。
看清大数据趋势 不再雾里看花
在大数据时代下,大数据存储产品显然要比传统存储产品考虑更多因素,目前市场中已经有很多专门为大数据应用设计和开发的存储系统,这其中包括国内和国外诸多厂商的产品。虽然有很多产品可供大家参考和选择。但是对于用户而言,能够看清大数据基础架构的发展趋势,则可在基础架构建设方面不再雾里看花。
趋势一:容量大、易扩展。众人皆知,大数据的容量往往是PB级别,甚至有些用户的数据量开始达到EB级别,这要求未来的存储系统能够具备容量大、易扩展的特点。
趋势二:高性能。大数据的一大特征即为速度,要求存储系统能够快速存储数据,因此这要求存储系统的响应速度能够符合大数据的要求。
趋势三:多集成。大数据时代下,数据来源广泛与复杂,不同类型的数据访问、处理和分析的方式不同,这就要求大数据时代下存储系统的接口集成化,使得大数据存储系统能够应对不同的数据需求。
趋势四:自动化。由于大数据使得数据量大幅增加以及数据处理流程、方式更加复杂,给存储系统的管理、维护变得更加复杂。因此,管理自动化也是衡量大数据存储系统的重要趋势。
趋势五:安全可靠。大数据最为核心的价值所在即为数据,因此确保数据的安全可靠也是大数据存储需要重点考虑的因素。保证数据的可用性、完整性和持久化都是未来存储系统所必备的趋势。
趋势六:弹性成本。大数据并不意味着用户必须要在基础架构上一次性投入大额成本,具有弹性、可扩展的存储系统能够帮助用户实现弹性成本,让不同层面的用户都能在大数据浪潮中淘金。
综述
追本溯源,在大数据时代下,我们往往不能只将眼光盯在数据分析与处理层面,用户在尝试大数据解决方案之前,更应从全面角度去审视自身的基础架构是否适合大数据未来的需求与发展——大数据实践,基础架构先行。只有如此,方能在大数据浪潮之中淘得金!
数据分析咨询请扫描二维码
若不方便扫码,搜微信号:CDAshujufenxi
在数据成为新时代“石油”的今天,几乎每个职场人都在焦虑: “为什么别人能用数据驱动决策、升职加薪,而我面对Excel表格却无从 ...
2025-10-18数据清洗是 “数据价值挖掘的前置关卡”—— 其核心目标是 “去除噪声、修正错误、规范格式”,但前提是不破坏数据的真实业务含 ...
2025-10-17在数据汇总分析中,透视表凭借灵活的字段重组能力成为核心工具,但原始透视表仅能呈现数值结果,缺乏对数据背景、异常原因或业务 ...
2025-10-17在企业管理中,“凭经验定策略” 的传统模式正逐渐失效 —— 金融机构靠 “研究员主观判断” 选股可能错失收益,电商靠 “运营拍 ...
2025-10-17在数据库日常操作中,INSERT INTO SELECT是实现 “批量数据迁移” 的核心 SQL 语句 —— 它能直接将一个表(或查询结果集)的数 ...
2025-10-16在机器学习建模中,“参数” 是决定模型效果的关键变量 —— 无论是线性回归的系数、随机森林的树深度,还是神经网络的权重,这 ...
2025-10-16在数字化浪潮中,“数据” 已从 “辅助决策的工具” 升级为 “驱动业务的核心资产”—— 电商平台靠用户行为数据优化推荐算法, ...
2025-10-16在大模型从实验室走向生产环境的过程中,“稳定性” 是决定其能否实用的关键 —— 一个在单轮测试中表现优异的模型,若在高并发 ...
2025-10-15在机器学习入门领域,“鸢尾花数据集(Iris Dataset)” 是理解 “特征值” 与 “目标值” 的最佳案例 —— 它结构清晰、维度适 ...
2025-10-15在数据驱动的业务场景中,零散的指标(如 “GMV”“复购率”)就像 “散落的零件”,无法支撑系统性决策;而科学的指标体系,则 ...
2025-10-15在神经网络模型设计中,“隐藏层层数” 是决定模型能力与效率的核心参数之一 —— 层数过少,模型可能 “欠拟合”(无法捕捉数据 ...
2025-10-14在数字化浪潮中,数据分析师已成为企业 “从数据中挖掘价值” 的核心角色 —— 他们既要能从海量数据中提取有效信息,又要能将分 ...
2025-10-14在企业数据驱动的实践中,“指标混乱” 是最常见的痛点:运营部门说 “复购率 15%”,产品部门说 “复购率 8%”,实则是两者对 ...
2025-10-14在手游行业,“次日留存率” 是衡量一款游戏生死的 “第一道关卡”—— 它不仅反映了玩家对游戏的初始接受度,更直接决定了后续 ...
2025-10-13分库分表,为何而生? 在信息技术发展的早期阶段,数据量相对较小,业务逻辑也较为简单,单库单表的数据库架构就能够满足大多数 ...
2025-10-13在企业数字化转型过程中,“数据孤岛” 是普遍面临的痛点:用户数据散落在 APP 日志、注册系统、客服记录中,订单数据分散在交易 ...
2025-10-13在数字化时代,用户的每一次行为 —— 从电商平台的 “浏览→加购→购买”,到视频 APP 的 “打开→搜索→观看→收藏”,再到银 ...
2025-10-11在机器学习建模流程中,“特征重要性分析” 是连接 “数据” 与 “业务” 的关键桥梁 —— 它不仅能帮我们筛选冗余特征、提升模 ...
2025-10-11在企业的数据体系中,未经分类的数据如同 “杂乱无章的仓库”—— 用户行为日志、订单记录、商品信息混杂存储,CDA(Certified D ...
2025-10-11在 SQL Server 数据库操作中,“数据类型转换” 是高频需求 —— 无论是将字符串格式的日期转为datetime用于筛选,还是将数值转 ...
2025-10-10