香港企业采用大数据技术仍在起步,要考虑的事的确很多,但笔者认为厂商经常说得过于复杂,令企业设计大数据架构时存有疑问,例如在建构时选何制定方案使用方法及规模,相信是很多决策人希望了解的事,那么我们尝试化繁为简,由浅入深了解部署时的考虑点。
在我们考虑大数据时,注意力放在「大」这个字,但是在建设基础架构时,我们还应该注意「分散式」的数据处理。事实上,大数据软件需要处理大量资讯,而且在将资料复制到多个位置时,数据的容量便会倍增。但是,大数据的最重要属性并不在于它的规模,而在于它将大作业分割成许多小作业的能力,它能够将一个任务的资源分散到多个位置变为同时处理。在将大规模和分散式架构组合在一起时,我们就能发现大数据网络有一组特殊的需求,下面是需要考虑的六个要素:
1.不容有失 提升网络弹性
如果有一组分散式资源必须通过互联网进行协调时,可用性就变得非常重要。万一网络出现故障,便会出现不连续的计算资源与资料库崩坏。说白一点,大多数网络工程师的主要关注点是正常执行时间,但是,网络故障的原因又各不相同,包括设备故障(硬体与软体)、维护和人为错误。我们都知道伺服器故障是避无可避,网络的可用性也很重要,所谓完美的设计其实是不存在。
网络架构师应该设计一些能适应故障的弹性网络,网络的弹性取决于路径多样性(资源之间设置多条路径)和容错移转(能够快速发现问题和转移到其他路径上)。除了传统的平均故障时间间隔(MTBF)方法,大数据网络的设计标准一定要包括这些架构。
2. 解决网络拥塞
大数据应用程式不仅仅是规模大,而且还有突发性的流量「洪峰」。当一个程序启动后,数据就开始流转,在高流量时段时拥塞造成的问题可以很严重,例如可能引起更多的Queues增加延迟和packet lost。网络拥塞还可能令请求多次发出,这可能让本身负载繁重的网络无法承受。因此,网络架构设计时应该尽可能减少拥塞点,要网络具有较高的路径多样性,这样才能容许网络流量分流到大量不同的路径上。
3. 性能一致要比迟延性更重要
实际上,大多数大数据应用程式对网络延迟并不敏感。如果运算时间以秒计或以分钟计的话,即使出现较大延迟也是可以接受,例如为几千ms。然而,大数据应用程式一般具有较高的同步性。这意味着作业是并存执行的,而各个作业之间较大的性能差异可能会引发应用程式故障。除第1至2点提到网络的高效性,空间和时间上也要具有一致的性能。
4. 预留未来的扩展性
大多数大数据丛集实际上并不大,根据Hadoop Wizard的资料,2013年大数据丛集的平均节点数量只有100个。换句话说,即使每一台伺服器配置双重redundancy,支援整个丛集也只需要4个接入switch (假设是分别有72个10GbE网络接口的Switch)。
扩展性并不在于现在丛集现在有多大规模,而是在乎如何平衡地扩展支援未来的部署规模。如果基础架构设计现在只适合小规模部署,那么整个架构将如何随着节点数量的增加而不断进化?未来何时需要完全重新设计?这个架构是否需要一些近程资料和资料位置资讯?关键是扩展性并不在于绝对规模,而是更关注于实现足够规模解决方案的路径。
5. 网络分割 关键任务先行
网络分割是大数据应用环境的重要条件,形式上,要将大数据的流量与其他网络流量区分开来,这样应用程式产生的突发流量才不会影响其他关键任务网络负载。除此之外,运行多个作业的多个用户,以满足性能、合规性和审计的要求。这些工作要求在一些场合中实现网络负载的逻辑分离,某些场合还要作物理分离。
6. 应用感知力
虽然大数据的概念与Hadoop部署关系密切,但是它已经成为丛集环境的代名词。根据不同应用程式的特点,环境的需求随之不同。有一些可能对频宽要求高,一些则可能对延迟很敏感。总之,一个网络要支援多应用程式和多用户,它就必须要能够区分自己的工作负载,并且要能够正确处理各个工作负载,不仅仅是提供足够的频宽。
最后,应用程式体验取决于很多因素,包括网络拥塞和分割。创建一个满足所有这些需求的网络需要具备前瞻性,不仅要考虑基础架构能够支援的伸缩规模,还要考虑不同类型的应用程式如何共存于同一环境中。
数据分析咨询请扫描二维码
若不方便扫码,搜微信号:CDAshujufenxi
持证人简介:贺渲雯 ,CDA 数据分析师一级持证人,互联网行业数据分析师 今天我将为大家带来一个关于用户私域用户质量数据分析 ...
2025-04-18一、CDA持证人介绍 在数字化浪潮席卷商业领域的当下,数据分析已成为企业发展的关键驱动力。为助力大家深入了解数据分析在电商行 ...
2025-04-17CDA持证人简介:居瑜 ,CDA一级持证人,国企财务经理,13年财务管理运营经验,在数据分析实践方面积累了丰富的行业经验。 一、 ...
2025-04-16持证人简介: CDA持证人刘凌峰,CDA L1持证人,微软认证讲师(MCT)金山办公最有价值专家(KVP),工信部高级项目管理师,拥有 ...
2025-04-15持证人简介:CDA持证人黄葛英,ICF国际教练联盟认证教练,前字节跳动销售主管,拥有丰富的行业经验。在实际生活中,我们可能会 ...
2025-04-14在 Python 编程学习与实践中,Anaconda 是一款极为重要的工具。它作为一个开源的 Python 发行版本,集成了众多常用的科学计算库 ...
2025-04-14随着大数据时代的深入发展,数据运营成为企业不可或缺的岗位之一。这个职位的核心是通过收集、整理和分析数据,帮助企业做出科 ...
2025-04-11持证人简介:CDA持证人黄葛英,ICF国际教练联盟认证教练,前字节跳动销售主管,拥有丰富的行业经验。 本次分享我将以教培行业为 ...
2025-04-11近日《2025中国城市长租市场发展蓝皮书》(下称《蓝皮书》)正式发布。《蓝皮书》指出,当前我国城市住房正经历从“增量扩张”向 ...
2025-04-10在数字化时代的浪潮中,数据已经成为企业决策和运营的核心。每一位客户,每一次交易,都承载着丰富的信息和价值。 如何在海量客 ...
2025-04-09数据是数字化的基础。随着工业4.0的推进,企业生产运作过程中的在线数据变得更加丰富;而互联网、新零售等C端应用的丰富多彩,产 ...
2025-04-094月7日,美国关税政策对全球金融市场的冲击仍在肆虐,周一亚市早盘,美股股指、原油期货、加密货币、贵金属等资产齐齐重挫,市场 ...
2025-04-08背景 3月26日,科技圈迎来一则重磅消息,苹果公司宣布向浙江大学捐赠 3000 万元人民币,用于支持编程教育。 这一举措并非偶然, ...
2025-04-07在当今数据驱动的时代,数据分析能力备受青睐,数据分析能力频繁出现在岗位需求的描述中,不分岗位的任职要求中,会特意标出“熟 ...
2025-04-03在当今数字化时代,数据分析师的重要性与日俱增。但许多人在踏上这条职业道路时,往往充满疑惑: 如何成为一名数据分析师?成为 ...
2025-04-02最近我发现一个绝招,用DeepSeek AI处理Excel数据简直太爽了!处理速度嘎嘎快! 平常一整天的表格处理工作,现在只要三步就能搞 ...
2025-04-01你是否被统计学复杂的理论和晦涩的公式劝退过?别担心,“山有木兮:统计学极简入门(Python)” 将为你一一化解这些难题。课程 ...
2025-03-31在电商、零售、甚至内容付费业务中,你真的了解你的客户吗? 有些客户下了一两次单就消失了,有些人每个月都回购,有些人曾经是 ...
2025-03-31在数字化浪潮中,数据驱动决策已成为企业发展的核心竞争力,数据分析人才的需求持续飙升。世界经济论坛发布的《未来就业报告》, ...
2025-03-28你有没有遇到过这样的情况?流量进来了,转化率却不高,辛辛苦苦拉来的用户,最后大部分都悄无声息地离开了,这时候漏斗分析就非 ...
2025-03-27