京公网安备 11010802034615号
经营许可证编号:京B2-20210330
大数据基础设施论坛:如何构建符合大数据时代的网络基础设施
2014中国大数据技术大会第二日上午的大数据基础设施论坛上,Mellannox亚太区市场开发总监刘通、武汉绿色网络信息服务有限责任公司副总经理雷葆华、浪潮云产品部兼渠道推进部总经理王峰、百度基础架构部高级架构师 柴华和博科中国区技术总监 谷增云五位专家主要专注于网络层面的相关问题展开的演讲。
图:Mellannox亚太区市场开发总监刘通
Mellannox亚太区市场开发总监刘通带来了主题为“高速网络InfiniBand加速大数据应用”的演讲。他表示基础设施和上层的应用有着非常紧密的联系,软硬件结合才更有意义。在他看来,InfiniBand是一个完全自主且非常智能的二层网络,从诞生的那天其就是SDN的网络。
“高达56Gb/s的带宽(100G EDR InfiniBand也已问世)以及低于700纳秒的延迟为高速数据传输提供了保证。InfiniBand内置支持RDMA(远端内存直接访问)网络传输技术,提供内存零拷贝、内核旁路、协议卸载的优势,从而大幅下载网络通信对CPU资源的占用,这些优势是传统TCP/IP通信协议所不具备的。”他说道。
图:武汉绿色网络信息服务有限责任公司副总经理雷葆华
武汉绿色网络信息服务有限责任公司副总经理雷葆华发表主题为“大数据在网络服务中的应用及网络演进”的演讲。 他就网络运营中的大数据探索和大数据时代的智能化网络基础设施演进两个内容进行了阐述。他介绍了基于网络的大数据体系架构的三个层次:第一个是大数据海量数据采集及预处理;第二个是DMP数据管理平台汇聚了各省的数据资源,并进行安全去隐私化处理;第三个是合作伙伴可以利用运营商大数据平台的资源,进行数据的深入分析挖掘。
他认为IDC是互联网产业的基础战略资源,作为信息中枢,直接支撑整个互联网产业的发展。而大数据时代,网络演进发生了三个变化:1.不定向突发流量的挑战;2.云数据中心互联;3.云开数据中心内部组网支持云服务。归纳来说就是业务变化驱动网络架构的变化:1. 业务流量由纵向为主演进为横向为主;2. 大型异构化,更多的节点数跨数据中心;虚拟化:3. 同一物理服务器的虚拟机之间的通信、跨物理服务器的虚拟机通信时的虚拟机标识、虚拟机迁移。
图:浪潮云产品部兼渠道推进部总经理王峰
浪潮云产品部兼渠道推进部总经理王峰发表了主题为“开放融合的云数据中心”的演讲。过去的数据中心是为某一个应用做的,我们的数据中心的效率并不是非常高,然后提出了软件定义的计算和存储,他表示希望未来在信息领域做的所有东西都是可以软件定义的,所有的资源都可以被抽象化、池化 和自动化。
传统的数据中心架构,计算、存储和网络资源是彼此独立,不同应用更是要求不同的设备和网络,利用应用软件定义的数据中心能够简化IT应用基础架构,让其不再是整个云计算、大数据中最重的那一部分。最后,他总结了两点:1. SDDC将完全改变数据中心的设备形态、服务形式,甚至IT应用的开展方式;2. 在完全融合、池化、软件定义的数据中心到来之前,我们还有几个必经阶段。
图:百度基础架构部高级架构师 柴华
百度基础架构部高级架构师 柴华介绍了百度分布式计算平台。他先是介绍了百度MapReduce的发展历程:2004年MapReduce论文发表,2007年上线了基于Haddop的百度MR,2011年百度MR单集群规模达到5000台,2013年百度MR单集群达到13000台,2014年 百度DCE发布,DAG引擎上线。
演讲中,柴华重点介绍了百度分布式计算的“七剑客”:1. 大规模离线计算平台DCE(MapReduce/DAG模型),2. 大规模机器学习平台MPI(BSP模型),3. 新一代大规模机器学习框架ELF(Parameter server架构),4. 毫秒级实时计算系统Dstream,5. 小批量流式计算系统Task Manger,6. 基于内存的开源分布式计算框架Spark,7. 分布式Trace系统Rig。
博科中国区技术总监 谷增云
博科中国区技术总监谷增云,带来了“用于大数据可视化的SDN技术”技术分享,主要讲述SDN技术,在大规模、超高性能的大数据采集方面的应用。其中Vyatta平台的架构包含三个核心层:NFV连接服务、SDN结构服务和功能编排。这个开放式架构的每一层都是模块化的,让客户能够选择适合其特定数据中心要求的产品和/或解决方案。这个平台开放和模块的特性实现了互操作性,为客户带来更好的选择。层间通信采用基于标准的透明协议和方法,包括REST APIs和NETCONF/YANG模式,确保配置的互操作性。最后针对SDN/Openflow技术如何在数Tbps带宽容量的数据中心、骨干网随时自动化的采集上应用做了简要的分析。
数据分析咨询请扫描二维码
若不方便扫码,搜微信号:CDAshujufenxi
在数据统计分析、数据清洗、异常值识别与数据分布研究中,箱型图是最直观、高效、专业的可视化分析工具。相较于柱状图、折线图仅 ...
2026-05-29Tkinter是Python内置的标准GUI图形界面库,具备无需额外安装、调用简单、兼容性强、轻量化高效等优势,是Python快速开发桌面小程 ...
2026-05-29 很多分析师在设计标签时思路清晰,但真到落地环节却面临“数据在手,不知如何转化为可用标签”的困境:或因加工方式选择不当 ...
2026-05-29【核心关键词】大数据、经理、专业、金融、客户、传统、建模、数据产品、互联网金融、产品经理、数据分析、金融行业、数据模型 ...
2026-05-28 很多分析师每天和数据打交道,但当被问到“标签是什么”“标签和指标有什么区别”“标签体系如何设计”时,却常常答不上来。 ...
2026-05-28随着大数据技术的快速普及,各行各业积累了海量的用户数据、交易数据、生产数据与行为数据。单纯的数据统计与报表分析只能呈现表 ...
2026-05-28在Python网络请求、接口测试、数据爬取、业务对接开发中,Requests库是最简洁、最高效的HTTP请求工具,凭借简洁的语法、完善的适 ...
2026-05-272025 年,零售与服务行业的竞争已从 “经验驱动” 全面转向 “数据驱动”。中小企业门店普遍面临数据零散、分析浅层、决策凭感觉 ...
2026-05-27 很多数据分析师每天都在写SQL,但当被问到“数据查询语言(DQL)的本质是什么”“SELECT语句中各子句的书写顺序与实际执行顺 ...
2026-05-27在统计学分析、实验研究、业务数据复盘过程中,单因素方差分析是检验自变量对因变量是否存在显著影响的核心方法。其中,两个水平 ...
2026-05-26【核心关键词】算法、客户、大数据、互联网、调优、建模、模型优化、机器学习、评分卡模型、模型开发、智能风控、业务场景、数 ...
2026-05-26 很多数据分析师写过无数个 SELECT,但当被问到“新建一张表,该如何定义字段类型来保证数据质量”“创建视图和存储物理表有 ...
2026-05-26在数据清洗、统计分析与数据质量检测工作中,箱型图(又称箱线图、Box Plot)是最直观、最高效的可视化分析工具之一。相较于柱状 ...
2026-05-25在大数据分析、数据清洗、质量管控、风险监测等领域,异常数据识别是保障数据质量、确保分析结论精准、规避业务决策失误的核心基 ...
2026-05-25 很多数据分析师精通Excel函数和透视表,但当被问到“数据从哪里来”“表和视图有什么区别”“数据库管理系统和SQL是什么关系 ...
2026-05-25数字化经营时代,企业的市场竞争早已从经验决策转向数据决策。门店营收、用户转化、产品销量、成本损耗、存量资产等所有经营行为 ...
2026-05-22在MySQL数据库日常运维、业务数据校验、数据迁移与数据清洗场景中,自增主键ID的连续性校验是一项基础且关键的工作。MySQL的Auto ...
2026-05-22 很多企业团队并非缺乏指标,而是陷入“指标失控”:仪表盘上堆满实时跳动的数据,却无法回答“当前瓶颈在哪、下一步该做什么 ...
2026-05-22【核心关键词】大数据、可视化、存储、架构、客户、离线、产品、同步、实时、数据仓库、数据分析、数据可视化、存储数据、离线 ...
2026-05-21在电商流量红利消退、公域获客成本持续走高的当下,存量用户深度挖掘已成为店铺增收增效的核心抓手。相较于付费投放获取的陌生新 ...
2026-05-21