京公网安备 11010802034615号
经营许可证编号:京B2-20210330
理论和实践结合下 如何从大数据中挖掘新商机?
在大数据、云计算越发被业界重视的今天,如何才能用大数据(数据分析师)帮助企业实现价值?如何才能通过大数据解决方案帮助企业解决从基础架构迁移到云的新需求?如何为用户定制适合其行业应用的新智能平台?可能是每个有责任心的IT企业所需要解决的新问题。而谈到这一话题,就必须要谈谈软件定义、融合,抛弃硬件设备的限制,越来越多的企业利用大数据平台采用开放的存储架构,提供存储的性能、可管理性,而这也是存储领域发展的大趋势。
于是,2015年,我们看到各大厂商在运用云计算和大数据技术,利用平台解决方案创新和维护这新老客户,我们也看到,企业客户在尝试着利用厂商提供的平台解决方案实现“用IT创造更多价值”的神话,“现在有很多计算平台也积累了很多数据,但是怎么样实现它的价值在摸索过程当中,用户在面临着,包括业务层面或者需求层面的新的挑战。(数据分析师培训)”
直面新挑战从数据中挖掘应用
当前,许多用户非常关注的大数据技术下的几个方面:规模弹性伸缩、业务快速上线、资源灵活分配、服务性能保障、整体运营维护等,这些都是厂商利用云计算、大数据技术将客户传统业务向云计算转型过程中亟待解决的问题,同时也是传统基础架构中相对薄弱的环节。
而谈到如此高深的大数据技术理论和现实客户需求问题的结合问题,宋怀明有着深刻的理解,实际上,曙光作为大数据处理领域的专家级企业,一直在耕耘大数据技术市场的同时,不停的在创新者数据存储新应用。而宋怀明对于在数据存储、数据处理领域的研究,要追溯到2004年,如今,在经历了大数据的成型、储备和研发阶段后的曙光,在大数据存储领域已经有了很多成功解决方案和应用,今天,曙光的专注点就在于数据的存储和处理。
应该说,大数据的关键点就在于如何挖掘有价值的数据,并合理的利用其价值。在曙光耕耘大数据领域的11年中,可以说其一直在从数据中找寻真正适用于中国客户的需求创新点, 2004年,当时大数据还没有兴起。曙光多是进行结构化数据的处理,基于无共享架构的MPP数据库的研发,直到2007年,Hadoop在中国兴起之后,曙光在2011年成立了Hadoop的研发团队,已经发行到第三版,从2013年开始,每年都会更新一个版本,也是紧跟社区的最新技术。曙光在上面做一些优化管理、安全加固等等工作。可以说这一阶段也是众多厂商的终极目标,应用的问题,实际上这一阶段要求最高,“现在有很多计算平台也积累了很多数据,但是怎么样实现它的价值在摸索过程当中,用户在面临着,包括业务层面或者需求层面的新的挑战。” 曙光大数据的总工(总经理)宋怀明博士如是说。
理论和实践总是有差距
在笔者看来,从技术角度而言,曙光对大数据的挖掘和研究,实力不容置疑,然而研发能力的提升带来的附加成本是不可预知的。而将技术转化为生产力,更需要长期的实践。如果传统企业也想像互联网企业那样玩转大数据产品,首先要组建与胡两旺同量级的研发和维护团队。在选择产品时节省下来的投资,根本揣不到兜里,只能老老实实花在开发维护环节上。
然而,曙光让记者看到了一个不一样的大数据研发方向。在同宋怀明的对话中,记者深刻感受到曙光在进行大数据平台的积累和研发是完全基于应用层的,也就是说曙光是基于大数据产品基本上是基于上层应用的研发。这些产品在今年已经在几个行业中进行了测试和数据应用模拟。例如:广电传媒领域,曙光把原有的数据库系统、机顶盒的数据抓取过来,在上面做数据结构分析(数据分析培训)、用户行为、精准推荐、智能运维等等应用。之后,珠江数码已经成为其重点客户,目前曙光也正在为其正进行二期开发,预计明年1月份产品正式上线。
从行业应用中获取价值
显然,市场化和应用的普及是促进曙光大数据存储发展的动力,只有同广大的厂商合作,通过标准的数据访问接口支撑多个行业应用开发,推动行业应用落地。然而,要从技术中挖掘这样的需求并不简单,在数据领域深耕多年的宋怀明也非常清楚这一点,于是,针对数据的探索,曙光锁定在了Hadoop技术。Hadoop发展前期是以离线计算、批处理计算为主。从曙光发展历史分析,这几年mapreduce用于日志的处理,hbase用检索数据库进行查询,显然,对于这一技术的开发,曙光已经完成从实验走向生产系统的阶段。目前,曙光已经有很多实际落地的案例,而且大的规模已经到PB级。
从产品端分析,显然曙光正在打造一套软件定义一切的超融合计算。这套解决方案将统一融合资源管理(网络,计算,存储)、统一融合服务管理(HPC,云计算,大数据)、统一融合数据管理(调度,编排,处理),并将横跨三大核心产品Gridview高性能计算操作系统、CloudView云计算操作系统、XData大数据一体机结合为一体,针对不同客户需求进行相应的解决方案部署。
技术的成熟已经预示着曙光大数据平台成为行业应用的重点,应该说曙光已经在不断创新中找到了自己的领域,而且针对不同行业,曙光的大数据存储也发挥着不同的作用。据曙光大数据研发中心经理郭庆介绍:“在广媒行业,非结构化的文本处理,像Hadoop的SOLR、ES文本检索的,在很多大型系统里也开始逐步使用。Hadoop的技术趋势逐步由离线处理越来越往前发展,包括内存计算、文本检索、流式计算,从时间来讲,延迟会越来越短,按照这个链条往前发展。广媒的大数据,除了这些基础的运维数据,还会采集机顶盒的收视行为数据,会往应用层发展。底层的技术可以复用的,就可以复用,然后再往上层发展。“
市场是检验产品的唯一标准
当然,在今天融合存储和云计算市场火热的当下,很多IT企业大数据在技术上的创新优势也同样在市场中被熟知,IBM、Oracle、EMC等一系列企业都相继推出自己的数据平台一体机,曙光如何将自主研发的大数据平台拓展到更多市场,确实需要建立一套客观的市场战略。对比几家企业大数据平台产品,宋怀明也从产品角度结合其对客户需求的分析进行了剖析,Oracle的大数据一体机,是共享磁盘的架构。对于数据量中等规模或者是偏小的是比较适合的但价格比较昂贵。曙光是用无共享架构,扩展性更好,也是更主流的架构方式,开源的组件基本上都是沿用无共享架构的方式,价格便宜。IBM大数据一体机,把应用固化的FPGA加速卡上;而曙光利用软件模块、硬件模块融合方式,在存储和数据交换方面做了优术,并未把软件固化在加速卡上。
显然,曙光今天已经对大数据平台,已经对行业市场有了很深的研究和战略部署,从XDATA系统道曙光大数据存储,从非结构化数据处理到大数据分析,从自主研发的解决方案到应用到逐渐深入到市场段的应用,曙光大数据存储正在有计划有规模的深入到市场,通过自身对行业市场的细分和精准把握造就了曙光大数据存储的成功。其正在打造的软件定义资源利用、软硬一体化趋近融合的平台,从用户角度出发,为更多的客户带来解决方案
数据分析咨询请扫描二维码
若不方便扫码,搜微信号:CDAshujufenxi
在数字化运营中,“凭感觉做决策” 早已成为过去式 —— 运营指标作为业务增长的 “晴雨表” 与 “导航仪”,直接决定了运营动作 ...
2025-10-24在卷积神经网络(CNN)的训练中,“卷积层(Conv)后是否添加归一化(如 BN、LN)和激活函数(如 ReLU、GELU)” 是每个开发者都 ...
2025-10-24在数据决策链条中,“统计分析” 是挖掘数据规律的核心,“可视化” 是呈现规律的桥梁 ——CDA(Certified Data Analyst)数据分 ...
2025-10-24在 “神经网络与卡尔曼滤波融合” 的理论基础上,Python 凭借其丰富的科学计算库(NumPy、FilterPy)、深度学习框架(PyTorch、T ...
2025-10-23在工业控制、自动驾驶、机器人导航、气象预测等领域,“状态估计” 是核心任务 —— 即从含噪声的观测数据中,精准推断系统的真 ...
2025-10-23在数据分析全流程中,“数据清洗” 恰似烹饪前的食材处理:若食材(数据)腐烂变质、混杂异物(脏数据),即便拥有精湛的烹饪技 ...
2025-10-23在人工智能领域,“大模型” 已成为近年来的热点标签:从参数超 1750 亿的 GPT-3,到万亿级参数的 PaLM,再到多模态大模型 GPT-4 ...
2025-10-22在 MySQL 数据库的日常运维与开发中,“更新数据是否会影响读数据” 是一个高频疑问。这个问题的答案并非简单的 “是” 或 “否 ...
2025-10-22在企业数据分析中,“数据孤岛” 是制约分析深度的核心瓶颈 —— 用户数据散落在注册系统、APP 日志、客服记录中,订单数据分散 ...
2025-10-22在神经网络设计中,“隐藏层个数” 是决定模型能力的关键参数 —— 太少会导致 “欠拟合”(模型无法捕捉复杂数据规律,如用单隐 ...
2025-10-21在特征工程流程中,“单变量筛选” 是承上启下的关键步骤 —— 它通过分析单个特征与目标变量的关联强度,剔除无意义、冗余的特 ...
2025-10-21在数据分析全流程中,“数据读取” 常被误解为 “简单的文件打开”—— 双击 Excel、执行基础 SQL 查询即可完成。但对 CDA(Cert ...
2025-10-21在实际业务数据分析中,我们遇到的大多数数据并非理想的正态分布 —— 电商平台的用户消费金额(少数用户单次消费上万元,多数集 ...
2025-10-20在数字化交互中,用户的每一次操作 —— 从电商平台的 “浏览商品→加入购物车→查看评价→放弃下单”,到内容 APP 的 “点击短 ...
2025-10-20在数据分析的全流程中,“数据采集” 是最基础也最关键的环节 —— 如同烹饪前需备好新鲜食材,若采集的数据不完整、不准确或不 ...
2025-10-20在数据成为新时代“石油”的今天,几乎每个职场人都在焦虑: “为什么别人能用数据驱动决策、升职加薪,而我面对Excel表格却无从 ...
2025-10-18数据清洗是 “数据价值挖掘的前置关卡”—— 其核心目标是 “去除噪声、修正错误、规范格式”,但前提是不破坏数据的真实业务含 ...
2025-10-17在数据汇总分析中,透视表凭借灵活的字段重组能力成为核心工具,但原始透视表仅能呈现数值结果,缺乏对数据背景、异常原因或业务 ...
2025-10-17在企业管理中,“凭经验定策略” 的传统模式正逐渐失效 —— 金融机构靠 “研究员主观判断” 选股可能错失收益,电商靠 “运营拍 ...
2025-10-17在数据库日常操作中,INSERT INTO SELECT是实现 “批量数据迁移” 的核心 SQL 语句 —— 它能直接将一个表(或查询结果集)的数 ...
2025-10-16