
五大商业分析技术趋势及使用方式(1)
目前,趋势中心对如何应对分析挑战的关注力度并不亚于他们考虑在新商业视角中如何充分利用机遇的力度。例如,随着越来越多的公司开始不得不面对海量数据以及考虑如何利用这些数据,管理与分析大型不同数据集的技术开始出现。提前分析成本与性能趋势意味着公司能够提出比以前更为复杂的问题,提供更为有用的信息以帮助他们运营业务。
在采访中,首席信息官们总结出了5大影响他们进行分析的IT趋势。它们分别为:大数据的增长、快速处理技术、IT商品的成本下降、移动设备的普及和社交媒体的增长。
1. 大数据
大数据指非常庞大的数据集,尤其是那些没有被整齐的组织起来无法适应传统数据仓库的数据集。网络蜘蛛数据、社交媒体反馈和服务器日志,以及来自供应链、行业、周边环境与监视传感器的数据都使得公司的数据变得比以往越来越复杂。
尽管并不是每个公司都需要处理大型、非结构型数据集的技术。Verisk Analytics公司首席信息官Perry Rotella认为所有的首席信息官都应当关注大数据分析工具。Verisk帮助金融公司评估风险,与保险公司共同防范保险诈骗,其在2010年的营收超过了10亿美元。
Rotella认为,技术领导者对此应当采取的态度是,数据越多越好,欢迎数据的大幅增长。Rotella的工作是预先寻找事物间的联系与模型。
HMS公司首席信息官Cynthia Nustad认为,大数据呈现为一种“爆炸性”增长趋势。HMS公司的业务包括帮助控制联邦医疗保险(Medicare)和医疗补助(Medicaid)项目成本和私有云服务。其客户包括40多个州的健康与人类服务项目和130多个医疗补助管理计划。HMS通过阻止错误支付在2010年帮助其客户挽回了18亿美元的损失,节约了数十亿美元。Nustad称:“我们正在收集并追踪大量素材,包括结构性与非结构性数据,因为你并不是总是知道你将在其中寻找什么东西。”
大数据技术中谈论最多的一项技术是Hadoop。该技术为开源分布式数据处理平台,最初是为编辑网络搜索索引等任务开发的。Hadoop为多个“非关系型(NoSQL)”技术(其包括CouchDB 和 MongoDB)中的一种,其通过特殊的方式组织网络级数据。
Hadoop可将数据的子集合分配给成百上千台服务器的处理,每台服务器汇报的结果都将被一个主作业调度程序整理,因此其具有处理拍字节级数据的能力。Hadoop既能够用于分析前的数据准备,也能够作为一种分析工具。没有数千台空闲服务器的公司可以从亚马逊等云厂商那里购买Hadoop实例的按需访问。
Nustad称,尽管并不是为了其大型的联邦医疗保险和医疗补助索赔数据库,但是HMS正在探索NoSQL技术的使用。其包括了结构性数据,并且能够被传统的数据仓库技术所处理。她称,在回答什么样的关系型技术是经实践证明最好用的解决方案时,从传统关系型数据库管理出发是并不明智。不过,Nustad认为Hadoop正在防止欺诈与浪费分析上发挥着重要作用,并且具备分析以各种格式上报的病人看病记录的潜力。
在采访中,那些体验过Hadoop的受访首席信息官们,包括Rotella和Shopzilla 公司首席信息官Jody Mulkey在内都在将数据服务作为公司一项业务的公司中任职。
Mulkey称:“我们正在使用Hadoop做那些以往使用数据仓库做的事情。更重要的是,我们获得了以前从未用过的切实有用的分析技术。”例如,作为一家比较购买网站,Shopzilla每天会积累数太字节的数据。他称:“以前,我们必须要对数据进行采样并对数据进行归类。在处理海量数据时,这一工作量非常繁重。”自从采用了Hadoop,Shopzilla能够分析原始数据,跳过许多中间环节。
Good Samaritan医院是一家位于印第安纳州西南的社区医院,其处于另一种类型。该医院的首席信息官Chuck Christian称:“我们并没有我认为是大数据的东西。”尽管如此,管理规定要求促使其存储整如庞大的电子医疗记录等全新的数据类型。他称,这无疑要求他们要能够从数据中收集医疗保健品质信息。不过,这可能将在地区或国家医疗保健协会中实现,而不是在他们这种单个医院中实现。因此,Christian未必会对这种新技术进行投资。
Island One Resorts公司首席信息官John Ternent称,其所面临的分析挑战取决于大数据中的“大”还是“数据”。不过,目前他正在谨慎地考虑在云上使用Hadoop实例,以作为一种经济的方式分析复杂的抵押贷款组合。目前公司正在管理着佛罗里达州内的8处分时度假村。他称:“这种解决方案有可能解决我们目前正遇到的实际问题。”
2.商业分析速度加快
肯塔基大学首席信息官Vince Kellen认为,大数据技术只是快速分析这一大趋势中的一个元素。他称:“我们期待的是一种更为先进的海量数据分析方法。”与更为快速地分析数据相比,数据的大小并不重要,“因为你想让这一过程快速完成”。
由于目前的计算能够在内存中处理更多的数据,因此与在硬盘中搜索数据相比,其计算出结果的速度要更快。即使你仅处理数G数据,但情况依然与此。
尽管经过数十年的发展,通过缓存频繁访问的数据,数据库性能提升了许多。在加载整个大型数据集至服务器或服务器集群的内存时,这一技术变得更加实用,此时硬盘只是作为备份。由于从旋转的磁盘中检索数据是一个机械过程,因此与在内存中处理数据相比,其速度要慢许多。
Rotella称,他现在几秒中进行的分析在五年前需要花上一个晚上。Rotella的公司主要是对大型数据集进行前瞻性分析,这经常涉及查询、寻找模型、下次查询前的调整。在分析速度方面,查询完成时间非常重要。他称:“以前,运行时间比建模时间要长,但是现在建模时间要比运行时间长。”
列式数据库服务器改变了关系型数据库的传统行与列结构,解决了另一些性能需求。查询仅访问有用的列,而不是读取整个记录和选取可选列,这极大地提高了组织或测量关键列的应用的性能。
Ternent警告称,列式数据库的性能优势需要配合正确的应用和查询设计。他称:“为了进行区别,你必须以适当的方式问它适当的问题。”此此同时,他还指出,列式数据库实际上仅对处理超过500G字节数据的应用有意义。他称:“在让列式数据库发挥作用之前,你必须收集一规模的数据,因为它依赖一定水平的重复提升效率。”
保险与金融服务巨头John Hancock公司的首席信息官Allan Hackney称,为了提高分析性能,硬件也需要进行提升,如增加GPU芯片,其与游戏系统中用到的图形处理器相同。他称:“可视化需用到的计算方法与统计分析中用到的计算方法非常相似。与普通的PC和服务器处理器相比,图形处理器的计算速度要快数百倍。我们的分析人员非常喜欢这一设备。”
数据分析咨询请扫描二维码
若不方便扫码,搜微信号:CDAshujufenxi
随机森林算法的核心特点:原理、优势与应用解析 在机器学习领域,随机森林(Random Forest)作为集成学习(Ensemble Learning) ...
2025-09-05Excel 区域名定义:从基础到进阶的高效应用指南 在 Excel 数据处理中,频繁引用单元格区域(如A2:A100、B3:D20)不仅容易出错, ...
2025-09-05CDA 数据分析师:以六大分析方法构建数据驱动业务的核心能力 在数据驱动决策成为企业共识的当下,CDA(Certified Data Analyst) ...
2025-09-05SQL 日期截取:从基础方法到业务实战的全维度解析 在数据处理与业务分析中,日期数据是连接 “业务行为” 与 “时间维度” 的核 ...
2025-09-04在卷积神经网络(CNN)的发展历程中,解决 “梯度消失”“特征复用不足”“模型参数冗余” 一直是核心命题。2017 年提出的密集连 ...
2025-09-04CDA 数据分析师:驾驭数据范式,释放数据价值 在数字化转型浪潮席卷全球的当下,数据已成为企业核心生产要素。而 CDA(Certified ...
2025-09-04K-Means 聚类:无监督学习中数据分群的核心算法 在数据分析领域,当我们面对海量无标签数据(如用户行为记录、商品属性数据、图 ...
2025-09-03特征值、特征向量与主成分:数据降维背后的线性代数逻辑 在机器学习、数据分析与信号处理领域,“降维” 是破解高维数据复杂性的 ...
2025-09-03CDA 数据分析师与数据分析:解锁数据价值的关键 在数字经济高速发展的今天,数据已成为企业核心资产与社会发展的重要驱动力。无 ...
2025-09-03解析 loss.backward ():深度学习中梯度汇总与同步的自动触发核心 在深度学习模型训练流程中,loss.backward()是连接 “前向计算 ...
2025-09-02要解答 “画 K-S 图时横轴是等距还是等频” 的问题,需先明确 K-S 图的核心用途(检验样本分布与理论分布的一致性),再结合横轴 ...
2025-09-02CDA 数据分析师:助力企业破解数据需求与数据分析需求难题 在数字化浪潮席卷全球的当下,数据已成为企业核心战略资产。无论是市 ...
2025-09-02Power BI 度量值实战:基于每月收入与税金占比计算累计税金分摊金额 在企业财务分析中,税金分摊是成本核算与利润统计的核心环节 ...
2025-09-01巧用 ALTER TABLE rent ADD INDEX:租房系统数据库性能优化实践 在租房管理系统中,rent表是核心业务表之一,通常存储租赁订单信 ...
2025-09-01CDA 数据分析师:企业数字化转型的核心引擎 —— 从能力落地到价值跃迁 当数字化转型从 “选择题” 变为企业生存的 “必答题”, ...
2025-09-01数据清洗工具全景指南:从入门到进阶的实操路径 在数据驱动决策的链条中,“数据清洗” 是决定后续分析与建模有效性的 “第一道 ...
2025-08-29机器学习中的参数优化:以预测结果为核心的闭环调优路径 在机器学习模型落地中,“参数” 是连接 “数据” 与 “预测结果” 的关 ...
2025-08-29CDA 数据分析与量化策略分析流程:协同落地数据驱动价值 在数据驱动决策的实践中,“流程” 是确保价值落地的核心骨架 ——CDA ...
2025-08-29CDA含金量分析 在数字经济与人工智能深度融合的时代,数据驱动决策已成为企业核心竞争力的关键要素。CDA(Certified Data Analys ...
2025-08-28CDA认证:数据时代的职业通行证 当海通证券的交易大厅里闪烁的屏幕实时跳动着市场数据,当苏州银行的数字金融部连夜部署新的风控 ...
2025-08-28