现代数据架构之道：包括数据仓库与语义层等四个部分-CDA数据分析师官网

热线电话：13121318867

现代数据架构之道：包括数据仓库与语义层等四个部分

2016-03-16

现代数据架构之道：包括数据仓库与语义层等四个部分

鉴于许多企业组织在竭力采用易于使用的数据分析技术让大数据广泛可用，它们应考虑将部分功能外包到云端。如果选择一种大数据即服务解决方案，可以处理像hadoop、Spark和Hive等这些大数据技术很耗费资源、很耗费时间的操作方面，企业就能专注于大数据的好处，少关注枯燥乏味的工作。
　　大数据的出现带来了以下几方面的基本问题：
　　企业组织如何发挥其潜力如何将其价值引入到企业组织的更广泛部门如何将该数据与之前就有的企业数据仓库结合起来，比如企业数据仓库(EDW)和数据集市
　　如今商业化应用的主流大数据技术是Apache Hadoop。它与作为更庞大的Hadoop生态系统一部分的其他技术结合使用，比如Apache Spark内存处理引擎、Apache Hive 数据仓库基础设施和Apache HBase NoSQL存储系统。
　　企业要将大数据纳入到其核心企业数据架构，势必需要改动或购置大数据即服务技术。适合如今需求的现代数据架构应当包括以下这几个部分：
　　Hadoop上的高性能、分析就绪的数据仓库
　　大数据如何才能做到速度快、随时可供分析?构建便于分析的大数据环境的一个最佳实践就是，创建分析型数据仓库，可以从Hadoop 数据湖装入最常用的数据集，然后将它们组织到维度模型。有了在Hadoop上的便于分析的数据仓库，企业组织就能获得最快的查询响应。这种模型便于业务用户了解，它们便于探究业务环境逐渐发生了怎样的变化。
　　这个分析数据仓库不但要支持报告已知用例，还要支持探究分析非计划场景。整个过程应该对用户来说是无缝的，不需要知道要不要直接查询Hadoop上的分析型数据仓库。
　　便于“业务语言”数据分析的语义层
　　大数据如何才能被更多的业务用户易于访问?为了隐藏原始数据中的复杂性，并以通俗易懂的业务术语将数据展示给业务用户，就需要语义覆盖层(semantic overlay)。这个语义层是数据的逻辑表示，可以在其中运用业务规则。
　　比如说，语义层可以将“高价值客户”定义为“时间在三年以上，经常购买新产品或续约的那些客户”。“高价值客户”方面的数据可以从不同的表格获取，经过不同层次的计算和转换，最后进入到语义层，这一切都是查询“高价值客户”的业务用户所看不见的。
　　多租户大数据环境
　　如何在整个企业组织访问大数据，不管人们位于何处?由于广泛需要数据分析，企业组织需要采用一种混合的集中式和分散式数据方法。这让不同的术语可以兼顾本地数据集和语义定义，同时又访问IT部门创建的企业数据资源。
　　这种混合方法可以用多租户数据架构来实现。在这种架构中，IT部门收集和清理数据后，放入到共享的Hadoop 数据湖，并利用该数据，准备好集中式语义层和分析型数据仓库。
　　随后，IT部门为不同的业务小组(比如财务、销售、营销和客户支持)，创建集中式数据环境的虚拟拷贝。这样一来，IT部门保留了数据治理和语义规则方面的统一权限，同时业务小组和部门又可以对照存储在Hadoop中的历史或企业数据，真正看到其日常业务活动的影响。
　　用户界面友好的消费分析
　　怎样才使用户容易掌握大数据分析?就最终用户处理大数据而言，最后要考虑的一个问题是，数据将以哪种形式来表示。这些数据界面将满足每个用户的独特、个别的要求。这一需求包括：为业务用户提供高度交互和响应的仪表板，为分析员提供界面直观的可视化发现机制，以及为信息消费者提供计划报表。
　　虽然每一种方式都很独特，但最佳实践是确保每个界面都不是单独的工具，那样在创建、协作和发布信息时可以确保一致性和准确性。只有通过确保数据价值仍然一致的语义层，才能做到这一点，而数据表示可能因用户界面而异。
　　大数据对企业来说越来越重要，它是企业数据架构的一个基本部分。想充分发掘大数据的潜力，企业就要加快购置可高效地分析和存储数据的技术。面向大数据和分析的云解决方案让这成为了可能。有了这种解决方案，企业就能为未来的数据增长作好充分准备，反过来在日益发展的大数据生态系统中有出色的表现。