
大数据的初期大家都在拼什么?拼集群规模,节点数量,拼存储能力,拼调度能力。此时企业展示技术能力的时候一般都会强调什么集群规模过万,存储能力过百P,每天执行数十万的job。
在大数据初期,人们基本不太在意,数据的存储成本,执行性能和响应速度。更在意的的是构建初始的大数据环境,让数据更大,以及对大数据的掌控能力。
随着这方面的技术越来越成熟,人们会对数据的时效性,查询响应时间要求越来越高。在这个时期出现了许多预处理技术,比方说storm,hbase等,以及一些对性能优化的一些处理方法比如说基于嵌套列存储技术的google dremel,apache drill,impala等,但这些仅仅能在某一领域满足人们的时效性要求,通用性不强,只能说是预处理技术和列存储,并不能满足通用的低延迟的即席查询要求。
目前开源的mdrill技术以及腾讯自主研发的hermer目前的索引的索引量只能达到千亿规模,万亿规模以上的成功案例还没有,纠其原因有两点
其一是索引存储在本地硬盘,他对容灾,异常的恢复的处理逻辑,进程异常后的任务迁移成本制约了其索引规模的大小。
其二是受限其调度系统的实现,管理的事情太多,既要管理索引,又要管理心跳,也要维护容灾,导致调度系统的机器规模上不来。
索引管理,容灾心跳管理,计算资源管理三者将来必须分离。否则万亿以上的目标别想。
其三内嵌过多的来源代码,比如说jstorm,solr等等,他们的架构制约了拓展性。
随着yarn技术的趋于成熟以及在hdfs中的索引技术的成熟和性能的提升,低延迟的万亿规模的索引技术有了希望。
第一,yarn分配的资源不在像之前那样还要维护索引状态,存储位置,仅仅负责对索引的检索和写入,单独的索引管理将以服务的形式独立出来,yarn的资源不在固定的处理某个索引,而是听从索引管理服务的安排。这样的放权也给外部更多的灵活的空间
第二,索引与editlog直接存放在hdfs,容灾交给成熟的hdfs去管理,也不要再说索引在hdfs中性能差了,那是过去,现在性能还是不错的。
第三,独立的索引管理,让索引更灵活。
将索引从原有的进程中抽出,每个进程可以处理多个索引,提升进程的利用率。单独的索引管理,针对不同的业务,更容易灵活的变通。
第四,基于这个版本的大索引不在像之前单独对外提供服务,会更加的开放,对外提供了很多拓展功能,现有的hive以及spark可以很方便的通过类似 inputformat的方式直接使用大索引。同时可以方便的将hdfs,hbase,hive,实时的消息队列比如说kafka,metaq等系统方便的导入导出。
试想下,spark在利用上这个大索引后,一个几万亿的数据,几秒钟就返回结果,而且还支持了很多的复杂查询,是不是很值得期待呢。
同志们,我们尝试的已经够多,是时候开启新的大索引技术之路,求更多的战友组队。
“梦想还是要有的”,大索引未来我看好你哦。(文章来源:CDA数据分析师)
数据分析咨询请扫描二维码
若不方便扫码,搜微信号:CDAshujufenxi
2025 年,数据如同数字时代的 DNA,编码着人类社会的未来图景,驱动着商业时代的运转。从全球互联网用户每天产生的2.5亿TB数据, ...
2025-06-052025 年,数据如同数字时代的 DNA,编码着人类社会的未来图景,驱动着商业时代的运转。从全球互联网用户每天产生的2.5亿TB数据, ...
2025-05-27CDA数据分析师证书考试体系(更新于2025年05月22日)
2025-05-26解码数据基因:从数字敏感度到逻辑思维 每当看到超市货架上商品的排列变化,你是否会联想到背后的销售数据波动?三年前在零售行 ...
2025-05-23在本文中,我们将探讨 AI 为何能够加速数据分析、如何在每个步骤中实现数据分析自动化以及使用哪些工具。 数据分析中的AI是什么 ...
2025-05-20当数据遇见人生:我的第一个分析项目 记得三年前接手第一个数据分析项目时,我面对Excel里密密麻麻的销售数据手足无措。那些跳动 ...
2025-05-20在数字化运营的时代,企业每天都在产生海量数据:用户点击行为、商品销售记录、广告投放反馈…… 这些数据就像散落的拼图,而相 ...
2025-05-19在当今数字化营销时代,小红书作为国内领先的社交电商平台,其销售数据蕴含着巨大的商业价值。通过对小红书销售数据的深入分析, ...
2025-05-16Excel作为最常用的数据分析工具,有没有什么工具可以帮助我们快速地使用excel表格,只要轻松几步甚至输入几项指令就能搞定呢? ...
2025-05-15数据,如同无形的燃料,驱动着现代社会的运转。从全球互联网用户每天产生的2.5亿TB数据,到制造业的传感器、金融交易 ...
2025-05-15大数据是什么_数据分析师培训 其实,现在的大数据指的并不仅仅是海量数据,更准确而言是对大数据分析的方法。传统的数 ...
2025-05-14CDA持证人简介: 万木,CDA L1持证人,某电商中厂BI工程师 ,5年数据经验1年BI内训师,高级数据分析师,拥有丰富的行业经验。 ...
2025-05-13CDA持证人简介: 王明月 ,CDA 数据分析师二级持证人,2年数据产品工作经验,管理学博士在读。 学习入口:https://edu.cda.cn/g ...
2025-05-12CDA持证人简介: 杨贞玺 ,CDA一级持证人,郑州大学情报学硕士研究生,某上市公司数据分析师。 学习入口:https://edu.cda.cn/g ...
2025-05-09CDA持证人简介 程靖 CDA会员大咖,畅销书《小白学产品》作者,13年顶级互联网公司产品经理相关经验,曾在百度、美团、阿里等 ...
2025-05-07相信很多做数据分析的小伙伴,都接到过一些高阶的数据分析需求,实现的过程需要用到一些数据获取,数据清洗转换,建模方法等,这 ...
2025-05-06以下的文章内容来源于刘静老师的专栏,如果您想阅读专栏《10大业务分析模型突破业务瓶颈》,点击下方链接 https://edu.cda.cn/g ...
2025-04-30CDA持证人简介: 邱立峰 CDA 数据分析师二级持证人,数字化转型专家,数据治理专家,高级数据分析师,拥有丰富的行业经验。 ...
2025-04-29CDA持证人简介: 程靖 CDA会员大咖,畅销书《小白学产品》作者,13年顶级互联网公司产品经理相关经验,曾在百度,美团,阿里等 ...
2025-04-28CDA持证人简介: 居瑜 ,CDA一级持证人国企财务经理,13年财务管理运营经验,在数据分析就业和实践经验方面有着丰富的积累和经 ...
2025-04-27