京公网安备 11010802034615号
经营许可证编号:京B2-20210330
CDA数据分析师俱乐部从2013年3月开始成功举办了很多次线下聚会讨论,积累了丰富的经验,基于大数据狂潮和数据分析业务的发展,现在我们改变聚会的形式和时间,将以CDA数据分析师驿站的形式,在每周六(18:30-20:30无特殊情况时间不变)邀您与大家围在一起,喝喝咖啡,谈谈合作,听听大数据牛人的真知灼见 。会员也可以发言和主题分享,只需要提前告知申请,并准备简单的ppt!
10月17日,CDA俱乐部线下活动回顾
主题:Hadoop从部署到应用
俱乐部特邀嘉宾:曹正凤老师
一、先用几分钟聊了下大数据现状。
二、转为Hadoop的安装与部署
1.配置单机分布,
2.进而布置成伪分布
3.最后搭建集群分布的流程和编程(一连串代码就不写了。。)
三、最后讲到大数据的实际应用,主要有以下几点:
1.大数据提升预测准确性,
2.精准营销,整合营销,联合营销。 并以 谷歌、耐克等企业为例。
俱乐部特邀嘉宾:孙增辉老师。
从企业需求、技术实现等角度,讲解MapReduce、spark、storm三种分布式的优缺点。区别与联系。在运行海量数据时,公司主要有两种解决方式,一个是用大型计算机(两千万左右),二是采用分布式(价格便宜),所以在大部分企业中都是用分布式运行处理海量数据。Hadoop和spark的衔接,storm的性能优势及成本劣势。最后详细的讲解了三种软件在企业中应用的流程。
针对两位嘉宾的发言,其他会员进行了半个小时的提问,针对会员的各种问题,两位老师都一一解答。主要有一下几点:
1.现在企业中用的是 商业Hadoop还是免费版本的, 因为免费版本的要自己写程序,而上夜班的只要点点按钮就可以了,这对要不要学习Hadoop,很迷茫。
因为商业的Hadoop的费用是很贵的,并且和企业的具体需求匹配度等问题,现在大部分企业都是使用免费版本的,例如 阿里 百度, 他们都是自定义开发Hadoop的。
2.我现在搭建过单机分布,想在想要研究Hadoop的维护方向,老师有何建议?
如果你只是搭建过单机,对Hadoop的整体运行流程和应用都不了解,那还是从基本学起。现在维护方面有需求,但是没有形成规模,并且Hadoop更新太快了, 做维护研究,会贬值的,就是你学会了2.版本的维护,Hadoop的3.版本就上线了,那你就要从新学起
3.就想您说的Hadoop更新太快,那我们现在学习这些有用吗?会不会刚学习完,就更新了,还要重新学起?
Hadoop更新是很快,但主要从内存等方面更新, 代码原理是不会改变的, 所以把代码学会,就不怕Hadoop更新的快与慢了,但对Hadoop更新的特点要了解清楚
当投入到一件事情后,时间就会过得很快。不知不觉两个半小时已经过去,会员们还在积极讨论,但时间已经很晚了,不得不结束本次活动。相信会员们都收获了一定的知识或者想法,但还没有尽兴,我们创建了微信群,以便后期交流。后续俱乐部互动会持续展开。希望大家多多参与交流
期待下一期活动:《数据分析案例集》新书试读会:http://bbs.pinggu.org/thread-3932529-1-1.html
数据分析咨询请扫描二维码
若不方便扫码,搜微信号:CDAshujufenxi
在全球化深度发展的今天,跨文化传播已成为连接不同文明、促进多元共生的核心纽带,其研究核心围绕“信息传递、文化解读、意义建 ...
2026-04-09在数据可视化领域,折线图是展示时序数据、趋势变化的核心图表类型之一,其简洁的线条的能够清晰呈现数据的起伏规律。Python ECh ...
2026-04-09在数据驱动的时代,数据分析早已不是“凭经验、靠感觉”的零散操作,而是一套具备固定逻辑、标准化流程的系统方法——这就是数据 ...
2026-04-09长短期记忆网络(LSTM)作为循环神经网络(RNN)的重要改进模型,凭借其独特的门控机制(遗忘门、输入门、输出门),有效解决了 ...
2026-04-08在数据分析全流程中,数据质量是决定分析结论可靠性的核心前提,而异常值作为数据集中的“异类”,往往会干扰统计检验、模型训练 ...
2026-04-08在数字经济飞速发展的今天,数据已渗透到各行各业的核心场景,成为解读趋势、优化决策、创造价值的核心载体。而数据分析,作为挖 ...
2026-04-08在数据分析全流程中,数据处理是基础,图形可视化是核心呈现手段——前者负责将杂乱无章的原始数据转化为干净、规范、可分析的格 ...
2026-04-07在数据分析与统计推断中,p值是衡量假设检验结果显著性的核心指标,其本质是在原假设(通常为“无效应”“无差异”)成立的前提 ...
2026-04-07在数字经济深度渗透的今天,数据已成为企业生存发展的核心资产,企业的竞争本质已转变为数据利用能力的竞争。然而,大量来自生产 ...
2026-04-07Python凭借简洁的语法、丰富的生态库,成为算法开发、数据处理、机器学习等领域的首选语言。但受限于动态类型、解释性执行的特性 ...
2026-04-03在深度学习神经网络中,卷积操作是实现数据特征提取的核心引擎,更是让模型“看懂”数据、“解读”数据的关键所在。不同于传统机 ...
2026-04-03当数字化转型从企业的“战略口号”落地为“生存之战”,越来越多的企业意识到,转型的核心并非技术的堆砌,而是数据价值的深度挖 ...
2026-04-03在日常办公数据分析中,数据透视表凭借高效的汇总、分组功能,成为Excel、WPS等办公软件中最常用的数据分析工具之一。其中,“计 ...
2026-04-02在数字化交互的全场景中,用户的每一次操作都在生成动态的行为轨迹——电商用户的“浏览商品→点击详情→加入购物车”,内容APP ...
2026-04-02在数字化转型深度推进的今天,企业数据已成为驱动业务增长、构建核心竞争力的战略资产,而数据安全则是守护这份资产的“生命线” ...
2026-04-02在数据驱动决策的浪潮中,数据挖掘与数据分析是两个高频出现且极易被混淆的概念。有人将二者等同看待,认为“做数据分析就是做数 ...
2026-04-01在数据驱动决策的时代,企业与从业者每天都会面对海量数据——电商平台的用户行为数据、金融机构的信贷风险数据、快消品牌的营销 ...
2026-04-01在数字化转型的浪潮中,企业数据已从“辅助运营的附属资源”升级为“驱动增长的核心资产”,而一套科学、可落地的企业数据管理方 ...
2026-04-01在数字化时代,每一位用户与产品的交互都会留下可追溯的行为轨迹——电商用户的浏览、加购、下单,APP用户的注册、登录、功能使 ...
2026-03-31在日常数据统计、市场调研、学术分析等场景中,我们常常需要判断两个分类变量之间是否存在关联(如性别与消费偏好、产品类型与满 ...
2026-03-31