京公网安备 11010802034615号
经营许可证编号:京B2-20210330
注意:大数据分析系统应该规避的问题
在刚刚过去的四月份里,我们51CTO传媒在京举办了《2013大数据全球技术峰会》,相信关注大数据、关注51CTO的朋友们,在这次大规模的技术盛宴里,更多地了解了大数据的奥秘。如果没有赶上参加这场峰会的朋友,也不要心急,因为有关此次峰会概况的的视频已经出炉,感兴趣的网友可以去我们的官网查看相关信息。本次峰会我们邀请了30多位来自国内外的资深技术专家,能和这些专家近距离接触,面对面交流,小编深感荣幸。为了深入挖掘大数据分析系统这方面信息,小编力邀到了某上市互联网公司高级工程师马先生,来共同探讨了这一话题。
(图片来自百度)
大数据分析前期要做的事
其实,每一个数据都有一个ETL,就是抽取、转化,然后去加载,包括做数据的清洗。如果数据大批量进来的话,有些数据可能是有问题的,马先生举了个例子:比如说,好多地址会写得比较模糊,如果要搜索北京这个词的时候,数据仓库里可能只有一个京字,这些都要统一整理成一个,比如说北京,这样后面分析就会简单,比如山东,有人会输入“鲁”字来进行搜索,而不是山东,这就需要在大数据分析前期做好数据清理工作,做规范化,这样后面的数据分析起来就方便很多。
搭建大数据分析系统的注意事项
在搭建大数据分析系统时,有哪些需要注意的事项?马老师提到:首先要弄明白你所在企业需要什么样的数据,或者你想得到什么价值,想明白了再去做。因为做数据不像做别的东西,一定明确知道要知道你要干什么,不然这个系统搭的时候会有很多困难,不知道该怎么搭,不知道用什么技术,也不知道数据进去是否在浪费。而目前的情况是:很多企业可能会先把架构搭出来,实际上这数据每天在算,但是不知道这数据带来什么价值,所以更多是一个业务驱动的。再举个例子:比如说中国移动就想挖一挖,到底是哪一个用户老欠费,哪一个用户用得多,用的多的就给他优惠多一点……如果他有这个需求,你再把这个需求下转给下面的人,按照这个需求去开发;
其次,需要选择适当的技术。比如说你一台机器够用的,不要用两台机器,能够进来报表就不要用交互报表,因为那个都是有技术成本的,并且上线的速度会慢很多。所以建议任何一个企业在搭建数据分析以前,要特别清晰地知道其搭建的需求和目的,选择什么方案,搭它来解决什么问题,针对需求你去做一个数据分析;
再次,在没有时时性要求时,你不要自作主张,向老大提这个。因为大公司的批量已经做得非常完美了,可能批量已经带来35%的收入增加了,他要再做时时,再增加5%,而你现在什么都没有。如果说先要做时时,或者先要全部搞出来的话,可能要先一步一部把35%做好,把那个批量先做出来,然后再做时时,这样效果会更好。
不要滥搭大数据分析系统
技术这个东西都是相通的,没有一项改进都是说完全是重新造出来的,都是在改的,但是它带来的价值不一样,它带来的人的思考,就跟人从零售店买东西和网商这种不一样,但是技术,零售店也会用一些数据库,网上也可能用,要在这个上面做一些转变。马老师谈到,好多国企(这里就不点名),就是为了上项目去上项目,称自己有海量数据。当问他需要搭建的大数据系统是用来干什么,他们的答案很出乎意料:先给搭起来,先存起来,需要的时候再用,就这种思想。其实这个是没有必要的。
总结
虽然大数据现在炙手可热,大数据分析越来越火爆,很多企业都在试图拥抱大数据技术。但还是应该具体问题具体分析,因为大数据分析系统并非适合所有的企业,一些小型规模的企业在旧系统能满足需求的时候,就不要盲目地去追随潮流,舍弃旧的系统重新搭建,也可能解决了这个小缺口,但是可能会滋生其它更大的问题,这就得不偿失了。
数据分析咨询请扫描二维码
若不方便扫码,搜微信号:CDAshujufenxi
在 MySQL 数据查询中,“按顺序计数” 是高频需求 —— 例如 “统计近 7 天每日订单量”“按用户 ID 顺序展示消费记录”“按产品 ...
2025-10-31在数据分析中,“累计百分比” 是衡量 “部分与整体关系” 的核心指标 —— 它通过 “逐步累加的占比”,直观呈现数据的分布特征 ...
2025-10-31在 CDA(Certified Data Analyst)数据分析师的工作中,“二分类预测” 是高频需求 —— 例如 “预测用户是否会流失”“判断客户 ...
2025-10-31在 MySQL 实际应用中,“频繁写入同一表” 是常见场景 —— 如实时日志存储(用户操作日志、系统运行日志)、高频交易记录(支付 ...
2025-10-30为帮助教育工作者、研究者科学分析 “班级规模” 与 “平均成绩” 的关联关系,我将从相关系数的核心定义与类型切入,详解 “数 ...
2025-10-30对 CDA(Certified Data Analyst)数据分析师而言,“相关系数” 不是简单的数字计算,而是 “从业务问题出发,量化变量间关联强 ...
2025-10-30在构建前向神经网络(Feedforward Neural Network,简称 FNN)时,“隐藏层数目设多少?每个隐藏层该放多少个神经元?” 是每个 ...
2025-10-29这个问题切中了 Excel 用户的常见困惑 —— 将 “数据可视化工具” 与 “数据挖掘算法” 的功能边界混淆。核心结论是:Excel 透 ...
2025-10-29在 CDA(Certified Data Analyst)数据分析师的工作中,“多组数据差异验证” 是高频需求 —— 例如 “3 家门店的销售额是否有显 ...
2025-10-29在数据分析中,“正态分布” 是许多统计方法(如 t 检验、方差分析、线性回归)的核心假设 —— 数据符合正态分布时,统计检验的 ...
2025-10-28箱线图(Box Plot)作为展示数据分布的核心统计图表,能直观呈现数据的中位数、四分位数、离散程度与异常值,是质量控制、实验分 ...
2025-10-28在 CDA(Certified Data Analyst)数据分析师的工作中,“分类变量关联分析” 是高频需求 —— 例如 “用户性别是否影响支付方式 ...
2025-10-28在数据可视化领域,单一图表往往难以承载多维度信息 —— 力导向图擅长展现节点间的关联结构与空间分布,却无法直观呈现 “流量 ...
2025-10-27这个问题问到了 Tableau 中两个核心行级函数的经典组合,理解它能帮你快速实现 “相对位置占比” 的分析需求。“index ()/size ( ...
2025-10-27对 CDA(Certified Data Analyst)数据分析师而言,“假设检验” 绝非 “套用统计公式的机械操作”,而是 “将模糊的业务猜想转 ...
2025-10-27在数字化运营中,“凭感觉做决策” 早已成为过去式 —— 运营指标作为业务增长的 “晴雨表” 与 “导航仪”,直接决定了运营动作 ...
2025-10-24在卷积神经网络(CNN)的训练中,“卷积层(Conv)后是否添加归一化(如 BN、LN)和激活函数(如 ReLU、GELU)” 是每个开发者都 ...
2025-10-24在数据决策链条中,“统计分析” 是挖掘数据规律的核心,“可视化” 是呈现规律的桥梁 ——CDA(Certified Data Analyst)数据分 ...
2025-10-24在 “神经网络与卡尔曼滤波融合” 的理论基础上,Python 凭借其丰富的科学计算库(NumPy、FilterPy)、深度学习框架(PyTorch、T ...
2025-10-23在工业控制、自动驾驶、机器人导航、气象预测等领域,“状态估计” 是核心任务 —— 即从含噪声的观测数据中,精准推断系统的真 ...
2025-10-23