
《大数据的“道”“术”“释”》----读书摘录+思考
这本书是看到我老师的朋友圈推荐才买的,看了一下目录,比较喜欢。就认真的读了下去,这不是一本讲什么是大数据的书,而是一本为什么要用到大数据分析的书。这本书的好处是讲为什么,而不是讲是什么?是什么好讲,为什么难讲?同时,这本书符合我看书,买书的习惯。因为现代社会,知识碎片化,我们每天接收到的信息大量,如何甄别对于我们来说是尤其重要的,感觉也特别适合现阶段我的状态,同时,这本书看完,送人也会是一个好的选择,好书,非借不能读也!
大数据的本质是对效率的提升,是对精细化的追求。一上来就讲到了大数据本质,有别于其他知识类的书籍。这本书更多的是从哲学思考的角度来组织“道”与“术”这两部分的。前言部分就提到了这一点:由于种种原因,大多数人都忙于日常生活的琐事因此他们对于这世界的好奇心都受到了压抑。同时,对于大数据统计,它也指出了我们的现实:缺少的不是统计知识,而是如何应用技术的实务方法。同时,它提到一个对从事IT业人最重要的知识框架的概念:知识体系!如果不早日形成自己的知识体系,所学知识和项目经验就如向桌子上倒水,倒再多的水也积存不住!
论“道”
对于数据分析报告,分析就是论点,数据就是论据,两者缺一不可。
数据分析的核心工作是人对数据指标的发析、思考和解读,人脑所能承载的数据量是极其有限的。
数据分析的能力不只是掌握统计知识和算法模型,更多是对业务产品的认识、看法与判断,这是很难量化的。
做好数据分析与学写诗文一样,真正的关键在技巧(统计技术)之外,而在于对业务的观察、思考与感悟,即分析的思路。这一点很是认同,好的数据分析师不一定是一个好的技术人员,但一定是一个好的业务人员。对业务的把控要超越到技术的追求!
只有对业务有充分的调研与思考,才能产生有价值的分析思路。
这一部分,提到了两个观点很好,做数据分析人员最好要掌握一些经济学与心理学的知识,只有这两方面知识深厚的时候,我们对业务的前景把控才会更加的清晰明确。我们需要对人的心理诉求有较深刻的理解,需要从心理诉求去解读数据,才能得到有效的结论。
如果我们熟悉经济学和心理学,面对实际问题的时候,可以更深刻地看到数据背后的人性。
思考的重要性:思考本身也是一种实践,使人对知识的掌握更加系统化的深入化。
如果没有主动思考意识,光有经历和环境,是不能使人成长的。
数据分析常用来验证思路和启发灵感,却不能代表思考本身,而对业务的理解和判断才是整件事情的灵魂。
业务分析的本质是对业务的全局认知、深入思考和超前判断,数据分析只是辅助这种思考完成的手段(验证思路和启发思路)。
人对事物的认知并没有绝对概念,只有相对概念。
以自己的所见所闻为判断依据是人类的天性,但如果我们的所见所闻只是真实世界的一个抽样,那么需要有足够的理性跳出自己的圈子,以更加宏观、总体的统计数据来认知世界。
过于复杂的理论大都是人类没有掌握真正的本质规律。这一点非常好,我们很多时候,总是想把大数据讲是十分高深,艰涩难懂,但是真正的高手会将这些知识以我们熟知的生活小常识来讲解明白,所以说,真正的知识,若你不能够很清晰的讲解明白,可能是讲解者对知识的理解仍不到位。
无论制作项目汇报还是分析报告,第一要务是展现形式要最大程度地辅助观点表达,而美观只是末节。
老板最关心的是工作成果(产品业绩),其次是产品或技术方案,最不关心的是进行了哪些尝试,以及尝试的过程。所以,在汇报工作果,第一就是展现你的成果,其次是过程,最后才说你的困难及解决思路。
没有任何一个数据分析项目的目标是做“数据分析”,而是以数据分析为手段,围绕一个“明确主题”得出结论。
做好数据分析的关键不在于统计技术的应用,而在于对业务的思考和分析。这一个第一部分的点睛之句,可以说,它也道出了大数据分析的核心本质。现在世面上,很多的大数据公司,不是说他们的技术不好,不优秀。而是他们对业务的理解没有行业内的人熟悉。这就导致了技术分析达标,但业务仍没有较大增长的根本原因。
本章最大的收获就是认识到业务的重要,大数据分析只是辅助。其中,经济学与心理学是对你理解相关业务会有很大的帮助。
论“术”
术”的这一部分,一共有四章,分的也很细。讲的很透彻,看完这些内容。进而对生活中的一些例子开始有了思考,例如:淘宝广告推荐,Uber,滴滴的基于最短路径推荐,等等。以前觉得算法这个神秘的东西离我们很远,但现在看来,就在于我们的生活中,只不是统计人的思考维度是跟我们一般人是不一样的。但同时,以“道”御“术”,只有明确什么是优秀的数据分析,才能使我们这一部分的武器发挥出效力。
第二章上来就是要我们学会独立思考,去思考为什么?本书在这里就提到:“是什么”的形式并不重要,关键点是我们做这些事情所持的“本心”!这里提到了直方图,标准差,相关系数,准确率,召回率,这些曾经难懂的知识点,而本书的好处都是从我们身边的故事讲起的。这样就更有利于我们对于这些指标的理解。透过这些基本概念的分析,我们要养成一种思维方式。
然后又讲到了统计图形,为什么要用图形化来展现我们的数据,因为一图胜千言!
人脑对图像信息的捕捉能力和记忆能力比文字强很多,毕竟文字这种“表意符号”比较抽象,属于后天习得的知识关联,而处理图像信息则是人类与生俱来的能力。
而这一部分的目标原则与极简原则又是对可视化有了一个好的提醒,这样也是我们日后避免只追求炫而忽略有图表的本质问题。虽然图表是为了辅助表达观点而存在的,但也不能为了表达观点而故意扭曲图形。
决策制图要分三个步骤:拆解内容维度、确定图形类型 、选择表达方式!
第三章开篇就提出了一个比较让人深思的问题:我们能相信统计吗?实际上,延伸一点,就到我们的生活中,我们只不过是真实世界的一个抽样,所以不要轻易批判他人的世界观!在这一章节里,它里边提到一个大数定理:真正的上帝没有这么刻薄,他在抽样统计值和真实值之间设置了一种函数关系,该函数关系使得统计学习在一定程度上是可行的。这也就是所有编程函数的基础:都是一种基于概率的信任!但在前期没有任何数据积累时,会请相关领域专有根据经验知识制定一套规则系统,而不是去挖掘少的可怜的样本数据。
样本量越大,抽样统计值就越接近事物的真实程度。 其中感触最深的是里边人才市场与价格曲线的关系。你可以不成功,但你不能不成长,也许有人会阻碍你成功,但没人会阻挡你成长。
上帝不掷骰子,因果律依然存在,不确定性只是因为人类的无知。
当影响一个事物结果的各种因素随机发生,根据中心极限定理,它们的总和平均表现就是正态分布。
如果说传统统计学更多研究如何从抽样个体的统计指标去推测全体,那么今天的统计学则更多关注如何把全体数据在置信的前提下尽量拆细,得到更细致的个体结论。
对于本章提出的问题:我们能相信统计吗?在本章的最后给出了答案:对于统计结论,我们要基于概率的信任 ,中有当置信概率足够大的时候,才可以相信统计结论。
本章提出了一个“思考为什么?”的五步方法论:
1,以简为始,不断优化
2,理想蓝图,逐渐逼近
3,观察典型,启发思路
4,分清主次,化繁为简
5,需求出发,贴近应用
第四章是在2,3章的基础上的灵活运用,如何拆相关指标,并应用于生活中。这一章尤为重要!上来就讲到一个优秀的统计学家不等于一个出色的数据分析师。而要真正做好数据分析,只能是既懂统计技术又熟悉业务、掌握分析方法、又有丰富分析经验的人。
ARPU:客户平均消费水平
数据分析更深一层的意义就是:反映一个人对所从事工作的认知和思考能力!
样本与总体的关系:用个案启发思路,用统计得到结论。
在可乐与比萨的数量曲线里,隐含了一个非常隐晦的经济价值:针对不同的的消费群体,以同样的成本提供不同价值配比的产品,可以实现更多的用户体验价值。
商家的固定思考:只有价格敏感的人才忍到每年的限定时间囤货,不在意花销的富人是不做寿 这样麻烦事的。
在惯于炒概念的世界中,保持一份清醒的认识。毕竟,内在本质比外在概念要少得多。
资深数据分析人员的核心能力在于丰富的知识面带来的思考角度和分析方法。
第五章个人认为是比较落地的一章内容。主要讲到OLAP跟机器学习,这里讲到OLAP跟OLTP的差别,OLTP更多的是读取数据后的存储,而OLAP更多的偏重于分析,OLAP的主要应用是汇总分析较高层的统计数据,而不是直接处理庞大的原始日志。
在数据探索阶段使用无监督学习的场景较多,而在数据建模阶段使用监督学习的场景较多。
无监督算法并不真的不需要人的指导和监督,只是监督不以“提供样例样本”的形式出现。
一流的数据建模解决方案通常是策略算法人员与工程架构人员通力配合的结果。深入的编程技术和架构设计能力已经极大的影响了机器学习的建模效果,所以在一流的机器学习团队,策略模型和工程架构两种人员有合并的趋势。
算法工程师的核心竞争力:深入理解业务、产品和数据,寻找模型和他们的结合点,的确是算法工程师的核心竞争力。
关于机器学习:
在工业界做机器学习的应用,不仅要掌握模型算法,还要看清企业面临的市场机遇,将算法模型放在业务战略的角度进行评估。
机器学习变成一个业务和技术并重的交叉学科,真正做好它还需要更多的实践。
机器学习模型背后的原理是知识表示+统计学习,而不是像人一样真的在理解和思考。
论“释”
这一部分,更多的是从业务角度,或是从当下社会经济角度来说大数据的。
第六章内容,主要讲大数据时代,经济引导一切的条件下,要明白大数据的经济价值。在这个经济社会,如果大数据有经济价值,相信各种配套技术会层出不穷的涌现。一切不谈具体应用的大数据技术都是耍流氓!
医疗:大数据的价值类似于收集到足够多的病例,对于每一个病人,均可以找到数量众多的相似病例,那么对病人的病情分析和治疗方案会准确、有效得多。
互联网:没有无价值的流量,只有错误的匹配!
教育: 针对学生制定个性化的学习计划,需要数据建模。首先,构造个性化学习路径的优化目标“学习收益/学习成本”。其次,基于用户的特征和历史学习记录形成训练样本,每个样本标注了学生的背景信息。
差异化定位与品牌:品牌对业务的帮助是潜移默化的,是企业重要的隐性资产。
新进入一个市场,最好的方法不是与明确的竞争者拼搏相同的产品,而是选择差异化的产品定位,或者干脆寻找颠覆这个市场的机会。
你虽然很强大,但我要估的和你不一橛,你的强大就与我无关。
政府提出“大众创业,万众创新”后,真正能大众创业的行业只有互联网一个!
流量优势是一个伪优势,因为流量可以用资金买到!
产品保证存活,没有需求就没有市场;技术提供壁垒,没有核心技术的产品大都难以长久!
大数据技术是一套数据+业务+需求的完整解决方案。思考关键不在于数据技术本身,而在于能否收集到足够多、有价值的数据,以及找到适合数据技术的业务应用,即从链条的两端向中间思考。
第七章
知识和工具方面的技能可以学习,但清晰的思维逻辑(头脑清晰)和丰富的创意(点子多)是不可或缺的先决条件。
只有懂得欣赏他人,才会真心的尊重合作方,达到合作共赢的状态。
从心理学的角度讲,一个人内心对自己和认知是自我评价与他们评价之和。
数据分析咨询请扫描二维码
若不方便扫码,搜微信号:CDAshujufenxi
在大模型从实验室走向生产环境的过程中,“稳定性” 是决定其能否实用的关键 —— 一个在单轮测试中表现优异的模型,若在高并发 ...
2025-10-15在机器学习入门领域,“鸢尾花数据集(Iris Dataset)” 是理解 “特征值” 与 “目标值” 的最佳案例 —— 它结构清晰、维度适 ...
2025-10-15在数据驱动的业务场景中,零散的指标(如 “GMV”“复购率”)就像 “散落的零件”,无法支撑系统性决策;而科学的指标体系,则 ...
2025-10-15在神经网络模型设计中,“隐藏层层数” 是决定模型能力与效率的核心参数之一 —— 层数过少,模型可能 “欠拟合”(无法捕捉数据 ...
2025-10-14在数字化浪潮中,数据分析师已成为企业 “从数据中挖掘价值” 的核心角色 —— 他们既要能从海量数据中提取有效信息,又要能将分 ...
2025-10-14在企业数据驱动的实践中,“指标混乱” 是最常见的痛点:运营部门说 “复购率 15%”,产品部门说 “复购率 8%”,实则是两者对 ...
2025-10-14在手游行业,“次日留存率” 是衡量一款游戏生死的 “第一道关卡”—— 它不仅反映了玩家对游戏的初始接受度,更直接决定了后续 ...
2025-10-13分库分表,为何而生? 在信息技术发展的早期阶段,数据量相对较小,业务逻辑也较为简单,单库单表的数据库架构就能够满足大多数 ...
2025-10-13在企业数字化转型过程中,“数据孤岛” 是普遍面临的痛点:用户数据散落在 APP 日志、注册系统、客服记录中,订单数据分散在交易 ...
2025-10-13在数字化时代,用户的每一次行为 —— 从电商平台的 “浏览→加购→购买”,到视频 APP 的 “打开→搜索→观看→收藏”,再到银 ...
2025-10-11在机器学习建模流程中,“特征重要性分析” 是连接 “数据” 与 “业务” 的关键桥梁 —— 它不仅能帮我们筛选冗余特征、提升模 ...
2025-10-11在企业的数据体系中,未经分类的数据如同 “杂乱无章的仓库”—— 用户行为日志、订单记录、商品信息混杂存储,CDA(Certified D ...
2025-10-11在 SQL Server 数据库操作中,“数据类型转换” 是高频需求 —— 无论是将字符串格式的日期转为datetime用于筛选,还是将数值转 ...
2025-10-10在科研攻关、工业优化、产品开发中,正交试验(Orthogonal Experiment)因 “用少量试验覆盖多因素多水平组合” 的高效性,成为 ...
2025-10-10在企业数据量从 “GB 级” 迈向 “PB 级” 的过程中,“数据混乱” 的痛点逐渐从 “隐性问题” 变为 “显性瓶颈”:各部门数据口 ...
2025-10-10在深度学习中,“模型如何从错误中学习” 是最关键的问题 —— 而损失函数与反向传播正是回答这一问题的核心技术:损失函数负责 ...
2025-10-09本文将从 “检验本质” 切入,拆解两种方法的核心适用条件、场景边界与实战选择逻辑,结合医学、工业、教育领域的案例,让你明确 ...
2025-10-09在 CDA 数据分析师的日常工作中,常会遇到这样的困惑:某电商平台 11 月 GMV 同比增长 20%,但究竟是 “长期趋势自然增长”,还 ...
2025-10-09Pandas 选取特定值所在行:6 类核心方法与实战指南 在使用 pandas 处理结构化数据时,“选取特定值所在的行” 是最高频的操作之 ...
2025-09-30球面卷积神经网络(SCNN) 为解决这一痛点,球面卷积神经网络(Spherical Convolutional Neural Network, SCNN) 应运而生。它通 ...
2025-09-30