
网站分析中专业的工具除了Google Analytics, Adobe Sitecatalyst, Webtrends, 腾讯分析和百度统计等外,我想最常用的数据处理工具就是Excel了,Excel里头最基础的就是运算和图表的制作,稍微高级一点就是函数和数据透视表的使用了,当然你可能还会想到VBA和宏,但估计很少高手会使用这些高级的功能。
那对于高级的数据分析而言,也就是涉及统计学的专业分析方法和原理的时候,是不是就一定得求助于SPSS,SAS这类专业的分析工具呢?数据分析从低级到高级层次的跳跃过程中有没有可以起承接作用的工具呢?其实是有的,这就是Excel的数据分析功能。貌似最近比较火的两本Excel书籍《谁说菜鸟不会数据分析》和《让Excel飞》都没有涉及这部分的内容。高级的数据分析会涉及回归分析、方差分析和T检验等方法,不要看这些内容貌似跟日常工作毫无关系,其实往高处走,MBA的课程也是包含这些内容的,所以早学晚学都得学,干脆就提前了解吧,请查看以下内容。
在使用之前,首先得安装Excel的数据分析功能,默认情况下,Excel是没有安装这个扩展功能的,安装如下所示:
1)鼠标悬浮在Office按钮上,然后点击【Excel选项】:
2)找到【加载项】,在管理板块选择【Excel加载项】,然后点击【转到】:
3)选择【分析工具库】,点击【确定】:
4)安装完后,就可以【数据】板块看到【数据分析】功能,如下所示:
安装完后,首先来了解一下回归分析的内容。
一、回归分析
在详细进行回归分析之前,首先要理解什么叫回归?实际上,回归这种现象最早由英国生物统计学家高尔顿在研究父母亲和子女的遗传特性时所发现的 一种有趣的现象:身高这种遗传特性表现出”高个子父母,其后代身高也高于平均身高;但不见得比其父母更高,到一定程度后会往平均身高方向发生’回归’”。 这种效应被称为”趋中回归”。现在的回归分析则多半指源于高尔顿工作的那样一整套建立变量间的数量关系模型的方法和程序。 这里的自变量是父母的身高,因变量是子女的身高。
百度百科对于回归分析的定义是: 回归分析(regression analysis)是确定两种或两种以上变数间相互依赖的定量关系的一种统计分析方法。运用十分广泛:
1)回归分析按照涉及的自变量的多少,可分为一元回归分析和多元回归分析;
2)按照自变量和因变量之间的关系类型,可分为线性回归分析和非线性回归分析。
这里举个电商的例子:电子商务的转换率是一定的,网站访问数一般正比对应于销售收入,现在要建立不同访问数情况下对应销售的标准曲线,用来预测搞活动时的销售收入,如下所示:
1. 首先,利用散点图描绘图形:
2. 添加趋势线,并且显示回归分析的公式和R平方值:
从图得知,R平方值=0.9995,趋势线趋同于一条直线,公式是:y=0.01028x-27.424
R 平方值是介于 0 和 1 之间的数字,当趋势线的 R 平方值为 1 或者接近 1 时,趋势线最可靠。因为R2 >0.99,所以这是一个线性特征非常明显的数值,说明拟合直线能够以大于99.99%地解释、涵盖了实际数据,具有很好的一般性, 能够起到很好的预测作用。
3. 使用Excel的数据分析功能
1)点击【数据分析】,在弹出的选择框中选择【回归】,然后点击【确定】:
2)【X值输入区域】选择访问数的单元格,【Y值输入区域】选择销售额的单元格,同时勾选如下所示的选项,包括残差、标准残差、残差图、线性拟合图和正态概率图。
3)以下内容是残差和标准残差:
4)以下是残差图:
残差图是有关于实际值与预测值之间差距的图表,如果残差图中的散点在中轴上下两侧分布,那么拟合直线就是合理的,说明预测有时多些,有时少些,总体来说是符合趋势的,但如果都在上侧或者下侧就不行了,这样有倾向性,需要重新处理。
5)以下是线性拟合图
在线性拟合图中可以看到,除了实际的数据点,还有经过拟和处理的预测数据点,这些参数在以上的表格中也有显示。
6)以下是正态概率图
正态概率图一般用于检查一组数据是否服从正态分布,是实际数值和正态分布数据之间的函数关系散点图,如果这组数值服从正态分布,正态概率图将是一条直线。回归分析不一定得符合正态分布,这里只是仅仅把它描绘出来而已。
以上数据表格和图表都说明公式y=0.01028x-27.424是一个值得信赖的预测曲线,假设搞活动时流量有50万访问数的话,那么预测销售将是51373,如下图所示:
VIA:szwebanalytics
End.
数据分析咨询请扫描二维码
若不方便扫码,搜微信号:CDAshujufenxi
Python HTTP 请求工具对比:urllib.request 与 requests 的核心差异与选择指南 在 Python 处理 HTTP 请求(如接口调用、数据爬取 ...
2025-09-12解决 pd.read_csv 读取长浮点数据的科学计数法问题 为帮助 Python 数据从业者解决pd.read_csv读取长浮点数据时的科学计数法问题 ...
2025-09-12CDA 数据分析师:业务数据分析步骤的落地者与价值优化者 业务数据分析是企业解决日常运营问题、提升执行效率的核心手段,其价值 ...
2025-09-12用 SQL 验证业务逻辑:从规则拆解到数据把关的实战指南 在业务系统落地过程中,“业务逻辑” 是连接 “需求设计” 与 “用户体验 ...
2025-09-11塔吉特百货孕妇营销案例:数据驱动下的精准零售革命与启示 在零售行业 “流量红利见顶” 的当下,精准营销成为企业突围的核心方 ...
2025-09-11CDA 数据分析师与战略 / 业务数据分析:概念辨析与协同价值 在数据驱动决策的体系中,“战略数据分析”“业务数据分析” 是企业 ...
2025-09-11Excel 数据聚类分析:从操作实践到业务价值挖掘 在数据分析场景中,聚类分析作为 “无监督分组” 的核心工具,能从杂乱数据中挖 ...
2025-09-10统计模型的核心目的:从数据解读到决策支撑的价值导向 统计模型作为数据分析的核心工具,并非简单的 “公式堆砌”,而是围绕特定 ...
2025-09-10CDA 数据分析师:商业数据分析实践的落地者与价值创造者 商业数据分析的价值,最终要在 “实践” 中体现 —— 脱离业务场景的分 ...
2025-09-10机器学习解决实际问题的核心关键:从业务到落地的全流程解析 在人工智能技术落地的浪潮中,机器学习作为核心工具,已广泛应用于 ...
2025-09-09SPSS 编码状态区域中 Unicode 的功能与价值解析 在 SPSS(Statistical Product and Service Solutions,统计产品与服务解决方案 ...
2025-09-09CDA 数据分析师:驾驭商业数据分析流程的核心力量 在商业决策从 “经验驱动” 向 “数据驱动” 转型的过程中,商业数据分析总体 ...
2025-09-09R 语言:数据科学与科研领域的核心工具及优势解析 一、引言 在数据驱动决策的时代,无论是科研人员验证实验假设(如前文中的 T ...
2025-09-08T 检验在假设检验中的应用与实践 一、引言 在科研数据分析、医学实验验证、经济指标对比等领域,常常需要判断 “样本间的差异是 ...
2025-09-08在商业竞争日益激烈的当下,“用数据说话” 已从企业的 “加分项” 变为 “生存必需”。然而,零散的数据分析无法持续为业务赋能 ...
2025-09-08随机森林算法的核心特点:原理、优势与应用解析 在机器学习领域,随机森林(Random Forest)作为集成学习(Ensemble Learning) ...
2025-09-05Excel 区域名定义:从基础到进阶的高效应用指南 在 Excel 数据处理中,频繁引用单元格区域(如A2:A100、B3:D20)不仅容易出错, ...
2025-09-05CDA 数据分析师:以六大分析方法构建数据驱动业务的核心能力 在数据驱动决策成为企业共识的当下,CDA(Certified Data Analyst) ...
2025-09-05SQL 日期截取:从基础方法到业务实战的全维度解析 在数据处理与业务分析中,日期数据是连接 “业务行为” 与 “时间维度” 的核 ...
2025-09-04在卷积神经网络(CNN)的发展历程中,解决 “梯度消失”“特征复用不足”“模型参数冗余” 一直是核心命题。2017 年提出的密集连 ...
2025-09-04