一次数据分析的全过程-CDA数据分析师官网

热线电话：13121318867

一次数据分析的全过程

2017-01-14

一次数据分析的全过程

刚下完班的时候，在公司无聊的坐着，一位同事拿了一些数据给我，说让我实现一个类似交叉表格的统计报表。

源数据就是个日志文本信息

2008/1/11               02:14:33:181           181          00001c68                SeqID       418370    ToBack()=TRUE       Len=154 MsgID=x00000202
2008/1/11               02:14:33:181           181          00001c68                SeqID       418370    ToFront()=TRUE      Len=260 MsgID=x08000202                BEIP=192.168.1.162                BEPort=22049
2008/1/11               03:05:42:330           330          00004110                SeqID       418370    ToBack()=TRUE       Len=154 MsgID=x00000202
2008/1/11               03:05:42:346           346          00004110                SeqID       418370    ToFront()=TRUE      Len=261 MsgID=x08000202                BEIP=192.168.1.163                BEPort=22049

要的结果是统计一下，各时段对应的超时毫秒的数量

理论上也不复杂，能找出数据规律，进行分组统计而已，但问题在于：

首先统计是上下文相关的，即通过上下文的数据相计算才能获取到相应的指标

其次如何判断上下文的场景，根据几组字段判断都有问题，即得不到唯一的标示

原来想着应该是轻而易举的事情，先把数据导入oracle吧

有日期有时间，需要把文本的日期时间处理成oracle的date类型，可偏偏date类型不支持毫秒运算，第一个问题出来了，依赖于日志中已有的毫秒进行上下文计算又有一定的问题。

先统计了再说吧

select b.hours,

case when overlap<10 then '<10ms'

when overlap<20 then '10-20'

when overlap<30 then '20-30'

when overlap<40 then '30-40'

when overlap<50 then '40-50'

when overlap<60 then '50-60'

when overlap<70 then '60-70'

when overlap<80 then '70-80'

when overlap<90 then '80-90'

else '>90ms'

end tt,

count(*)

from

(

select a.f,a.d from

(

select k,a,b,f,d,g,c,

LAG(c, 1, 0) OVER (partition by f,d ORDER BY B,g) lastc,

LAG(b, 1, 0) OVER (partition by f,d ORDER BY B,g) lastb,

case when c - LAG(c, 1, 0) OVER (ORDER BY tt)>=0 then c - LAG(c, 1, 0) OVER (ORDER BY tt)

else c - LAG(c, 1, 0) OVER (ORDER BY tt)+1000 end aa

from test6 t

) a

where a.g='ToFront()=TRUE' and a.aa>90 )

order by f,d,b,g

) b

group by b.hours,

case when overlap<10 then '<10ms'

when overlap<20 then '10-20'

when overlap<30 then '20-30'

when overlap<40 then '30-40'

when overlap<50 then '40-50'

when overlap<60 then '50-60'

when overlap<70 then '60-70'

when overlap<80 then '70-80'

when overlap<90 then '80-90'

else '>90ms'

end

结果统计出来了，结果非预期的，又对几条数据进行了统计和明细的对比，发现确实有些小问题，可问题出在哪里，也说不清楚。

为了解释清楚这个问题，还是对数据加上行号吧，再次进行对比，发现数据的位置变化了，和原本的日志顺序是不一样的。

为了解决这个问题，还是用rownum加上表数据生成到另外一张测试表吧，再去看看行号和日志的顺序是否能够对应，却发现日志的插入顺序和行号是不一致的！

又问了下同事，业务逻辑到底是怎样的，答曰：日志中上下文的顺序是很严格的

看来需要彻底解决行号问题了。

又在Excel中做了一下测试，Excel做测试很容易，先获取上条记录的毫秒信息，再进行排序，再把数据进行筛选，然后再进行分组判断，最后进行交叉表的生成。

对应大数据量来说，Excel的拖拉显然就满了很多，其次还需要函数、排序、复制数据，总的来说还是比较耗时的。

还是想想怎么解决行号问题吧，确保行号就是数据的原始顺序，首先加了一个sequence，后来又在该表中增加了一个触发器，然后把数据重新导入一遍

create or replace trigger trigger_test6

before insert on test6

for each row

declare

begin

select tt.nextval into :new.tt from dual;

end trigger_test6;

再去验证数据的顺序，这次才算正常了

数据正常了，业务逻辑就简单多了，只需要把最内核的部分修改一下，按行号排序即可

select rr,k,a,b,f,d,g,c,

LAG(c, 1, 0) OVER (ORDER BY tt) lastc,

LAG(b, 1, 0) OVER (ORDER BY tt) lastb

from test6 t

统计完成后，再拷贝到Excel中进行数据透视表转换，再把表格数据拷贝出来，加一些美观信息即可。

该件事情还是没有得到完美解决

主要是毫秒的处理，理论上是时间的直接相减即可，可由于Oracle的date类型无法直接处理，只能采用日志中的毫秒字段进行相减了，碰到相减为负的，则再加回来1000，多少有些问题。

再其次， oracle导入时的数据顺序有问题，不过我想也许是我自己还没找解决问题的根本原因吧。

CDA数据分析师考试相关入口一览（建议收藏）：

▷ 想报名CDA认证考试，点击>>> “CDA报名” 了解CDA考试详情；

▷ 想学习CDA考试教材，点击>>> “CDA教材” 了解CDA考试教材；

▷ 想加入CDA考试题库，点击>>> “CDA题库” 了解CDA考试题库；

▷ 想了解CDA考试含金量，点击>>> “CDA含金量” 了解CDA考试详情；

▷ 想了解CDA院校合作，点击>>> “院校合作” 了解咨询CDA院校合作；

交叉表字段透视表数据透视数据透视表数据分析大数据

数据分析咨询请扫描二维码

若不方便扫码，搜微信号：CDAshujufenxi

上一篇图论在大数据分析中的作用！

下一篇CDA认证再升一档！与国家共同推进大数据人才培养标准教育事业！

数据分析师考试动态

CDA报考指南

数据分析学习

数据分析师资讯

京公网安备 11010802034615号经营许可证编号：京B2-20210330

联系电话：13321103290 (微信同号)

客服在线

立即咨询

客服在线

立即咨询

免密码登录

提交首次登录验证后自动注册

一次数据分析的全过程

数据分析师考试动态

CDA报考指南

数据分析学习

数据分析师资讯

CDA持证人专访：贺译册谈产品经理的市场洞察力与数 ...

【CDA干货】多维度对比评估：分析逻辑与可视化效果 ...

从“单元格”到“字段”：CDA数据分析师视角下的表 ...

【CDA干货】漏斗拆解：核心逻辑、实操方法与业务优 ...

【CDA干货】SQL数值转日期函数全解析：主流数据库语 ...

数据分析必修课：CDA数据分析师视角下的表格结构数 ...

CDA持证人专访：杨旭谈数据产品经理的工作实践与核 ...

【CDA干货】Python变量定义与类实例化：核心原理、 ...

从“单元格”到“洞察”：CDA数据分析师视角下的表 ...

【CDA干货】联合索引与覆盖索引：本质区别、实战场 ...

【CDA干货】维度表与事实表：数据仓库建模的核心逻 ...

从“指标堆砌”到“体系落地”：CDA数据分析师视角 ...

【CDA干货】SQL计算列值趋势的全场景实现方法与实战 ...

【CDA干货】用户决策链路全解析：从认知到复购的增 ...

CDA 三级《敏捷数据挖掘》教材知识体系全面解读 ...

【CDA干货】付费玩家流失的核心原因与游戏行业长效 ...

CDA持证人专访：蒋少寒谈传统制造业与互联网行业数 ...

学完商业数据分析，开启 CDA 量化策略：从业务思维 ...

CDA持证人专访：赵森淼谈药企数据分析从业体验与转 ...

【CDA干货】卡方检验与T检验结果的标准化解读方法及 ...

CDA教育闭环

常见问题

关于我们

CDA数据分析师公众号

CDA考试中心小程序

CDA数据分析师App下载