关于数据挖掘关联规则的Oracle实现-CDA数据分析师官网

热线电话：13121318867

首页精彩阅读关于数据挖掘关联规则的Oracle实现

关于数据挖掘关联规则的Oracle实现

2017-01-09

关于数据挖掘关联规则的Oracle实现

前几天拿到了数据挖掘基础教程一书，感觉部分算法是基于统计学的原理的，而统计学是可以通过Oracle来实现。

其次是为了观看德国vs西班牙的世界杯比赛，来了一点小小的兴致，动手写点小脚本。不过本文只是为了实现而实现的，没有做任何优化，有兴趣的话，大家可以玩一玩。

关于数据挖掘关联规则的材料，可以参见：

http://baike.baidu.com/view/1076817.htm?fr=ala0_1

关联规则是形如X→Y的蕴涵式，

其中且， X和Y分别称为关联规则的先导(antecedent或left-hand-side, LHS)和后继(consequent或 right-hand-side, RHS) 。

关联规则在D中的支持度(support)是D中事务同时包含X、Y的百分比，即概率； =X^Y/D

置信度(confidence)是包含X的事务中同时又包含Y的百分比，即条件概率。 =(X^Y)/X

关联规则是有趣的，如果满足最小支持度阈值和最小置信度阈值。

若给定最小支持度α = n，最小置信度β = m，则分别通过以上的X^Y/D和(X^Y)/X，可获知是否存在关联

使用的原始数据

反范式后的数据

待统计项

--创建各个购买单元项视图

create view distinct_trans as select distinct tranobject from purchase;

--创建各个事务内部的购买单元项

create view all_trans as

--可以用wm_concat函数

SELECT tranid,MAX(tranobjects) tranobjects

FROM (select tranid,WMSYS.WM_CONCAT(tranobject) OVER(PARTITION BY tranid ORDER BY tranobject) tranobjects

from purchase

)

group by tranid;

--也可以用sys_connect_by_path函数

create view all_trans as

select tranid,substr(tranobjects,2) tranobjects from --格式化前面的逗号和空格

(

select distinct tranid,FIRST_VALUE(tranobjects) OVER(PARTITION BY tranid ORDER BY levels desc ) AS tranobjects --保留最大的那个

from

(

select tranid,sys_connect_by_path(tranobject,',') tranobjects,level levels --各购买事务的内部排列组合

from purchase

connect by tranid=prior tranid and tranobject

)

);

--对所有购买单元项进行排列组合，即数据挖掘的X^Y项

create view all_zuhe as

select substr(sys_connect_by_path(tranobject,','),2) zuhe

from (select distinct tranobject from purchase)

connect by nocycle tranobject

select * from all_zuhe

--筛选出符合要求的排列组合，即数据挖掘的X项和Y项

create view full_zuhe as

select a.zuhe X,b.zuhe Y from all_zuhe a,all_zuhe b

where instr(a.zuhe,b.zuhe)=0 and instr(b.zuhe,a.zuhe)=0

and not exists(select 1 from distinct_trans c

where instr(a.zuhe,c.tranobject)>0 and instr(b.zuhe,c.tranobject)>0)

select * from full_zuhe

create or replace view tongji as

select xy,xy_total,x,x_total,y,y_total,transtotal from

(

select y||','||x xy,

(select count(*) from all_trans a where instr(a.tranobjects,c.x||','||c.y)>0 or instr(a.tranobjects,c.y||','||c.x)>0) xy_total, --包含xy的事务数

(select count(*) from all_trans b where instr(b.tranobjects,c.y)>0) y_total, --包含y的事务数

(select count(*) from all_trans b where instr(b.tranobjects,c.x)>0) x_total, --包含x的事务数

d.transtotal --总事务数

from full_zuhe c,(select count(distinct tranid) transtotal from purchase) d

order by xy_total desc,x_total desc

)

select * from tongji where xy_total>=3 and y_total>=3

CDA数据分析师考试相关入口一览（建议收藏）：

▷ 想报名CDA认证考试，点击>>> “CDA报名” 了解CDA考试详情；

▷ 想学习CDA考试教材，点击>>> “CDA教材” 了解CDA考试教材；

▷ 想加入CDA考试题库，点击>>> “CDA题库” 了解CDA考试题库；

▷ 想了解CDA考试含金量，点击>>> “CDA含金量” 了解CDA考试详情；

▷ 想了解CDA院校合作，点击>>> “院校合作” 了解咨询CDA院校合作；

关联规则数据挖掘

数据分析咨询请扫描二维码

若不方便扫码，搜微信号：CDAshujufenxi

上一篇图论在大数据分析中的作用！

下一篇CDA认证再升一档！与国家共同推进大数据人才培养标准教育事业！

数据分析师考试动态

CDA报考指南

数据分析学习

数据分析师资讯

京公网安备 11010802034615号经营许可证编号：京B2-20210330

联系电话：13321103290 (微信同号)

客服在线

立即咨询

客服在线

立即咨询

免密码登录

提交首次登录验证后自动注册

关于数据挖掘关联规则的Oracle实现

数据分析师考试动态

CDA报考指南

数据分析学习

数据分析师资讯

【CDA干货】数据呈现与数据分析：核心区别+实操边界 ...

【CDA干货】Pandas读取dat文件：提取第一行数据并转 ...

CDA数据分析师核心能力：数据建模实操指南，让数据 ...

【CDA干货】MySQL课时排序累加全指南：3种方法+实操 ...

【CDA干货】Tableau环比计算全指南：3种方法+实操步 ...

CDA数据分析师实操指南：从0到1开展数据治理，激活 ...

【CDA干货】方法验证核心统计：重复性用卡方分析， ...

【CDA干货】两组数据的单因素方差分析：什么时候用 ...

CDA数据分析师：深耕数据治理体系，激活数据资产核 ...

【CDA干货】转置卷积后需要激活函数吗？深度学习实 ...

【CDA干货】搞懂算术平均与几何平均：什么时候用？ ...

CDA数据分析师：锚定数据治理驱动因素，筑牢数据价 ...

【CDA干货】Excel表外引用数据透视表数据：4种方法+ ...

【CDA干货】Excel相关性分析：从操作到解读，小白也 ...

CDA数据分析师必备：用应用效应分解法，解锁时间序 ...

【CDA干货】数据透视表更新后数据消失？6大核心原因 ...

【CDA干货】机器学习引导下的有限元模型参数识别： ...

CDA数据分析师：以用户画像为核心，激活用户数据的 ...

【CDA干货】详解Python类方法：定义、分类、实操与 ...

【CDA干货】MySQL中ADD KEY与ADD INDEX的区别：一文 ...

CDA教育闭环

常见问题

关于我们

CDA数据分析师公众号

CDA考试中心小程序

CDA数据分析师App下载