
前面小编在介绍FP-Growth算法时,提到了Apriori算法,其实FP-Growth是基于Apriori的,今天小编就具体给大家介绍一下Apriori算法。
一、什么是Apriori算法
Apriori算法是一种最有影响的挖掘数据关联规则频繁项集的算法,能够发现事物数据库中频繁出现的数据集,通过这些联系构成的规则,能够帮助用户找出某些行为特征,从而帮助企业进行决策。
Apriori算法基于这样的事实:算法使用频繁项集性质的先验知识。Apriori使用一种称作逐层搜索的迭代方法,k-项集用于探索(k+1)-项集。首先,找出频繁1-项集的集合。该集合记作L1.L1用于找频繁2-项集的集合L2.而L2用于找L3.如此下去,直到不能找到频繁k-项集。找每个Lk需要一次数据库扫描。
算法原始数据如下:
算法的基本过程如下图:
二、Apriori算法原理
1.扫描数据集,得到所有出现过的数据,作为候选1项集。
2.挖掘频繁k项集。
3.扫描计算候选k项集的支持度。
4.剪枝去掉候选k项集中支持度低于最小支持度α的数据集,得到频繁k项集。如果频繁k项集为空,则返回频繁k-1项集的集合作为算法结果,算法结束。如果得到的频繁k项集只有一项,则直接返回频繁k项集的集合作为算法结果,算法结束。
5.基于频繁k项集,连接生成候选k+1项集。
6.利用步骤2.迭代得到k=k+1项集结果。
三、Apriori算法利弊分析
1.利:
适合于稀疏数据集。
算法原理简单,很容易实现。
适合事务数据库的关联规则挖掘。
2.弊
有可能产生庞大的候选集。
算法需多次遍历数据集,效率比较低,而且耗时。
三、算法实现
假如有项目集合I={1,2,3,4,5},有事务集T:
1,2,3 1,2,4 1,3,4 1,2,3,5 1,3,5 2,4,5 1,2,3,4
设定minsup=3/7,misconf=5/7。
*Apriori算法 2012.10.31*/ #include <iostream> #include <vector> #include <map> #include <string> #include <algorithm> #include <cmath> using namespace std; vector<string> T; //保存初始输入的事务集 double minSup,minConf; //用户设定的最小支持度和置信度 map<string,int> mp; //保存项目集中每个元素在事务集中出现的次数 vector< vector<string> > F; //存放频繁项目集 vector<string> R; //存放关联规则 void initTransactionSet() //获取事务集 { int n; cout<<"请输入事务集的个数:"<<endl; cin>>n; getchar(); cout<<"请输入事务集:"<<endl; while(n--) { string str; getline(cin,str); //输入的事务集中每个元素以空格隔开,并且只能输入数字 T.push_back(str); } cout<<"请输入最小支持度和置信度:"<<endl; //支持度和置信度为小数表示形式 cin>>minSup>>minConf; } vector<string> split(string str,char ch) { vector<string> v; int i,j; i=0; while(i<str.size()) { if(str[i]==ch) i++; else { j=i; while(j<str.size()) { if(str[j]!=ch) j++; else break; } string temp=str.substr(i,j-i); v.push_back(temp); i=j+1; } } return v; } void genarateOneFrequenceSet() //生成1-频繁项目集 { int i,j; vector<string> f; //存储1-频繁项目集 for(i=0;i<T.size();i++) { string t = T[i]; vector<string> v=split(t,' '); //将输入的事务集进行切分,如输入1 2 3,切分得到"1","2","3" for(j=0;j<v.size();j++) //统计每个元素出现的次数,注意map默认按照key的升序排序 { mp[v[j]]++; } } for(map<string,int>::iterator it=mp.begin();it!=mp.end();it++) //剔除不满足最小支持度要求的项集 { if( (*it).second >= minSup*T.size()) { f.push_back((*it).first); } } F.push_back(T); //方便用F[1]表示1-频繁项目集 if(f.size()!=0) { F.push_back(f); } } bool judgeItem(vector<string> v1,vector<string> v2) //判断v1和v2是否只有最后一项不同 { int i,j; i=0; j=0; while(i<v1.size()-1&&j<v2.size()-1) { if(v1[i]!=v2[j]) return false; i++; j++; } return true; } bool judgeSubset(vector<string> v,vector<string> f) //判断v的所有k-1子集是否在f中 { int i,j; bool flag=true; for(i=0;i<v.size();i++) { string str; for(j=0;j<v.size();j++) { if(j!=i) str+=v[j]+" "; } str=str.substr(0,str.size()-1); vector<string>::iterator it=find(f.begin(),f.end(),str); if(it==f.end()) flag=false; } return flag; } int calculateSupportCount(vector<string> v) //计算支持度计数 { int i,j; int count=0; for(i=0;i<T.size();i++) { vector<string> t=split(T[i],' '); for(j=0;j<v.size();j++) { vector<string>::iterator it=find(t.begin(),t.end(),v[j]); if(it==t.end()) break; } if(j==v.size()) count++; } return count; } bool judgeSupport(vector<string> v) //判断一个项集的支持度是否满足要求 { int count=calculateSupportCount(v); if(count >= ceil(minSup*T.size())) return true; return false; } void generateKFrequenceSet() //生成k-频繁项目集 { int k; for(k=2;k<=mp.size();k++) { if(F.size()< k) //如果Fk-1为空,则退出 break; else //根据Fk-1生成Ck候选项集 { int i,j; vector<string> c; vector<string> f=F[k-1]; for(i=0;i<f.size()-1;i++) { vector<string> v1=split(f[i],' '); for(j=i+1;j<f.size();j++) { vector<string> v2=split(f[j],' '); if(judgeItem(v1,v2)) //如果v1和v2只有最后一项不同,则进行连接 { vector<string> tempVector=v1; tempVector.push_back(v2[v2.size()-1]); sort(tempVector.begin(),tempVector.end()); //对元素排序,方便判断是否进行连接 //剪枝的过程 //判断 v1的(k-1)的子集是否都在Fk-1中以及是否满足最低支持度 if(judgeSubset(tempVector,f)&&judgeSupport(tempVector)) { int p; string tempStr; for(p=0;p<tempVector.size()-1;p++) tempStr+=tempVector[p]+" "; tempStr+=tempVector[p]; c.push_back(tempStr); } } } } if(c.size()!=0) F.push_back(c); } } } vector<string> removeItemFromSet(vector<string> v1,vector<string> v2) //从v1中剔除v2 { int i; vector<string> result=v1; for(i=0;i<v2.size();i++) { vector<string>::iterator it= find(result.begin(),result.end(),v2[i]); if(it!=result.end()) result.erase(it); } return result; } string getStr(vector<string> v1,vector<string> v2) //根据前件和后件得到规则 { int i; string rStr; for(i=0;i<v1.size();i++) rStr+=v1[i]+" "; rStr=rStr.substr(0,rStr.size()-1); rStr+="->"; for(i=0;i<v2.size();i++) rStr+=v2[i]+" "; rStr=rStr.substr(0,rStr.size()-1); return rStr; } void ap_generateRules(string fs) { int i,j,k; vector<string> v=split(fs,' '); vector<string> h; vector< vector<string> > H; //存放所有的后件 int fCount=calculateSupportCount(v); //f的支持度计数 for(i=0;i<v.size();i++) //先生成1-后件关联规则 { vector<string> temp=v; temp.erase(temp.begin()+i); int aCount=calculateSupportCount(temp); if( fCount >= ceil(aCount*minConf)) //如果满足置信度要求 { h.push_back(v[i]); string tempStr; for(j=0;j<v.size();j++) { if(j!=i) tempStr+=v[j]+" "; } tempStr=tempStr.substr(0,tempStr.size()-1); tempStr+="->"+v[i]; R.push_back((tempStr)); } } H.push_back(v); if(h.size()!=0) H.push_back(h); for(k=2;k<v.size();k++) //生成k-后件关联规则 { h=H[k-1]; vector<string> addH; for(i=0;i<h.size()-1;i++) { vector<string> v1=split(h[i],' '); for(j=i+1;j<h.size();j++) { vector<string> v2=split(h[j],' '); if(judgeItem(v1,v2)) { vector<string> tempVector=v1; tempVector.push_back(v2[v2.size()-1]); //得到后件集合 sort(tempVector.begin(),tempVector.end()); vector<string> filterV=removeItemFromSet(v,tempVector); //得到前件集合 int aCount=calculateSupportCount(filterV); //计算前件支持度计数 if(fCount >= ceil(aCount*minConf)) //如果满足置信度要求 { string rStr=getStr(filterV,tempVector); //根据前件和后件得到规则 string hStr; for(int s=0;s<tempVector.size();s++) hStr+=tempVector[s]+" "; hStr=hStr.substr(0,hStr.size()-1); addH.push_back(hStr); //得到一个新的后件集合 R.push_back(rStr); } } } } if(addH.size()!=0) //将所有的k-后件集合加入到H中 H.push_back(addH); } } void generateRules() //生成关联规则 { int i,j,k; for(k=2;k<F.size();k++) { vector<string> f=F[k]; for(i=0;i<f.size();i++) { string str=f[i]; ap_generateRules(str); } } } void outputFrequenceSet() //输出频繁项目集 { int i,k; if(F.size()==1) { cout<<"无频繁项目集!"<<endl; return; } for(k=1;k<F.size();k++) { cout<<k<<"-频繁项目集:"<<endl; vector<string> f=F[k]; for(i=0;i<f.size();i++) cout<<f[i]<<endl; } } void outputRules() //输出关联规则 { int i; cout<<"关联规则:"<<endl; for(i=0;i<R.size();i++) { cout<<R[i]<<endl; } } void Apriori() { initTransactionSet(); genarateOneFrequenceSet(); generateKFrequenceSet(); outputFrequenceSet(); generateRules(); outputRules(); } int main(int argc, char *argv[]) { Apriori(); return 0; }
数据分析咨询请扫描二维码
若不方便扫码,搜微信号:CDAshujufenxi
2025 年,数据如同数字时代的 DNA,编码着人类社会的未来图景,驱动着商业时代的运转。从全球互联网用户每天产生的2.5亿TB数据, ...
2025-06-052025 年,数据如同数字时代的 DNA,编码着人类社会的未来图景,驱动着商业时代的运转。从全球互联网用户每天产生的2.5亿TB数据, ...
2025-05-27CDA数据分析师证书考试体系(更新于2025年05月22日)
2025-05-26解码数据基因:从数字敏感度到逻辑思维 每当看到超市货架上商品的排列变化,你是否会联想到背后的销售数据波动?三年前在零售行 ...
2025-05-23在本文中,我们将探讨 AI 为何能够加速数据分析、如何在每个步骤中实现数据分析自动化以及使用哪些工具。 数据分析中的AI是什么 ...
2025-05-20当数据遇见人生:我的第一个分析项目 记得三年前接手第一个数据分析项目时,我面对Excel里密密麻麻的销售数据手足无措。那些跳动 ...
2025-05-20在数字化运营的时代,企业每天都在产生海量数据:用户点击行为、商品销售记录、广告投放反馈…… 这些数据就像散落的拼图,而相 ...
2025-05-19在当今数字化营销时代,小红书作为国内领先的社交电商平台,其销售数据蕴含着巨大的商业价值。通过对小红书销售数据的深入分析, ...
2025-05-16Excel作为最常用的数据分析工具,有没有什么工具可以帮助我们快速地使用excel表格,只要轻松几步甚至输入几项指令就能搞定呢? ...
2025-05-15数据,如同无形的燃料,驱动着现代社会的运转。从全球互联网用户每天产生的2.5亿TB数据,到制造业的传感器、金融交易 ...
2025-05-15大数据是什么_数据分析师培训 其实,现在的大数据指的并不仅仅是海量数据,更准确而言是对大数据分析的方法。传统的数 ...
2025-05-14CDA持证人简介: 万木,CDA L1持证人,某电商中厂BI工程师 ,5年数据经验1年BI内训师,高级数据分析师,拥有丰富的行业经验。 ...
2025-05-13CDA持证人简介: 王明月 ,CDA 数据分析师二级持证人,2年数据产品工作经验,管理学博士在读。 学习入口:https://edu.cda.cn/g ...
2025-05-12CDA持证人简介: 杨贞玺 ,CDA一级持证人,郑州大学情报学硕士研究生,某上市公司数据分析师。 学习入口:https://edu.cda.cn/g ...
2025-05-09CDA持证人简介 程靖 CDA会员大咖,畅销书《小白学产品》作者,13年顶级互联网公司产品经理相关经验,曾在百度、美团、阿里等 ...
2025-05-07相信很多做数据分析的小伙伴,都接到过一些高阶的数据分析需求,实现的过程需要用到一些数据获取,数据清洗转换,建模方法等,这 ...
2025-05-06以下的文章内容来源于刘静老师的专栏,如果您想阅读专栏《10大业务分析模型突破业务瓶颈》,点击下方链接 https://edu.cda.cn/g ...
2025-04-30CDA持证人简介: 邱立峰 CDA 数据分析师二级持证人,数字化转型专家,数据治理专家,高级数据分析师,拥有丰富的行业经验。 ...
2025-04-29CDA持证人简介: 程靖 CDA会员大咖,畅销书《小白学产品》作者,13年顶级互联网公司产品经理相关经验,曾在百度,美团,阿里等 ...
2025-04-28CDA持证人简介: 居瑜 ,CDA一级持证人国企财务经理,13年财务管理运营经验,在数据分析就业和实践经验方面有着丰富的积累和经 ...
2025-04-27