数据挖掘聚类方法的浅谈_数据分析师-CDA数据分析师官网

热线电话：13121318867

数据挖掘聚类方法的浅谈_数据分析师

2014-11-05

数据挖掘聚类方法的浅谈

数据挖掘方法有：分类、回归分析、聚类、关联规则、特征、变化和偏差分析、Web页挖掘等；
1.分类。分类是找出数据库中一组数据对象的共同特点并按照分类模式将其划分为不同的类，其目的是通过分类模型，将数据库中的数据项映射到某个给定的类别。

2.回归分析。回归分析方法反映的是事务数据库中属性值在时间上的特征，产生一个将数据项映射到一个实值预测变量的函数，发现变量或属性间的依赖关系，其主要研究问题包括数据序列的趋势特征、数据序列的预测以及数据间的相关关系等。

3.聚类。聚类分析是把一组数据按照相似性和差异性分为几个类别，其目的是使得属于同一类别的数据间的相似性尽可能大，不同类别中的数据间的相似性尽可能小。

4.关联规则。关联规则是描述数据库中数据项之间所存在的关系的规则，即根据一个事务中某些项的出现可导出另一些项在同一事务中也出现，即隐藏在数据间的关联或相互关系。

5.特征。特征分析是从数据库中的一组数据中提取出关于这些数据的特征式，这些特征式表达了该数据集的总体特征。如营销人员通过对客户流失因素的特征提取，可以得到导致客户流失的一系列原因和主要特征，利用这些特征可以有效地预防客户的流失。

6.变化和偏差分析。偏差包括很大一类潜在有趣的知识，如分类中的反常实例，模式的例外，观察结果对期望的偏差等，其目的是寻找观察结果与参照量之间有意义的差别。在企业危机管理及其预警中，管理者更感兴趣的是那些意外规则。意外规则的挖掘可以应用到各种异常信息的发现、分析、识别、评价和预警等方面。

7.Web页挖掘。随着Internet的迅速发展及Web 的全球普及，使得Web上的信息量无比丰富，通过对Web的挖掘，可以利用Web 的海量数据进行分析，收集政治、经济、政策、科技、金融、各种市场、竞争对手、供求信息、客户等有关的信息，集中精力分析和处理那些对企业有重大或潜在重大影响的外部环境信息和内部经营信息，并根据分析结果找出企业管理过程中出现的各种问题和可能引起危机的先兆，对这些信息进行分析和处理，以便识别、分析、评价和管理危机。

聚类是其中的一种方法，而聚类中又包含很多方法，聚类方法有：分割方法，分层次方法，基于密度的方法，基于网格的方法；
每一种不同的聚类方法都有其适用情况，并不存在能适用所有聚类的方法，遇到问题要具体分析，有些聚类方法适合一维数据类型的，可是不适合多维的。做数据分析就要了解各个聚类方法的特点，并明白自己的目的从而选择适合的聚类方法；
常见的划分聚类方法有，分割方法：K-means；分层次方法：Rock，Chemeleon,BIRCH;基于密度：DBSCAN；基于网格：STING，WaveCluster；等各个方法都有自己的特点，这些聚类方法都涉及到数据之间的距离计算，常见的有DTW和欧氏距离算法，两个算法都各有特特点，DTW计算复杂度较高，欧式距离计算方法较为高效，但是欧式在一些场合对数据的描述会及不上DTW算法。所以分析自己的数据类型，再决定计算方法很重要！
对于数据挖掘的聚类算法，总的来说：
1.我们要分析自己数据的类型是一维的还是多维的，从而选择是分割方法，分层次，基于密度还是基于网格；
2.选定一种方法后，再具体分析该方法下的具体聚类方法，视自己需要进行选择，各个方法精确度都有出入，效率也不等，所以要合适选择；
3.具体方法定下后，要考虑聚类算法的实现，可以用DTW也可以用欧式，不过那要看你的数据类型是什么样的，改方法的选择在一定程度上决定了准确度；
4.在选定主要的方法后可以对其进行优化，类似于预处理，又或者视情况需要牺牲计算时间来换取计算精度等方法对主方法进行结合，在一定程度上都能提高效率；
总的来说吧，不要轻信网上那种“全能”算法，即可以快速完成又可以精度超高，适用于各种情况，效率堪称完美，这是不可能的，如果这种算法出现了，大数据时代将会产生一场革命，那么这个算法会名扬天下，还会躲在Google，百度的小角落了等你搜索？每一个算法都有他自己的利弊，我们要权衡利弊选择合适的。