
数据挖掘研究的机遇及挑战
随着计算机的大量应用和数据量的急速增长,数据挖掘发挥着越来越重要的作用.数据挖掘经过近二十年的 发展.取得了很大的突破,包括了数据库技术、人工智能技术、数理统计、可视化技术等技术热点.其应用也越来越广泛,同时。 也面临着技术上的一些难题,如流数据挖掘、分布式数据挖掘、基因数据挖掘等等.
数据挖掘应用与机遇挑战 随着数据库技术的迅速发展以及数据库管理系统的广泛应 用,人们积累的数据越来越多.数据呈爆炸性增长。各种数据广 泛存在,数字。图形、文字、表格、声音等都是数据的种种表象,可 谓是数据的海洋.要从这数据的海洋中寻找有用的资料.就要靠 处理数据的手段来挖掘.人类分析数据到现在已经有上千年的 历史了.从远古时代人类开始在木头上计数开始就是一个简单 的数据分析过程.但是近代数据分析是用统计学的概念去处理 数据.随着二战的结束,一些非统计的数据分析工具.如人工智 能方面的技术开始应用到行业经济中.到了二十世纪九十年代. 美国的一些应用者和学者把在数据海洋中寻找知识的过程叫 做”数据挖掘”.数据挖掘”(Data Mining)是一种新的信息处理技 术,其主要特点是对数据库中的大量业务数据进行抽取、转换、 分析和其他模型化处理.从中提取辅助决策的关键性数据.数据 挖掘与传统的数据分析,如查询、报表、OLAP(联机应用分析)、 统计分析等数据分析技术的本质区别是数据挖掘是在明确假设 的前提下去挖掘信息、发现知识.
1、数据挖掘研究的起源 Usama Fayyadm是数据挖掘的开山师祖.1987年就读密西根 大学时参加通用的暑期工作.目的是从数以万计的维修记录中 找出规则.协助维修人员迅速发现问题.Fayyad发现的pattern算 法.不但成为他1991年论文的主题,也衍生出后来数据挖掘技 术的发展.离开密西根后.Fayyad加入NASA的喷射推进实验 室,他的算法在太空探测、地质研究等工作中均展现出了非常惊 人的潜力.数据挖掘最早被应用于天文学.即由机器学习、类型 辩识及统计等技术.在短短4小时内所发现的行星胜过了20多 位天文学家4年的成果.现在连美国军方也开始应用这样的技 术增强雷达解读与辩识数据的能力. 对数据挖掘的定义存在多种说法:Groth啊认为”数据挖掘” 就是”挖掘”出数据中隐藏的模式,趋势.关系的过程: Beryy&Lino枞为”数据挖掘”是通过自动或半自动的方式在海 量数据中发现有用的模式,规则的过程;Hand,Mannila&Smyth〔田 则认为”数据挖掘”是分析普通的数据(通常是海量的)来发现数 据之间比较稳定地关系.以易于理解的方式将数据总结出来向 数据所有者提供有价值的决策支持:Cabena etalm将”数据挖掘” 定义为从大量的数据库中抽取出此前还没发现的有效实用地的 信息,并且此后使用此信息来帮助制定关键的商业决策的过程.
综合来说,数据挖掘就是从大量的、不完全的、有噪声的、模 糊的、随机的实际应用数据中,提取隐含在其中的、人们事先不 知道的、但又是潜在有用的信息和知识的过程.数据挖掘是一门 交叉学科。其技术历经了20多年的发展.包括了数据库技术、人 工智能技术、数理统计、可视化技术、并行计算等技术热点.
今天,这些成熟的技术。加上高性能的关系数据库引擎 以及广泛的数据集成.让数据挖掘技术在当前的数据仓库环境 中进入了实用的阶段. 在选择数据挖掘的相关技术以及算法上.数据挖掘的理论 技术可分为传统技术与改良技术两类.传统技术以统计分析为 代表.统计学内所含序列统计、概率论、回归分析、类别数据分析 等都属于传统数据挖掘技术,尤其Data Mining对象多为变量繁 多且样本数庞大的数据.高等统计学里之多变量分析中用来精 简变量的因素分析(Factor Analysis)、用来分类的判别分析(D凶 criminant Analysis).以及用来区隔群体的分群分析(Cluster Analysis)等.在Data Mining过程中特别常用.在改良技术方面. 应用较普遍的有决策树理论(Decision Trees)、类神经网络(Neu. ral Network)以及规则归纳法(Rules Induction)等. 对数据挖掘而言.研究者必须考虑所要进行挖掘分类领域的 一些相关同题:如研究领域的特性、数据的质量、数据库的组成是 否能表现这个议题、决策环境、人员因素以及这些因素间的潜在 互动等等.都是需要考虑的因素.可以用图2来表示这个概念.
2、数据挖掘研究的应用与机遇 作为应用技术.数据挖掘可谓涵盖广泛。尤其在发达国 家.数据挖掘技术的触角已经伸向了各行各业.只要某产业拥有 具分析价值与需求的数据仓储或数据库.皆可利用挖掘工具进 行有目的的挖掘分析.一般较常见的应用案例多发生在零售业、 直效行销界、制造业、财务金融保险、通讯业以及医疗服务等.数 据挖掘的应用领域具体可以分为三类:第一类.商业与电子商务 数据.银行、管理部门、网络应用在商业运作过程中产生大量数 据.这些行业需要通过数据分析做出有效的决策.第二类,科学、 工程学和卫生保健数据.工程领域的数据往往比商业数据更复 杂,此外.科学家和工程师越来越多地使用模拟系统.第三类:网 络数据.网络上的数据不仅在数量上日益膨胀,在内容上也越来 越复杂.网络数据已经不仅仅包括图象、文本,还包括数据流和 数值数据.下面对每一类的具体应用作一介绍.
商业交易:国外的数据挖掘技术主要应用在了银行业,典型 的例子就是信用卡,用数据挖掘技术来分析银行客户的信用等 级和资产发展趋势,用以规避银行风险.保险业借以此技术来防 止保险欺诈行为。并慢慢渗透到税收、零售行业以及国家安全系 统的保障等等.
电子商务:电子商务的发展促使公司内部收集了大量的数 据。并且迫切需要将这些数据转换成有用的信息和知识,为公司 万方数据 福建电脑 2009年第3期 创造更多潜在的利润.数据挖掘在电子商务的应用已进入了实 用阶段.并取得了良好的效果.
基因数据:基因组作序和作图产生大量的数据库,这些数据 库绝大部分尚未被挖掘。因为缺少理想的数据挖掘技术,基因挖 掘容易被忽视.
传感器数据:卫星、浮标、气球还有许多其他传感器产生关 于大气层、海洋、和陆地的大量数据.一个最大的挑战就是研究 这些变量之间的关系,比如:工业污染影响全球气候变暖吗?
模拟系统数据:今天,模拟被认为是继理论和实验之后.科 学的第三种模式.模拟系统同实验一样产生大量数据.数据挖掘 被认为是理论、模拟和实验之间一个关键的连接.
卫生保健数据:卫生保健日益成为国民生产总值中重要的 组成部分.医院、卫生组织和保险公司拥有病人的大量信息:病 人的健康问题、医疗程序、成本和收益,理解它们之间的关系相 当重要.数据挖掘的一个独特的用法就是用来预测手术、用药、 诊断、或是流程控制的效率. 多媒体文本:文本的数量和使用文本的人日益增加,多媒体 技术也越来越容易接触到.同时也越来越难以获取有用的数据. 文本数据挖掘并不是一件容易的事情。尤其是在分析方法方面。 还有很多需要研究的专题.
Web数据:今天.Web主要面向文本和多媒体设备.HTML 虽然已被认为是最强大、最有力的工具。但也受到许多使用者的 批评.未来.Web将是数据处理最重要的工具,以xML为基础的 新一代WWW环境是直接面对Web数据的.不仅可以很好地兼 容原有的Web应用.而且可以更好地实现Web中的信息共享与 交换.随着XML的发展.数据挖掘将可成为网络数据的关键技 术. 未来几年.数据挖掘将是极为重要的成长领域,数据挖掘的 应用越来越广泛.
研究结果显示.企业所处理的数据每五年就会 璺现倍数增长.大部分的企业并没有数据不足的问题.过度的数 据重复与不一致才是大问题.这使得企业无论在使用、有效管 理、以及将这些数据用于决策过程方面都遭遇到了问题.因此市 场需要的是能够将数据转变成可靠与可用信息的系统.不同领 域的专家对数据挖掘都表现出了极大的兴趣.例如在信息服务 业中出现了一些应用.在Internet之数据仓储和线上服务中也给 企业增加了许多生机.同时在产学合作下.又发展出了许多实用 的系统.例如MDT、Coverstory and Spotlight、Nieh work visualiza- tion system LBS、FALCON、FAIS、NYNEX、TASA等等.目前已 被许多研究者视为结合数据库系统和机器学习技术的重要领 域.对于研究者来说.数据挖掘是个充满潜力和机遇无限的研究 领域.
3.数据挖掘研究面临的挑战
目前.数据挖掘算法虽然已经取得了很大的突破,但在实际 应用中.数据挖掘技术还存在相当多的难题和困难,对于研究者 来说.数据挖掘是个充满挑战性的领域.
3.1流数据挖掘. 一个重要的问题是挖掘大数据库(如100 TS)的数据流,这 些数据流广泛存在互联网、无线通信网络、地质测量、气象、天文 观测等方面,由于数据流迅速、大量、连续地到达,因此现有的数 据挖掘算法在处理如此大量的数据方面速度太慢了,需要研究 新的算法.与此同时.数据流需要以近实时的方式对更新流进行 复杂分析.这对研究者来说也是一个挑战.
3.2分布式数据挖掘. 出于对安全性、容错性、商业竞争以及法律约束等多方面因 素的考虑.在许多情况下,将所有数据集中在一起进行分析往往 是不可行的.随着各相关学科的飞速发展。各种网络尤其是In- temet的广泛使用.同时,实际应用要求数据挖掘系统具有更好 的可扩展性.分布式数据挖掘系统则可以充分利用分布式计算 的能力对相关的数据进行分析与综合.如研究某种疾病在某地 的发病情况与气候的关系(疾病控制数据库+环境数据库);金融 组织问通过合作防止信用卡欺诈(数据共享);大型跨国公司营 销策略的制定(销售点分散.数据仓库构造十分耗时).分布式数 据挖掘正是在这一背景下产生的.它是数据挖掘技术与分布式 计算的有机结合.主要用于分布式环境下的数据模式发现.分布 式数据挖掘面临的问题是研究算法.实现对不同数据源、多重数 据库间的挖掘.
3.3时问序列数据挖掘. 时问序列是数据存在的特殊形式,序列的过去值会影响到 将来值。这种影响的大小以及影响的方式可由时间序列中的趋 势周期及非平稳等行为来刻画.一般来讲,时间序列数据都具有 噪声、不稳定、随机性等特点,这就使得正确进行短期和长期的 预测都非常困难.如何解决时间序列数据的噪声问题。从而有效 地聚类、分类和预测数据趋势仍然是个有待解决的问题.对于这 类数据的预测方法目前主要有自动回归滑动平均(ARMA)和神 经网络等,但这些方法有一些缺点是很难克服的.ARMA包含的 是线性行为,对于非线性的因素没有包含;而神经网络的结构需 要事先指定或应用启发式算法在训练过程中修正:同时神经网 络得到的解是局部最优而非全局最优.例如在金融时间序列预 测中,虽然小波分析可去掉噪声。但通常会带来滞后的问题,从 而减低了预测的准确程度.现今的数据挖掘方法在处理噪声数 据方面仍然有很大的困难.
3.4生物医学或基因数据挖掘 目前.生物医学或基因学领域的进步产生了大量的数据.对 于生物信息或基因的数据挖掘和通常的数据挖掘相比.无论在 数据的复杂程度、数据量还有分析和建立模型的算法而言。都要 复杂得多.例如:基因和蛋白质在数量上巨大(DNA分子可以有 上亿对),结构非常复杂,彼此之间的作用善未被发现;在生物医 学的许多方面如进化论、生物数据clean、生物序列分析、生物网 络分析.生物图象分析等等.从分析算法上讲.更需要一些新的 和好的算法.现在很多厂商正在致力于这方面的研究.但就技术 和软件而言.还远没有达到成熟的地步.
3.5可视化数据挖掘 目前.在可视化工具方面已经有所发展.可视化工具除了较 常见的柱形或条形统计图表、饼图、曲线、柱状图、箱线图等等, 还有其他工具如几何图形(如平行坐标)、分级技术、图标技术. 可视化数据挖掘对于研究者是个充满吸引力的领域.因为可视 化技术可以帮助研究者更好地解释数据、发现数据的模式.通过 发展技术和系统来寻求数据挖掘过程中的可视化方法.使知识 发现的过程易于被用户理解和操纵.可使数据挖掘过程成为用 户业务流程的一部分.也便于在知识发现的过程中进行人机交 互:包括数据用户化呈现与交互操纵两部分.
3.6过程数据挖掘 一个重要的问题是如何使数据挖掘过程自动化.在数据挖 掘系统里面建立一种方法来帮助用户避免许多数据挖掘中的错 误.如果我们能够将各种数据挖掘过程自动化,就可以大大地减 少劳力.莉用目前的技术虽然可以快速地建模和寻找模式.但 90%的成本浪费在预处理上,减少这些成本将极大地降低建模 的成本.另一个重要的问题是如何将可视化和自动化数据挖掘 技术结合在一起,在很多应用上,数据挖掘的目标和任务不太明 确,特别是在实验性数据分析.可视化可以帮助我们获取数据的 更多信息和明确数据挖掘的任务.
3.7动态数据、RFID数据和传感器网络数据挖掘 随着传感器网络、GPS、手机和其他移动设备和RFID技术 的普遍。大量动态数据需要被分析.在动态数据、RFID数据和传 感器数据挖掘领域里,还有许多尚未被研究的问题:例如。寻找 关联和规则性来clean有噪音的传感器网络和RnD数据、如何 为这些数据构建数据仓库、如何对千兆字节的RFID数据进行 挖掘、如何chesty多维轨道数据等等.
数据分析咨询请扫描二维码
若不方便扫码,搜微信号:CDAshujufenxi
在大模型从实验室走向生产环境的过程中,“稳定性” 是决定其能否实用的关键 —— 一个在单轮测试中表现优异的模型,若在高并发 ...
2025-10-15在机器学习入门领域,“鸢尾花数据集(Iris Dataset)” 是理解 “特征值” 与 “目标值” 的最佳案例 —— 它结构清晰、维度适 ...
2025-10-15在数据驱动的业务场景中,零散的指标(如 “GMV”“复购率”)就像 “散落的零件”,无法支撑系统性决策;而科学的指标体系,则 ...
2025-10-15在神经网络模型设计中,“隐藏层层数” 是决定模型能力与效率的核心参数之一 —— 层数过少,模型可能 “欠拟合”(无法捕捉数据 ...
2025-10-14在数字化浪潮中,数据分析师已成为企业 “从数据中挖掘价值” 的核心角色 —— 他们既要能从海量数据中提取有效信息,又要能将分 ...
2025-10-14在企业数据驱动的实践中,“指标混乱” 是最常见的痛点:运营部门说 “复购率 15%”,产品部门说 “复购率 8%”,实则是两者对 ...
2025-10-14在手游行业,“次日留存率” 是衡量一款游戏生死的 “第一道关卡”—— 它不仅反映了玩家对游戏的初始接受度,更直接决定了后续 ...
2025-10-13分库分表,为何而生? 在信息技术发展的早期阶段,数据量相对较小,业务逻辑也较为简单,单库单表的数据库架构就能够满足大多数 ...
2025-10-13在企业数字化转型过程中,“数据孤岛” 是普遍面临的痛点:用户数据散落在 APP 日志、注册系统、客服记录中,订单数据分散在交易 ...
2025-10-13在数字化时代,用户的每一次行为 —— 从电商平台的 “浏览→加购→购买”,到视频 APP 的 “打开→搜索→观看→收藏”,再到银 ...
2025-10-11在机器学习建模流程中,“特征重要性分析” 是连接 “数据” 与 “业务” 的关键桥梁 —— 它不仅能帮我们筛选冗余特征、提升模 ...
2025-10-11在企业的数据体系中,未经分类的数据如同 “杂乱无章的仓库”—— 用户行为日志、订单记录、商品信息混杂存储,CDA(Certified D ...
2025-10-11在 SQL Server 数据库操作中,“数据类型转换” 是高频需求 —— 无论是将字符串格式的日期转为datetime用于筛选,还是将数值转 ...
2025-10-10在科研攻关、工业优化、产品开发中,正交试验(Orthogonal Experiment)因 “用少量试验覆盖多因素多水平组合” 的高效性,成为 ...
2025-10-10在企业数据量从 “GB 级” 迈向 “PB 级” 的过程中,“数据混乱” 的痛点逐渐从 “隐性问题” 变为 “显性瓶颈”:各部门数据口 ...
2025-10-10在深度学习中,“模型如何从错误中学习” 是最关键的问题 —— 而损失函数与反向传播正是回答这一问题的核心技术:损失函数负责 ...
2025-10-09本文将从 “检验本质” 切入,拆解两种方法的核心适用条件、场景边界与实战选择逻辑,结合医学、工业、教育领域的案例,让你明确 ...
2025-10-09在 CDA 数据分析师的日常工作中,常会遇到这样的困惑:某电商平台 11 月 GMV 同比增长 20%,但究竟是 “长期趋势自然增长”,还 ...
2025-10-09Pandas 选取特定值所在行:6 类核心方法与实战指南 在使用 pandas 处理结构化数据时,“选取特定值所在的行” 是最高频的操作之 ...
2025-09-30球面卷积神经网络(SCNN) 为解决这一痛点,球面卷积神经网络(Spherical Convolutional Neural Network, SCNN) 应运而生。它通 ...
2025-09-30