
大数据挖掘关键技术及其应用
首先,我介绍一下我掌握的大数据挖掘的核心技术;其次,我介绍一下我在做的三个项目。
这是我们当前大数据存在的误区:重视运用,轻视了大数据的处理技术;重视“大”,忽视数据的本质需求。
正如同石油一样,如果没有核心的开采、分解技术,是不能生产处汽油、柴油及各类工业用品的。
“IntelligencemultiplelinearregressionanalysisusingMapReduceprogrammingmode”这是我们做的第一个大数据预测算法,基于MapReduce编程模型。
Thenovelbigdataminingalgorithminclude3parts:
(1)multiplelinearregressionanalysis;
(2)SHC-PSOoptimizationapproach;
(3)MapReduceprogrammingmode.
主要包含三个部分:多元线性回归预测、PSO智能变体算法。另外就是基于MapReduce编程模型,目前应用在电影大数据分析领域。
“Intelligencew-k-meanclusteringalgorithmusingmapreduceprogrammingmode”这个是一个大数据聚类挖掘算法。
Thenovelbigdataminingalgorithminclude3parts:
(1)w-k-meanclusteringalgorithm;
(2)SHC-PSOapproach;
(3)MapReduceprogrammingmode;
其中,“w-k-meanclusteringalgorithm”是一个数据聚类算法变体。SHC-PSO是我提出的一个PSO算法变体,通过SHC-PSO来改进“w-k-meanclusteringalgorithm”,最后通过“MapReduceprogrammingmode”来实现并行计算。
考虑到MapReduce编程模型局限性,为进一步提升上述两个挖掘算法的性能,我们改进了MapReduce编程模型:
问题1:MapReduce编程模型怎么改进的?
回答1:主要是根据负载均衡来实现自适应分块,原来是64M,现在是通过负载均衡来自适应分块,各个数据块大小不一样。
上面是我在大数据挖掘领域的三个研究点,下面我来介绍一下三个项目。由于跟公司有协议,不能介绍的太详细。
1.影院行业大数据智能处理系统(这是第一个项目——国内某大型影视企业的委托项目)
本项目针对影院大数据的量大、多样、多变的特征,研究相应的高效大数据智能处理算法和问题模型,从而发现电影大数据的商业和社会价值;并基于此开发影院大数据的智能处理平台,在平台上实现一个综合应用大数据智能处理技术的影院示范应用,促进大数据处理技术的发展,推动影院大数据在票房预测、电影排产决策、影院排产预警等关键应用领域取得突破。
谷歌也发布了基于搜索大数据的票房预测报告,在影片上映前一个月预测,准确率高达94%。谷歌票房预测主要基于三个指标,一是预告片播放量,二是同系列电影此前几部的成绩,三是电影档期的季节特征。
所谓电影大数据分析,指通过收集整理各个方面的海量数据,对其进行分析和挖掘,进而从中获得有价值的信息,并指导公司经营、提高效益的一种新的商业模式。
我们对电影票房预测所用的数据:国内历史票房数据、互联网站影片点击、影片评分数据、互联网站影片的评论、搜索引擎影片搜索数量、微博与微信中的话题及活跃度,基于数据预测新上映影片在国内的整体票房,通过影片预售情况进行修正。
我们主要是通过多元线性回归算法和mapreduce编程模型来是实现,目前在中山大学软件学院私有云上进行了测试(云平台:16个节点服务器,有1、2台是坏的)。
2.面向大数据的海洋碳汇微生物资源库建设决策研究(第二个项目——广州市建设国家级科技思想库研究课题专项)
我国CO2排放量已超过美国成为世界第一排放大国,作为发展中国家,我们不能一味地硬性减排而牺牲经济发展。我们必须保障经济平稳较快发展,出路是增加CO2的吸收和储藏(碳汇),即“增汇”。“增汇”就是另一种形式的“减排”。
海洋是最大的碳库。研究海洋储碳机制,研发海洋碳汇,为我国应对全球气候变化提供科学依据,是国家急需。海洋占地球表面积71%,是地球上最大的“碳库”。生物圈中循环的碳有95%存在于海洋中,海洋中的碳储量是大气圈的50倍、生物圈的20倍。海洋有着巨大的“增汇”潜力。
(1)海洋碳汇功能微生物信息数据库构建;
(2)海洋碳汇微生物大数据私有云;
(3)海洋碳汇微生物大数据智能处理;
•海洋微型生物碳汇特性智能检测和预测
•分难降解产物细菌智能筛选
•尝试常规难于分离菌的智能分离
3.面向大数据的高校科研管理信息化及关键技术研究(第三个项目——广东省教育项目)
近年来,大数据引起了产业界、学术界以及政府部门的高度关注。高校作为我国科研创新的重要基地,科研信息化水平极大影响到高校创新事业的发展。目前我国高校科技管理信息化存在数据共享度比较低,科技产出数据零散不系统,数据的质量不理想,信息化数据的利用率低等问题。本项目研究了大数据的核心技术以及传统模式下的科研管理面临的挑战,并提出了面向大数据技术的科研管理信息化解决方案。
融合科研管理信息化的大数据关键技术:
(1)大数据样本选取策略;
(2)基于分布的大数据分治策略研究;
(3)大数据分类算法研究;
(4)大数据聚类算法研究;
(5)面向大数据的科研评估研究;
(6)面向大数据的项目立项决策研究;
(7)面向大数据的优化科研资源配置研究;
(8)面向大数据的科研项目的全过程管理研究;
(9)面向大数据的科研规划研究。
除了上述三个项目外,目前我们还在做大数据的可视化工作,我本人在上述三个项目中担任项目经理或主持人,我的汇报完毕,谢谢大家!希望大家提出指导意见!陶乾
问题2:陶博,就第二个应用是否可展开一下?
回答2:由于涉及合作方,按照合同规定,目前项目内容还不能介绍的很详细。请大家谅解!我介绍的第一个算:“multiplelinearregressionanalysis”——多元线性回归分析,是在标准的多元线性回归的基础上采用我提出的SHC-PSOoptimizationapproach来进行改进,主要是通过pso变体算法来计算多元线性回归参数,由于要处理大数据所以必须通过MapReduce来实现并行处理。
我们在该领域已经申请了专利:一种面向大数据的智能预测方法及系统。根据大数据预处理方法从异构的大数据源抽取和集成数据,在数据集成和提取时需要对数据进行清洗,保证数据质量;通过智能多元线性回归模型进行预测分析,并借助Mapreduce框架进行并行处理。
问题3:对比过粒子群算法与其他算法的效率情况如何?
回答3:粒子群算法(PSO算法)主要是用来改进多元线性回归的性能的,我们与传统的多元线性回归比较多,参数计算和评估更为合理,多元线性回归是一种很重要的预测方法。
问题4:舆情分析方面有什么应用?
回答4:通过大数据舆情分析,可以助力企业洞察商机社交媒体发展,可以企业了解市场竞争的行情,并协助企业制定相应的市场经营分析决策。舆情服务在进行行业规范和整合,关键还是要对舆情大数据进行有效分析,也就是要有高效、廉价的大数据分析方法。当然大数据的应用会带来生活等各方面根本性转变,但是必须建立在对大数据有效分析和处理的基础上,否则大数据就是死数据,正如同石油在我们脚下几千年也没有发现其科学价值。
问题5:你们申请的专利是中国还是国际的?批准了没有?
回答5:专利是国内的,是中科院负责处理。有网上抓的,有公司内部的,有些因为预处理很困难就直接在网上通过爬虫抓。“w-k-meanclusteringalgorithm”是“k-meanclusteringalgorithm”的变体。这个是黄哲学老师(我老师)提出的,我主要是SHC-PSO来改进了“w-k-meanclusteringalgorithm”性能并是实现了并行处理。
问题6:w是什么?
回答6:是权重。
问题7:SHC一PSO全名是什么?
回答7:SHC-PSOapproach是pso的变体算法,是我在13年新提出的一种高维混沌PSO算法。
问题8:难点在计算w吗?
回答8:w问题在08年应该解决了,关键是如何通过群体智能策略来改进聚类,两者都是早熟收敛的。
问题9:加权是针对feature的属性而改进。针对大数据也许存在计算效率问题,你的分布式计算实现可以深入讲讲。
回答9:是的,有效率问题。一般的k-mean并性处理比较简单,关键是算法效率问题。
问题10:另外聚类需要计算相似性/距离,对于heterogenous大数据需要妥善处理,你在实现中采用了什么措施?
回答10:MapReduce还是当前大数据处理的主要途径。我们主要还是在数据预处理上下功夫,不可能将很多问题带到挖掘算法中
数据分析咨询请扫描二维码
若不方便扫码,搜微信号:CDAshujufenxi
在实际业务数据分析中,我们遇到的大多数数据并非理想的正态分布 —— 电商平台的用户消费金额(少数用户单次消费上万元,多数集 ...
2025-10-20在数字化交互中,用户的每一次操作 —— 从电商平台的 “浏览商品→加入购物车→查看评价→放弃下单”,到内容 APP 的 “点击短 ...
2025-10-20在数据分析的全流程中,“数据采集” 是最基础也最关键的环节 —— 如同烹饪前需备好新鲜食材,若采集的数据不完整、不准确或不 ...
2025-10-20在数据成为新时代“石油”的今天,几乎每个职场人都在焦虑: “为什么别人能用数据驱动决策、升职加薪,而我面对Excel表格却无从 ...
2025-10-18数据清洗是 “数据价值挖掘的前置关卡”—— 其核心目标是 “去除噪声、修正错误、规范格式”,但前提是不破坏数据的真实业务含 ...
2025-10-17在数据汇总分析中,透视表凭借灵活的字段重组能力成为核心工具,但原始透视表仅能呈现数值结果,缺乏对数据背景、异常原因或业务 ...
2025-10-17在企业管理中,“凭经验定策略” 的传统模式正逐渐失效 —— 金融机构靠 “研究员主观判断” 选股可能错失收益,电商靠 “运营拍 ...
2025-10-17在数据库日常操作中,INSERT INTO SELECT是实现 “批量数据迁移” 的核心 SQL 语句 —— 它能直接将一个表(或查询结果集)的数 ...
2025-10-16在机器学习建模中,“参数” 是决定模型效果的关键变量 —— 无论是线性回归的系数、随机森林的树深度,还是神经网络的权重,这 ...
2025-10-16在数字化浪潮中,“数据” 已从 “辅助决策的工具” 升级为 “驱动业务的核心资产”—— 电商平台靠用户行为数据优化推荐算法, ...
2025-10-16在大模型从实验室走向生产环境的过程中,“稳定性” 是决定其能否实用的关键 —— 一个在单轮测试中表现优异的模型,若在高并发 ...
2025-10-15在机器学习入门领域,“鸢尾花数据集(Iris Dataset)” 是理解 “特征值” 与 “目标值” 的最佳案例 —— 它结构清晰、维度适 ...
2025-10-15在数据驱动的业务场景中,零散的指标(如 “GMV”“复购率”)就像 “散落的零件”,无法支撑系统性决策;而科学的指标体系,则 ...
2025-10-15在神经网络模型设计中,“隐藏层层数” 是决定模型能力与效率的核心参数之一 —— 层数过少,模型可能 “欠拟合”(无法捕捉数据 ...
2025-10-14在数字化浪潮中,数据分析师已成为企业 “从数据中挖掘价值” 的核心角色 —— 他们既要能从海量数据中提取有效信息,又要能将分 ...
2025-10-14在企业数据驱动的实践中,“指标混乱” 是最常见的痛点:运营部门说 “复购率 15%”,产品部门说 “复购率 8%”,实则是两者对 ...
2025-10-14在手游行业,“次日留存率” 是衡量一款游戏生死的 “第一道关卡”—— 它不仅反映了玩家对游戏的初始接受度,更直接决定了后续 ...
2025-10-13分库分表,为何而生? 在信息技术发展的早期阶段,数据量相对较小,业务逻辑也较为简单,单库单表的数据库架构就能够满足大多数 ...
2025-10-13在企业数字化转型过程中,“数据孤岛” 是普遍面临的痛点:用户数据散落在 APP 日志、注册系统、客服记录中,订单数据分散在交易 ...
2025-10-13在数字化时代,用户的每一次行为 —— 从电商平台的 “浏览→加购→购买”,到视频 APP 的 “打开→搜索→观看→收藏”,再到银 ...
2025-10-11