京公网安备 11010802034615号
经营许可证编号:京B2-20210330
大数据挖掘关键技术及其应用
首先,我介绍一下我掌握的大数据挖掘的核心技术;其次,我介绍一下我在做的三个项目。
这是我们当前大数据存在的误区:重视运用,轻视了大数据的处理技术;重视“大”,忽视数据的本质需求。
正如同石油一样,如果没有核心的开采、分解技术,是不能生产处汽油、柴油及各类工业用品的。
“IntelligencemultiplelinearregressionanalysisusingMapReduceprogrammingmode”这是我们做的第一个大数据预测算法,基于MapReduce编程模型。
Thenovelbigdataminingalgorithminclude3parts:
(1)multiplelinearregressionanalysis;
(2)SHC-PSOoptimizationapproach;
(3)MapReduceprogrammingmode.
主要包含三个部分:多元线性回归预测、PSO智能变体算法。另外就是基于MapReduce编程模型,目前应用在电影大数据分析领域。
“Intelligencew-k-meanclusteringalgorithmusingmapreduceprogrammingmode”这个是一个大数据聚类挖掘算法。
Thenovelbigdataminingalgorithminclude3parts:
(1)w-k-meanclusteringalgorithm;
(2)SHC-PSOapproach;
(3)MapReduceprogrammingmode;
其中,“w-k-meanclusteringalgorithm”是一个数据聚类算法变体。SHC-PSO是我提出的一个PSO算法变体,通过SHC-PSO来改进“w-k-meanclusteringalgorithm”,最后通过“MapReduceprogrammingmode”来实现并行计算。
考虑到MapReduce编程模型局限性,为进一步提升上述两个挖掘算法的性能,我们改进了MapReduce编程模型:
问题1:MapReduce编程模型怎么改进的?
回答1:主要是根据负载均衡来实现自适应分块,原来是64M,现在是通过负载均衡来自适应分块,各个数据块大小不一样。
上面是我在大数据挖掘领域的三个研究点,下面我来介绍一下三个项目。由于跟公司有协议,不能介绍的太详细。
1.影院行业大数据智能处理系统(这是第一个项目——国内某大型影视企业的委托项目)
本项目针对影院大数据的量大、多样、多变的特征,研究相应的高效大数据智能处理算法和问题模型,从而发现电影大数据的商业和社会价值;并基于此开发影院大数据的智能处理平台,在平台上实现一个综合应用大数据智能处理技术的影院示范应用,促进大数据处理技术的发展,推动影院大数据在票房预测、电影排产决策、影院排产预警等关键应用领域取得突破。
谷歌也发布了基于搜索大数据的票房预测报告,在影片上映前一个月预测,准确率高达94%。谷歌票房预测主要基于三个指标,一是预告片播放量,二是同系列电影此前几部的成绩,三是电影档期的季节特征。
所谓电影大数据分析,指通过收集整理各个方面的海量数据,对其进行分析和挖掘,进而从中获得有价值的信息,并指导公司经营、提高效益的一种新的商业模式。
我们对电影票房预测所用的数据:国内历史票房数据、互联网站影片点击、影片评分数据、互联网站影片的评论、搜索引擎影片搜索数量、微博与微信中的话题及活跃度,基于数据预测新上映影片在国内的整体票房,通过影片预售情况进行修正。
我们主要是通过多元线性回归算法和mapreduce编程模型来是实现,目前在中山大学软件学院私有云上进行了测试(云平台:16个节点服务器,有1、2台是坏的)。
2.面向大数据的海洋碳汇微生物资源库建设决策研究(第二个项目——广州市建设国家级科技思想库研究课题专项)
我国CO2排放量已超过美国成为世界第一排放大国,作为发展中国家,我们不能一味地硬性减排而牺牲经济发展。我们必须保障经济平稳较快发展,出路是增加CO2的吸收和储藏(碳汇),即“增汇”。“增汇”就是另一种形式的“减排”。
海洋是最大的碳库。研究海洋储碳机制,研发海洋碳汇,为我国应对全球气候变化提供科学依据,是国家急需。海洋占地球表面积71%,是地球上最大的“碳库”。生物圈中循环的碳有95%存在于海洋中,海洋中的碳储量是大气圈的50倍、生物圈的20倍。海洋有着巨大的“增汇”潜力。
(1)海洋碳汇功能微生物信息数据库构建;
(2)海洋碳汇微生物大数据私有云;
(3)海洋碳汇微生物大数据智能处理;
•海洋微型生物碳汇特性智能检测和预测
•分难降解产物细菌智能筛选
•尝试常规难于分离菌的智能分离
3.面向大数据的高校科研管理信息化及关键技术研究(第三个项目——广东省教育项目)
近年来,大数据引起了产业界、学术界以及政府部门的高度关注。高校作为我国科研创新的重要基地,科研信息化水平极大影响到高校创新事业的发展。目前我国高校科技管理信息化存在数据共享度比较低,科技产出数据零散不系统,数据的质量不理想,信息化数据的利用率低等问题。本项目研究了大数据的核心技术以及传统模式下的科研管理面临的挑战,并提出了面向大数据技术的科研管理信息化解决方案。
融合科研管理信息化的大数据关键技术:
(1)大数据样本选取策略;
(2)基于分布的大数据分治策略研究;
(3)大数据分类算法研究;
(4)大数据聚类算法研究;
(5)面向大数据的科研评估研究;
(6)面向大数据的项目立项决策研究;
(7)面向大数据的优化科研资源配置研究;
(8)面向大数据的科研项目的全过程管理研究;
(9)面向大数据的科研规划研究。
除了上述三个项目外,目前我们还在做大数据的可视化工作,我本人在上述三个项目中担任项目经理或主持人,我的汇报完毕,谢谢大家!希望大家提出指导意见!陶乾
问题2:陶博,就第二个应用是否可展开一下?
回答2:由于涉及合作方,按照合同规定,目前项目内容还不能介绍的很详细。请大家谅解!我介绍的第一个算:“multiplelinearregressionanalysis”——多元线性回归分析,是在标准的多元线性回归的基础上采用我提出的SHC-PSOoptimizationapproach来进行改进,主要是通过pso变体算法来计算多元线性回归参数,由于要处理大数据所以必须通过MapReduce来实现并行处理。
我们在该领域已经申请了专利:一种面向大数据的智能预测方法及系统。根据大数据预处理方法从异构的大数据源抽取和集成数据,在数据集成和提取时需要对数据进行清洗,保证数据质量;通过智能多元线性回归模型进行预测分析,并借助Mapreduce框架进行并行处理。
问题3:对比过粒子群算法与其他算法的效率情况如何?
回答3:粒子群算法(PSO算法)主要是用来改进多元线性回归的性能的,我们与传统的多元线性回归比较多,参数计算和评估更为合理,多元线性回归是一种很重要的预测方法。
问题4:舆情分析方面有什么应用?
回答4:通过大数据舆情分析,可以助力企业洞察商机社交媒体发展,可以企业了解市场竞争的行情,并协助企业制定相应的市场经营分析决策。舆情服务在进行行业规范和整合,关键还是要对舆情大数据进行有效分析,也就是要有高效、廉价的大数据分析方法。当然大数据的应用会带来生活等各方面根本性转变,但是必须建立在对大数据有效分析和处理的基础上,否则大数据就是死数据,正如同石油在我们脚下几千年也没有发现其科学价值。
问题5:你们申请的专利是中国还是国际的?批准了没有?
回答5:专利是国内的,是中科院负责处理。有网上抓的,有公司内部的,有些因为预处理很困难就直接在网上通过爬虫抓。“w-k-meanclusteringalgorithm”是“k-meanclusteringalgorithm”的变体。这个是黄哲学老师(我老师)提出的,我主要是SHC-PSO来改进了“w-k-meanclusteringalgorithm”性能并是实现了并行处理。
问题6:w是什么?
回答6:是权重。
问题7:SHC一PSO全名是什么?
回答7:SHC-PSOapproach是pso的变体算法,是我在13年新提出的一种高维混沌PSO算法。
问题8:难点在计算w吗?
回答8:w问题在08年应该解决了,关键是如何通过群体智能策略来改进聚类,两者都是早熟收敛的。
问题9:加权是针对feature的属性而改进。针对大数据也许存在计算效率问题,你的分布式计算实现可以深入讲讲。
回答9:是的,有效率问题。一般的k-mean并性处理比较简单,关键是算法效率问题。
问题10:另外聚类需要计算相似性/距离,对于heterogenous大数据需要妥善处理,你在实现中采用了什么措施?
回答10:MapReduce还是当前大数据处理的主要途径。我们主要还是在数据预处理上下功夫,不可能将很多问题带到挖掘算法中
数据分析咨询请扫描二维码
若不方便扫码,搜微信号:CDAshujufenxi
在神经网络模型搭建中,“最后一层是否添加激活函数”是新手常困惑的关键问题——有人照搬中间层的ReLU激活,导致回归任务输出异 ...
2025-12-05在机器学习落地过程中,“模型准确率高但不可解释”“面对数据噪声就失效”是两大核心痛点——金融风控模型若无法解释决策依据, ...
2025-12-05在CDA(Certified Data Analyst)数据分析师的能力模型中,“指标计算”是基础技能,而“指标体系搭建”则是区分新手与资深分析 ...
2025-12-05在回归分析的结果解读中,R方(决定系数)是衡量模型拟合效果的核心指标——它代表因变量的变异中能被自变量解释的比例,取值通 ...
2025-12-04在城市规划、物流配送、文旅分析等场景中,经纬度热力图是解读空间数据的核心工具——它能将零散的GPS坐标(如外卖订单地址、景 ...
2025-12-04在CDA(Certified Data Analyst)数据分析师的指标体系中,“通用指标”与“场景指标”并非相互割裂的两个部分,而是支撑业务分 ...
2025-12-04每到“双十一”,电商平台的销售额会迎来爆发式增长;每逢冬季,北方的天然气消耗量会显著上升;每月的10号左右,工资发放会带动 ...
2025-12-03随着数字化转型的深入,企业面临的数据量呈指数级增长——电商的用户行为日志、物联网的传感器数据、社交平台的图文视频等,这些 ...
2025-12-03在CDA(Certified Data Analyst)数据分析师的工作体系中,“指标”是贯穿始终的核心载体——从“销售额环比增长15%”的业务结论 ...
2025-12-03在神经网络训练中,损失函数的数值变化常被视为模型训练效果的“核心仪表盘”——初学者盯着屏幕上不断下降的损失值满心欢喜,却 ...
2025-12-02在CDA(Certified Data Analyst)数据分析师的日常工作中,“用部分数据推断整体情况”是高频需求——从10万条订单样本中判断全 ...
2025-12-02在数据预处理的纲量统一环节,标准化是消除量纲影响的核心手段——它将不同量级的特征(如“用户年龄”“消费金额”)转化为同一 ...
2025-12-02在数据驱动决策成为企业核心竞争力的今天,A/B测试已从“可选优化工具”升级为“必选验证体系”。它通过控制变量法构建“平行实 ...
2025-12-01在时间序列预测任务中,LSTM(长短期记忆网络)凭借对时序依赖关系的捕捉能力成为主流模型。但很多开发者在实操中会遇到困惑:用 ...
2025-12-01引言:数据时代的“透视镜”与“掘金者” 在数字经济浪潮下,数据已成为企业决策的核心资产,而CDA数据分析师正是挖掘数据价值的 ...
2025-12-01数据分析师的日常,常始于一堆“毫无章法”的数据点:电商后台导出的零散订单记录、APP埋点收集的无序用户行为日志、传感器实时 ...
2025-11-28在MySQL数据库运维中,“query end”是查询执行生命周期的收尾阶段,理论上耗时极短——主要完成结果集封装、资源释放、事务状态 ...
2025-11-28在CDA(Certified Data Analyst)数据分析师的工具包中,透视分析方法是处理表结构数据的“瑞士军刀”——无需复杂代码,仅通过 ...
2025-11-28在统计分析中,数据的分布形态是决定“用什么方法分析、信什么结果”的底层逻辑——它如同数据的“性格”,直接影响着描述统计的 ...
2025-11-27在电商订单查询、用户信息导出等业务场景中,技术人员常面临一个选择:是一次性查询500条数据,还是分5次每次查询100条?这个问 ...
2025-11-27