京公网安备 11010802034615号
经营许可证编号:京B2-20210330
大数据挖掘关键技术及其应用
首先,我介绍一下我掌握的大数据挖掘的核心技术;其次,我介绍一下我在做的三个项目。
这是我们当前大数据存在的误区:重视运用,轻视了大数据的处理技术;重视“大”,忽视数据的本质需求。
正如同石油一样,如果没有核心的开采、分解技术,是不能生产处汽油、柴油及各类工业用品的。
“IntelligencemultiplelinearregressionanalysisusingMapReduceprogrammingmode”这是我们做的第一个大数据预测算法,基于MapReduce编程模型。
Thenovelbigdataminingalgorithminclude3parts:
(1)multiplelinearregressionanalysis;
(2)SHC-PSOoptimizationapproach;
(3)MapReduceprogrammingmode.
主要包含三个部分:多元线性回归预测、PSO智能变体算法。另外就是基于MapReduce编程模型,目前应用在电影大数据分析领域。
“Intelligencew-k-meanclusteringalgorithmusingmapreduceprogrammingmode”这个是一个大数据聚类挖掘算法。
Thenovelbigdataminingalgorithminclude3parts:
(1)w-k-meanclusteringalgorithm;
(2)SHC-PSOapproach;
(3)MapReduceprogrammingmode;
其中,“w-k-meanclusteringalgorithm”是一个数据聚类算法变体。SHC-PSO是我提出的一个PSO算法变体,通过SHC-PSO来改进“w-k-meanclusteringalgorithm”,最后通过“MapReduceprogrammingmode”来实现并行计算。
考虑到MapReduce编程模型局限性,为进一步提升上述两个挖掘算法的性能,我们改进了MapReduce编程模型:
问题1:MapReduce编程模型怎么改进的?
回答1:主要是根据负载均衡来实现自适应分块,原来是64M,现在是通过负载均衡来自适应分块,各个数据块大小不一样。
上面是我在大数据挖掘领域的三个研究点,下面我来介绍一下三个项目。由于跟公司有协议,不能介绍的太详细。
1.影院行业大数据智能处理系统(这是第一个项目——国内某大型影视企业的委托项目)
本项目针对影院大数据的量大、多样、多变的特征,研究相应的高效大数据智能处理算法和问题模型,从而发现电影大数据的商业和社会价值;并基于此开发影院大数据的智能处理平台,在平台上实现一个综合应用大数据智能处理技术的影院示范应用,促进大数据处理技术的发展,推动影院大数据在票房预测、电影排产决策、影院排产预警等关键应用领域取得突破。
谷歌也发布了基于搜索大数据的票房预测报告,在影片上映前一个月预测,准确率高达94%。谷歌票房预测主要基于三个指标,一是预告片播放量,二是同系列电影此前几部的成绩,三是电影档期的季节特征。
所谓电影大数据分析,指通过收集整理各个方面的海量数据,对其进行分析和挖掘,进而从中获得有价值的信息,并指导公司经营、提高效益的一种新的商业模式。
我们对电影票房预测所用的数据:国内历史票房数据、互联网站影片点击、影片评分数据、互联网站影片的评论、搜索引擎影片搜索数量、微博与微信中的话题及活跃度,基于数据预测新上映影片在国内的整体票房,通过影片预售情况进行修正。
我们主要是通过多元线性回归算法和mapreduce编程模型来是实现,目前在中山大学软件学院私有云上进行了测试(云平台:16个节点服务器,有1、2台是坏的)。
2.面向大数据的海洋碳汇微生物资源库建设决策研究(第二个项目——广州市建设国家级科技思想库研究课题专项)
我国CO2排放量已超过美国成为世界第一排放大国,作为发展中国家,我们不能一味地硬性减排而牺牲经济发展。我们必须保障经济平稳较快发展,出路是增加CO2的吸收和储藏(碳汇),即“增汇”。“增汇”就是另一种形式的“减排”。
海洋是最大的碳库。研究海洋储碳机制,研发海洋碳汇,为我国应对全球气候变化提供科学依据,是国家急需。海洋占地球表面积71%,是地球上最大的“碳库”。生物圈中循环的碳有95%存在于海洋中,海洋中的碳储量是大气圈的50倍、生物圈的20倍。海洋有着巨大的“增汇”潜力。
(1)海洋碳汇功能微生物信息数据库构建;
(2)海洋碳汇微生物大数据私有云;
(3)海洋碳汇微生物大数据智能处理;
•海洋微型生物碳汇特性智能检测和预测
•分难降解产物细菌智能筛选
•尝试常规难于分离菌的智能分离
3.面向大数据的高校科研管理信息化及关键技术研究(第三个项目——广东省教育项目)
近年来,大数据引起了产业界、学术界以及政府部门的高度关注。高校作为我国科研创新的重要基地,科研信息化水平极大影响到高校创新事业的发展。目前我国高校科技管理信息化存在数据共享度比较低,科技产出数据零散不系统,数据的质量不理想,信息化数据的利用率低等问题。本项目研究了大数据的核心技术以及传统模式下的科研管理面临的挑战,并提出了面向大数据技术的科研管理信息化解决方案。
融合科研管理信息化的大数据关键技术:
(1)大数据样本选取策略;
(2)基于分布的大数据分治策略研究;
(3)大数据分类算法研究;
(4)大数据聚类算法研究;
(5)面向大数据的科研评估研究;
(6)面向大数据的项目立项决策研究;
(7)面向大数据的优化科研资源配置研究;
(8)面向大数据的科研项目的全过程管理研究;
(9)面向大数据的科研规划研究。
除了上述三个项目外,目前我们还在做大数据的可视化工作,我本人在上述三个项目中担任项目经理或主持人,我的汇报完毕,谢谢大家!希望大家提出指导意见!陶乾
问题2:陶博,就第二个应用是否可展开一下?
回答2:由于涉及合作方,按照合同规定,目前项目内容还不能介绍的很详细。请大家谅解!我介绍的第一个算:“multiplelinearregressionanalysis”——多元线性回归分析,是在标准的多元线性回归的基础上采用我提出的SHC-PSOoptimizationapproach来进行改进,主要是通过pso变体算法来计算多元线性回归参数,由于要处理大数据所以必须通过MapReduce来实现并行处理。
我们在该领域已经申请了专利:一种面向大数据的智能预测方法及系统。根据大数据预处理方法从异构的大数据源抽取和集成数据,在数据集成和提取时需要对数据进行清洗,保证数据质量;通过智能多元线性回归模型进行预测分析,并借助Mapreduce框架进行并行处理。
问题3:对比过粒子群算法与其他算法的效率情况如何?
回答3:粒子群算法(PSO算法)主要是用来改进多元线性回归的性能的,我们与传统的多元线性回归比较多,参数计算和评估更为合理,多元线性回归是一种很重要的预测方法。
问题4:舆情分析方面有什么应用?
回答4:通过大数据舆情分析,可以助力企业洞察商机社交媒体发展,可以企业了解市场竞争的行情,并协助企业制定相应的市场经营分析决策。舆情服务在进行行业规范和整合,关键还是要对舆情大数据进行有效分析,也就是要有高效、廉价的大数据分析方法。当然大数据的应用会带来生活等各方面根本性转变,但是必须建立在对大数据有效分析和处理的基础上,否则大数据就是死数据,正如同石油在我们脚下几千年也没有发现其科学价值。
问题5:你们申请的专利是中国还是国际的?批准了没有?
回答5:专利是国内的,是中科院负责处理。有网上抓的,有公司内部的,有些因为预处理很困难就直接在网上通过爬虫抓。“w-k-meanclusteringalgorithm”是“k-meanclusteringalgorithm”的变体。这个是黄哲学老师(我老师)提出的,我主要是SHC-PSO来改进了“w-k-meanclusteringalgorithm”性能并是实现了并行处理。
问题6:w是什么?
回答6:是权重。
问题7:SHC一PSO全名是什么?
回答7:SHC-PSOapproach是pso的变体算法,是我在13年新提出的一种高维混沌PSO算法。
问题8:难点在计算w吗?
回答8:w问题在08年应该解决了,关键是如何通过群体智能策略来改进聚类,两者都是早熟收敛的。
问题9:加权是针对feature的属性而改进。针对大数据也许存在计算效率问题,你的分布式计算实现可以深入讲讲。
回答9:是的,有效率问题。一般的k-mean并性处理比较简单,关键是算法效率问题。
问题10:另外聚类需要计算相似性/距离,对于heterogenous大数据需要妥善处理,你在实现中采用了什么措施?
回答10:MapReduce还是当前大数据处理的主要途径。我们主要还是在数据预处理上下功夫,不可能将很多问题带到挖掘算法中
数据分析咨询请扫描二维码
若不方便扫码,搜微信号:CDAshujufenxi
在数据处理的全流程中,数据呈现与数据分析是两个紧密关联却截然不同的核心环节。无论是科研数据整理、企业业务复盘,还是日常数 ...
2026-03-06在数据分析、数据预处理场景中,dat文件是一种常见的二进制或文本格式数据文件,广泛应用于科研数据、工程数据、传感器数据等领 ...
2026-03-06在数据驱动决策的时代,CDA(Certified Data Analyst)数据分析师的核心价值,早已超越单纯的数据清洗与统计分析,而是通过数据 ...
2026-03-06在教学管理、培训数据统计、课程体系搭建等场景中,经常需要对课时数据进行排序并实现累加计算——比如,按课程章节排序,累加各 ...
2026-03-05在数据分析场景中,环比是衡量数据短期波动的核心指标——它通过对比“当前周期与上一个相邻周期”的数据,直观反映指标的月度、 ...
2026-03-05数据治理是数字化时代企业实现数据价值最大化的核心前提,而CDA(Certified Data Analyst)数据分析师作为数据全生命周期的核心 ...
2026-03-05在实验检测、质量控制、科研验证等场景中,“方法验证”是确保检测/分析结果可靠、可复用的核心环节——无论是新开发的检测方法 ...
2026-03-04在数据分析、科研实验、办公统计等场景中,我们常常需要对比两组数据的整体差异——比如两种营销策略的销售额差异、两种实验方案 ...
2026-03-04在数字化转型进入深水区的今天,企业对数据的依赖程度日益加深,而数据治理体系则是企业实现数据规范化、高质量化、价值化的核心 ...
2026-03-04在深度学习,尤其是卷积神经网络(CNN)的实操中,转置卷积(Transposed Convolution)是一个高频应用的操作——它核心用于实现 ...
2026-03-03在日常办公、数据分析、金融理财、科研统计等场景中,我们经常需要计算“平均值”来概括一组数据的整体水平——比如计算月度平均 ...
2026-03-03在数字化转型的浪潮中,数据已成为企业最核心的战略资产,而数据治理则是激活这份资产价值的前提——没有规范、高质量的数据治理 ...
2026-03-03在Excel办公中,数据透视表是汇总、分析繁杂数据的核心工具,我们常常通过它快速得到销售额汇总、人员统计、业绩分析等关键结果 ...
2026-03-02在日常办公和数据分析中,我们常常需要探究两个或多个数据之间的关联关系——比如销售额与广告投入是否正相关、员工出勤率与绩效 ...
2026-03-02在数字化运营中,时间序列数据是CDA(Certified Data Analyst)数据分析师最常接触的数据类型之一——每日的营收、每小时的用户 ...
2026-03-02在日常办公中,数据透视表是Excel、WPS等表格工具中最常用的数据分析利器——它能快速汇总繁杂数据、挖掘数据关联、生成直观报表 ...
2026-02-28有限元法(Finite Element Method, FEM)作为工程数值模拟的核心工具,已广泛应用于机械制造、航空航天、土木工程、生物医学等多 ...
2026-02-28在数字化时代,“以用户为中心”已成为企业运营的核心逻辑,而用户画像则是企业读懂用户、精准服务用户的关键载体。CDA(Certifi ...
2026-02-28在Python面向对象编程(OOP)中,类方法是构建模块化、可复用代码的核心载体,也是实现封装、继承、多态特性的关键工具。无论是 ...
2026-02-27在MySQL数据库优化中,索引是提升查询效率的核心手段—— 面对千万级、亿级数据量,合理创建索引能将查询时间从秒级压缩到毫秒级 ...
2026-02-27