京公网安备 11010802034615号
经营许可证编号:京B2-20210330
从小数据到大数据分析应用
数据整理是数据分析过程中最重要的环节,在大数据分析过程中也是如此。在小数据时代,数据整理包括数据的清洗、数据转换、归类编码和数字编码等过程,其中数据清洗占据最重要的位置,就是检查数据一致性,处理无效值和缺失值等操作。在大数据时代,这些工作被弱化了,在有些大数据的算法和应用中,基本不再进行数据清洗了,因为大数据的多样化使得其数据具有一定的不精确性。但数据转换和编码过程还是需要的。下面以大数据分析中文本分类的例子,来分析大数据整理的过程。
在本例中,以mahout为大数据分析软件,文本分类算法选用朴素贝叶斯算法(new bayes),分类对象是来自不同类别的新闻数据。
当我们使用网页爬虫,每小时源源不断的从多个不同类别的新闻网站上取得数据时,取得的这些数据都是文本数据,也就是非结构化数据,这些数据是不需要进行数据清洗过程,但它们在进入到mahout实现的朴素贝叶斯算法时,需要进行必要的数据转换。该转换主要分两个步骤:
1.数据系列化
由于取得的大量的文本数据集中,每个新闻占一个文档,共有无数个小的文件,由于Mahout运行在Hadoop的HDFS上,HDFS是为大文件设计的。如果我们把这些无穷多个小文件都拷贝上去,这样是非常不合适。试想:假设对1000万篇新闻进行分类,难道要拷贝1000w个文件么?这样会使HDFS中运行name node节点的终端崩溃掉。
因此,Mahout采用SequenceFile作为其基本的数据交换格式。其思路是:通过调用mahout内置的解析器,扫描所有目录和文件,并把每个文件都转成单行文本,以目录名开头,跟着是文档出现的所有单词,这样就把无穷多个小文件,转换成一个系列化的大文件。然后把这个大文件,再上传到HDFS上,就可以充分发挥HDFS分布式文件系统的优势。当然,这个转换过程由mahout的内置工具完成,而大数据分析师这个时候只需要把所有的新闻按文件夹分好类放置好,同时运行mahout内置的解析器命令就可以了。
2.文本内容向量化
简单地说就是把文本内容中的每个单词(去除一些连接词后)转换成数据,复杂地说就是进行向量空间模型化(VSM)。该过程使每个单词都有一个编号,这个编号是就它在文档向量所拥有的维度。这个工作在mahout中实现时,大数据分析师也只需要执行其中的一个命令,就可以轻松地实现文本内容的向量化。
有了这些被向量化的数据,再通过mahout的朴素贝叶斯算法,我们就可以对计算机训练出一套规则,根据这个规则,机器就可以对后续收集的新闻数据进行自动的分类了。
从上述文本分类的大数据整理过程可以看出,大数据时代的数据整理过程不再强调数据的精确性,而强调的是对非结构化数据的数量化。当然,不同的大数据分析应用使用的算法也不一样,其数据整理过程也不太一样,但从总体上看,大数据分析的数据整理区别于小数据时代的精确性,而变得更粗放一些。
数据分析咨询请扫描二维码
若不方便扫码,搜微信号:CDAshujufenxi
【核心关键词】贷款、报表、课程、专业、建模、缺失值、营销、互联网、银行、办公自动化、数据分析、数据预处理、特征工程、贷 ...
2026-06-05在数据库数据查询、业务报表统计、多表关联分析中,LEFT JOIN左连接是使用率最高的SQL关联查询语句。其核心特性是保留左表全部数 ...
2026-06-05 很多数据分析师能熟练地写SQL、做透视表、算描述性统计,但当被问到“如何预测用户流失概率”“如何归因销量下滑的关键因素 ...
2026-06-05任何一款产品从诞生、普及到最终退出市场,都会遵循一套固定的发展规律,这就是产品生命周期理论。在市场竞争日益激烈、产品迭代 ...
2026-06-04在Excel数据分析、办公统计、业务报表制作场景中,数据透视表是数据汇总、分类统计、快速复盘的核心工具,能够高效完成海量原始 ...
2026-06-04 很多数据分析师拿到数据就开始清洗、建模,但当被问到“这批数据属于什么类型——结构化还是非结构化?分类变量还是数值变量 ...
2026-06-04在问卷调查与社会科学数据分析中,卡方检验是最常用、最基础的非参数检验方法,广泛应用于市场调研、用户分析、行为统计、满意度 ...
2026-06-03【核心关键词】贷款、报表、课程、专业、建模、缺失值、营销、互联网、银行、办公自动化、数据分析、数据预处理、特征工程、贷 ...
2026-06-03 很多数据分析师画过趋势图、做过业绩预测,但当被问到“这个月销售额增长20%,到底是长期趋势自然增长,还是促销活动的短期 ...
2026-06-03逻辑回归是数据分析、机器学习、统计建模中应用最广泛的二分类预测模型,常用于风险判断、行为预测、归因分析等场景。在SPSS、Py ...
2026-06-02数字经济时代,市场竞争日趋同质化,用户消费需求愈发个性化、多元化,传统依托经验、粗放式、广撒网的营销模式弊端日益凸显。长 ...
2026-06-02 很多数据分析师做过按月份的销售额趋势图,画过按天的流量折线图,但当被问到“时间序列和普通数据有什么本质区别”“季节性 ...
2026-06-02在市场竞争日趋饱和、用户需求不断细分的当下,企业创业创新、产品迭代与市场拓展不再依赖经验决策,而是需要系统化、工具化的商 ...
2026-06-01【核心关键词】调度、岗位、数据库、企业、报表、培训、程序、数据分析、数据加工、业务部门、企业数据、调度工具、业务指标、 ...
2026-06-01 很多数据分析师能熟练地计算指标、搭建标签体系,但当被问到“画像到底在解决什么问题”“画像和标签是什么关系”“画像如何 ...
2026-06-01在数据统计分析、数据清洗、异常值识别与数据分布研究中,箱型图是最直观、高效、专业的可视化分析工具。相较于柱状图、折线图仅 ...
2026-05-29Tkinter是Python内置的标准GUI图形界面库,具备无需额外安装、调用简单、兼容性强、轻量化高效等优势,是Python快速开发桌面小程 ...
2026-05-29 很多分析师在设计标签时思路清晰,但真到落地环节却面临“数据在手,不知如何转化为可用标签”的困境:或因加工方式选择不当 ...
2026-05-29【核心关键词】大数据、经理、专业、金融、客户、传统、建模、数据产品、互联网金融、产品经理、数据分析、金融行业、数据模型 ...
2026-05-28 很多分析师每天和数据打交道,但当被问到“标签是什么”“标签和指标有什么区别”“标签体系如何设计”时,却常常答不上来。 ...
2026-05-28