京公网安备 11010802034615号
经营许可证编号:京B2-20210330
Trifacta是一种提供数据分析服务的平台,最近获得了风险投资以推动其能使数据分析师更容易地做数据整理的工作。它的目标是能够比目前更快、更容易地收集、清理和转换数据。
数据整理(Data wrangling)一直是每个大数据项目中最耗费时间和最令人痛苦的部分。在我们这个时代,数据是流动的、异构的,作为数据源其属性会不断变化。 NoSQL数据库一直都尝试解答在存储方面是使用基于列式存储还是基于文档型存储,但问题依然是如何收集数据和应用其语义。
Trifacta以用户为中心的角度而不是以程序员的角度去解决问题。业务分析师和数据科学家将能使用可视化的方式去清洗数据集。基于伯克利分校和斯坦福大学的研究,该平台的目的是使员工和机器一起合作,以从数据集中提取数据。
使用可视化的方式我们可以从大数据集中自动化采样数据,这让分析师可以在很短的时间发现有趣的模式。Trifacta可以应用机器学习算法为重新组织信息和整理提供建议。大数据分析师可以将数据集分组为信息的逻辑部分,每次将其规范化,并在其工作过程中以友好的界面方式显示。归纳概括整个数据集合是最后一个步骤,这将最终形成半结构化的数据集并最终成形。该平台是在底层设计时考虑到用户的体验,让数据分析师能专注于数据的处理,而无需开发复杂的管道去清理数据和把它们放入数据仓库。
Trifacta的项目前身DataWrangler 和相关研究文章都可以在线获取并可以从中了解Trifacta是如何实现的,因为它们目前依然处于封闭的beta测试阶段,所以只能通过预约邀请的方式进行演示。
Trifacta Seeks to Simplify Data Wrangling-as-a-Service
Trifacta, a data analysis services platform, recently received VC investment to advance on their efforts of making data wrangling easier for data analysts. The goal is to collect, cleanse and munge data in a fraction of the time and effort it currently takes.
Data wrangling has traditionally been the most time consuming and painful part of every Big Data project. In our era, data is flowing, heterogeneous and constantly changing attributes as data sources are evolving. NoSQL databases have long tried to answer this question in the storage side by being column based or document based but the problem still remains in getting the data collected and applying semantics to it.
Trifacta is approaching the problem from a user centric perspective, instead of a developer one. Business analysts and data scientists will be able to cleanse datasets in a visual oriented way. Based on research at Berkeley and Stanford, the platform aims to make employees and machines collaborate together in extracting insights from datasets.
Automated smart sampling from big data sets together with visualization allows for the analyst to discover interesting patterns at a fraction of the time. Trifacta can then apply machine learning algorithms to suggest ways to reorganize information and get it into shape. The analyst can group the dataset into logical parts of information, normalizing it one step at a time and viewing the outcome in a user friendly way along its course of work. Generalizing in the whole dataset is the last step which turns the semi-structured dataset into shape. The platform is designed from ground up with user experience in mind to allow data analysts to shift in depth through data, without the need to develop complex pipelines to cleanse the data and bring them into the Data Warehouse.
Trifacta’s predecessor research project, DataWrangler and the research paper are available online and can give a sneak preview of what Trifacta is getting to, since they are still in a closed beta, only scheduling demos by invitation.
数据分析咨询请扫描二维码
若不方便扫码,搜微信号:CDAshujufenxi
在数字化时代,商业竞争的核心已从“经验驱动”转向“数据驱动”,越来越多的企业意识到,商业分析不是简单的数据统计与报表呈现 ...
2026-05-06在Excel数据透视表的实操中,“引用”是连接透视表与公式、辅助数据的核心操作,而相对引用作为最基础、最常用的引用方式,其设 ...
2026-05-06 很多数据分析师做过按月份的销售额趋势图,画过按天的流量折线图,但当被问到“时间序列和普通数据有什么本质区别”“季节性 ...
2026-05-06在Excel数据分析中,数据透视表是汇总、整理海量数据的高效工具,而公式则是实现数据二次计算、逻辑判断的核心功能。实际操作中 ...
2026-04-30Excel透视图是数据分析中不可或缺的工具,它能将透视表中的数据快速可视化,帮助我们直观捕捉数据规律、呈现分析结果。但在实际 ...
2026-04-30 很多数据分析师能熟练地计算指标、搭建标签体系,但当被问到“画像到底在解决什么问题”“画像和标签是什么关系”“画像如何 ...
2026-04-30在中介效应分析中,人口统计学变量(如年龄、性别、学历、收入、职业等)是常见的控制变量或调节变量,其处理方式直接影响分析结 ...
2026-04-29在SQL数据库实操中,日期数据的存储与显示是高频需求,而“数字日期”(如20240520、20241231、45321)是很多开发者、数据分析师 ...
2026-04-29 很多分析师在设计标签时思路清晰,但真到落地环节却面临“数据在手,不知如何转化为可用标签”的困境:或因加工方式选择不当 ...
2026-04-29在手游行业竞争日趋白热化的当下,“流量为王”早已升级为“留存为王”,而付费用户留存率更是衡量一款手游盈利能力、运营质量的 ...
2026-04-28在日常MySQL数据库运维与开发中,经常会遇到“同一台服务器上,两个不同数据库(以下简称“源库”“目标库”)的表数据需要保持 ...
2026-04-28 很多分析师每天和数据打交道,但当被问到“标签是什么”“标签和指标有什么区别”“标签体系如何设计”时,却常常答不上来。 ...
2026-04-28箱线图(Box Plot)作为一种经典的数据可视化工具,广泛应用于统计学、数据分析、科研实证等领域,核心价值在于直观呈现数据的集 ...
2026-04-27实证分析是社会科学、自然科学、经济管理等领域开展研究的核心范式,其核心逻辑是通过对多维度数据的收集、分析与解读,揭示变量 ...
2026-04-27 很多数据分析师精通Excel函数和数据透视表,但当被问到“数据从哪里来”“表和视图有什么区别”“数据库管理系统和SQL是什么 ...
2026-04-27在大数据技术飞速迭代、数字营销竞争日趋激烈的今天,“精准触达、高效转化、成本可控”已成为企业营销的核心诉求。传统广告投放 ...
2026-04-24在游戏行业竞争白热化的当下,用户流失已成为制约游戏生命周期、影响营收增长的核心痛点。据行业报告显示,2024年移动游戏平均次 ...
2026-04-24 很多业务负责人开会常说“我们要数据驱动”,最后却变成“看哪张报表数据多就用哪个”,往往因为缺乏一套结构性的方法去搭建 ...
2026-04-24在Power BI数据可视化分析中,切片器是连接用户与数据的核心交互工具,其核心价值在于帮助使用者快速筛选目标数据、聚焦分析重点 ...
2026-04-23以数为据,以析促优——数据分析结果指导临床技术改进的实践路径 临床技术是医疗服务的核心载体,其水平直接决定患者诊疗效果、 ...
2026-04-23