
在大数据时代中,如何更快地即时分析巨量数据,成为新的创业契机。来自台湾的团队「核桃运算MacroData」,从最底层的数据分析架构出发,耗费两年半的时间,研发出可分析不同资料属性,以及横跨各式硬体的资料分析引擎,比起现有的资料库来说,运算速度还要快50倍到100倍,今年下半年将正式走入市场。
令人意外的是,核桃运算一开始并非瞄準大数据商机。核桃运算的灵魂人物薛文蔚,是台大资工系第一届学生,毕业取得哥伦比亚大学资工博士学位后,先到华尔街工作两年,在1995年开始创业,开发教育平台。2000年回到台湾 ,在知名的软体公司Computer Associates负责亚洲地区的合资公司业务,随后在台湾成立供应链管理公司「联合通商eBizprise」,和在中国的子公司「eBizServe」。
2011年,薛文蔚遇到一个中国大陆大型零售商的供应链预测问题。当20万个品项、上万个通路,再加上要做100週的预测时,资料共有惊人的上百亿点,如此庞大的资料量,传统的资料库无法负荷。他发现市场空缺后,找来公司裡两位同事黄怡诚和赖育骏,一同成立研发团队。
虽然本来是从供应链管理的问题切入,但深入研究后薛文蔚却发现,这是大数据的问题。他解释,现在用的资料库技术都是1970年时提出的架构,很多理论是基于当时的假设,「但当底层条件已经改变时,我们不该再用过去的模式想事情。」于是团队从非常底层的架构重新思考,适合现在使用的运算模式是什么。
其中最大的差异是,过去资料运算时,需先从资料储存的地方如硬碟,搬到记忆体运算后,再把资料放回去。但现在的资料量早已是过去的好几千万倍,薛文蔚打个比方:「Data的成长就好像房价一样,Code的成长则好像薪水一样。」
如果沿用过去搬动资料的运算方式,大多时间都是花在「搬移」上,因此核桃运算主张透过不搬动的「in-place computing」运算方式,直接把程式送到资料的所在地运算,少了搬移动作,资料运算速度就会提昇很多。目前团队已申请四项美国专利,其中叁项已被核准。
比起现有的资料库运算方式,核桃运算共同创办人陈元贞解释,以目前知名的Hadoop来说,透过分散式运算,把1部机器要算的东西放到100部机器上算,虽能提升运算速度,但却不是每个公司都能负担的起部建分散式运算系统。
若是非关联式的NoSQL资料库,数据存储没有一定的模式架构,虽然速度可以变快,但也因为不需固定模式,当要做两者的比较分析或资料採矿就有些困难。若是传统的MySQL资料库,更是无法负荷现在庞大的资料量。
从2011年下半年先在母公司联合通商旗下成立团队开始,众人花了两年半时间研发,终于在今年推出产品「Big Object」,团队也在今年2月从母公司独立。Big Object主要运行在64 bit的装置上,因为採用「in-place computing」,最大优势就是快,运算速度可快50倍至100倍,因此可做到当下的即时分析。
此外,Big Object也能分析异质性资料,不只企业本身的商务资料,也能结合open data和非结构性资料,像是零售业者可和天气预测或脸书贴文交叉比对。「就像冰山一样,本来你只看到交易资料,可是更多的是你没有看到水面底下的资料,」陈元贞说。
也因为Big Object是很轻巧的资料运算引擎,在未来物联网时代,小至眼镜、手錶,大到汽车、冰箱,每个装置都能成为分析资料的机器,因此这些装置也都可以嵌入Big Object的分析引擎,根据数据做出最优化的预测或行动,如调整车速、冰箱温度等。
Big Object主要针对BI产品(Business Intelligence,从数据分析中挖掘商业价值)或LOG分析的软体开发商,可直接将Big Object嵌入在软体裡,收入以授权年费为主。目前核桃运算已有些试用客户,像是在台湾就已和神坊资讯旗下的购物网站合作,透过Big Object计算商品间的相关性,进而做出即时的购物推荐。
产品到位后,今年下半年Big Object将开始走入市场,目前处于客户开发阶段。陈元贞表示,由于这类应用主要在美国市场居多,因此今年3月团队也在美国註册公司,预计今年在台湾和美国都要各自招募十人团队,未来台湾负责研发,美国则负责业务。
核桃运算四位共同创办人,从左至右为赖育骏、薛文蔚、黄怡诚和陈元贞
【创业教我的事】找出自己的定位,在过程中随时保有自己的判断,尤其是对产品和市场策略的看法。
Q1. 希望提供这个社会什么价值? 最主要是提供一个快速又可负担的分析引擎,帮助资料分析者或商业决策者,发掘出隐含在大量资料背后的资讯。
Q2. 长远来看,贵公司想成为何种类型的公司?
我们希望做到「资料处理界的Intel」,未来软体内可以搭载BigObject的运算核心,不管是CRM、ERP、BI或是Log分析软体,都能透过BigObject的即时分析而有更优化的软体功能。
本文来源:CDA数据分析师培训官网
数据分析咨询请扫描二维码
若不方便扫码,搜微信号:CDAshujufenxi
2025 年,数据如同数字时代的 DNA,编码着人类社会的未来图景,驱动着商业时代的运转。从全球互联网用户每天产生的2.5亿TB数据, ...
2025-06-052025 年,数据如同数字时代的 DNA,编码着人类社会的未来图景,驱动着商业时代的运转。从全球互联网用户每天产生的2.5亿TB数据, ...
2025-05-27CDA数据分析师证书考试体系(更新于2025年05月22日)
2025-05-26解码数据基因:从数字敏感度到逻辑思维 每当看到超市货架上商品的排列变化,你是否会联想到背后的销售数据波动?三年前在零售行 ...
2025-05-23在本文中,我们将探讨 AI 为何能够加速数据分析、如何在每个步骤中实现数据分析自动化以及使用哪些工具。 数据分析中的AI是什么 ...
2025-05-20当数据遇见人生:我的第一个分析项目 记得三年前接手第一个数据分析项目时,我面对Excel里密密麻麻的销售数据手足无措。那些跳动 ...
2025-05-20在数字化运营的时代,企业每天都在产生海量数据:用户点击行为、商品销售记录、广告投放反馈…… 这些数据就像散落的拼图,而相 ...
2025-05-19在当今数字化营销时代,小红书作为国内领先的社交电商平台,其销售数据蕴含着巨大的商业价值。通过对小红书销售数据的深入分析, ...
2025-05-16Excel作为最常用的数据分析工具,有没有什么工具可以帮助我们快速地使用excel表格,只要轻松几步甚至输入几项指令就能搞定呢? ...
2025-05-15数据,如同无形的燃料,驱动着现代社会的运转。从全球互联网用户每天产生的2.5亿TB数据,到制造业的传感器、金融交易 ...
2025-05-15大数据是什么_数据分析师培训 其实,现在的大数据指的并不仅仅是海量数据,更准确而言是对大数据分析的方法。传统的数 ...
2025-05-14CDA持证人简介: 万木,CDA L1持证人,某电商中厂BI工程师 ,5年数据经验1年BI内训师,高级数据分析师,拥有丰富的行业经验。 ...
2025-05-13CDA持证人简介: 王明月 ,CDA 数据分析师二级持证人,2年数据产品工作经验,管理学博士在读。 学习入口:https://edu.cda.cn/g ...
2025-05-12CDA持证人简介: 杨贞玺 ,CDA一级持证人,郑州大学情报学硕士研究生,某上市公司数据分析师。 学习入口:https://edu.cda.cn/g ...
2025-05-09CDA持证人简介 程靖 CDA会员大咖,畅销书《小白学产品》作者,13年顶级互联网公司产品经理相关经验,曾在百度、美团、阿里等 ...
2025-05-07相信很多做数据分析的小伙伴,都接到过一些高阶的数据分析需求,实现的过程需要用到一些数据获取,数据清洗转换,建模方法等,这 ...
2025-05-06以下的文章内容来源于刘静老师的专栏,如果您想阅读专栏《10大业务分析模型突破业务瓶颈》,点击下方链接 https://edu.cda.cn/g ...
2025-04-30CDA持证人简介: 邱立峰 CDA 数据分析师二级持证人,数字化转型专家,数据治理专家,高级数据分析师,拥有丰富的行业经验。 ...
2025-04-29CDA持证人简介: 程靖 CDA会员大咖,畅销书《小白学产品》作者,13年顶级互联网公司产品经理相关经验,曾在百度,美团,阿里等 ...
2025-04-28CDA持证人简介: 居瑜 ,CDA一级持证人国企财务经理,13年财务管理运营经验,在数据分析就业和实践经验方面有着丰富的积累和经 ...
2025-04-27