京公网安备 11010802034615号
经营许可证编号:京B2-20210330
在大数据时代中,如何更快地即时分析巨量数据,成为新的创业契机。来自台湾的团队「核桃运算MacroData」,从最底层的数据分析架构出发,耗费两年半的时间,研发出可分析不同资料属性,以及横跨各式硬体的资料分析引擎,比起现有的资料库来说,运算速度还要快50倍到100倍,今年下半年将正式走入市场。
令人意外的是,核桃运算一开始并非瞄準大数据商机。核桃运算的灵魂人物薛文蔚,是台大资工系第一届学生,毕业取得哥伦比亚大学资工博士学位后,先到华尔街工作两年,在1995年开始创业,开发教育平台。2000年回到台湾 ,在知名的软体公司Computer Associates负责亚洲地区的合资公司业务,随后在台湾成立供应链管理公司「联合通商eBizprise」,和在中国的子公司「eBizServe」。
2011年,薛文蔚遇到一个中国大陆大型零售商的供应链预测问题。当20万个品项、上万个通路,再加上要做100週的预测时,资料共有惊人的上百亿点,如此庞大的资料量,传统的资料库无法负荷。他发现市场空缺后,找来公司裡两位同事黄怡诚和赖育骏,一同成立研发团队。
虽然本来是从供应链管理的问题切入,但深入研究后薛文蔚却发现,这是大数据的问题。他解释,现在用的资料库技术都是1970年时提出的架构,很多理论是基于当时的假设,「但当底层条件已经改变时,我们不该再用过去的模式想事情。」于是团队从非常底层的架构重新思考,适合现在使用的运算模式是什么。
其中最大的差异是,过去资料运算时,需先从资料储存的地方如硬碟,搬到记忆体运算后,再把资料放回去。但现在的资料量早已是过去的好几千万倍,薛文蔚打个比方:「Data的成长就好像房价一样,Code的成长则好像薪水一样。」
如果沿用过去搬动资料的运算方式,大多时间都是花在「搬移」上,因此核桃运算主张透过不搬动的「in-place computing」运算方式,直接把程式送到资料的所在地运算,少了搬移动作,资料运算速度就会提昇很多。目前团队已申请四项美国专利,其中叁项已被核准。
比起现有的资料库运算方式,核桃运算共同创办人陈元贞解释,以目前知名的Hadoop来说,透过分散式运算,把1部机器要算的东西放到100部机器上算,虽能提升运算速度,但却不是每个公司都能负担的起部建分散式运算系统。
若是非关联式的NoSQL资料库,数据存储没有一定的模式架构,虽然速度可以变快,但也因为不需固定模式,当要做两者的比较分析或资料採矿就有些困难。若是传统的MySQL资料库,更是无法负荷现在庞大的资料量。
从2011年下半年先在母公司联合通商旗下成立团队开始,众人花了两年半时间研发,终于在今年推出产品「Big Object」,团队也在今年2月从母公司独立。Big Object主要运行在64 bit的装置上,因为採用「in-place computing」,最大优势就是快,运算速度可快50倍至100倍,因此可做到当下的即时分析。
此外,Big Object也能分析异质性资料,不只企业本身的商务资料,也能结合open data和非结构性资料,像是零售业者可和天气预测或脸书贴文交叉比对。「就像冰山一样,本来你只看到交易资料,可是更多的是你没有看到水面底下的资料,」陈元贞说。
也因为Big Object是很轻巧的资料运算引擎,在未来物联网时代,小至眼镜、手錶,大到汽车、冰箱,每个装置都能成为分析资料的机器,因此这些装置也都可以嵌入Big Object的分析引擎,根据数据做出最优化的预测或行动,如调整车速、冰箱温度等。
Big Object主要针对BI产品(Business Intelligence,从数据分析中挖掘商业价值)或LOG分析的软体开发商,可直接将Big Object嵌入在软体裡,收入以授权年费为主。目前核桃运算已有些试用客户,像是在台湾就已和神坊资讯旗下的购物网站合作,透过Big Object计算商品间的相关性,进而做出即时的购物推荐。
产品到位后,今年下半年Big Object将开始走入市场,目前处于客户开发阶段。陈元贞表示,由于这类应用主要在美国市场居多,因此今年3月团队也在美国註册公司,预计今年在台湾和美国都要各自招募十人团队,未来台湾负责研发,美国则负责业务。
核桃运算四位共同创办人,从左至右为赖育骏、薛文蔚、黄怡诚和陈元贞
【创业教我的事】找出自己的定位,在过程中随时保有自己的判断,尤其是对产品和市场策略的看法。
Q1. 希望提供这个社会什么价值? 最主要是提供一个快速又可负担的分析引擎,帮助资料分析者或商业决策者,发掘出隐含在大量资料背后的资讯。
Q2. 长远来看,贵公司想成为何种类型的公司?
我们希望做到「资料处理界的Intel」,未来软体内可以搭载BigObject的运算核心,不管是CRM、ERP、BI或是Log分析软体,都能透过BigObject的即时分析而有更优化的软体功能。
本文来源:CDA数据分析师培训官网
数据分析咨询请扫描二维码
若不方便扫码,搜微信号:CDAshujufenxi
长短期记忆网络(LSTM)作为循环神经网络(RNN)的重要改进模型,凭借其独特的门控机制(遗忘门、输入门、输出门),有效解决了 ...
2026-04-08在数据分析全流程中,数据质量是决定分析结论可靠性的核心前提,而异常值作为数据集中的“异类”,往往会干扰统计检验、模型训练 ...
2026-04-08在数字经济飞速发展的今天,数据已渗透到各行各业的核心场景,成为解读趋势、优化决策、创造价值的核心载体。而数据分析,作为挖 ...
2026-04-08在数据分析全流程中,数据处理是基础,图形可视化是核心呈现手段——前者负责将杂乱无章的原始数据转化为干净、规范、可分析的格 ...
2026-04-07在数据分析与统计推断中,p值是衡量假设检验结果显著性的核心指标,其本质是在原假设(通常为“无效应”“无差异”)成立的前提 ...
2026-04-07在数字经济深度渗透的今天,数据已成为企业生存发展的核心资产,企业的竞争本质已转变为数据利用能力的竞争。然而,大量来自生产 ...
2026-04-07Python凭借简洁的语法、丰富的生态库,成为算法开发、数据处理、机器学习等领域的首选语言。但受限于动态类型、解释性执行的特性 ...
2026-04-03在深度学习神经网络中,卷积操作是实现数据特征提取的核心引擎,更是让模型“看懂”数据、“解读”数据的关键所在。不同于传统机 ...
2026-04-03当数字化转型从企业的“战略口号”落地为“生存之战”,越来越多的企业意识到,转型的核心并非技术的堆砌,而是数据价值的深度挖 ...
2026-04-03在日常办公数据分析中,数据透视表凭借高效的汇总、分组功能,成为Excel、WPS等办公软件中最常用的数据分析工具之一。其中,“计 ...
2026-04-02在数字化交互的全场景中,用户的每一次操作都在生成动态的行为轨迹——电商用户的“浏览商品→点击详情→加入购物车”,内容APP ...
2026-04-02在数字化转型深度推进的今天,企业数据已成为驱动业务增长、构建核心竞争力的战略资产,而数据安全则是守护这份资产的“生命线” ...
2026-04-02在数据驱动决策的浪潮中,数据挖掘与数据分析是两个高频出现且极易被混淆的概念。有人将二者等同看待,认为“做数据分析就是做数 ...
2026-04-01在数据驱动决策的时代,企业与从业者每天都会面对海量数据——电商平台的用户行为数据、金融机构的信贷风险数据、快消品牌的营销 ...
2026-04-01在数字化转型的浪潮中,企业数据已从“辅助运营的附属资源”升级为“驱动增长的核心资产”,而一套科学、可落地的企业数据管理方 ...
2026-04-01在数字化时代,每一位用户与产品的交互都会留下可追溯的行为轨迹——电商用户的浏览、加购、下单,APP用户的注册、登录、功能使 ...
2026-03-31在日常数据统计、市场调研、学术分析等场景中,我们常常需要判断两个分类变量之间是否存在关联(如性别与消费偏好、产品类型与满 ...
2026-03-31在CDA(Certified Data Analyst)数据分析师的职场实战与认证考核中,“可解释性建模”是核心需求之一——企业决策中,不仅需要 ...
2026-03-31多层感知机(MLP,Multilayer Perceptron)作为深度学习中最基础、最经典的神经网络模型,其结构设计直接决定了模型的拟合能力、 ...
2026-03-30在TensorFlow深度学习实战中,数据集的加载与预处理是基础且关键的第一步。手动下载、解压、解析数据集不仅耗时费力,还容易出现 ...
2026-03-30