
在大数据时代中,如何更快地即时分析巨量数据,成为新的创业契机。来自台湾的团队「核桃运算MacroData」,从最底层的数据分析架构出发,耗费两年半的时间,研发出可分析不同资料属性,以及横跨各式硬体的资料分析引擎,比起现有的资料库来说,运算速度还要快50倍到100倍,今年下半年将正式走入市场。
令人意外的是,核桃运算一开始并非瞄準大数据商机。核桃运算的灵魂人物薛文蔚,是台大资工系第一届学生,毕业取得哥伦比亚大学资工博士学位后,先到华尔街工作两年,在1995年开始创业,开发教育平台。2000年回到台湾 ,在知名的软体公司Computer Associates负责亚洲地区的合资公司业务,随后在台湾成立供应链管理公司「联合通商eBizprise」,和在中国的子公司「eBizServe」。
2011年,薛文蔚遇到一个中国大陆大型零售商的供应链预测问题。当20万个品项、上万个通路,再加上要做100週的预测时,资料共有惊人的上百亿点,如此庞大的资料量,传统的资料库无法负荷。他发现市场空缺后,找来公司裡两位同事黄怡诚和赖育骏,一同成立研发团队。
虽然本来是从供应链管理的问题切入,但深入研究后薛文蔚却发现,这是大数据的问题。他解释,现在用的资料库技术都是1970年时提出的架构,很多理论是基于当时的假设,「但当底层条件已经改变时,我们不该再用过去的模式想事情。」于是团队从非常底层的架构重新思考,适合现在使用的运算模式是什么。
其中最大的差异是,过去资料运算时,需先从资料储存的地方如硬碟,搬到记忆体运算后,再把资料放回去。但现在的资料量早已是过去的好几千万倍,薛文蔚打个比方:「Data的成长就好像房价一样,Code的成长则好像薪水一样。」
如果沿用过去搬动资料的运算方式,大多时间都是花在「搬移」上,因此核桃运算主张透过不搬动的「in-place computing」运算方式,直接把程式送到资料的所在地运算,少了搬移动作,资料运算速度就会提昇很多。目前团队已申请四项美国专利,其中叁项已被核准。
比起现有的资料库运算方式,核桃运算共同创办人陈元贞解释,以目前知名的Hadoop来说,透过分散式运算,把1部机器要算的东西放到100部机器上算,虽能提升运算速度,但却不是每个公司都能负担的起部建分散式运算系统。
若是非关联式的NoSQL资料库,数据存储没有一定的模式架构,虽然速度可以变快,但也因为不需固定模式,当要做两者的比较分析或资料採矿就有些困难。若是传统的MySQL资料库,更是无法负荷现在庞大的资料量。
从2011年下半年先在母公司联合通商旗下成立团队开始,众人花了两年半时间研发,终于在今年推出产品「Big Object」,团队也在今年2月从母公司独立。Big Object主要运行在64 bit的装置上,因为採用「in-place computing」,最大优势就是快,运算速度可快50倍至100倍,因此可做到当下的即时分析。
此外,Big Object也能分析异质性资料,不只企业本身的商务资料,也能结合open data和非结构性资料,像是零售业者可和天气预测或脸书贴文交叉比对。「就像冰山一样,本来你只看到交易资料,可是更多的是你没有看到水面底下的资料,」陈元贞说。
也因为Big Object是很轻巧的资料运算引擎,在未来物联网时代,小至眼镜、手錶,大到汽车、冰箱,每个装置都能成为分析资料的机器,因此这些装置也都可以嵌入Big Object的分析引擎,根据数据做出最优化的预测或行动,如调整车速、冰箱温度等。
Big Object主要针对BI产品(Business Intelligence,从数据分析中挖掘商业价值)或LOG分析的软体开发商,可直接将Big Object嵌入在软体裡,收入以授权年费为主。目前核桃运算已有些试用客户,像是在台湾就已和神坊资讯旗下的购物网站合作,透过Big Object计算商品间的相关性,进而做出即时的购物推荐。
产品到位后,今年下半年Big Object将开始走入市场,目前处于客户开发阶段。陈元贞表示,由于这类应用主要在美国市场居多,因此今年3月团队也在美国註册公司,预计今年在台湾和美国都要各自招募十人团队,未来台湾负责研发,美国则负责业务。
核桃运算四位共同创办人,从左至右为赖育骏、薛文蔚、黄怡诚和陈元贞
【创业教我的事】找出自己的定位,在过程中随时保有自己的判断,尤其是对产品和市场策略的看法。
Q1. 希望提供这个社会什么价值? 最主要是提供一个快速又可负担的分析引擎,帮助资料分析者或商业决策者,发掘出隐含在大量资料背后的资讯。
Q2. 长远来看,贵公司想成为何种类型的公司?
我们希望做到「资料处理界的Intel」,未来软体内可以搭载BigObject的运算核心,不管是CRM、ERP、BI或是Log分析软体,都能透过BigObject的即时分析而有更优化的软体功能。
本文来源:CDA数据分析师培训官网
数据分析咨询请扫描二维码
若不方便扫码,搜微信号:CDAshujufenxi
在 “神经网络与卡尔曼滤波融合” 的理论基础上,Python 凭借其丰富的科学计算库(NumPy、FilterPy)、深度学习框架(PyTorch、T ...
2025-10-23在工业控制、自动驾驶、机器人导航、气象预测等领域,“状态估计” 是核心任务 —— 即从含噪声的观测数据中,精准推断系统的真 ...
2025-10-23在数据分析全流程中,“数据清洗” 恰似烹饪前的食材处理:若食材(数据)腐烂变质、混杂异物(脏数据),即便拥有精湛的烹饪技 ...
2025-10-23在人工智能领域,“大模型” 已成为近年来的热点标签:从参数超 1750 亿的 GPT-3,到万亿级参数的 PaLM,再到多模态大模型 GPT-4 ...
2025-10-22在 MySQL 数据库的日常运维与开发中,“更新数据是否会影响读数据” 是一个高频疑问。这个问题的答案并非简单的 “是” 或 “否 ...
2025-10-22在企业数据分析中,“数据孤岛” 是制约分析深度的核心瓶颈 —— 用户数据散落在注册系统、APP 日志、客服记录中,订单数据分散 ...
2025-10-22在神经网络设计中,“隐藏层个数” 是决定模型能力的关键参数 —— 太少会导致 “欠拟合”(模型无法捕捉复杂数据规律,如用单隐 ...
2025-10-21在特征工程流程中,“单变量筛选” 是承上启下的关键步骤 —— 它通过分析单个特征与目标变量的关联强度,剔除无意义、冗余的特 ...
2025-10-21在数据分析全流程中,“数据读取” 常被误解为 “简单的文件打开”—— 双击 Excel、执行基础 SQL 查询即可完成。但对 CDA(Cert ...
2025-10-21在实际业务数据分析中,我们遇到的大多数数据并非理想的正态分布 —— 电商平台的用户消费金额(少数用户单次消费上万元,多数集 ...
2025-10-20在数字化交互中,用户的每一次操作 —— 从电商平台的 “浏览商品→加入购物车→查看评价→放弃下单”,到内容 APP 的 “点击短 ...
2025-10-20在数据分析的全流程中,“数据采集” 是最基础也最关键的环节 —— 如同烹饪前需备好新鲜食材,若采集的数据不完整、不准确或不 ...
2025-10-20在数据成为新时代“石油”的今天,几乎每个职场人都在焦虑: “为什么别人能用数据驱动决策、升职加薪,而我面对Excel表格却无从 ...
2025-10-18数据清洗是 “数据价值挖掘的前置关卡”—— 其核心目标是 “去除噪声、修正错误、规范格式”,但前提是不破坏数据的真实业务含 ...
2025-10-17在数据汇总分析中,透视表凭借灵活的字段重组能力成为核心工具,但原始透视表仅能呈现数值结果,缺乏对数据背景、异常原因或业务 ...
2025-10-17在企业管理中,“凭经验定策略” 的传统模式正逐渐失效 —— 金融机构靠 “研究员主观判断” 选股可能错失收益,电商靠 “运营拍 ...
2025-10-17在数据库日常操作中,INSERT INTO SELECT是实现 “批量数据迁移” 的核心 SQL 语句 —— 它能直接将一个表(或查询结果集)的数 ...
2025-10-16在机器学习建模中,“参数” 是决定模型效果的关键变量 —— 无论是线性回归的系数、随机森林的树深度,还是神经网络的权重,这 ...
2025-10-16在数字化浪潮中,“数据” 已从 “辅助决策的工具” 升级为 “驱动业务的核心资产”—— 电商平台靠用户行为数据优化推荐算法, ...
2025-10-16在大模型从实验室走向生产环境的过程中,“稳定性” 是决定其能否实用的关键 —— 一个在单轮测试中表现优异的模型,若在高并发 ...
2025-10-15