京公网安备 11010802034615号
经营许可证编号:京B2-20210330
聚合数据左磊:不走寻常路 做国内最好的数据聚合平台
新科兰德科技(ThinkLand Technology)创立于2010年2月,总部注册于苏州工业园区,是一家专业从事数据服务、智能手机软硬件开发的高新技术企业。旗下聚合数据平台是国内领先的移动数据服务商,为智能手机开发者,网站站长,移动设备开发人员及图商提供原始数据API服务的综合性云数据平台。包含手机聚合、网站聚合、LBS聚合三部分,其功能类似于Google APIS。CSDN近期采访了苏州新科兰德科技有限公司的创始人兼CEO左磊,以下是专访整理:
图:新科兰德创始人 左磊
CSDN:首先请您简单介绍一下创业的经历。
左磊:2009年从美国回来之后,先是跟朋友在上海工作了一段时间,那时候主要是做以前美国大学同学的一些外包单子,做了大概半年。之后我和两个同学,到苏州创办了新科兰德,聚合数据就是我们旗下的产品。
当时选择在苏州创业主要有两个原因: 一是我的另外二个创业伙伴也就是我的大学同学都是苏州人,当然我是江苏扬中人,离我自己家也很近;其次苏州的创业坏境一直以来在全国都是领先的,启动资金、免租的办公室、一系列的扶持政策比较适合我们这种小企业创业。
CSDN:在创业的初期,主要是做什么项目?
左磊:我们在2010年创业,创业的早期的时候是做一些APP应用,因为当时也没有很好的方向,也就是想到什么,感觉还不错,就做什么。我们曾经做了一款世界杯的应用,主要内容就是对比赛信息的更新,当时下载量已经达到了五六万次,这也是我们做的比较好的一款应用。也正是在这个应用的开发过程中,我们发现了一个创业的机会。
首先,当开发者在开发软件的时候,我们发现他们对数据需求是非常大的,而且他们本身也没有能力去做这些事情。比如说,开发者想要做一款北京市餐饮行业的软件,那么第一步就是要获得有关餐饮行业的数据,不仅包括餐馆的名字,地址等信息,还需要有知道这家餐馆有没有特色菜,能不能刷卡消费,能不能停车等信息。像大众点评就涵盖了这些信息,那时候我们就意识到,这种模式是能够赚钱的,于是就创立了聚合数据平台。
CSDN:具体来讲,聚合数据是一种什么样的商业模式?
左磊:因为我们发现聚合数据在数据挖掘方面有一定的能力,所以就放弃了客户端的开发,转而去做数据服务。如果企业想要开发一款软件,那么我们就可以提供一整套的数据解决方案,包括产品的分类、优化等等,甚至可以租借我们的服务器端口,那么用户在调用的时候甚至连服务器也不用购买。
CSDN:那么聚合数据在数据挖掘领域,有什么什么独特的优势?
左磊:聚合数据把自己定位为数据服务商。我们挖掘各种有价值的数据进行分类,比如像金融、日常生活、地图、天气等等,类似这样不同的分类。然后把这些分类数据做精做全,最后批量的给销售出去。我们最终的想法是做一个很大的平台。
CSDN:公司目前的团队规模有多大?主要客户都有哪些?
左磊:目前公司的团队大概30人左右,而专门从事数据分类工作大概有23人。而聚合数据开放的接口大概有20多个,基本上覆盖了大概的衣食住行、公共交通、地图、天气等等,涉及的领域还是很宽的。公司刚开始的时候,是跟很多大型的汽车企业合作,像东风本田、日产、尼桑等等汽车企业,但是我们跟这些企业的合作不是直接合作,而是通过另外一家公司车网互联。也就是说我们把数据提供给车网互联,他们和汽车企业直接合作,产品类似于导航,只不过提供了更多的信息,像加油站的地理位置、油价、附近的酒店等等信息,新科兰德和车网互联从2010年就开始合作,关系非常稳定。
CSDN:聚合数据平台目前提供的数据服务方式有哪些?
左磊:聚合数据提供定制化的服务,就是说我们会按照客户提出的接口要求,定制所需要的不同种类的接口,按月进行收费,所谓的大客户收费,这是目前我们收入的主要来源。另外就是针对中小开发者团队及个人的聚合平台网站,对于小型的团队或者个人开发者提供接口服务。现在聚合已经开放了20多个接口,开发者可以任意调用其中的几个。当然我们也提供了不同级别的收费服务,包括初级会员、中级会员和高级会员,这三者的区别在于调用的接口类型,接口数,服务器带宽方面有一定的不同,像初级会员只能调三个收费接口,这是有限制的,每小时最多的请求可能只有5000-10000次。中级会员会高一点,高级会员更高。这也是根据会员不同的等级来区分的,当然大部分接口都是免费的,如果你的APP或者软件用户量不是很大的话免费接口足够满足你的需求。
另辟蹊径,不一样的数据挖掘方式
CSDN:目前数据的收集还存在哪些问题?聚合数据平台是如何解决的?
左磊:聚合数据平台最早期的数据来源主要是互联网。但是公司在去年就转变了方式,开始以合作和自我修缮为主。之所以要改,是因为我们发现在收集某些地图数据时,像大众点评中餐馆的数据信息都是不准确的,因为经过两三年,很多店名已经更改了,或者直接倒闭了。但是这部分数据在大众点评上还是可以查到,也没有人去更新修正。而且大众点评在这个领域也是最好的一个平台,经常被不同的地图服务商所采集,像百度地图也是使用它的数据。最后,大家发现整个互联网都是同一个错误,因为数据来源都是同一个。还有国内行政区域划分问题,每年都有城乡合并、街道改换名称。像苏州的工业园区做很有名,都18年了,现在在百度或者Google地图上还是吴中区,这些都是错误的。这也说明,每次合并之后,地图数据信息至少要好几年才能更新。那么在地图上就会留下很多后患。公司一方面去通过挖掘现在有的数据,另一方面也通过自己的方式去验证;通常还会跟数据信息非常准确的网站进行合作,通过接口调用方式,开放接口。
基础数据是公司的弹药
CSDN:那么聚合数据平台目前数据服务处在一个什么阶段?公司目前还有没有什么新的想法?
左磊:其实聚合数据平台还是处在一个初期阶段,非常重视原始数据的收集,这里公司投入了很大部分的精力,还没有实现真正意义上的数据分析,毕竟现在没有那么大的团队。公司现在做的就是最苦、最累的数据收集数据的阶段,我们称之大数据里面的基础数据,这是非常重要的东西,就像打仗的子弹一样,没子弹的话,一切都难以实现。
公司目前重点在地图数据这块,因为我们认为地图是一个比较重要的入口,比如说导航数据,我们发现存在大量的错误。公司今年的目标是希望把地图数据做得更精确一些,而且我们采用自己的方式来去校验、去更新这样的数据。然后把这部分更新过的、增加过的、补充过的新数据卖给地图服务商,而且可我们会跟他们证明,他们地图上面的错误很高,我们能提供的数据更全面,更准确,那么市场还是比较广泛的。
其次我们想做一个API的聚合平台,而且现在很少有站点能够做的很全面很精准,但是开发者则更希望得到更准确的数据,同时不要依附于某一个平台之上。像新浪微博、微信也开始做API,但是大部分都是依附他们的平台,那么开发者的积极性就相对偏低,更多的开发者还是希望做自己东西。
把数据放到网站上,让开发者来下载。就是说我们如果不做API,我们是不是可以做成一个数据运营商,每个月固定时间发布一个更新包,开发者都可以过来下载,之前也想过这个问题,未来我们可能会去来把一些非核心数据做成这种形式。但是对于我们的核心数据来说,还是想树立我们自己的品牌。
最后一个方面,因为目前的API很全但也很杂,我们想把API做成一个检索服务。目前公司的网站上已经有很多国外API的检索服务,我们也想把国内的新浪微博、淘宝等提供的API服务做一个汇总。一方面做自己的API,另外一方面,我们也想把其他的API整理一下进行分享。因为我们网站的分类比较好,相对于百度来说,是个更好的API检索平台,我们也是想为更多的开发者服务,在这点上和CSDN是相同的。
CSDN:新科兰德如何应对大型数据服务商,像百度,高德,中国移动这些数据服务巨头企业?
左磊:其实之前我们公司一直也在讨论这个事情,包括高德、电信、移动等公司,他们都有上千人的团队在做数据的更新与收集工作。但是具体到某地某条路的路名要改,相对于这种收集方式,就存在一定的问题。因为如果只是派人员一点一点的搜集,有点不太靠谱,毕竟数据量太大了。甚至前两天刚收集到的数据,很快就变更了,这就会造成很大的资源浪费。新科兰德希望通过客户端的方式,让所有拥有有智能手机的人,都成为数据的收集来源,这有点像付费签到的那种形式。公司希望用户去签一些目前数据库里没有的数据,比如说搜集某条街上100家餐馆的名字信息,那么使用搜索引擎,还有挖掘程序,可以从互联网上挖掘出80家的信息,而剩下的20家我们会当任务一样发布出去,让用户去填充。但签下来我们会奖励,用这样的形式来做数据收集,要比主动搜集的效果要好的多。像新浪微博的客户端也在做这样的事情,虽然签到非常多,但是重复率非常高,而我们只是发布未知的数据信息收集。
CSDN:新科兰德未来的发展目标是什么?
左磊:其实国内数据挖掘的市场是一个新的市场,聚合数据平台也算是最早的一批探路者,至少目前来说这个方向是对的。未来我们是想做成国内最大的数据服务商,我们也一直向这个目标上努力。目前我们的竞争对手,除了很多大平台之外,国内好像还没有见到类似的服务。
但是大平台跟我们也不一样,大平台是开放自己平台的资源,在它们平台上的基础上做开发,最终还是为这个平台服务。新科兰德更直白一点,开发者直接可以调用数据,做自己想要的东西,我们也不管你是拿来做什么。这点和大平台是有区别的。而且从基础数据的角度来看,我们应该是独一无二的。
我们目前平台的开发者的团队或者个人开发者大概五六千人,在此之前我们也没有进行推广过,准备在今年下半年发力,希望开发者今年能够突破2万的规模。
数据分析咨询请扫描二维码
若不方便扫码,搜微信号:CDAshujufenxi
在神经网络模型搭建中,“最后一层是否添加激活函数”是新手常困惑的关键问题——有人照搬中间层的ReLU激活,导致回归任务输出异 ...
2025-12-05在机器学习落地过程中,“模型准确率高但不可解释”“面对数据噪声就失效”是两大核心痛点——金融风控模型若无法解释决策依据, ...
2025-12-05在CDA(Certified Data Analyst)数据分析师的能力模型中,“指标计算”是基础技能,而“指标体系搭建”则是区分新手与资深分析 ...
2025-12-05在回归分析的结果解读中,R方(决定系数)是衡量模型拟合效果的核心指标——它代表因变量的变异中能被自变量解释的比例,取值通 ...
2025-12-04在城市规划、物流配送、文旅分析等场景中,经纬度热力图是解读空间数据的核心工具——它能将零散的GPS坐标(如外卖订单地址、景 ...
2025-12-04在CDA(Certified Data Analyst)数据分析师的指标体系中,“通用指标”与“场景指标”并非相互割裂的两个部分,而是支撑业务分 ...
2025-12-04每到“双十一”,电商平台的销售额会迎来爆发式增长;每逢冬季,北方的天然气消耗量会显著上升;每月的10号左右,工资发放会带动 ...
2025-12-03随着数字化转型的深入,企业面临的数据量呈指数级增长——电商的用户行为日志、物联网的传感器数据、社交平台的图文视频等,这些 ...
2025-12-03在CDA(Certified Data Analyst)数据分析师的工作体系中,“指标”是贯穿始终的核心载体——从“销售额环比增长15%”的业务结论 ...
2025-12-03在神经网络训练中,损失函数的数值变化常被视为模型训练效果的“核心仪表盘”——初学者盯着屏幕上不断下降的损失值满心欢喜,却 ...
2025-12-02在CDA(Certified Data Analyst)数据分析师的日常工作中,“用部分数据推断整体情况”是高频需求——从10万条订单样本中判断全 ...
2025-12-02在数据预处理的纲量统一环节,标准化是消除量纲影响的核心手段——它将不同量级的特征(如“用户年龄”“消费金额”)转化为同一 ...
2025-12-02在数据驱动决策成为企业核心竞争力的今天,A/B测试已从“可选优化工具”升级为“必选验证体系”。它通过控制变量法构建“平行实 ...
2025-12-01在时间序列预测任务中,LSTM(长短期记忆网络)凭借对时序依赖关系的捕捉能力成为主流模型。但很多开发者在实操中会遇到困惑:用 ...
2025-12-01引言:数据时代的“透视镜”与“掘金者” 在数字经济浪潮下,数据已成为企业决策的核心资产,而CDA数据分析师正是挖掘数据价值的 ...
2025-12-01数据分析师的日常,常始于一堆“毫无章法”的数据点:电商后台导出的零散订单记录、APP埋点收集的无序用户行为日志、传感器实时 ...
2025-11-28在MySQL数据库运维中,“query end”是查询执行生命周期的收尾阶段,理论上耗时极短——主要完成结果集封装、资源释放、事务状态 ...
2025-11-28在CDA(Certified Data Analyst)数据分析师的工具包中,透视分析方法是处理表结构数据的“瑞士军刀”——无需复杂代码,仅通过 ...
2025-11-28在统计分析中,数据的分布形态是决定“用什么方法分析、信什么结果”的底层逻辑——它如同数据的“性格”,直接影响着描述统计的 ...
2025-11-27在电商订单查询、用户信息导出等业务场景中,技术人员常面临一个选择:是一次性查询500条数据,还是分5次每次查询100条?这个问 ...
2025-11-27