
聚合数据左磊:不走寻常路 做国内最好的数据聚合平台
新科兰德科技(ThinkLand Technology)创立于2010年2月,总部注册于苏州工业园区,是一家专业从事数据服务、智能手机软硬件开发的高新技术企业。旗下聚合数据平台是国内领先的移动数据服务商,为智能手机开发者,网站站长,移动设备开发人员及图商提供原始数据API服务的综合性云数据平台。包含手机聚合、网站聚合、LBS聚合三部分,其功能类似于Google APIS。CSDN近期采访了苏州新科兰德科技有限公司的创始人兼CEO左磊,以下是专访整理:
图:新科兰德创始人 左磊
CSDN:首先请您简单介绍一下创业的经历。
左磊:2009年从美国回来之后,先是跟朋友在上海工作了一段时间,那时候主要是做以前美国大学同学的一些外包单子,做了大概半年。之后我和两个同学,到苏州创办了新科兰德,聚合数据就是我们旗下的产品。
当时选择在苏州创业主要有两个原因: 一是我的另外二个创业伙伴也就是我的大学同学都是苏州人,当然我是江苏扬中人,离我自己家也很近;其次苏州的创业坏境一直以来在全国都是领先的,启动资金、免租的办公室、一系列的扶持政策比较适合我们这种小企业创业。
CSDN:在创业的初期,主要是做什么项目?
左磊:我们在2010年创业,创业的早期的时候是做一些APP应用,因为当时也没有很好的方向,也就是想到什么,感觉还不错,就做什么。我们曾经做了一款世界杯的应用,主要内容就是对比赛信息的更新,当时下载量已经达到了五六万次,这也是我们做的比较好的一款应用。也正是在这个应用的开发过程中,我们发现了一个创业的机会。
首先,当开发者在开发软件的时候,我们发现他们对数据需求是非常大的,而且他们本身也没有能力去做这些事情。比如说,开发者想要做一款北京市餐饮行业的软件,那么第一步就是要获得有关餐饮行业的数据,不仅包括餐馆的名字,地址等信息,还需要有知道这家餐馆有没有特色菜,能不能刷卡消费,能不能停车等信息。像大众点评就涵盖了这些信息,那时候我们就意识到,这种模式是能够赚钱的,于是就创立了聚合数据平台。
CSDN:具体来讲,聚合数据是一种什么样的商业模式?
左磊:因为我们发现聚合数据在数据挖掘方面有一定的能力,所以就放弃了客户端的开发,转而去做数据服务。如果企业想要开发一款软件,那么我们就可以提供一整套的数据解决方案,包括产品的分类、优化等等,甚至可以租借我们的服务器端口,那么用户在调用的时候甚至连服务器也不用购买。
CSDN:那么聚合数据在数据挖掘领域,有什么什么独特的优势?
左磊:聚合数据把自己定位为数据服务商。我们挖掘各种有价值的数据进行分类,比如像金融、日常生活、地图、天气等等,类似这样不同的分类。然后把这些分类数据做精做全,最后批量的给销售出去。我们最终的想法是做一个很大的平台。
CSDN:公司目前的团队规模有多大?主要客户都有哪些?
左磊:目前公司的团队大概30人左右,而专门从事数据分类工作大概有23人。而聚合数据开放的接口大概有20多个,基本上覆盖了大概的衣食住行、公共交通、地图、天气等等,涉及的领域还是很宽的。公司刚开始的时候,是跟很多大型的汽车企业合作,像东风本田、日产、尼桑等等汽车企业,但是我们跟这些企业的合作不是直接合作,而是通过另外一家公司车网互联。也就是说我们把数据提供给车网互联,他们和汽车企业直接合作,产品类似于导航,只不过提供了更多的信息,像加油站的地理位置、油价、附近的酒店等等信息,新科兰德和车网互联从2010年就开始合作,关系非常稳定。
CSDN:聚合数据平台目前提供的数据服务方式有哪些?
左磊:聚合数据提供定制化的服务,就是说我们会按照客户提出的接口要求,定制所需要的不同种类的接口,按月进行收费,所谓的大客户收费,这是目前我们收入的主要来源。另外就是针对中小开发者团队及个人的聚合平台网站,对于小型的团队或者个人开发者提供接口服务。现在聚合已经开放了20多个接口,开发者可以任意调用其中的几个。当然我们也提供了不同级别的收费服务,包括初级会员、中级会员和高级会员,这三者的区别在于调用的接口类型,接口数,服务器带宽方面有一定的不同,像初级会员只能调三个收费接口,这是有限制的,每小时最多的请求可能只有5000-10000次。中级会员会高一点,高级会员更高。这也是根据会员不同的等级来区分的,当然大部分接口都是免费的,如果你的APP或者软件用户量不是很大的话免费接口足够满足你的需求。
另辟蹊径,不一样的数据挖掘方式
CSDN:目前数据的收集还存在哪些问题?聚合数据平台是如何解决的?
左磊:聚合数据平台最早期的数据来源主要是互联网。但是公司在去年就转变了方式,开始以合作和自我修缮为主。之所以要改,是因为我们发现在收集某些地图数据时,像大众点评中餐馆的数据信息都是不准确的,因为经过两三年,很多店名已经更改了,或者直接倒闭了。但是这部分数据在大众点评上还是可以查到,也没有人去更新修正。而且大众点评在这个领域也是最好的一个平台,经常被不同的地图服务商所采集,像百度地图也是使用它的数据。最后,大家发现整个互联网都是同一个错误,因为数据来源都是同一个。还有国内行政区域划分问题,每年都有城乡合并、街道改换名称。像苏州的工业园区做很有名,都18年了,现在在百度或者Google地图上还是吴中区,这些都是错误的。这也说明,每次合并之后,地图数据信息至少要好几年才能更新。那么在地图上就会留下很多后患。公司一方面去通过挖掘现在有的数据,另一方面也通过自己的方式去验证;通常还会跟数据信息非常准确的网站进行合作,通过接口调用方式,开放接口。
基础数据是公司的弹药
CSDN:那么聚合数据平台目前数据服务处在一个什么阶段?公司目前还有没有什么新的想法?
左磊:其实聚合数据平台还是处在一个初期阶段,非常重视原始数据的收集,这里公司投入了很大部分的精力,还没有实现真正意义上的数据分析,毕竟现在没有那么大的团队。公司现在做的就是最苦、最累的数据收集数据的阶段,我们称之大数据里面的基础数据,这是非常重要的东西,就像打仗的子弹一样,没子弹的话,一切都难以实现。
公司目前重点在地图数据这块,因为我们认为地图是一个比较重要的入口,比如说导航数据,我们发现存在大量的错误。公司今年的目标是希望把地图数据做得更精确一些,而且我们采用自己的方式来去校验、去更新这样的数据。然后把这部分更新过的、增加过的、补充过的新数据卖给地图服务商,而且可我们会跟他们证明,他们地图上面的错误很高,我们能提供的数据更全面,更准确,那么市场还是比较广泛的。
其次我们想做一个API的聚合平台,而且现在很少有站点能够做的很全面很精准,但是开发者则更希望得到更准确的数据,同时不要依附于某一个平台之上。像新浪微博、微信也开始做API,但是大部分都是依附他们的平台,那么开发者的积极性就相对偏低,更多的开发者还是希望做自己东西。
把数据放到网站上,让开发者来下载。就是说我们如果不做API,我们是不是可以做成一个数据运营商,每个月固定时间发布一个更新包,开发者都可以过来下载,之前也想过这个问题,未来我们可能会去来把一些非核心数据做成这种形式。但是对于我们的核心数据来说,还是想树立我们自己的品牌。
最后一个方面,因为目前的API很全但也很杂,我们想把API做成一个检索服务。目前公司的网站上已经有很多国外API的检索服务,我们也想把国内的新浪微博、淘宝等提供的API服务做一个汇总。一方面做自己的API,另外一方面,我们也想把其他的API整理一下进行分享。因为我们网站的分类比较好,相对于百度来说,是个更好的API检索平台,我们也是想为更多的开发者服务,在这点上和CSDN是相同的。
CSDN:新科兰德如何应对大型数据服务商,像百度,高德,中国移动这些数据服务巨头企业?
左磊:其实之前我们公司一直也在讨论这个事情,包括高德、电信、移动等公司,他们都有上千人的团队在做数据的更新与收集工作。但是具体到某地某条路的路名要改,相对于这种收集方式,就存在一定的问题。因为如果只是派人员一点一点的搜集,有点不太靠谱,毕竟数据量太大了。甚至前两天刚收集到的数据,很快就变更了,这就会造成很大的资源浪费。新科兰德希望通过客户端的方式,让所有拥有有智能手机的人,都成为数据的收集来源,这有点像付费签到的那种形式。公司希望用户去签一些目前数据库里没有的数据,比如说搜集某条街上100家餐馆的名字信息,那么使用搜索引擎,还有挖掘程序,可以从互联网上挖掘出80家的信息,而剩下的20家我们会当任务一样发布出去,让用户去填充。但签下来我们会奖励,用这样的形式来做数据收集,要比主动搜集的效果要好的多。像新浪微博的客户端也在做这样的事情,虽然签到非常多,但是重复率非常高,而我们只是发布未知的数据信息收集。
CSDN:新科兰德未来的发展目标是什么?
左磊:其实国内数据挖掘的市场是一个新的市场,聚合数据平台也算是最早的一批探路者,至少目前来说这个方向是对的。未来我们是想做成国内最大的数据服务商,我们也一直向这个目标上努力。目前我们的竞争对手,除了很多大平台之外,国内好像还没有见到类似的服务。
但是大平台跟我们也不一样,大平台是开放自己平台的资源,在它们平台上的基础上做开发,最终还是为这个平台服务。新科兰德更直白一点,开发者直接可以调用数据,做自己想要的东西,我们也不管你是拿来做什么。这点和大平台是有区别的。而且从基础数据的角度来看,我们应该是独一无二的。
我们目前平台的开发者的团队或者个人开发者大概五六千人,在此之前我们也没有进行推广过,准备在今年下半年发力,希望开发者今年能够突破2万的规模。
数据分析咨询请扫描二维码
若不方便扫码,搜微信号:CDAshujufenxi
在神经网络设计中,“隐藏层个数” 是决定模型能力的关键参数 —— 太少会导致 “欠拟合”(模型无法捕捉复杂数据规律,如用单隐 ...
2025-10-21在特征工程流程中,“单变量筛选” 是承上启下的关键步骤 —— 它通过分析单个特征与目标变量的关联强度,剔除无意义、冗余的特 ...
2025-10-21在数据分析全流程中,“数据读取” 常被误解为 “简单的文件打开”—— 双击 Excel、执行基础 SQL 查询即可完成。但对 CDA(Cert ...
2025-10-21在实际业务数据分析中,我们遇到的大多数数据并非理想的正态分布 —— 电商平台的用户消费金额(少数用户单次消费上万元,多数集 ...
2025-10-20在数字化交互中,用户的每一次操作 —— 从电商平台的 “浏览商品→加入购物车→查看评价→放弃下单”,到内容 APP 的 “点击短 ...
2025-10-20在数据分析的全流程中,“数据采集” 是最基础也最关键的环节 —— 如同烹饪前需备好新鲜食材,若采集的数据不完整、不准确或不 ...
2025-10-20在数据成为新时代“石油”的今天,几乎每个职场人都在焦虑: “为什么别人能用数据驱动决策、升职加薪,而我面对Excel表格却无从 ...
2025-10-18数据清洗是 “数据价值挖掘的前置关卡”—— 其核心目标是 “去除噪声、修正错误、规范格式”,但前提是不破坏数据的真实业务含 ...
2025-10-17在数据汇总分析中,透视表凭借灵活的字段重组能力成为核心工具,但原始透视表仅能呈现数值结果,缺乏对数据背景、异常原因或业务 ...
2025-10-17在企业管理中,“凭经验定策略” 的传统模式正逐渐失效 —— 金融机构靠 “研究员主观判断” 选股可能错失收益,电商靠 “运营拍 ...
2025-10-17在数据库日常操作中,INSERT INTO SELECT是实现 “批量数据迁移” 的核心 SQL 语句 —— 它能直接将一个表(或查询结果集)的数 ...
2025-10-16在机器学习建模中,“参数” 是决定模型效果的关键变量 —— 无论是线性回归的系数、随机森林的树深度,还是神经网络的权重,这 ...
2025-10-16在数字化浪潮中,“数据” 已从 “辅助决策的工具” 升级为 “驱动业务的核心资产”—— 电商平台靠用户行为数据优化推荐算法, ...
2025-10-16在大模型从实验室走向生产环境的过程中,“稳定性” 是决定其能否实用的关键 —— 一个在单轮测试中表现优异的模型,若在高并发 ...
2025-10-15在机器学习入门领域,“鸢尾花数据集(Iris Dataset)” 是理解 “特征值” 与 “目标值” 的最佳案例 —— 它结构清晰、维度适 ...
2025-10-15在数据驱动的业务场景中,零散的指标(如 “GMV”“复购率”)就像 “散落的零件”,无法支撑系统性决策;而科学的指标体系,则 ...
2025-10-15在神经网络模型设计中,“隐藏层层数” 是决定模型能力与效率的核心参数之一 —— 层数过少,模型可能 “欠拟合”(无法捕捉数据 ...
2025-10-14在数字化浪潮中,数据分析师已成为企业 “从数据中挖掘价值” 的核心角色 —— 他们既要能从海量数据中提取有效信息,又要能将分 ...
2025-10-14在企业数据驱动的实践中,“指标混乱” 是最常见的痛点:运营部门说 “复购率 15%”,产品部门说 “复购率 8%”,实则是两者对 ...
2025-10-14在手游行业,“次日留存率” 是衡量一款游戏生死的 “第一道关卡”—— 它不仅反映了玩家对游戏的初始接受度,更直接决定了后续 ...
2025-10-13