京公网安备 11010802034615号
经营许可证编号:京B2-20210330
数据分析工具独领风骚 数据科学服务表示不服
企业需要从大量收集的数据中攫取价值,但很多企业似乎无法找到足够的数据科学家来做这件事。因此数据科学作为一项服务变呼之而出。
处于如此困境的企业可以把他们的原生数据外包给类似DataScience这样的公司,这是一家位于加利福尼亚Culver City的创业公司。其分析团队对数据进行清理并使用复杂的建模工具、国产软件来提供建议,这样客户就可以根据这些建议来改进产品和服务,展他们的客户群,最终增加收入。
SearchBusinessAnalytics与DataScience的CEO兼创始人Ian Swanson谈论关于新兴数据科学作为一项服务的发展空间。他谈及其数据科学家组成的团队能够提供数据分析工具无法提供东西,数据科学驱动收入的方式以及其风险投资公司如何在不到两年的时间内获得并发展了一个强大而稳定的数据科学家和数据工程师团队,而与此同时大量的科技公司却往往是很艰难地做着同样的事。
公司们长期以来便利用数据来改善运营效率,但如今越来越多的是强调以新的方式来使用数据连接客户以促进销售。那么如今还有哪些新颖的方式可以让你来使用数据呢?
Ian Swanson:我们拥有的订阅电子商务公司每年的业务超过十亿。我们能够识别哪些客户会有在下月离开的风险,他们生命周期的潜力是什么以及如何才能留住他们。生命周期价值是我们连接顾客的核心。很多企业试图使用疯狂的Excel数学来解决该问题。我们在细粒度水平进行观察(很多属性和特性)以决定一名客户的生命周期价值。我们可以通过在该属性上有针对性的投放特定广告来增加客户。
数据货币化对于你的客户来说到底有多重要?
Swanson:某些公司将其看得很简单,即我们要如何销售数据?而我们看待它的方式是:我们要如何利用数据来增加收入?
我们与一家连接技术公司协作来找出他们的客户到底是如何使用他们的产品的。企业可能会使用典型群体来了解如何对自己进行营销,但是这些我们能够收集在一起的元素显示了客户是为什么以及如何使用他们产品的。我们查看了他们所有的数据并雇用了几个数据科学技师来发掘大多数人是如何使用产品的并决定如何来对产品进行营销。我们提供建议来帮助客户支持团队利用我们客户能够控制的东西将顾客从批评者转变为促进者
我们还可以对一款尚未上马的产品预测供需,因此一家公司就能够将其并入他们的财务预测。公司通常会用遥不可及的逻辑来做这件事,但我们会用科学手段来完成。
对于那些将数据科学作为一项服务的公司来说,他们的员工中是否有数据科学家呢?
Swanson:是的,我们所有的客户都至少会拥有一个。财富500强公司拥有强大的数据科学团队,但他们可能不会集中在市场营销和客户服务以及人力资源上。内部数据科学团队通常不具有技术或能力完成所有工作。我们是一个75人的团队,其中70人是数据工程师或数据科学家。
对于这一点,我们非常重视,但是我们也已经在构建知识产权,以处理人们需要解决的问题。我告诉我的团队,任何你需要用来让工作变得高效的工具都可以购买。在这样的环境中,有一些相互并不连贯的工具用于连接,清理,探索,数据角力,建模,但它们结合的并不好。我们已经在内部生产中使用了自己的工具,而且我们将会把它们打包并提供给客户使用,这样他们就能使用和我们一样的工具。
你使用什么类型的基础设施来支持你所有的数据处理工作?
Swanson:我们是Amazon Web Services的重度使用者,但是我们的技术还可用于Azure,因此我们并不受困于此。根据数据科学工具,如果你考虑一名数据分析师的路径,它们使用的是R,Python或者Scala语言。我们5%是R语言,大部分是Python,但也处在Scala和Spark的前沿位置。我们建立了真正的预测模型。
数据科学作为一项服务是否成功取决于公司是否以他们最为珍贵的财富(即数据)来信任第三方。你是如何克服这一信任问题和数据安全考量的?
Swanson:数据隐私和安全对我们来说是相当重要的,而且我们并不需要个人身份信息。例如,我不需要知道一名客户的姓名是Joe Smith,我可能只需要他的用户ID。因此,我们可以与大型上市公司进行协作。
我们已经通了数据隐私和安全测试,这是由American Express的一个90人的团队对我们进行审查的(American Express在2011年收购了Swanson的虚拟货币公司Sometrics)。还没有一家客户因为数据安全方面的考虑而拒绝过我们。
你正在和如此之多的公司竞争,他们雇用了数据科学家,而且在人才资源有限的环境下,你要如何为你的团队聚拢人才呢?
Swanson:我们在过去一年半筹集了3000万美元的风险基金,而且当我在和VC公司讨论的时候,他们都说我们疯了,认为我们永远无法招到合适的人。我们在三个月内证明了我们业务规模的扩张和增长。现在我们一个月可以收到超过1000份求职数据科学职位的简历。
我们还会穿梭于各种会议、活动,而且我们开展了DS12,这是一项为期12周的面向学生的数据科学实习项目。它是一个真正的并非入门级数据科学课程,而且我们并不对它收费;我们会支付他们的住宿,而且他们会获得少量报酬。我们会向其他公司开放该课程,这样他们也能从中学到东西。这关系到为数据科学领域增值。
像IBM和Microsoft这样的大型科技公司强调大数据分析,而且他们正在寻求雇用数据科学专家。我可以想象类似这样的人收购你的公司,从而迅速获得人才。你是否有被主流科技公司接洽过关于收购的事宜呢?
Swanson:是的,有很多。
对于要如何谈论这个问题我必须谨慎——大公司们已经找过我们,而且我们已经拒绝了,而原因是在这一领域中公司众多,但没有几家知道如何去增值。DataScience可以成长为一家大公司。我们的五年愿景是想成为研究,教育,服务和知识产权领域的思想领袖,而在今天这样的组合并不存在。
博士学位并不是成为数据科学家的前提,你需要成为某项技术,特定业务线的专家,这样我们的人才混合才是独一无二的,而且这对于公司才是有价值的。
与此同时,有很多的自助分析工具来协助人们在没有数据专家帮助的情况下连点成线并作出更好的业务决策。公司需要数据科学家的真谛是什么呢?
Swanson:类似Tableau或Domo的工具对可视化和常识是有好处的,但不适用于影响公司未来的营销决策。它们是回到过去的一扇窗,但这扇窗并不通向未来。它们可以反映公司当前状况,但无法给出公司的未来描述。
我们使用模型做的事包括以95%的准确率预测客户流失。有些客户想知道这样的百分比是真的么?但是想想现在人们是如何做出决策的。他们是在一间会议室里看着Excel表格决策的。我们认为要将科学应用到该过程中来。这是与你的直觉和经验并驾齐驱的另一款武器。
数据分析咨询请扫描二维码
若不方便扫码,搜微信号:CDAshujufenxi
在MySQL数据库日常查询、数据统计、后台接口开发、数据导出等场景中,开发者经常需要查询数据表除某几列之外的所有字段。例如查 ...
2026-06-09在Python网络请求、爬虫开发、接口测试、数据抓取等实操场景中,requests库是最常用的第三方请求工具,而content属性是requests ...
2026-06-09 数据分析正在重塑每一个行业。CDA认证的三本官方教材,分别对应Level I、Level II、Level III,为你铺就从业务数据分析到数 ...
2026-06-09在数字财务、智慧财税、业财融合深度推进的当下,传统财务模式下数据标准混乱、业务流程碎片化、知识无法沉淀、系统互通性差等问 ...
2026-06-08随着数字经济深度渗透各行各业,数据正式成为继土地、劳动力、资本、技术之后的第五大生产要素,是企业数字化转型、精细化运营、 ...
2026-06-08 很多数据分析师能熟练写SQL、做透视表,但当被问到“数据是从哪里来的?经过哪些加工才进入数据仓库?ETL具体做了什么?”时 ...
2026-06-08【核心关键词】贷款、报表、课程、专业、建模、缺失值、营销、互联网、银行、办公自动化、数据分析、数据预处理、特征工程、贷 ...
2026-06-05在数据库数据查询、业务报表统计、多表关联分析中,LEFT JOIN左连接是使用率最高的SQL关联查询语句。其核心特性是保留左表全部数 ...
2026-06-05 很多数据分析师能熟练地写SQL、做透视表、算描述性统计,但当被问到“如何预测用户流失概率”“如何归因销量下滑的关键因素 ...
2026-06-05任何一款产品从诞生、普及到最终退出市场,都会遵循一套固定的发展规律,这就是产品生命周期理论。在市场竞争日益激烈、产品迭代 ...
2026-06-04在Excel数据分析、办公统计、业务报表制作场景中,数据透视表是数据汇总、分类统计、快速复盘的核心工具,能够高效完成海量原始 ...
2026-06-04 很多数据分析师拿到数据就开始清洗、建模,但当被问到“这批数据属于什么类型——结构化还是非结构化?分类变量还是数值变量 ...
2026-06-04在问卷调查与社会科学数据分析中,卡方检验是最常用、最基础的非参数检验方法,广泛应用于市场调研、用户分析、行为统计、满意度 ...
2026-06-03【核心关键词】贷款、报表、课程、专业、建模、缺失值、营销、互联网、银行、办公自动化、数据分析、数据预处理、特征工程、贷 ...
2026-06-03 很多数据分析师画过趋势图、做过业绩预测,但当被问到“这个月销售额增长20%,到底是长期趋势自然增长,还是促销活动的短期 ...
2026-06-03逻辑回归是数据分析、机器学习、统计建模中应用最广泛的二分类预测模型,常用于风险判断、行为预测、归因分析等场景。在SPSS、Py ...
2026-06-02数字经济时代,市场竞争日趋同质化,用户消费需求愈发个性化、多元化,传统依托经验、粗放式、广撒网的营销模式弊端日益凸显。长 ...
2026-06-02 很多数据分析师做过按月份的销售额趋势图,画过按天的流量折线图,但当被问到“时间序列和普通数据有什么本质区别”“季节性 ...
2026-06-02在市场竞争日趋饱和、用户需求不断细分的当下,企业创业创新、产品迭代与市场拓展不再依赖经验决策,而是需要系统化、工具化的商 ...
2026-06-01【核心关键词】调度、岗位、数据库、企业、报表、培训、程序、数据分析、数据加工、业务部门、企业数据、调度工具、业务指标、 ...
2026-06-01