京公网安备 11010802034615号
经营许可证编号:京B2-20210330
大数据分析激活产业链
马云在给阿里巴巴员工的一封内部邮件中说,以控制为出发点的IT时代正在走向激活生产力为目的的DT(data technology)数据时代。随着计算机技术的发展,大数据运算变得越来越现实,基于大数据应用服务的公司不断崭露头角。大数据在营销领域的应用将广告变成了“窄告”——精准营销,而在互联网金融大热的背景下,大数据在金融业征信方面的应用也在逐渐兴起。
人人都是“数据动物”
不同于“天空中没有留下鸟的痕迹,但我已飞过”,人们不论是网上聊天、购物还是浏览网页、发微信、微博,都会或多或少留下记录,这些记录以数据的形式被存储下来。随着移动互联网的迅猛发展,无论在何时、何地、何处,手机等各种网络入口以及无处不在的传感器等都会对个人数据进行采集、存储、使用、分享。而大量的数据结合起来,通过分析,不难还原出一个人的“样子”——数据化的形象。
很多人在浏览网页时都有这样的体验,网站上的广告位所出现的广告往往是自己最近浏览过的产品,或是最近搜索过的内容,这背后就是大数据在营销上应用。
北京集奥聚合科技有限公司就是一家大数据服务提供商,公司推出的DataQuate解决方案主要用于解决运营商大数据的接入、挖掘及应用,为运营商大数据的价值转化提供端到端服务。
集奥聚合所做的正是通过大数据的挖掘,帮助广告主更精准地进行广告投放。据集奥聚合CMO段培力介绍,公司通过系统地对海量的、碎片化的网络用户行为数据进行梳理,采用科学的分类法和特征模型进行数据挖掘及用户建模,最大程度逼真还原“用户画像”,分析获得用户多维度信息,实现数据的商业价值。
尽管这样的广告很大程度上具有一定滞后性,但相比于过去“漫天撒网”式的广告投放,在精准性上已经有了较大程度的提升。段培力表示,用户数据的“新鲜”程度,直接影响到用户的回复率。数据对于用户兴趣判定的准确性会随着时间迅速降低,因为该浏览者很可能已经完成了一次购买行为。因而数据光是有量还远远不够,数据方还必须保证时效性。
此外,目前的大数据技术多将数据还原到某一终端,基于PC端的数据由于无法区分具体的数据源自一人或多人,也可能出现不够精确的情况。不过,随着移动互联网的普及,手机终端的一对一特性,则为大数据追踪到具体用户创造了条件。段培力认为,现有的大数据基础加上实时数据分析,甚至数据源的动态跟踪,将有助于广告的推送更加精准并具有前瞻性。
事实上,大数据的商业应用远远不止营销这一个领域,集奥聚合新近开发了针对互联网金融的个人征信数据产品。“实际上不管是营销还是征信,数据的搜集方法都是一样的,只是数据输出的维度不同。” 段培力介绍说。
数据分析激活产业链
根据IDC过去五年的研究,全球数据量大约每两年翻一番。然而,大数据产业链上常常出现一个怪相:有数据的公司不知道怎么用,需要数据的公司又没有足够的数据来源,或分析数据的技术。在这种背景下,大量大数据服务公司产生,它们通过大数据技术从各种各样类型的数据中快速获得有价值的信息,并提供给需要数据的公司。
作为建设和管理数据管道的运营商,在大数据领域有天然的资源优势。以一个省级电信运营商为例,每天能产生70~100TB的数据量,几十亿次点击的上网记录。运营商已经认识到信息资产的价值含量,并正在着手建设其用户数据仓库。不过,由于行业应用与数据运营的经验有限,运营商需要面向应用的数据挖掘,需要数据的价值转化工具和运营层面的战略合作伙伴。
据业内人士介绍,根据所提供价值的不同来源,目前主要有三种大数据公司。三种数据来源是指:数据本身、技能与思维。
基于数据本身的公司往往拥有大量数据或者至少可以收集到大量数据,却不一定有从数据中提取价值或者用数据催生创新思想的技能。例如微博等社交网络和运营商。前文所提到的集奥聚合则属于基于技能的公司。这些公司能够进行不同程度的大数据整理和分析,提供给需要数据的公司使用。而基于大数据思维的公司,则通过现有数据的加工,创造性地为用户提供更具价值的想法和建议。这些公司成功的关键不在于占有多少数据和分析数据的技能,而是其创新的思路。
阿里巴巴的金融业务就是基于其数据资产进行商业创新的重要成果。阿里巴巴在金融业的全面布局已经对传统银行、保险、小贷等多个行业形成冲击,尤其在技术、模式和思维上已经形成巨大的冲击,且将推动金融产业格局的重构。而这也正是马云宣称要“摇一摇”传统金融的基础。
一位正在大数据领域创业的人士告诉中国证券报记者,他所从事的大数据业务将为金融企业提供有关个人的数据化行为分析,并进行评级,以推动金融产品的差别定价。例如,给予个人信用好的贷款人更低的贷款利率;或给驾驶行为良好的有车族提供更低的车险保费。
隐私保护的矛盾
隐私问题一直是越来越社交化的互联网争论的热点,而大数据时代则将这一争论进一步推向高潮。大数据来自于具体的网络行为,作为做出这些行为的个人,最关心的当然是自己的隐私数据会不会被泄露和滥用。
据媒体报道,欧洲议会的一项研究报告表示:云计算大数据已经对个人隐私造成了比想象中更加严重的威胁。该报告还称:云计算的隐私威胁被低估了。大数据时代现有的技术手段保护对于个人隐私而言远远不足,除了要建立健全个人隐私保护的法律法规和基本规则之外,鼓励隐私保护技术的研发、创新和使用,从技术层面来保障隐私安全,完善用户保障体系。
据段培力介绍,集奥聚合所采用的是非cookies(访问网络时储存在用户本地终端上的数据)数据,不仅能够更全面地进行受众描述,也有助于保护用户隐私信息。“在网络上,其实有很多地方都属于‘公共场合’,比如网店、网站公开信息等,用户在这些区域产生的数据是我们主要使用的。”
据了解,集奥聚合在隐私安全方面拥有独家首创的核心技术,公司采用三级数据安全技术全面保障用户数据的隐私安全。第一级采用集奥聚合大数据采集解决方案,在数据源头消除用户隐私;第二级采用大数据挖掘和价值应用解决方案,系统间通过IPSEC隧道协议通信,具有不可否认性、发重播性、数据完整性、数据可靠性和认证功能;第三级采用大数据挖掘解决方案,运维支撑系统通过SSL隧道协议维护挖掘系统,具有身份识别和数据加密功能。
数据分析咨询请扫描二维码
若不方便扫码,搜微信号:CDAshujufenxi
在数据科学的工具箱中,析因分析(Factor Analysis, FA)、聚类分析(Clustering Analysis)与主成分分析(Principal Component ...
2025-12-18自2017年《Attention Is All You Need》一文问世以来,Transformer模型凭借自注意力机制的强大建模能力,在NLP、CV、语音等领域 ...
2025-12-18在CDA(Certified Data Analyst)数据分析师的时间序列分析工作中,常面临这样的困惑:某电商平台月度销售额增长20%,但增长是来 ...
2025-12-18在机器学习实践中,“超小数据集”(通常指样本量从几十到几百,远小于模型参数规模)是绕不开的场景——医疗领域的罕见病数据、 ...
2025-12-17数据仓库作为企业决策分析的“数据中枢”,其价值完全依赖于数据质量——若输入的是缺失、重复、不一致的“脏数据”,后续的建模 ...
2025-12-17在CDA(Certified Data Analyst)数据分析师的日常工作中,“随时间变化的数据”无处不在——零售企业的每日销售额、互联网平台 ...
2025-12-17在休闲游戏的运营体系中,次日留存率是当之无愧的“生死线”——它不仅是衡量产品核心吸引力的首个关键指标,更直接决定了后续LT ...
2025-12-16在数字化转型浪潮中,“以用户为中心”已成为企业的核心经营理念,而用户画像则是企业洞察用户、精准决策的“核心工具”。然而, ...
2025-12-16在零售行业从“流量争夺”转向“价值深耕”的演进中,塔吉特百货(Target)以两场标志性实践树立了行业标杆——2000年后的孕妇精 ...
2025-12-15在统计学领域,二项分布与卡方检验是两个高频出现的概念,二者都常用于处理离散数据,因此常被初学者混淆。但本质上,二项分布是 ...
2025-12-15在CDA(Certified Data Analyst)数据分析师的工作链路中,“标签加工”是连接原始数据与业务应用的关键环节。企业积累的用户行 ...
2025-12-15在Python开发中,HTTP请求是与外部服务交互的核心场景——调用第三方API、对接微服务、爬取数据等都离不开它。虽然requests库已 ...
2025-12-12在数据驱动决策中,“数据波动大不大”是高频问题——零售店长关心日销售额是否稳定,工厂管理者关注产品尺寸偏差是否可控,基金 ...
2025-12-12在CDA(Certified Data Analyst)数据分析师的能力矩阵中,数据查询语言(SQL)是贯穿工作全流程的“核心工具”。无论是从数据库 ...
2025-12-12很多小伙伴都在问CDA考试的问题,以下是结合 2025 年最新政策与行业动态更新的 CDA 数据分析师认证考试 Q&A,覆盖考试内容、报考 ...
2025-12-11在Excel数据可视化中,柱形图因直观展示数据差异的优势被广泛使用,而背景色设置绝非简单的“换颜色”——合理的背景色能突出核 ...
2025-12-11在科研实验、商业分析或医学研究中,我们常需要判断“两组数据的差异是真实存在,还是偶然波动”——比如“新降压药的效果是否优 ...
2025-12-11在CDA(Certified Data Analyst)数据分析师的工作体系中,数据库就像“数据仓库的核心骨架”——所有业务数据的存储、组织与提 ...
2025-12-11在神经网络模型搭建中,“最后一层是否添加激活函数”是新手常困惑的关键问题——有人照搬中间层的ReLU激活,导致回归任务输出异 ...
2025-12-05在机器学习落地过程中,“模型准确率高但不可解释”“面对数据噪声就失效”是两大核心痛点——金融风控模型若无法解释决策依据, ...
2025-12-05