京公网安备 11010802034615号
经营许可证编号:京B2-20210330
大数据可视化 让一张图胜过千言万语
谈到大数据,就必然要谈到可视化分析,因为大数据分析的目的是发现有价值的信息,供决策者和业务人员使用,更好地做出企业的决策。
所以每次Teradata不论在国内还是国外的峰会上,都会设置一个大数据可视化展示区域。浏览这些抽象的图形,你甚至可能把它们看成是一副副艺术作品。
当天为我讲解的是Teradata天睿公司大中华区大数据事业部华东区高级顾问张玉瑞,他还有另外一个身份“数据科学家”,在他看来如何把信息传达给相应的人,这就需要一种深入浅出、图文并茂的形式,一张图甚至可以胜过千言万语。
Teradata天睿公司大中华区大数据事业部华东区高级顾问张玉瑞
在这些范例图形中,当然并不能单纯停留在好看的层面,大数据可视化的目的是需要反映出真实的情况,让用户及时注意并防范这些问题以及更好的进行营销。所以这些抽象的图像在真正的系统中可以实现缩放,每一个点都可以看到是哪个客户,以及客户的一些信息,如行业、规模、地区、存款等,线条上也可以看到具体的交易金额。
资金喷泉
“资金喷泉”展示了不同公司之间的资金流动关系,是一个可以清晰发现客户层级的资金视图,图中所展示的是中国一家大型银行的企业银行业务其中一个分析项目,使用转账交易数据了解风险和发现市场机会。
市场营销人员可以利用它切入核心企业,了解上下游关联关系,开展供应链金融。在纷繁复杂的交易过程中,寻找合适的营销目标,捕捉适当的营销时机;风险人员则可以根据它识别客户异常资金交易,防范风险,通盘考虑相关参与方,而不是单单交易对手一方。
图中每一个点代表公司,线代表两家公司之间的资金转移,箭头代表资金的流向。张玉瑞对两个方向进行了描述,在营销和供应链角度,需要从图中找到核心企业,再延伸到上下游;在风险角度,一方面衡量市场变化,一方面监控资金流向。
谈到“资金喷泉”的形成,因为每家公司每天资金流量都是非常大,怎么删繁就简,把一些比较主要的问题呈现出来,需要经过大量的计算后提炼出一些比较有价值数据。如果把几百万个客户都展现在一张图中,解读起来也很困难,因此需要分门别类,这里就需要通过一些业务和分析进行提炼。
担保圈焰火
汽车信贷业务的超常规发展确实为银行带来了利润,但在分享车贷“蛋糕”喜悦的同时,不断攀升的车贷违约率也向银行业敲响了警钟,因为越来越多的车贷存在一些不易规避的风险。“担保圈焰火”展现了在某家银行的汽车厂商、4S店和个人客户之间建立的担保关系网络。
图中点代表车贷客户或者车贷担保人,线代表担保人和被担保人的担保关系,不同颜色用来区分相应的担保网络。
图中比较明显的是黄色、蓝色、紫色三个群体,黄色群体比较正常,中心是4S店,周围是一对一的个人客户。而左下角的蓝色和紫色群体存在重叠,也就是有些客户在两家以上的公司申请汽车贷款,存在一定的骗贷可能,需要银行高度关注。
这里只是使用银行的数据进行图形显示,并没有使用汽车公司的数据。张玉瑞指出,以往的分析都是单独看每笔贷款,其实贷款之间并不是独立的,现在我们把他们关联起来,就很容易发现之前很难发现的问题。
担保圈之谜
挥别了黄金时代的房地产行业,未来房地产价格将在不同地区出现分化。目前一、二线城市住宅地产需求旺盛,价格坚挺,三、四线城市市场低迷,部分区域价格下滑,销售不畅。为了促进销售,部分开发商或者房产中介为购房者提供担保,降低购房门槛,低首付甚至零首付,一旦房价出现大幅波动,这些房贷将给银行带来巨大的风险。
“担保圈之谜”揭示了房地产开发行业所产生的潜在风险,每一个辐射源是房地产公司,散开的点是个人客户。不同颜色可以区分不同担保网络。你会看到一些房地产开发商为大量的客户提供贷款的担保。
“最近央行和银监局要求银行降低首付贷,说明政府对房贷的加杠杆高度关注。”张玉瑞说道。房贷本来是银行优质的资产,如果购房者或者炒房者变成一两成首付或者零首付,杠杆就会陡增,风险就会放大。
所以通过担保圈之谜,让银行展现和监控风险暴露的规模和真实的特性。银行可以对高风险客户采取措施,这些措施包含收紧贷款审批,甚至拒绝贷款。
Teradata Aster如何做可视化分析
“资金喷泉”是使用Teradata Aster和Aster的Lens。装载的交易数据是非常大,涵盖超过 670,000 公司的 60,802,990 记录。公司记录包含行业分类代码,因此我们可以理解他们的业务活动。
“担保圈焰火”和“担保圈之谜”展示了在Teradata Aster分析探索平台做的Sigma图形,所用的数据源包含担保人企业ID、担保合同信息、担保金额、企业信用评级等。这里用的分析方法是社交媒体分析,以发现有影响力的客户和识别担保模式。
其实整个社交圈非常复杂,传统的分析需要采样,但像资金链、担保圈、社交群就没办法抽样。张玉瑞解释道,因为网络大庞大,抽样会使一些关系切断,所以需要将所有数据一起进行分析。
因为所有数据的分析,数据的体量非常庞大,举一个通俗易懂的例子,Google搜索资料会把相关性高得内容显示在前面,这中间会通过一些数据进行计算,算出一个PageRank值,越好的会排到越前面以达到更准确,而且计算速度非常快。Teradata Aster图分析(社交媒体分析)算法里就有PageRank算法,我们通过它来找出网络中有重要影响力的客户 。
不只是以上三个可视化图形,还有很多大数据可视化都是用Teradata Aster来实现。Aster数据库预装了200+个SQL-MR函数,快速高效地支撑库内的数据挖掘和大数据探索分析,它包括了路径与模式分析(Path/Pattern Analysis)、图分析(Graph Analysis)、文本分析(Text Analysis)、统计分析(Statistical calculations)、数据转换(Transformation)、关联及关系分析(Relational Analysis)等。
张玉瑞同时也还原了整个可视化分析的过程,数据来自不同的数据源,把它们加载到分析工具中,可能会有一些数据质量的问题,所以还需要进行清洗。之后建模是一个重要的工作,最后是分析,如果企业数据基础较好,准备的时间也会较短,分析质量也会很高。
数据分析咨询请扫描二维码
若不方便扫码,搜微信号:CDAshujufenxi
在休闲游戏的运营体系中,次日留存率是当之无愧的“生死线”——它不仅是衡量产品核心吸引力的首个关键指标,更直接决定了后续LT ...
2025-12-16在数字化转型浪潮中,“以用户为中心”已成为企业的核心经营理念,而用户画像则是企业洞察用户、精准决策的“核心工具”。然而, ...
2025-12-16在零售行业从“流量争夺”转向“价值深耕”的演进中,塔吉特百货(Target)以两场标志性实践树立了行业标杆——2000年后的孕妇精 ...
2025-12-15在统计学领域,二项分布与卡方检验是两个高频出现的概念,二者都常用于处理离散数据,因此常被初学者混淆。但本质上,二项分布是 ...
2025-12-15在CDA(Certified Data Analyst)数据分析师的工作链路中,“标签加工”是连接原始数据与业务应用的关键环节。企业积累的用户行 ...
2025-12-15在Python开发中,HTTP请求是与外部服务交互的核心场景——调用第三方API、对接微服务、爬取数据等都离不开它。虽然requests库已 ...
2025-12-12在数据驱动决策中,“数据波动大不大”是高频问题——零售店长关心日销售额是否稳定,工厂管理者关注产品尺寸偏差是否可控,基金 ...
2025-12-12在CDA(Certified Data Analyst)数据分析师的能力矩阵中,数据查询语言(SQL)是贯穿工作全流程的“核心工具”。无论是从数据库 ...
2025-12-12很多小伙伴都在问CDA考试的问题,以下是结合 2025 年最新政策与行业动态更新的 CDA 数据分析师认证考试 Q&A,覆盖考试内容、报考 ...
2025-12-11在Excel数据可视化中,柱形图因直观展示数据差异的优势被广泛使用,而背景色设置绝非简单的“换颜色”——合理的背景色能突出核 ...
2025-12-11在科研实验、商业分析或医学研究中,我们常需要判断“两组数据的差异是真实存在,还是偶然波动”——比如“新降压药的效果是否优 ...
2025-12-11在CDA(Certified Data Analyst)数据分析师的工作体系中,数据库就像“数据仓库的核心骨架”——所有业务数据的存储、组织与提 ...
2025-12-11在神经网络模型搭建中,“最后一层是否添加激活函数”是新手常困惑的关键问题——有人照搬中间层的ReLU激活,导致回归任务输出异 ...
2025-12-05在机器学习落地过程中,“模型准确率高但不可解释”“面对数据噪声就失效”是两大核心痛点——金融风控模型若无法解释决策依据, ...
2025-12-05在CDA(Certified Data Analyst)数据分析师的能力模型中,“指标计算”是基础技能,而“指标体系搭建”则是区分新手与资深分析 ...
2025-12-05在回归分析的结果解读中,R方(决定系数)是衡量模型拟合效果的核心指标——它代表因变量的变异中能被自变量解释的比例,取值通 ...
2025-12-04在城市规划、物流配送、文旅分析等场景中,经纬度热力图是解读空间数据的核心工具——它能将零散的GPS坐标(如外卖订单地址、景 ...
2025-12-04在CDA(Certified Data Analyst)数据分析师的指标体系中,“通用指标”与“场景指标”并非相互割裂的两个部分,而是支撑业务分 ...
2025-12-04每到“双十一”,电商平台的销售额会迎来爆发式增长;每逢冬季,北方的天然气消耗量会显著上升;每月的10号左右,工资发放会带动 ...
2025-12-03随着数字化转型的深入,企业面临的数据量呈指数级增长——电商的用户行为日志、物联网的传感器数据、社交平台的图文视频等,这些 ...
2025-12-03