京公网安备 11010802034615号
经营许可证编号:京B2-20210330
大数据可视化 让一张图胜过千言万语
谈到大数据,就必然要谈到可视化分析,因为大数据分析的目的是发现有价值的信息,供决策者和业务人员使用,更好地做出企业的决策。
所以每次Teradata不论在国内还是国外的峰会上,都会设置一个大数据可视化展示区域。浏览这些抽象的图形,你甚至可能把它们看成是一副副艺术作品。
当天为我讲解的是Teradata天睿公司大中华区大数据事业部华东区高级顾问张玉瑞,他还有另外一个身份“数据科学家”,在他看来如何把信息传达给相应的人,这就需要一种深入浅出、图文并茂的形式,一张图甚至可以胜过千言万语。
Teradata天睿公司大中华区大数据事业部华东区高级顾问张玉瑞
在这些范例图形中,当然并不能单纯停留在好看的层面,大数据可视化的目的是需要反映出真实的情况,让用户及时注意并防范这些问题以及更好的进行营销。所以这些抽象的图像在真正的系统中可以实现缩放,每一个点都可以看到是哪个客户,以及客户的一些信息,如行业、规模、地区、存款等,线条上也可以看到具体的交易金额。
资金喷泉
“资金喷泉”展示了不同公司之间的资金流动关系,是一个可以清晰发现客户层级的资金视图,图中所展示的是中国一家大型银行的企业银行业务其中一个分析项目,使用转账交易数据了解风险和发现市场机会。
市场营销人员可以利用它切入核心企业,了解上下游关联关系,开展供应链金融。在纷繁复杂的交易过程中,寻找合适的营销目标,捕捉适当的营销时机;风险人员则可以根据它识别客户异常资金交易,防范风险,通盘考虑相关参与方,而不是单单交易对手一方。
图中每一个点代表公司,线代表两家公司之间的资金转移,箭头代表资金的流向。张玉瑞对两个方向进行了描述,在营销和供应链角度,需要从图中找到核心企业,再延伸到上下游;在风险角度,一方面衡量市场变化,一方面监控资金流向。
谈到“资金喷泉”的形成,因为每家公司每天资金流量都是非常大,怎么删繁就简,把一些比较主要的问题呈现出来,需要经过大量的计算后提炼出一些比较有价值数据。如果把几百万个客户都展现在一张图中,解读起来也很困难,因此需要分门别类,这里就需要通过一些业务和分析进行提炼。
担保圈焰火
汽车信贷业务的超常规发展确实为银行带来了利润,但在分享车贷“蛋糕”喜悦的同时,不断攀升的车贷违约率也向银行业敲响了警钟,因为越来越多的车贷存在一些不易规避的风险。“担保圈焰火”展现了在某家银行的汽车厂商、4S店和个人客户之间建立的担保关系网络。
图中点代表车贷客户或者车贷担保人,线代表担保人和被担保人的担保关系,不同颜色用来区分相应的担保网络。
图中比较明显的是黄色、蓝色、紫色三个群体,黄色群体比较正常,中心是4S店,周围是一对一的个人客户。而左下角的蓝色和紫色群体存在重叠,也就是有些客户在两家以上的公司申请汽车贷款,存在一定的骗贷可能,需要银行高度关注。
这里只是使用银行的数据进行图形显示,并没有使用汽车公司的数据。张玉瑞指出,以往的分析都是单独看每笔贷款,其实贷款之间并不是独立的,现在我们把他们关联起来,就很容易发现之前很难发现的问题。
担保圈之谜
挥别了黄金时代的房地产行业,未来房地产价格将在不同地区出现分化。目前一、二线城市住宅地产需求旺盛,价格坚挺,三、四线城市市场低迷,部分区域价格下滑,销售不畅。为了促进销售,部分开发商或者房产中介为购房者提供担保,降低购房门槛,低首付甚至零首付,一旦房价出现大幅波动,这些房贷将给银行带来巨大的风险。
“担保圈之谜”揭示了房地产开发行业所产生的潜在风险,每一个辐射源是房地产公司,散开的点是个人客户。不同颜色可以区分不同担保网络。你会看到一些房地产开发商为大量的客户提供贷款的担保。
“最近央行和银监局要求银行降低首付贷,说明政府对房贷的加杠杆高度关注。”张玉瑞说道。房贷本来是银行优质的资产,如果购房者或者炒房者变成一两成首付或者零首付,杠杆就会陡增,风险就会放大。
所以通过担保圈之谜,让银行展现和监控风险暴露的规模和真实的特性。银行可以对高风险客户采取措施,这些措施包含收紧贷款审批,甚至拒绝贷款。
Teradata Aster如何做可视化分析
“资金喷泉”是使用Teradata Aster和Aster的Lens。装载的交易数据是非常大,涵盖超过 670,000 公司的 60,802,990 记录。公司记录包含行业分类代码,因此我们可以理解他们的业务活动。
“担保圈焰火”和“担保圈之谜”展示了在Teradata Aster分析探索平台做的Sigma图形,所用的数据源包含担保人企业ID、担保合同信息、担保金额、企业信用评级等。这里用的分析方法是社交媒体分析,以发现有影响力的客户和识别担保模式。
其实整个社交圈非常复杂,传统的分析需要采样,但像资金链、担保圈、社交群就没办法抽样。张玉瑞解释道,因为网络大庞大,抽样会使一些关系切断,所以需要将所有数据一起进行分析。
因为所有数据的分析,数据的体量非常庞大,举一个通俗易懂的例子,Google搜索资料会把相关性高得内容显示在前面,这中间会通过一些数据进行计算,算出一个PageRank值,越好的会排到越前面以达到更准确,而且计算速度非常快。Teradata Aster图分析(社交媒体分析)算法里就有PageRank算法,我们通过它来找出网络中有重要影响力的客户 。
不只是以上三个可视化图形,还有很多大数据可视化都是用Teradata Aster来实现。Aster数据库预装了200+个SQL-MR函数,快速高效地支撑库内的数据挖掘和大数据探索分析,它包括了路径与模式分析(Path/Pattern Analysis)、图分析(Graph Analysis)、文本分析(Text Analysis)、统计分析(Statistical calculations)、数据转换(Transformation)、关联及关系分析(Relational Analysis)等。
张玉瑞同时也还原了整个可视化分析的过程,数据来自不同的数据源,把它们加载到分析工具中,可能会有一些数据质量的问题,所以还需要进行清洗。之后建模是一个重要的工作,最后是分析,如果企业数据基础较好,准备的时间也会较短,分析质量也会很高。
数据分析咨询请扫描二维码
若不方便扫码,搜微信号:CDAshujufenxi
在机器学习分析、数据决策的全流程中,“数据质量决定分析价值”早已成为行业共识—— 正如我们此前在运用机器学习进行分析时强 ...
2026-02-25在数字化时代,数据已成为企业决策、行业升级的核心资产,但海量杂乱的原始数据本身不具备价值—— 只有通过科学的分析方法,挖 ...
2026-02-25在数字化时代,数据已成为企业核心资产,而“数据存储有序化、数据分析专业化、数据价值可落地”,则是企业实现数据驱动的三大核 ...
2026-02-25在数据分析、机器学习的实操场景中,聚类分析与主成分分析(PCA)是两种高频使用的统计与数据处理方法。二者常被用于数据预处理 ...
2026-02-24在聚类分析的实操场景中,K-Means算法因其简单高效、易落地的特点,成为处理无监督分类问题的首选工具——无论是用户画像分层、 ...
2026-02-24数字化浪潮下,数据已成为企业核心竞争力,“用数据说话、用数据决策”成为企业发展的核心逻辑。CDA(Certified Data Analyst) ...
2026-02-24CDA一级知识点汇总手册 第五章 业务数据的特征、处理与透视分析考点52:业务数据分析基础考点53:输入和资源需求考点54:业务数 ...
2026-02-23CDA一级知识点汇总手册 第四章 战略与业务数据分析考点43:战略数据分析基础考点44:表格结构数据的使用考点45:输入数据和资源 ...
2026-02-22CDA一级知识点汇总手册 第三章 商业数据分析框架考点27:商业数据分析体系的核心逻辑——BSC五视角框架考点28:战略视角考点29: ...
2026-02-20CDA一级知识点汇总手册 第二章 数据分析方法考点7:基础范式的核心逻辑(本体论与流程化)考点8:分类分析(本体论核心应用)考 ...
2026-02-18第一章:数据分析思维考点1:UVCA时代的特点考点2:数据分析背后的逻辑思维方法论考点3:流程化企业的数据分析需求考点4:企业数 ...
2026-02-16在数据分析、业务决策、科学研究等领域,统计模型是连接原始数据与业务价值的核心工具——它通过对数据的规律提炼、变量关联分析 ...
2026-02-14在SQL查询实操中,SELECT * 与 SELECT 字段1, 字段2,...(指定个别字段)是最常用的两种查询方式。很多开发者在日常开发中,为了 ...
2026-02-14对CDA(Certified Data Analyst)数据分析师而言,数据分析的核心不是孤立解读单个指标数值,而是构建一套科学、完整、贴合业务 ...
2026-02-14在Power BI实操中,函数是实现数据清洗、建模计算、可视化呈现的核心工具——无论是简单的数据筛选、异常值处理,还是复杂的度量 ...
2026-02-13在互联网运营、产品迭代、用户增长等工作中,“留存率”是衡量产品核心价值、用户粘性的核心指标——而次日留存率,作为留存率体 ...
2026-02-13对CDA(Certified Data Analyst)数据分析师而言,指标是贯穿工作全流程的核心载体,更是连接原始数据与业务洞察的关键桥梁。CDA ...
2026-02-13在机器学习建模实操中,“特征选择”是提升模型性能、简化模型复杂度、解读数据逻辑的核心步骤——而随机森林(Random Forest) ...
2026-02-12在MySQL数据查询实操中,按日期分组统计是高频需求——比如统计每日用户登录量、每日订单量、每日销售额,需要按日期分组展示, ...
2026-02-12对CDA(Certified Data Analyst)数据分析师而言,描述性统计是贯穿实操全流程的核心基础,更是从“原始数据”到“初步洞察”的 ...
2026-02-12