
互联网+大数据等于大数据征信
近年来,借助互联网,大数据的概念浮现市场。进一步,人们在互联网大数据的基础上,尝试开展征信活动,并时有人声称取得新的成功。从目前实践情况来看,互联网大数据征信的现状,犹如站在丛林上面看地下茫茫的市场,找不到路!
这里的关键是有些核心问题还未找到解。
从数据来源渠道看。目前,一些互联网企业的所谓大数据,大体来自五个方面。一是信用交易数据。个别银行机构和人人贷(P2P)等类金融机构,在管理上实行数据服务外包,将所谓“脱敏”后的客户信用数据,如信用卡和个人零售信贷业务,外包给自认定的IT企业,以帮助其针对特定人群开发特定产品。据市场上最有影响的互联网大数据企业介绍,这类数据在其总数据量中的占比不到10%。
二是商品和服务交易数据以及行为数据。一些电商、金融、娱乐、旅游等企业,以及水、电、气、话、教育、医疗等公用服务机构,利用自有的工作机制和网络平台,收集本机构留存的客户买卖商品和享受服务中的身份信息、业务信息和社交行为信息,并对这些数据进行有序加工整理,形成数据库。由于不同企业和服务机构处于竞争状态,彼此力争形成自己所谓的“闭环”,提供他人分享的内在动力不足,所以这类信息也主要是企业和服务机构自身的客户信息。这类信息在一些互联网大数据企业中所占的比重也不到10%。
三是收集公开数据。主要是政府公开信息和公共服务信息,特别是有关企业和个人的注册登记信息和电话黄页上的信息。根据政府信息公开要求,一些政府部门及其直属机构,将企业和个人的注册登记信息以及城市电话薄上的黄页信息(大多电子化)统一汇集后,对外提供查询服务。一些互联网企业甚至通过批量下载方式,通过上述渠道掌握了大量的企业和个人的身份及通讯联系信息。这类信息约占其信息量的30%。
四是通过非常渠道窃购数据。目前能够生成企业和个人信息的机制,除了上述的企业和服务机构生成的客户信息外,主要是行政司法机关掌握的企业和个人在接受行政管理、履行法定义务过程中形成的信息。由于生成和掌控信息的渠道与部门众多,有私权的市场主体,也有公权的政府机构,所以在实践中,由于主观和客观原因,一些不法分子内外勾结,倒卖盗买数据牟利,就成为可能。当前坊间谈论的数据黑色产业链,大体属于这种情况。在所谓的互联网大数据中,这类数据的占比很难判断,也无人承认,但确实存在,估计占比约在20%。
五是通过技术手段爬取数据。对于一些互联网企业来讲,彼此之间通过爬虫技术爬取数据,似乎已成常规,彼此心照不宣,互不言偷。在这里比的不是行为规范,而是技术水平。这是许多互联网大数据企业的数据获取之道。这类数据占比约在30%,有些企业的占比甚至更高。
由上可见,互联网企业大数据的形成渠道非常复杂。有少量从市场采集的,有大量从政府公开信息中获取的;有少量市场交易信息,有大量社交行为信息;有少量从正规渠道获取的,有大量从非常渠道获取的;有少量标准数据,有大量非标准数据;有少量普通数据,有大量敏感数据;有少量脱敏数据,有大量非脱敏数据;有少量当事人被告之授权采集的数据,有大量当事人未被告知未授权被采集的数据;有少量来源渠道清晰的数据,有大量来源渠道不明的数据;有少量按明示规则采集的数据,有大量通过营销优惠诱报采集的数据。而且,每一个互联网企业为了自己的所谓大数据,采集数据的基本规则是有数即要,不怕多。这样,大数据几乎成为大垃圾,坊间更有“垃圾进,垃圾出”的说法。由于数据来源渠道复杂,大量信息采集未经当事人同意授权,所以在目前互联网大数据的形成上,普遍存在信息来源不可追溯、不可异议、不可纠错,当事人在无意识下信息“被采集”,这严重侵害信息主体的隐私和财产权益,与国家发布的《征信业管理条例》规定的信息主体同意权和纠错权严重相悖,致使大数据的合法性和公信力严重缺失!
从数据使用情况看。从目前接触到的有影响的互联网大数据企业运行情况看,其数据使用无一例外地是通过客户分群向数据需求方或数据使用者进行营销推介。这种客户分群的方式大多是评分,评分几乎是互联网大数据企业的主打产品。据介绍,一些互联网企业利用非负债数据,主要是行为信息和社交信息,能判断一个人居住环境的好坏,收入的高低,工作单位重要与否,朋友圈社会地位高低,本人消费倾向奢与俭,生活的贫与富,以及本人爱好的善与恶等等,根据这些不同数据维度的权重,汇总得出相应的分数,来直观地对每个人进行“画像”。个人居住环境好的,收入高的,所交朋友社会地位高的,消费偏向大手笔一幅富人派头的,本人爱好“高大上”的,所得的分数就高。反之则反是。
这种评分画像,从市场组织营销的角度来说,无可厚非。但从征信的角度评估,这种客户分群不仅政治上不正确,而且难以保证信息主体的公平一致性,它绘出的将是一幅比真容更美或更丑但却不太像的肖像。道理很简单,在现实生活中,富人有崇尚节俭的,穷人有要面子贪奢华的,上层领导有与草根百姓打成一片的,上述每一个划分维度的科学性都经不起逆向的理性拷问。
进一步,从数据使用看,来自不同渠道的维度数据汇聚一起,加工成不同的分数,在分散数据变成一个分数的过程中,任何一个互联网企业,不仅没有,而且也难以做到一一取得信息主体的同意授权。大量数据的应用,没有依《征信业管理条例》取得信息主体的任何同意授权,而且抓住人性贪利的弱点进行营销,实属信息滥用。当前人们疾恶征信市场混乱,期盼征信市场健康发展,对互联网企业进行的所谓大数据征信,须依法进行规范。若仍任其自发发展,则就像莫里哀剧中的医生所断言,病人不按规则,就不能痊愈。应警惕互联网大数据行业出现“e租宝现象”!
从数据运用效果看。现在,全国声称自己为互联网大数据的企业到底有多少家,其中又有多少家与征信挂钩,很难说清楚。但一个不争的事实是,互联网大数据企业之间,以邻为壑,互相防范,每一个都想形成所谓的“闭环”成为行业老大,互联网大数据企业从信息共享的愿望出发,有效地实施了信息的分割,形成有限的几个信息孤岛,这与征信解决信息不对称问题的初衷相悖,与建立覆盖全社会的征信系统的目标相悖。之所以如此,是因为人们的想象力预先就沉浸在所谓的“征信蓝海”即将来临的闻所未闻的巨大预期收益中。认为征信是一个可获利巨丰的行业,进而把征信作为资本市场的一个概念或噱头加以想象和利用,这是对征信的极大误解和误用。
我国将互联网大数据应用于征信的实践尚处于探索之中,对这种探索的效果,除了从业人士的一些概念化的预期外,目前缺乏理论和实证的评估。实际上,在互联网大数据的“故乡”美国,人们早就在探索互联网大数据与征信的内在联系。在我国,人们动辄以美国征信体系为模板或参照系来讨论我国征信体系的发展问题,那么,当前美国征信业对互联网大数据与征信的关系是怎样看待的呢?据世界银行和美国的征信专家介绍,美英征信机构均认为,互联网大数据在征信服务中须慎用,可以作为参考数据来源,但对传统征信数据无法形成替代,也无法发挥传统征信数据的功能。根据美国一些数据服务商(Data Broker)的服务实践,即通过金融科技创新,帮助越来越多的贷款人尝试摆脱传统的信用评估方式,寻找新的方式来评估没有传统信用记录的潜在客户。例如,利用脸书(Facebook)中的联系人,查看当事人受教育的程度等。对此,美联储作为重要的监管机构,警告金融科技公司,使用诸如社交媒体信息等非传统数据来判断信贷价值,存在着风险,因为这种判断方式有可能会导致他们触犯与公平贷款相关的法律。美联储总监拉尔·布雷纳德(Lael Brainard)指出,这些社交数据和信贷价值之间,还没有建立起普遍认同和实际的联系,而这些数据有可能与公平贷款法所保护的一些特征相关;使用新型数据还存在透明度的问题,因为个人甚至监管机构都不可能永远知道如何使用具体的信息来做决定,也不清楚人们会如何通过调整自身行为来调整信用状态以及定价。因此,随着银行与数据公司之间合作关系的增多,美联储正在积极审查数据供应商风险管理问题。
从数据营运模式看。目前,互联网大数据企业的营运模式离定型还有很大的差距。与此相关的问题也值得认真思考。科技领域有一种流行的说法,即发展速度越快,所造成的破坏也就越大。减少破坏,加快发展,是我们由衷的追求。这样,我们不得不拷问下列问题:
其一,互联网大数据的营运模式或业务形态,到底是随机所遇好还是基本稳定好?随机所遇是指想怎么干就怎么干,碰到什么数据就收集什么数据,谁需要什么数据就卖给谁什么数据,即前述的“垃圾进、垃圾出”,只要有利可图就行。当前坊间盛传的数据黑市和所谓的信息服务“劣币驱逐良币”的现象,大体属于这种情况。基本稳定是指互联网企业在大数据的集合结构、数据采集的渠道、数据产品的研发和数据使用的服务等方面,有基本稳定的业务规则和操守准则。但目前鲜见这种业务模式基本定型的互联网大数据企业。
其二,互联网大数据中的数据,要不要标准化?从原理上推断,互联网大数据应该是有利于信息共享的,因为解决信息不对称问题,是市场交易成功与否的前提和基础。这为互联网大数据的存在提供了内在的动力。但是,信息共享的前提是数据标准化,集合不同渠道不同性质的数据,若不以标准化为规则,则数据的可加性和可比性就得不到保障,在这种情况下的信息共享,可靠性和可信性就无法保证。结果只能是张冠李戴、以偏概全、以讹传讹。我国目前的互联网大数据企业,基本是各居“山头”,各自为战,数据的标准化远未提上内控管理日程,亦或远未到进行数据标准化的阶段,这严重影响大数据的质量。
其三,互联网大数据是大集中好还是大分散好?我国现阶段互联网企业众多,许多都以大数据为目标。数据规模无论多大,都分属不同的互联网公司或数据公司,不同互联网公司的数据不能聚合,数据的分散存在与大数据的理念和功能似乎并不齿合。若不同的互联网企业能以大数据为共同的理念进行整合,则有可能形成一个或少数几个互联网巨型企业整合不同企业的数据模块,并形成真正意义上的互联网大数据。但这种假设是否有理,是否能为相关方接受,是否能变为现实,现在似乎还看不到这样的苗头。
进一步,若大数据并不意味着数据大集中,则数据大分散能构成大数据吗?从理论上分析,只有一个条件能满足这种需求,即通过统一的数据目录和数据格式来方便数据共享。否则,在这种情况下,就根本不存在所谓的大数据。
上述对互联网大数据现行业态的悲观看法,是否就意味着互联网大数据的发展没有希望呢?答案是否定的。互联网大数据企业只要具备以下三个条件,其发展潜力还是巨大的。
一是正当。互联网大数据企业在本质上,是一个信息科技+信息中介机构,它本身不直接参与商品和服务交易。这就要求其信息来源渠道和信息使用渠道具有正当性,不能通过非常途径获取数据,不能以承诺或特定目的加工使用数据,以数据服务的中立性来保证其正当性。否则,数据歧视会带来产品的歧视,进而会毁掉大数据的基本功能。
二是透明。互联网大数据企业的行为规则和大数据业务模型假设必须公开透明,且能为公众认知和监督。互联网大数据企业不能依靠互联网科技的概念,外加自身和别人都未搞懂的所谓大数据概念,来神化和泛化大数据功能,进而打造一个别人不懂、只有自己懂、功能似乎普惠、自诩无可替代、举世仰望的佼佼者。阳光是最好的消毒剂,透明是防欺诈的法宝!
三是兼容。互联网大数据有数据大集中的内在属性,但将互联网大数据全部集中在一个超级的互联网企业手中,似乎也不现实。根据互联网大数据的功能属性,在理论上应有不同的互联网企业参与大数据服务,且这些互联网企业之间,应可兼容、可共享。若这个立论成立,则当前一些互联网大数据企业则应进行资源整合。想自己单干,并企求一家独大,如前述,似乎不现实。
若互联网大数据企业同时具备上述正当性、透明性和兼容性三条件,则其与征信挂钩还有市场基础和法理基础。反之则反是。
数据分析咨询请扫描二维码
若不方便扫码,搜微信号:CDAshujufenxi
在数据成为新时代“石油”的今天,几乎每个职场人都在焦虑: “为什么别人能用数据驱动决策、升职加薪,而我面对Excel表格却无从 ...
2025-10-18数据清洗是 “数据价值挖掘的前置关卡”—— 其核心目标是 “去除噪声、修正错误、规范格式”,但前提是不破坏数据的真实业务含 ...
2025-10-17在数据汇总分析中,透视表凭借灵活的字段重组能力成为核心工具,但原始透视表仅能呈现数值结果,缺乏对数据背景、异常原因或业务 ...
2025-10-17在企业管理中,“凭经验定策略” 的传统模式正逐渐失效 —— 金融机构靠 “研究员主观判断” 选股可能错失收益,电商靠 “运营拍 ...
2025-10-17在数据库日常操作中,INSERT INTO SELECT是实现 “批量数据迁移” 的核心 SQL 语句 —— 它能直接将一个表(或查询结果集)的数 ...
2025-10-16在机器学习建模中,“参数” 是决定模型效果的关键变量 —— 无论是线性回归的系数、随机森林的树深度,还是神经网络的权重,这 ...
2025-10-16在数字化浪潮中,“数据” 已从 “辅助决策的工具” 升级为 “驱动业务的核心资产”—— 电商平台靠用户行为数据优化推荐算法, ...
2025-10-16在大模型从实验室走向生产环境的过程中,“稳定性” 是决定其能否实用的关键 —— 一个在单轮测试中表现优异的模型,若在高并发 ...
2025-10-15在机器学习入门领域,“鸢尾花数据集(Iris Dataset)” 是理解 “特征值” 与 “目标值” 的最佳案例 —— 它结构清晰、维度适 ...
2025-10-15在数据驱动的业务场景中,零散的指标(如 “GMV”“复购率”)就像 “散落的零件”,无法支撑系统性决策;而科学的指标体系,则 ...
2025-10-15在神经网络模型设计中,“隐藏层层数” 是决定模型能力与效率的核心参数之一 —— 层数过少,模型可能 “欠拟合”(无法捕捉数据 ...
2025-10-14在数字化浪潮中,数据分析师已成为企业 “从数据中挖掘价值” 的核心角色 —— 他们既要能从海量数据中提取有效信息,又要能将分 ...
2025-10-14在企业数据驱动的实践中,“指标混乱” 是最常见的痛点:运营部门说 “复购率 15%”,产品部门说 “复购率 8%”,实则是两者对 ...
2025-10-14在手游行业,“次日留存率” 是衡量一款游戏生死的 “第一道关卡”—— 它不仅反映了玩家对游戏的初始接受度,更直接决定了后续 ...
2025-10-13分库分表,为何而生? 在信息技术发展的早期阶段,数据量相对较小,业务逻辑也较为简单,单库单表的数据库架构就能够满足大多数 ...
2025-10-13在企业数字化转型过程中,“数据孤岛” 是普遍面临的痛点:用户数据散落在 APP 日志、注册系统、客服记录中,订单数据分散在交易 ...
2025-10-13在数字化时代,用户的每一次行为 —— 从电商平台的 “浏览→加购→购买”,到视频 APP 的 “打开→搜索→观看→收藏”,再到银 ...
2025-10-11在机器学习建模流程中,“特征重要性分析” 是连接 “数据” 与 “业务” 的关键桥梁 —— 它不仅能帮我们筛选冗余特征、提升模 ...
2025-10-11在企业的数据体系中,未经分类的数据如同 “杂乱无章的仓库”—— 用户行为日志、订单记录、商品信息混杂存储,CDA(Certified D ...
2025-10-11在 SQL Server 数据库操作中,“数据类型转换” 是高频需求 —— 无论是将字符串格式的日期转为datetime用于筛选,还是将数值转 ...
2025-10-10