京公网安备 11010802034615号
经营许可证编号:京B2-20210330
大数据成为证据的新标准
大数据并非严格意义上的证据,因为被万维网络记录下来的大数据是杂乱的,分散的,尚不具备作为证明案件事实的证据资格,只有在将相关数据进行客观完整采集的基础上,运用科学的数据处理技术进行连接、运算和分析,它们才能为证明案件事实提供有价值的分析结论,成为证据。大数据成为证据除了要求具有传统的证据三性之外,还要具备新的标准。笔者以2012年—2014年奇虎诉腾讯滥用市场支配地位案(以下简称奇虎诉腾讯案)为例,对大数据成为证据所应具备的新标准进行阐释。
一、数据内容的完整性
大数据转变为证据要求所依赖和利用的数据必须具有完整性,即应采集获取与所证明事项或目标相关的完整数据,唯有如此,所作出的分析结果才具有充分的证明力。在奇虎诉腾讯案中,奇虎证明相关商品市场范围时所提供的艾瑞咨询《中国即时通信年度检测报告》(2010-2011年),其所依据的数据就缺乏完整性,艾瑞咨询监测了个人电脑端即时通信软件的数据,但未监测统计手机和平板电脑等移动端即时通信软件的数据,也未将即时通信产品作为核心产品一部分的微博和SNS社交网站产品纳入到相关市场商品集合中进行数据监测统计,因此不能用来有效地划定本案相关市场的范围。
二、数据来源的复合性
大数据不是从单一来源中形成证据的,大数据到证据的转变需要针对具体事项和目标的需要,通过对多个不同来源的数据库或信息相互关联,从中多维分析挖掘才能够实现,这是一个复杂的分析挖掘复合形成的过程。奇虎诉腾讯一案中法院多次使用了CNNIC第24次《中国互联网络发展状况统计报告》和艾瑞咨询《中国即时通信年度检测报告》(2010-2011年),其中CNNIC拥有高效、安全、稳定的互联网基础资源服务平台,从1997年成立至今已发布了38次《中国互联网络发展状况统计报告》,其统计报告的调查数据和分析结论就具有典型的复合性。艾瑞咨询是拥有国内数据累积时间最长、规模最大、最为稳定的各类数据库,并通过多种指标研究帮助行业建立评估和衡量的标准,至今发布了大量互联网行业的数据统计分析报告,同样具有典型的复合性。在奇虎诉腾讯案中,法院就是根据这两个机构提供的统计数据对既使用移动端即时通信服务又使用个人电脑端即时通信服务的网民数量进行推算,结果是1.7亿人,约占个人电脑端即时通信服务用户总数的48.6%;而且法院根据艾瑞咨询报告的预测,作出合理预见:用户用移动端即时通信服务替代个人电脑端即时通信服务的可能性和比例将进一步增大,这对个人电脑端即时通信服务的经营者形成了有效的竞争约束。据此法院将移动端即时通信服务纳入了本案相关商品市场范围。
三、数据处理技术的科学性
大数据是海量的,分散的、无形的,必须借助科学有效的大数据处理技术才能从中获取有价值的大数据证据。所谓数据处理技术的科学性是指必须采用相关技术领域普遍认同的技术方法,或者可以进行相应验证的技术方法。唯有采用科学的数据处理方法,才能保证通过该方法形成的数据处理结论具有可靠性、具有证明力。在奇虎诉腾讯一案中,法院在认定腾讯是否可以控制商品价格时,使用了CNNIC《中国即时通信用户调研报告》(2009年度)、艾瑞咨询《中国即时通信用户行为研究报告》(2010-2011年) 和eNet的调查结果。其中CNNIC《中国即时通信用户调研报告》(2009年度)指出,不愿意为使用即时通信服务付费的用户高达60.6%。艾瑞咨询《中国即时通信用户行为研究报告》(2010-2011年)则表明, 2010年51.2%的中国即时通信用户从未支付任何费用。eNet调查结果也显示,如果腾讯QQ即时通信服务收费,只有6.69%的用户表示将付费并继续使用,81.71%的用户将转而使用其他即时通信软件。上述报告或结果很明显使用的是数据处理技术中的统计与分析技术,其主要利用分布式数据库,或者分布式计算集群来对存储于其内的海量数据进行常规的分析和分类汇总等,其方法已得到业界的普遍认同,具有科学性。据此法院认为,在免费的互联网基础即时通信服务已经长期存在并成为通行商业模式的情况下,用户对即时通信服务价格的改变会有极高的敏感度,如果从免费模式改为收费模式,哪怕是收费较低都会产生客户大量流失的风险,故法院认定腾讯控制商品价格的能力较弱。
2015年8月国务院印发的《促进大数据发展行动纲要》明确指出大数据是以容量大、类型多、存取速度快、应用价值高为主要特征的数据集合,正快速发展为对数量巨大、来源分散、格式多样的数据进行采集、存储和关联分析,从中发现新知识、创造新价值、提升新能力的新一代信息技术和服务业态。为此,我们应将大数据的思维和方法运用到我国司法领域,将完整的数据作为证据基础,复合的数据库作为证据来源,科学的数据处理技术作为证明方法,从中发现和获取新的知识、创造新的价值,通过大数据分析结果为认定疑难事实提供可靠有效的依据。
数据分析咨询请扫描二维码
若不方便扫码,搜微信号:CDAshujufenxi
在大数据技术飞速迭代、数字营销竞争日趋激烈的今天,“精准触达、高效转化、成本可控”已成为企业营销的核心诉求。传统广告投放 ...
2026-04-24在游戏行业竞争白热化的当下,用户流失已成为制约游戏生命周期、影响营收增长的核心痛点。据行业报告显示,2024年移动游戏平均次 ...
2026-04-24 很多业务负责人开会常说“我们要数据驱动”,最后却变成“看哪张报表数据多就用哪个”,往往因为缺乏一套结构性的方法去搭建 ...
2026-04-24在Power BI数据可视化分析中,切片器是连接用户与数据的核心交互工具,其核心价值在于帮助使用者快速筛选目标数据、聚焦分析重点 ...
2026-04-23以数为据,以析促优——数据分析结果指导临床技术改进的实践路径 临床技术是医疗服务的核心载体,其水平直接决定患者诊疗效果、 ...
2026-04-23很多数据分析师每天盯着GMV、DAU、转化率,但当被问到“哪些指标是所有企业都需要的”“哪些指标是因行业而异的”“北极星指标和 ...
2026-04-23近日,由 CDA 数据科学研究院重磅发布的《2026 全球数智化人才指数报告》,被中国教育科学研究院官方账号正式收录, ...
2026-04-22在数字化时代,客户每一次点击、浏览、下单、咨询等行为,都在传递其潜在需求与决策倾向——这些按时间顺序串联的行为轨迹,构成 ...
2026-04-22数据是数据分析、建模与业务决策的核心基石,而“数据清洗”作为数据预处理的核心环节,是打通数据从“原始杂乱”到“干净可用” ...
2026-04-22 很多数据分析师每天盯着GMV、转化率、DAU等数字看,但当被问到“什么是指标”“指标和维度有什么区别”“如何搭建一套完整的 ...
2026-04-22在数据分析与业务决策中,数据并非静止不变的数值,而是始终处于动态波动之中——股市收盘价的每日涨跌、企业月度销售额的起伏、 ...
2026-04-21在数据分析领域,当研究涉及多个自变量与多个因变量之间的复杂关联时,多变量一般线性分析(Multivariate General Linear Analys ...
2026-04-21很多数据分析师精通描述性统计,能熟练计算均值、中位数、标准差,但当被问到“用500个样本如何推断10万用户的真实满意度”“这 ...
2026-04-21在数据处理与分析的全流程中,日期数据是贯穿业务场景的核心维度之一——无论是业务报表统计、用户行为追踪,还是风控规则落地、 ...
2026-04-20在机器学习建模全流程中,特征工程是连接原始数据与模型效果的关键环节,而特征重要性分析则是特征工程的“灵魂”——它不仅能帮 ...
2026-04-20很多数据分析师沉迷于复杂的机器学习算法,却忽略了数据分析最基础也最核心的能力——描述性统计。事实上,80%的商业分析问题, ...
2026-04-20在数字化时代,数据已成为企业决策的核心驱动力,数据分析与数据挖掘作为解锁数据价值的关键手段,广泛应用于互联网、金融、医疗 ...
2026-04-17在数据处理、后端开发、报表生成与自动化脚本中,将 SQL 查询结果转换为字符串是一项高频且实用的操作。无论是拼接多行数据为逗 ...
2026-04-17面对一份上万行的销售明细表,要快速回答“哪个地区卖得最好”“哪款产品增长最快”“不同客户类型的购买力如何”——这些看似复 ...
2026-04-17数据分析师一天的工作,80% 的时间围绕表格结构数据展开。从一张销售明细表到一份完整的分析报告,表格结构数据贯穿始终。但你真 ...
2026-04-16