京公网安备 11010802034615号
经营许可证编号:京B2-20210330
大数据成为证据的新标准
大数据并非严格意义上的证据,因为被万维网络记录下来的大数据是杂乱的,分散的,尚不具备作为证明案件事实的证据资格,只有在将相关数据进行客观完整采集的基础上,运用科学的数据处理技术进行连接、运算和分析,它们才能为证明案件事实提供有价值的分析结论,成为证据。大数据成为证据除了要求具有传统的证据三性之外,还要具备新的标准。笔者以2012年—2014年奇虎诉腾讯滥用市场支配地位案(以下简称奇虎诉腾讯案)为例,对大数据成为证据所应具备的新标准进行阐释。
一、数据内容的完整性
大数据转变为证据要求所依赖和利用的数据必须具有完整性,即应采集获取与所证明事项或目标相关的完整数据,唯有如此,所作出的分析结果才具有充分的证明力。在奇虎诉腾讯案中,奇虎证明相关商品市场范围时所提供的艾瑞咨询《中国即时通信年度检测报告》(2010-2011年),其所依据的数据就缺乏完整性,艾瑞咨询监测了个人电脑端即时通信软件的数据,但未监测统计手机和平板电脑等移动端即时通信软件的数据,也未将即时通信产品作为核心产品一部分的微博和SNS社交网站产品纳入到相关市场商品集合中进行数据监测统计,因此不能用来有效地划定本案相关市场的范围。
二、数据来源的复合性
大数据不是从单一来源中形成证据的,大数据到证据的转变需要针对具体事项和目标的需要,通过对多个不同来源的数据库或信息相互关联,从中多维分析挖掘才能够实现,这是一个复杂的分析挖掘复合形成的过程。奇虎诉腾讯一案中法院多次使用了CNNIC第24次《中国互联网络发展状况统计报告》和艾瑞咨询《中国即时通信年度检测报告》(2010-2011年),其中CNNIC拥有高效、安全、稳定的互联网基础资源服务平台,从1997年成立至今已发布了38次《中国互联网络发展状况统计报告》,其统计报告的调查数据和分析结论就具有典型的复合性。艾瑞咨询是拥有国内数据累积时间最长、规模最大、最为稳定的各类数据库,并通过多种指标研究帮助行业建立评估和衡量的标准,至今发布了大量互联网行业的数据统计分析报告,同样具有典型的复合性。在奇虎诉腾讯案中,法院就是根据这两个机构提供的统计数据对既使用移动端即时通信服务又使用个人电脑端即时通信服务的网民数量进行推算,结果是1.7亿人,约占个人电脑端即时通信服务用户总数的48.6%;而且法院根据艾瑞咨询报告的预测,作出合理预见:用户用移动端即时通信服务替代个人电脑端即时通信服务的可能性和比例将进一步增大,这对个人电脑端即时通信服务的经营者形成了有效的竞争约束。据此法院将移动端即时通信服务纳入了本案相关商品市场范围。
三、数据处理技术的科学性
大数据是海量的,分散的、无形的,必须借助科学有效的大数据处理技术才能从中获取有价值的大数据证据。所谓数据处理技术的科学性是指必须采用相关技术领域普遍认同的技术方法,或者可以进行相应验证的技术方法。唯有采用科学的数据处理方法,才能保证通过该方法形成的数据处理结论具有可靠性、具有证明力。在奇虎诉腾讯一案中,法院在认定腾讯是否可以控制商品价格时,使用了CNNIC《中国即时通信用户调研报告》(2009年度)、艾瑞咨询《中国即时通信用户行为研究报告》(2010-2011年) 和eNet的调查结果。其中CNNIC《中国即时通信用户调研报告》(2009年度)指出,不愿意为使用即时通信服务付费的用户高达60.6%。艾瑞咨询《中国即时通信用户行为研究报告》(2010-2011年)则表明, 2010年51.2%的中国即时通信用户从未支付任何费用。eNet调查结果也显示,如果腾讯QQ即时通信服务收费,只有6.69%的用户表示将付费并继续使用,81.71%的用户将转而使用其他即时通信软件。上述报告或结果很明显使用的是数据处理技术中的统计与分析技术,其主要利用分布式数据库,或者分布式计算集群来对存储于其内的海量数据进行常规的分析和分类汇总等,其方法已得到业界的普遍认同,具有科学性。据此法院认为,在免费的互联网基础即时通信服务已经长期存在并成为通行商业模式的情况下,用户对即时通信服务价格的改变会有极高的敏感度,如果从免费模式改为收费模式,哪怕是收费较低都会产生客户大量流失的风险,故法院认定腾讯控制商品价格的能力较弱。
2015年8月国务院印发的《促进大数据发展行动纲要》明确指出大数据是以容量大、类型多、存取速度快、应用价值高为主要特征的数据集合,正快速发展为对数量巨大、来源分散、格式多样的数据进行采集、存储和关联分析,从中发现新知识、创造新价值、提升新能力的新一代信息技术和服务业态。为此,我们应将大数据的思维和方法运用到我国司法领域,将完整的数据作为证据基础,复合的数据库作为证据来源,科学的数据处理技术作为证明方法,从中发现和获取新的知识、创造新的价值,通过大数据分析结果为认定疑难事实提供可靠有效的依据。
数据分析咨询请扫描二维码
若不方便扫码,搜微信号:CDAshujufenxi
在数据处理的全流程中,数据呈现与数据分析是两个紧密关联却截然不同的核心环节。无论是科研数据整理、企业业务复盘,还是日常数 ...
2026-03-06在数据分析、数据预处理场景中,dat文件是一种常见的二进制或文本格式数据文件,广泛应用于科研数据、工程数据、传感器数据等领 ...
2026-03-06在数据驱动决策的时代,CDA(Certified Data Analyst)数据分析师的核心价值,早已超越单纯的数据清洗与统计分析,而是通过数据 ...
2026-03-06在教学管理、培训数据统计、课程体系搭建等场景中,经常需要对课时数据进行排序并实现累加计算——比如,按课程章节排序,累加各 ...
2026-03-05在数据分析场景中,环比是衡量数据短期波动的核心指标——它通过对比“当前周期与上一个相邻周期”的数据,直观反映指标的月度、 ...
2026-03-05数据治理是数字化时代企业实现数据价值最大化的核心前提,而CDA(Certified Data Analyst)数据分析师作为数据全生命周期的核心 ...
2026-03-05在实验检测、质量控制、科研验证等场景中,“方法验证”是确保检测/分析结果可靠、可复用的核心环节——无论是新开发的检测方法 ...
2026-03-04在数据分析、科研实验、办公统计等场景中,我们常常需要对比两组数据的整体差异——比如两种营销策略的销售额差异、两种实验方案 ...
2026-03-04在数字化转型进入深水区的今天,企业对数据的依赖程度日益加深,而数据治理体系则是企业实现数据规范化、高质量化、价值化的核心 ...
2026-03-04在深度学习,尤其是卷积神经网络(CNN)的实操中,转置卷积(Transposed Convolution)是一个高频应用的操作——它核心用于实现 ...
2026-03-03在日常办公、数据分析、金融理财、科研统计等场景中,我们经常需要计算“平均值”来概括一组数据的整体水平——比如计算月度平均 ...
2026-03-03在数字化转型的浪潮中,数据已成为企业最核心的战略资产,而数据治理则是激活这份资产价值的前提——没有规范、高质量的数据治理 ...
2026-03-03在Excel办公中,数据透视表是汇总、分析繁杂数据的核心工具,我们常常通过它快速得到销售额汇总、人员统计、业绩分析等关键结果 ...
2026-03-02在日常办公和数据分析中,我们常常需要探究两个或多个数据之间的关联关系——比如销售额与广告投入是否正相关、员工出勤率与绩效 ...
2026-03-02在数字化运营中,时间序列数据是CDA(Certified Data Analyst)数据分析师最常接触的数据类型之一——每日的营收、每小时的用户 ...
2026-03-02在日常办公中,数据透视表是Excel、WPS等表格工具中最常用的数据分析利器——它能快速汇总繁杂数据、挖掘数据关联、生成直观报表 ...
2026-02-28有限元法(Finite Element Method, FEM)作为工程数值模拟的核心工具,已广泛应用于机械制造、航空航天、土木工程、生物医学等多 ...
2026-02-28在数字化时代,“以用户为中心”已成为企业运营的核心逻辑,而用户画像则是企业读懂用户、精准服务用户的关键载体。CDA(Certifi ...
2026-02-28在Python面向对象编程(OOP)中,类方法是构建模块化、可复用代码的核心载体,也是实现封装、继承、多态特性的关键工具。无论是 ...
2026-02-27在MySQL数据库优化中,索引是提升查询效率的核心手段—— 面对千万级、亿级数据量,合理创建索引能将查询时间从秒级压缩到毫秒级 ...
2026-02-27