
大数据成为证据的新标准
大数据并非严格意义上的证据,因为被万维网络记录下来的大数据是杂乱的,分散的,尚不具备作为证明案件事实的证据资格,只有在将相关数据进行客观完整采集的基础上,运用科学的数据处理技术进行连接、运算和分析,它们才能为证明案件事实提供有价值的分析结论,成为证据。大数据成为证据除了要求具有传统的证据三性之外,还要具备新的标准。笔者以2012年—2014年奇虎诉腾讯滥用市场支配地位案(以下简称奇虎诉腾讯案)为例,对大数据成为证据所应具备的新标准进行阐释。
一、数据内容的完整性
大数据转变为证据要求所依赖和利用的数据必须具有完整性,即应采集获取与所证明事项或目标相关的完整数据,唯有如此,所作出的分析结果才具有充分的证明力。在奇虎诉腾讯案中,奇虎证明相关商品市场范围时所提供的艾瑞咨询《中国即时通信年度检测报告》(2010-2011年),其所依据的数据就缺乏完整性,艾瑞咨询监测了个人电脑端即时通信软件的数据,但未监测统计手机和平板电脑等移动端即时通信软件的数据,也未将即时通信产品作为核心产品一部分的微博和SNS社交网站产品纳入到相关市场商品集合中进行数据监测统计,因此不能用来有效地划定本案相关市场的范围。
二、数据来源的复合性
大数据不是从单一来源中形成证据的,大数据到证据的转变需要针对具体事项和目标的需要,通过对多个不同来源的数据库或信息相互关联,从中多维分析挖掘才能够实现,这是一个复杂的分析挖掘复合形成的过程。奇虎诉腾讯一案中法院多次使用了CNNIC第24次《中国互联网络发展状况统计报告》和艾瑞咨询《中国即时通信年度检测报告》(2010-2011年),其中CNNIC拥有高效、安全、稳定的互联网基础资源服务平台,从1997年成立至今已发布了38次《中国互联网络发展状况统计报告》,其统计报告的调查数据和分析结论就具有典型的复合性。艾瑞咨询是拥有国内数据累积时间最长、规模最大、最为稳定的各类数据库,并通过多种指标研究帮助行业建立评估和衡量的标准,至今发布了大量互联网行业的数据统计分析报告,同样具有典型的复合性。在奇虎诉腾讯案中,法院就是根据这两个机构提供的统计数据对既使用移动端即时通信服务又使用个人电脑端即时通信服务的网民数量进行推算,结果是1.7亿人,约占个人电脑端即时通信服务用户总数的48.6%;而且法院根据艾瑞咨询报告的预测,作出合理预见:用户用移动端即时通信服务替代个人电脑端即时通信服务的可能性和比例将进一步增大,这对个人电脑端即时通信服务的经营者形成了有效的竞争约束。据此法院将移动端即时通信服务纳入了本案相关商品市场范围。
三、数据处理技术的科学性
大数据是海量的,分散的、无形的,必须借助科学有效的大数据处理技术才能从中获取有价值的大数据证据。所谓数据处理技术的科学性是指必须采用相关技术领域普遍认同的技术方法,或者可以进行相应验证的技术方法。唯有采用科学的数据处理方法,才能保证通过该方法形成的数据处理结论具有可靠性、具有证明力。在奇虎诉腾讯一案中,法院在认定腾讯是否可以控制商品价格时,使用了CNNIC《中国即时通信用户调研报告》(2009年度)、艾瑞咨询《中国即时通信用户行为研究报告》(2010-2011年) 和eNet的调查结果。其中CNNIC《中国即时通信用户调研报告》(2009年度)指出,不愿意为使用即时通信服务付费的用户高达60.6%。艾瑞咨询《中国即时通信用户行为研究报告》(2010-2011年)则表明, 2010年51.2%的中国即时通信用户从未支付任何费用。eNet调查结果也显示,如果腾讯QQ即时通信服务收费,只有6.69%的用户表示将付费并继续使用,81.71%的用户将转而使用其他即时通信软件。上述报告或结果很明显使用的是数据处理技术中的统计与分析技术,其主要利用分布式数据库,或者分布式计算集群来对存储于其内的海量数据进行常规的分析和分类汇总等,其方法已得到业界的普遍认同,具有科学性。据此法院认为,在免费的互联网基础即时通信服务已经长期存在并成为通行商业模式的情况下,用户对即时通信服务价格的改变会有极高的敏感度,如果从免费模式改为收费模式,哪怕是收费较低都会产生客户大量流失的风险,故法院认定腾讯控制商品价格的能力较弱。
2015年8月国务院印发的《促进大数据发展行动纲要》明确指出大数据是以容量大、类型多、存取速度快、应用价值高为主要特征的数据集合,正快速发展为对数量巨大、来源分散、格式多样的数据进行采集、存储和关联分析,从中发现新知识、创造新价值、提升新能力的新一代信息技术和服务业态。为此,我们应将大数据的思维和方法运用到我国司法领域,将完整的数据作为证据基础,复合的数据库作为证据来源,科学的数据处理技术作为证明方法,从中发现和获取新的知识、创造新的价值,通过大数据分析结果为认定疑难事实提供可靠有效的依据。
数据分析咨询请扫描二维码
若不方便扫码,搜微信号:CDAshujufenxi
CDA数据分析师与数据指标:基础概念与协同逻辑 一、CDA 数据分析师:数据驱动时代的核心角色 1.1 定义与行业价值 CDA(Certified ...
2025-08-22Power Query 移动加权平均计算 Power Query 移动加权平均设置全解析:从原理到实战 一、移动加权平均法的核心逻辑 移动加权平均 ...
2025-08-22描述性统计:CDA数据分析师的基础核心与实践应用 一、描述性统计的定位:CDA 认证的 “入门基石” 在 CDA(Certified Data Analy ...
2025-08-22基于 Python response.text 的科技新闻数据清洗去噪实践 在通过 Python requests 库的 response.text 获取 API 数据后,原始数据 ...
2025-08-21基于 Python response.text 的科技新闻综述 在 Python 网络爬虫与 API 调用场景中,response.text 是 requests 库发起请求后获取 ...
2025-08-21数据治理新浪潮:CDA 数据分析师的战略价值与驱动逻辑 一、数据治理的多维驱动引擎 在数字经济与人工智能深度融合的时代,数据治 ...
2025-08-21Power BI 热力地图制作指南:从数据准备到实战分析 在数据可视化领域,热力地图凭借 “直观呈现数据密度与分布趋势” 的核心优势 ...
2025-08-20PyTorch 矩阵运算加速库:从原理到实践的全面解析 在深度学习领域,矩阵运算堪称 “计算基石”。无论是卷积神经网络(CNN)中的 ...
2025-08-20数据建模:CDA 数据分析师的核心驱动力 在数字经济浪潮中,数据已成为企业决策的核心资产。CDA(Certified Data Analyst)数据分 ...
2025-08-20KS 曲线不光滑:模型评估的隐形陷阱,从原因到破局的全指南 在分类模型(如风控违约预测、电商用户流失预警、医疗疾病诊断)的评 ...
2025-08-20偏态分布:揭开数据背后的非对称真相,赋能精准决策 在数据分析的世界里,“正态分布” 常被视为 “理想模型”—— 数据围绕均值 ...
2025-08-19CDA 数据分析师:数字化时代的价值创造者与决策智囊 在数据洪流席卷全球的今天,“数据驱动” 已从企业战略口号落地为核心 ...
2025-08-19CDA 数据分析师:善用 Power BI 索引列,提升数据处理与分析效率 在 Power BI 数据分析流程中,“数据准备” 是决定后续分析质量 ...
2025-08-18CDA 数据分析师:巧用 SQL 多个聚合函数,解锁数据多维洞察 在企业数据分析场景中,单一维度的统计(如 “总销售额”“用户总数 ...
2025-08-18CDA 数据分析师:驾驭表格结构数据的核心角色与实践应用 在企业日常数据存储与分析场景中,表格结构数据(如 Excel 表格、数据库 ...
2025-08-18PowerBI 累计曲线制作指南:从 DAX 度量到可视化落地 在业务数据分析中,“累计趋势” 是衡量业务进展的核心视角 —— 无论是 “ ...
2025-08-15Python 函数 return 多个数据:用法、实例与实战技巧 在 Python 编程中,函数是代码复用与逻辑封装的核心载体。多数场景下,我们 ...
2025-08-15CDA 数据分析师:引领商业数据分析体系构建,筑牢企业数据驱动根基 在数字化转型深化的今天,企业对数据的依赖已从 “零散分析” ...
2025-08-15随机森林中特征重要性(Feature Importance)排名解析 在机器学习领域,随机森林因其出色的预测性能和对高维数据的适应性,被广 ...
2025-08-14t 统计量为负数时的分布计算方法与解析 在统计学假设检验中,t 统计量是常用的重要指标,其分布特征直接影响着检验结果的判断。 ...
2025-08-14