京公网安备 11010802034615号
经营许可证编号:京B2-20210330
新媒体遇上大数据 隐私保护仍是“痛点”_数据分析师考试
大数据并不是简单地买几台服务器把数据存下来,而是要将大数据与实际接轨,突出工具化、服务化和实用化,让大数据能解决具体问题。
新媒体在运用大数据过程中,一个非常关键的问题是隐私保护。在使用大数据过程中保护个人隐私,需要司法机关发布有效的法律判例,对侵犯隐私行为形成舆论压力;同时要加强大数据隐私保护研究
7月9日,金砖国家领导人第七次会晤在俄罗斯乌法举行。
当天,人民日报全媒体平台“烹”出一张图解:《金砖国家大数据》。
这并非新媒体与大数据的第一次结合。
前不久由中国社会科学院发布的《中国新媒体发展报告(2015)》称,中国新媒体已超越“跨行业”,初步呈现“全产业”发展新趋势。移动化、大数据化和智能化的新媒体已成为具备高强渗透度的产业基因,可深度融合于经济产业各领域之中。
专注研究新媒体与数据新闻的清华大学新闻与传播学院教授沈阳认为,当前,大数据在新媒体中应用广泛,贯穿于新媒体发展的各个方面。
大数据运用广泛
人民日报全媒体平台发布的《金砖国家大数据》,只是近期新媒体运用大数据的一个例子。
早在大数据这一概念进入公众视野不久,便有媒体将大数据运用于新闻报道之中。
2014年春运期间,互联网上就出现了一张可以呈现国内春节人口迁徙实况的地图,这张尽显中国春运迁徙实景的图片更是登上央视《新闻联播》进行权威盘点。自从春运开始,这张地图多次被电视、报纸等媒体引用,成为用数据解读春运状况的一个样本。据称,这是国内首个运用大数据播报国内春节人口迁徙实况的地图。
相较于电视、报纸等传统媒体,新媒体对大数据的运用更加频繁,作为新媒体代表之一的“澎湃新闻”便是如此:今年2月,“澎湃新闻”出品了《大数据告诉你,梅西的右脚现在有多恐怖》;3月,《落马老虎大数据:除“军虎”外,69人共花两千多年入省部级》“走”下生产线。
在沈阳看来,将大数据应用于报道内容,只是新媒体运用大数据的一个方面。
在与《法制日报》记者交谈过程中,沈阳列出了新媒体“遇上”大数据的多个“场景”:在做新媒体功能研发时,哪些要素需要增强、哪些需要减弱,可以运用大数据分析进行修正;在策划选题时,可以通过大数据分析筛选出哪些话题关注度高、最热门;在内容推送过程中,可以利用大数据对用户兴趣进行分析并梳理出来;新闻发出后,受众有哪些评论、转发多少、分享情况,这些都可以通过大数据获得结果;即便是在广告投放环节,也可以通过大数据分析、预判广告与用户是否匹配、广告对新媒体品牌价值是否会有影响。
“大数据贯穿于新媒体的各个方面。”沈阳说。
“完美”并非绝对
尽管大数据很重要、很管用,但沈阳很早就发现,“大数据,没有看起来那么美”。
“数据真实性是一个不可回避的问题。目前,水军、僵尸粉、刷阅读量等情况都有存在,这在一定程度上给数据提供了虚假成分。”沈阳说,不过,从宏观上讲,可以控制这些虚假成分。
如何控制“水分”?沈阳举例说,在统计微博粉丝时,可以将范围缩小至带V的粉丝,因为带V粉丝造假成本高;如果要更精准的数据,可以进一步缩小范围,如近期活跃的带V粉丝。“当然,这样筛选数据会面临高成本的问题”。
沈阳在早期的研究中还关注到大数据的另外两个问题:样本代表性和相关性误差。
沈阳认为,我们不可能搜集到全数据,而与大数据相关的形容词往往是大规模、精准、细化,在调用如此“完美”的数据时,如何注意情景和样本的适用性是一个问题。正如网络民意与现实民意的讨论,微博不代表网络,网络不代表社会,朋友圈也是小圈子,跳出圈子看世界不容易,切勿陷入相同的悖论。在选样、测量、误差校正不尽如人意时,好数据将劣化,大数据将虚化。
相关性误差,则更偏向于技术。沈阳认为,在要素构成简单的情景中,可以利用大数据,基于一定算法和模型对变量元素进行相关性分析。然而,在复杂系统中,仅有相关性解释还不够,易走偏。比如一个明显不对的结论:一个城市的网页数越高,其网络形象就越好。虽然数据统计证实了网页数和网络形象存在一般的正相关,但忽略了负面事件带来的网页量爆发等,因此结论也是不科学的。相关性要真正体现在数据之间、数据与真实事件影射的现象之间、真实事件的客观联系上。
“大数据并不是简单地买几台服务器把数据存下来,而是要将大数据与实际接轨,突出工具化、服务化和实用化,让大数据能解决具体问题。”沈阳说。
隐私保护日益突出
基于多年研究大数据的心得,沈阳认为,新媒体在运用大数据过程中,一个非常关键的问题是,隐私保护。“目前,隐私保护问题越来越突出”。
此前,《法制日报》记者在参加一次论坛时,工信部相关部门一名负责人曾表达这样的观点:大数据时代到来后,随着互联网技术及其应用的发展,大数据、云计算技术方式的使用,个人信息的价值不断被挖掘、被使用,但是安全保护是一个很大的问题。
工信部相关部门这名负责人认为,大数据时代的个人信息安全面临三大问题。
“一个问题是数据未经授权被搜集,这种情况发生得比较多。”工信部相关部门这名负责人说,第二个问题是超出范围使用。所谓超范围使用,是指企业通过一定的所谓合法的形式拿到个人信息,但是拿到以后使用信息的目的、用途以及范围,并非信息权利主体所熟知。这种情况包括,当互联网对一些数据信息进行更进一步或者深层挖掘时,这种挖掘在一定程度上有可能侵犯了权利主体的权益。因为互联网企业之前可能告诉权利主体,获取信息是基于特定的目的或者在特定范围内使用,但是进一步挖掘就有可能触犯了约定。第三个问题是数据保存。曾有网络社区存储的几千万用户信息被黑客拿到后转卖给第三家,最后造成信息滥用。
在新媒体广泛使用、深度挖掘大数据的时代,如何保护公民隐私?
工信部相关部门这名负责人提出了一个观点:信息保护人人有责。
“在信息安全保护方面,很重要的一点在于,权利人自身要加强保护意识。”工信部相关部门这名负责人说,现在,不管是要求政府部门监管,还是要求司法机关动起来,一个重要前提是人人保护信息,这样才可能使信息保护问题得到根本解决,否则只靠公权力机关单方面去做是没有用的。当然,在提倡人人保护信息的同时,执法保护也是一个很重要的方面。
在沈阳看来,在使用大数据过程中保护个人隐私,一方面需要司法机关发布有效的法律判例,对侵犯隐私行为形成舆论压力;另一方面要加强大数据隐私保护研究。
数据分析咨询请扫描二维码
若不方便扫码,搜微信号:CDAshujufenxi
【核心关键词】软件、洞察力、大数据、产品、经验、硬件、流量、创新、决策、数据安全、网络安全、数据分析、决策制定、数据挖 ...
2026-06-18在方案选型、效果复盘、产品评估、供应商筛选等各类业务决策场景中,仅凭单一指标下结论往往会陷入 “以偏概全” 的误区。多维度 ...
2026-06-18 很多数据分析师精通Excel单元格操作,但当被问到“表结构数据的基本处理单位是什么”“字段和记录的本质区别”“为什么表结 ...
2026-06-18在数据分析、用户运营与业务增长的工作体系中,漏斗拆解是最基础也最高频的问题定位方法。很多业务场景下,我们只能看到最终的转 ...
2026-06-17在数据库开发、数据清洗与报表统计场景中,数值类型转换为日期是高频刚需操作。业务系统常以 Unix 时间戳、整型日期(如20240617 ...
2026-06-17 数据分析师八成以上的时间在和数据表格打交道,但许多人拿到Excel后习惯性地先算、先分析,结果回头发现漏了一列关键数据, ...
2026-06-17【核心关键词】数据库、电商、知识、产品、数据产品、监管业务、产品经理、业务系统、用户行为分析、用户分析、数据分析、电商 ...
2026-06-16在 Python 动态类型与面向对象的编程体系中,变量定义与类实例化是构建代码逻辑的两大核心基石。变量是数据存储、传递与运算的基 ...
2026-06-16 很多数据分析师每天与Excel打交道,但当被问到“表格结构数据和表结构数据有什么区别”“数据类型误判会引发哪些分析错误” ...
2026-06-16在 MySQL 查询性能优化体系中,索引是降低查询耗时、提升数据库吞吐的核心手段。其中联合索引与覆盖索引是实际开发中最高频的两 ...
2026-06-15在数据仓库建设与商业智能分析体系中,维度建模是应用最广泛的建模方法论,而事实表与维度表是维度建模的两大核心构件,共同构成 ...
2026-06-15 很多数据分析师能熟练计算指标,但当被问到“这家企业的核心业务目标是什么”“如何把模糊的战略目标拆解为可量化的指标”“ ...
2026-06-15在数据分析、业务监控、运营复盘等场景中,列值趋势计算是核心需求之一。无论是分析销售额的月度增长、用户活跃的变化趋势、库存 ...
2026-06-12在数字经济深度渗透的当下,消费者的购买行为已从过去的 “被动接受” 转变为 “主动决策”。流量红利消退、获客成本攀升、用户 ...
2026-06-12CDA三级认证是三个级别中的塔尖,全面考察数据战略、团队领导和复杂项目的综合能力。它所对应的《敏捷数据挖掘》教材,不再局限 ...
2026-06-12在游戏产业的商业逻辑中,付费玩家是支撑游戏生存与发展的核心支柱。行业普遍遵循 “二八定律”:20% 的付费玩家贡献了游戏 80% ...
2026-06-11【核心关键词】企业、定位、传统、产品、互联网、可视化、业务侧、数字化、结构化、数据分析、传统制造业、市场状态、发展空间 ...
2026-06-11 解读《CDA二级教材:量化策略分析(2025)》的全景结构与学习逻辑 ” CDA二级认证是企业招聘数据分析师时最常提及的证书门槛 ...
2026-06-11【核心关键词】药企、可视化、营销、分类、数据分析师、销售数据、业务人员、指导方向、分析报告、营销数据、营销医生 【专访摘 ...
2026-06-10在统计学分析、问卷调研、实验验证、业务复盘等场景中,卡方检验与 T 检验是应用最广泛的两类基础假设检验方法。前者专门处理分 ...
2026-06-10