
大数据如何“落地” _数据分析师
全球知名研究机构IDC预测,到2020年,全球数据规模将达到40ZB(泽字节),这意味着人均将拥有10多个500G硬盘。这摸不着、数不清的大数据究竟该如何使用?对新闻出版业的变革又起着什么样的作用?9月6日,大数据时代内容产业的跨界创新峰会在京举行,旨在推动大数据技术在新闻出版产业的落地应用。
现状
十动与然拒
十动然拒,是网络用语,指的是非常感动、激动,有热情,然后却拒绝了。在电子工业出版社副社长兼总编辑刘九如看来,传统媒体和出版社对于大数据的态度就有点十动然拒的味道。
这么一说,可能很多人觉得冤枉大数据,我们一直在做呀。其实,对于大数据,人人知晓,但对其理解上的偏差却是一箩筐。
对此,曾经在传统媒体摸爬滚打多年的国家行政学院高级经济师郭全中深有感触。他认为传统媒体在做大数据转型的时候存在3个大的误区:第一个误区是仅仅把大数据当成工具和手段,而这样的思维一定会导致失败;第二个误区是把数字化当成数据化,比如将纸媒的内容搬到互联网上,就认为是数据化了;第三个误区是把新闻可视化当成数据化,毕竟,这只是数据化一个初始形态而已。
或许正是因为如上种种原因,想找出一两个国内传统媒体、出版机构玩转大数据的案例,绝对需要绞尽脑汁尽管大家都声称已经发力大数据了。
更为可怕的是,当传统媒体还没有真正和大数据成为朋友,大数据在某种程度上已经扮演敌人了。传统媒体现在有两个非常重要的焦虑:一个是话语权萎缩,一个是赢利模式难以为继,而这两种焦虑恰恰与大数据有一定关联。
在南都全媒体网络科技公司总经理苟骅看来,话语权萎缩源于此前许多报道信奉的差不多先生模式,即常常基于对事实模糊的描述或者了解下结论,而大数据正在倒逼新闻的精准化。同样,很多广告主也是因为不知道广告费的另一半浪费到哪里了而与传统媒体渐行渐远。在这一背景下,《南方都市报》刚刚进行优化升级,并提出了非常重要的理念和口号:过去我们在生产新闻,未来我们一定要生产数据。
是的,生产数据,因为数据背后蕴藏着影响力,也蕴藏着变现能力。例如,《金融时报》开通免费专区供注册的读者阅读,并由此获得了大量的读者信息,通过大数据分析读者的需求,为其提供个性化的信息,于是实现用户的付费阅读,目前,《金融时报》的订阅收入已占全部收入的一半以上。再如,亚马逊通过自己研发的被业界称为鬼打墙式的推荐的精准推荐系统每秒卖出的商品达72.9件,这种精准推荐系统就是跟踪客户的所有消费习惯,不断进行优化。
那么,目前传统媒体和出版机构对于大数据的运营开发存在哪些症结呢?第一症结是思维定式,国广星空视频科技有限公司首席执行官王明轩原来也做传统媒体,现在融入新媒体之后有一个感觉,就是传统媒体和出版业思维过于陈旧。他打比喻说,目前大家做的是产业链内容生产、运营、广告、销售就像农耕时代的从耕地到卖粮再回来耕地。但在大数据支撑之后,这条产业链裂变成一个产业生态圈,传媒人、出版人不能再线性思维。
除了思维,还有什么地方也出了问题呢?商业趋势观察家肖明超认为是行动。他指出,这两年所有传统内容出版社都在思考怎样利用新技术、大数据转型,但更多的是把技术当做内容的搬运工。过去我们帮很多传媒和出版商做咨询的时候发现,凡是在内部孵化新媒体事业部、数字事业部,几乎都没有做成的。在他看来,能够主动革自己的命的确不是件容易的事,但必须有这种魄力。这一观点正如《人民日报》在一篇短评中指出的那样,我们不敢跨界,就有人敢跨过来打劫。媒体产业如果不自我革新,就可能被推向边缘。
■案例关注
关注点一:机器写作
美国Narrative公司有一个软件,利用这样的软件大约每30秒钟就可以完成一篇新闻报道。
这种新闻报道的模式是:首先通过互联网和数据库搜集大量高质量的有关某一个内容的数据,然后根据资深记者团给出的主题,记者和技术人员就可以生产出一些新闻稿件。比如美国的大学正在进行一场橄榄球比赛,当比赛到了第三节的时候,计算机会搜集到一些数据,并自动形成一篇新闻报道。这样的例子在现在的股市分析和体育报道中已经得到应用。Narrative创始人曾说过,在5年左右的时间里,计算机程序编出来的新闻就会获得普利策新闻奖。
计算机不可能替代一切新闻报道,但是计算机技术和记者之间的结合一定会越来越紧密。计算机的优势就在于它的记忆无差错,它可以非常快地访问各类数据,并且把数据加以挖掘。而记者在采访过程中,可以紧紧抓住主题,所以如果能够把技术的力量和记者的思维结合起来,将来一定能够产生很好的新闻。
关注点二:《纸牌屋》灵感来源
美国有一个非常流行的影视剧网站Netflix,这个网站每天会产生3000多万个用户行为,包括在网上看某个电视剧,收集、推荐、暂停等。网站利用这些数据分析后发现,如果选用英国广播公司剧本、电影导演大卫芬奇和男演员凯文史派西,就有可能生产出一部很火的电视剧。网站决定试一把,花1亿美元从英国买了一个老剧本,把美国的政治内容放进去,《纸牌屋》就此产生。这部电视剧果真火了起来,美国总统都对这部电视剧评价甚高。
■观点集萃
国家新闻出版广电总局数字出版司司长张毅君
随着大数据时代的来临,未来内容产业必须与消费者进行有机互动,因为消费需求将促进内容的创新,而高品位的内容又将培育高水准的消费者。这种在互联互通中形成的正能量的循环,不正是我们梦寐以求的内容产业的理想前景吗?
基于大数据的互联网生态系统正在迅速形成,随着传媒业竞争日益加剧,未来传媒业竞争的关键也由此前的内容、产品、平台逐渐上升到商业生态系统。在这种巨变的时代背景下,能否有效利用大数据将成为传统媒体转型成功与否的关键。
中国人民大学原常务副校长、全国应用统计专业硕士教育指导委员会常务副主任袁卫
大数据市场的潜在价值到2016年大概是6亿多美元,中国大数据人才需求大约是100万人。每年我们统计专业的本科毕业生也就1万多人,再加上计算机或者是相关数学专业也就几万人。大数据人才之所以这么紧缺,就在于传统的学科和专业或者是单一的学科和专业培养不出现在所需要的大数据人才。
趋势
乘法模式渐开启
大数据技术如何在新闻出版行业落地应用?两者的结合能够碰撞出怎样的火花?在很多业界人士看来,这已经不再是简单的物理式的加法效应,而是能产生化学反应的乘法效应。而如何利用大数据将躺在仓库中的内容变成真正有价值的产品,与会专家也给出了不同的建议。
招数1
用大数据挖掘用户需求
传统的新闻出版业面对互联网及移动互联网浪潮时遭遇的最大挑战就是与读者、用户的脱节,而我们的读者是谁?用户在哪儿?这恰恰是大数据可以解决的问题。
正如中国联通大数据首席科学家陈一昕所言,用手机上网正成为全球网民的习惯,并由此构建出丰富的数据仓库。运营商的大数据是一座金矿,我们知道用户的年龄、性别、爱好、行为特征、终端属性等信息,可以系统地给用户做深度、全面、360度全景‘画像’。这些数据与出版业、传媒业结合起来,就可以做更加精准的内容定制与推荐,做更有效的广告推送。
事实上,很多新媒体公司都在尝试利用大数据挖掘用户需求,如美国视频网站Netflix甚至采用付费方式让用户给其观看的视频打分、做标签,利用大数据综合分析、观察用户的使用行为及需求,为用户提供量身定制的个性化内容。
招数2
用大数据优化营销及运营方式
英国著名重金属乐队Iron Maiden通过对用户上网数据的分析,定位歌迷分布密度最大的区域圣保罗,并在此举办了一场演唱会,取得了空前的成功。在陈一昕看来,这正是利用大数据优化营销的生动案例。
过去内容生产商和分发商只有一些杂乱无章的匿名用户,而大数据时代有新的渠道可以直达用户、定位用户,更精准地去营销产品。我们可以构建大数据平台,收集用户数据,通过数据挖掘算法等各种技术来分析用户、了解用户,进行市场定位和精准营销,优化定价策略、提高广告效果。陈一昕说。
国广星空视频科技有限公司首席执行官王明轩认为,原来的内容生产将裂变成专业的内容生产或承包的生产方式;运营将裂变成专业运营和互动运营,且后者将成为未来内容产业的重要运营方式;而广告或者说销售,也将裂变成两大块,一块是原来的模式,另一块是个性化付费或者其他新的运营模式。
招数3
做好垂直领域的数据服务
北京北大方正电子有限公司总裁杨斌认为,垂直领域的大数据服务是传统媒体转型的一个切入点和突破口。他指出,互联网的发展格局已经被BAT(百度、阿里巴巴、腾讯)等网络巨头占领了,他们中的每一个都是大平台,吸引了过亿用户。传统媒体转型要挑战大平台几乎不可能,但是很多小平台可以生存,如金融、医疗卫生、汽车、家电等每一个垂直领域都可以产生小平台。传媒业在资源、内容上有优势,完全有机会在这些小平台上,在每一个垂直领域去挑战BAT,甚至超越他们。杨斌进一步指出,大数据服务不是把数据简单地提供给受众,经过挖掘、整合的数据才有价值。
商业趋势观察家肖明超也认为,未来内容提供商要从读者群走向社群。现在的互联网进入一个小圈子、强关系的时代,因此,我们要去关注那些细分的社群,用大数据打造符合他们需求的平台。
数据分析咨询请扫描二维码
若不方便扫码,搜微信号:CDAshujufenxi
在数据成为新时代“石油”的今天,几乎每个职场人都在焦虑: “为什么别人能用数据驱动决策、升职加薪,而我面对Excel表格却无从 ...
2025-10-18数据清洗是 “数据价值挖掘的前置关卡”—— 其核心目标是 “去除噪声、修正错误、规范格式”,但前提是不破坏数据的真实业务含 ...
2025-10-17在数据汇总分析中,透视表凭借灵活的字段重组能力成为核心工具,但原始透视表仅能呈现数值结果,缺乏对数据背景、异常原因或业务 ...
2025-10-17在企业管理中,“凭经验定策略” 的传统模式正逐渐失效 —— 金融机构靠 “研究员主观判断” 选股可能错失收益,电商靠 “运营拍 ...
2025-10-17在数据库日常操作中,INSERT INTO SELECT是实现 “批量数据迁移” 的核心 SQL 语句 —— 它能直接将一个表(或查询结果集)的数 ...
2025-10-16在机器学习建模中,“参数” 是决定模型效果的关键变量 —— 无论是线性回归的系数、随机森林的树深度,还是神经网络的权重,这 ...
2025-10-16在数字化浪潮中,“数据” 已从 “辅助决策的工具” 升级为 “驱动业务的核心资产”—— 电商平台靠用户行为数据优化推荐算法, ...
2025-10-16在大模型从实验室走向生产环境的过程中,“稳定性” 是决定其能否实用的关键 —— 一个在单轮测试中表现优异的模型,若在高并发 ...
2025-10-15在机器学习入门领域,“鸢尾花数据集(Iris Dataset)” 是理解 “特征值” 与 “目标值” 的最佳案例 —— 它结构清晰、维度适 ...
2025-10-15在数据驱动的业务场景中,零散的指标(如 “GMV”“复购率”)就像 “散落的零件”,无法支撑系统性决策;而科学的指标体系,则 ...
2025-10-15在神经网络模型设计中,“隐藏层层数” 是决定模型能力与效率的核心参数之一 —— 层数过少,模型可能 “欠拟合”(无法捕捉数据 ...
2025-10-14在数字化浪潮中,数据分析师已成为企业 “从数据中挖掘价值” 的核心角色 —— 他们既要能从海量数据中提取有效信息,又要能将分 ...
2025-10-14在企业数据驱动的实践中,“指标混乱” 是最常见的痛点:运营部门说 “复购率 15%”,产品部门说 “复购率 8%”,实则是两者对 ...
2025-10-14在手游行业,“次日留存率” 是衡量一款游戏生死的 “第一道关卡”—— 它不仅反映了玩家对游戏的初始接受度,更直接决定了后续 ...
2025-10-13分库分表,为何而生? 在信息技术发展的早期阶段,数据量相对较小,业务逻辑也较为简单,单库单表的数据库架构就能够满足大多数 ...
2025-10-13在企业数字化转型过程中,“数据孤岛” 是普遍面临的痛点:用户数据散落在 APP 日志、注册系统、客服记录中,订单数据分散在交易 ...
2025-10-13在数字化时代,用户的每一次行为 —— 从电商平台的 “浏览→加购→购买”,到视频 APP 的 “打开→搜索→观看→收藏”,再到银 ...
2025-10-11在机器学习建模流程中,“特征重要性分析” 是连接 “数据” 与 “业务” 的关键桥梁 —— 它不仅能帮我们筛选冗余特征、提升模 ...
2025-10-11在企业的数据体系中,未经分类的数据如同 “杂乱无章的仓库”—— 用户行为日志、订单记录、商品信息混杂存储,CDA(Certified D ...
2025-10-11在 SQL Server 数据库操作中,“数据类型转换” 是高频需求 —— 无论是将字符串格式的日期转为datetime用于筛选,还是将数值转 ...
2025-10-10