
如何评价《人民日报》于 10 月 5 日发表的《不能让算法决定内容》?
《人民日报》(4 版)10 月 5 日发表题为《不能让算法决定内容》的文章。文章称,随着大数据、人工智能的广泛应用,一些商业网站、移动新闻客户端,都在运用算法这个「读心术」。文章指出,技术往往是一把冷冰冰的双刃剑,在价值和利益的天平上,所谓的算法成为了利益的砝码。一切围着流量转,唯点击量、转发量马首是瞻,「标题党」泛滥,价值取向跑偏,内容沦为附庸。
文章认为,算法不是王法,算法决定内容更不是王道。只有算法回归到服务内容的角色,变得有态度、有深度、有温度,才能让人们在信息的海洋里尽情遨游、在清朗的环境中自由飞翔,才能使网络空间碧波荡漾,激发出源源不断的正能量。
不吹不黑。只从技术角度来看,《人民日报》这篇文章也提到了一个很有意义的问题,那就是信息化时代我们很容易在不知不觉中被推荐内容“洗脑”。在现有技术手段下,适当引入人工筛选可以遏制一些有害行为,如软文推广、诈骗信息、虚假新闻等。
简单的科普一下媒体流常用的推荐算法:
在新用户注册时,你会被要求填写一些感兴趣的话题,作为初始“种子”进行文章推送。比如你表明你对篮球感兴趣,那么你的首页有很大比例都是篮球相关。
随着你的浏览量上升,比如关注了不同媒体或者大量浏览某个话题的文章以后,平台就会提高这类内容的占比。比较传统的协同算法,就是找到和你兴趣相似的人并把他们的浏览内容推荐给你,或者和当前文章相类似主题的文章。
当你看的文章越来越多,风格越来越鲜明以后,你的账户会被打上一些“标签”,对你的浏览爱好进行分类。有时候有社交属性的网站还会把使用者进行网络化/图谱化分析,加强推荐的准确性。
1. 推荐算法有什么问题?
你只能看到特定的话题,很难跳出这个信息圈。而这种效应会不断加强,时间久了容易一叶障目不见泰山。普通用户感兴趣的话题还是以生活、娱乐为主,导致其他有意义内容的生存空间比较小。不难发现,信息分发平台的每日推送头条常常是以明星八卦为主。慢慢的,你发现你对每个明星的行程了如指掌,但并不知道原来自动驾驶汽车已经上路实验好几年了。
很多网站试图加入一些“创新元素”,比如也会推荐“你可能对XXX感兴趣”。但往往这类帮助用户跳出“舒适圈”的信息流都很难引起大家的兴趣,还往往被用户批判一番。于是,最终能存活在大量用户时间线上的信息就主要是吸引眼球的爆款文了。这不仅促进了“标题党”和“博眼球”,也使得用户的精力花在了没有营养的内容上。
2. 如何利用推荐算法“作恶”?
对于推荐系统的依赖也给了别有用心的人发挥空间。大部分平台的推荐内容中都有一些难以分辨的广告推广、高级软文、甚至诈骗等。比如,一篇介绍中老年疾病的科普文章最后变成了销售保健品,可谓防不胜防。这可能是因为平台技术能力不足,也有可能是装作看不见甚至推波助澜,毕竟最后可以把锅推给算法。推荐系统不仅可以计算出推荐什么内容,也可以推测你适合的广告有哪些。即使不用算法推荐,人工推荐其实早就出现在了分发平台上,只不过更多的用在了商业推广上。
因此,标榜推荐算法的平台也有“作恶”的权力,比如慢性洗脑。请相信潜移默化的力量,慢慢的你会以为这些软文这是自己想看的内容,可能还在现实生活中购买了相关的产品。
3. 如何平衡推荐算法和人工筛选?
在法律法规和技术能力的双重限制下,不妨这么想:
站在官方角度考虑,建议将现在百分之二十的推荐文章替换为“我们需要阅读的文章”,比如“两学一做”等主旋律文章。很多平台,比如澎湃早就走了这个路线。这部分文章由编辑/运营手动选择,推荐给所有用户并关闭评论。在将来,或许当地政府选择“适合当地人民的内容”...这是时代的选择,我们都无可选择。
站在个人用户的角度,建议将系统推荐中百分之二十替换成“开阔眼界”的文章,比如前沿科技、艺术赏析、文化历史等。在比例不高不引起用户反感的前提下,尝试给用户提供一些不同的内容。
人工筛选也应该被用在识别“有害的内容上”,处理那些算法无法识别的恶意信息。很多高级的推广写的极具迷惑性,现在的语义分析能力并不能很好的区分出来。虚假新闻也很难依靠算法识别,这也是编辑/运营可以手动检索的内容之一。
科技企业也需要提高自己的业务道德。不是每一种钱都可以赚,人血馒头不能吃。如果明知是恶意信息但因为有利益原因还是将其推荐给用户,我宁可我们没有先进的技术。那些因为科技公司作恶而倾家荡产甚至失去生命的人的名字并没有远去,只是很容易被遗忘。内容推荐、新闻推送只不过是不同平台上的另一个应用,而类似的悲剧已经够多了。
4. 如果我不喜欢推送或者不愿意被“洗脑”怎么办?
技术宅建议还是选择自己订阅感兴趣的主题如RSS,或者写爬虫从特定站点收集自己感兴趣的话题。依赖于主流媒体的内容推送,不管是人工还是系统推荐,或多或少对会被洗脑。“定制化”和“效率”很难兼得。你如果要节省时间从平台处吸收资讯,就得接受他们“强奸”你的思想。
5. 这篇文章对于我们有什么启发?
换个角度看,这篇文章无心插柳地给普通大众提了个醒,要对于科技发展和技术公司保持警惕。大部分用户已经把安全和隐私完全交给了科技公司,现在连自己能看到什么也交了出去,这是无奈但正在发生的事情。过去短短几年,我们已经见识了多少科技公司做过的“恶”。
“民主”和“自由”本身就是对立的。问题的核心还在于提高分发平台的商业道德和技术能力,以及用户的阅读分辨能力。在短时间内,这两件事都不会发生,所以增加人工推荐的比例也不完全是个坏点子。我不反对利用人工筛选来增加些“主旋律内容”,但也希望增加一些“拓展眼界”的文章,并利用人工来减少一些迷惑性强的有害内容。
退一步说,大时代下没有人能独善其身,这也只是个开始而已 ʕ* ᴥ* ʔ
数据分析咨询请扫描二维码
若不方便扫码,搜微信号:CDAshujufenxi
在数据成为新时代“石油”的今天,几乎每个职场人都在焦虑: “为什么别人能用数据驱动决策、升职加薪,而我面对Excel表格却无从 ...
2025-10-18数据清洗是 “数据价值挖掘的前置关卡”—— 其核心目标是 “去除噪声、修正错误、规范格式”,但前提是不破坏数据的真实业务含 ...
2025-10-17在数据汇总分析中,透视表凭借灵活的字段重组能力成为核心工具,但原始透视表仅能呈现数值结果,缺乏对数据背景、异常原因或业务 ...
2025-10-17在企业管理中,“凭经验定策略” 的传统模式正逐渐失效 —— 金融机构靠 “研究员主观判断” 选股可能错失收益,电商靠 “运营拍 ...
2025-10-17在数据库日常操作中,INSERT INTO SELECT是实现 “批量数据迁移” 的核心 SQL 语句 —— 它能直接将一个表(或查询结果集)的数 ...
2025-10-16在机器学习建模中,“参数” 是决定模型效果的关键变量 —— 无论是线性回归的系数、随机森林的树深度,还是神经网络的权重,这 ...
2025-10-16在数字化浪潮中,“数据” 已从 “辅助决策的工具” 升级为 “驱动业务的核心资产”—— 电商平台靠用户行为数据优化推荐算法, ...
2025-10-16在大模型从实验室走向生产环境的过程中,“稳定性” 是决定其能否实用的关键 —— 一个在单轮测试中表现优异的模型,若在高并发 ...
2025-10-15在机器学习入门领域,“鸢尾花数据集(Iris Dataset)” 是理解 “特征值” 与 “目标值” 的最佳案例 —— 它结构清晰、维度适 ...
2025-10-15在数据驱动的业务场景中,零散的指标(如 “GMV”“复购率”)就像 “散落的零件”,无法支撑系统性决策;而科学的指标体系,则 ...
2025-10-15在神经网络模型设计中,“隐藏层层数” 是决定模型能力与效率的核心参数之一 —— 层数过少,模型可能 “欠拟合”(无法捕捉数据 ...
2025-10-14在数字化浪潮中,数据分析师已成为企业 “从数据中挖掘价值” 的核心角色 —— 他们既要能从海量数据中提取有效信息,又要能将分 ...
2025-10-14在企业数据驱动的实践中,“指标混乱” 是最常见的痛点:运营部门说 “复购率 15%”,产品部门说 “复购率 8%”,实则是两者对 ...
2025-10-14在手游行业,“次日留存率” 是衡量一款游戏生死的 “第一道关卡”—— 它不仅反映了玩家对游戏的初始接受度,更直接决定了后续 ...
2025-10-13分库分表,为何而生? 在信息技术发展的早期阶段,数据量相对较小,业务逻辑也较为简单,单库单表的数据库架构就能够满足大多数 ...
2025-10-13在企业数字化转型过程中,“数据孤岛” 是普遍面临的痛点:用户数据散落在 APP 日志、注册系统、客服记录中,订单数据分散在交易 ...
2025-10-13在数字化时代,用户的每一次行为 —— 从电商平台的 “浏览→加购→购买”,到视频 APP 的 “打开→搜索→观看→收藏”,再到银 ...
2025-10-11在机器学习建模流程中,“特征重要性分析” 是连接 “数据” 与 “业务” 的关键桥梁 —— 它不仅能帮我们筛选冗余特征、提升模 ...
2025-10-11在企业的数据体系中,未经分类的数据如同 “杂乱无章的仓库”—— 用户行为日志、订单记录、商品信息混杂存储,CDA(Certified D ...
2025-10-11在 SQL Server 数据库操作中,“数据类型转换” 是高频需求 —— 无论是将字符串格式的日期转为datetime用于筛选,还是将数值转 ...
2025-10-10