京公网安备 11010802034615号
经营许可证编号:京B2-20210330
从计算广告看大数据和人工智能的关系
一、计算广告是大数据问题中的一支;二、大数据技术在计算广告中的应用:受众定向的冷启动和数据驱动的投放决策;三、从计算广告到理解“人工智能”。
本文系亿欧智库原创,以下基于笔者从书籍《计算广告》及相关市场信息研究得出,错误和偏颇之处在所难免。请大家多多指正批评。
不了解计算广告,就不可能深入地了解互联网,因为广告为全世界互联网行业贡献了大部分收入;其次,不了解计算广告,也不太容易真正理解大数据,因为计算广告是大数据最早落地的应用,也是到目前为止唯一获得规模化营收的应用。
一、计算广告,大数据问题中的一支;
如上图所示,C类曲线只需通过少量采样就能达到问题的目标函数,此为传统数据处理问题,一般统计报表、报告归属此类;A类曲线代表的数据问题不同于C类的少量采样就能达到全量数据的效果,解决问题的收益与数据采样率的高低呈强正相关关系,A类曲线绘制的便是大数据问题;B类处于A类和C类中间,少量采样有明显的收益效果,一旦超过一定范围则收益效果不那么明显。
由此可以总结出,如果有的数据处理问题无法通过数据采样的方法来降低处理的复杂程度,就必须利用一些专门为海量数据处理而设计的计算架构和存储技术来实现,此类数据处理问题称之为大数据问题。
计算广告需要用到每一个人的行为进行定制化推送,而无法单靠对小部分个体的采样来完成,因此归类为大数据问题。计算广告是大数据问题中的一支。
二、大数据技术在计算广告中的应用;
计算广告的核心问题,是为一系列用户与环境的组合找到最合适的广告投放策略以优化整体广告活动的利润。在线广告区别于传统线下广告的最大特点体现在计算优化和可衡量的效果。大数据技术在计算广告中的应用主要体现在计算优化上,具体为受众定向的冷启动、以及数据驱动的投放决策。
受众定向的冷启动;
广告最初的定向标签往往都设置在较粗的粒度上,最典型的是一些人口属性标签。按照广告本身就是一项服务业的本质来看,受众定向显然更符合需求方的口味和利益,也是受众定性推动着市场向着精细化运作的方向快速发展。
如上所示为计算广告受众定向的几种方法,其中人口属性这些定向的数据除非有特别的来源,如实名制SNS的注册信息或在线购物的消费记录等,一般情况下要进行准确的定向并不容易,所以利用好已知人口属性的用户作训练集,构造分类器对人口属性进行自动标注。
数据驱动的投放决策;
与工业革命时期机器化的根本驱动力——电力相类比,互联网化的根本驱动力可以认为是数据的深入加工和利用。在线广告的计算技术在很大程度上也要依赖于对于数据的大规模利用。广泛收集用户的行为数据和广告反馈数据,利用云计算的基础设施对用户打上合适的标签,同样根据数据在多个广告竞争同一次展示时做出决策,再将投放的结果统计数据反馈给广告操作人员以调整投放策略,此为计算广告的基本投放逻辑,可以认为,在线广告系统就是一个大数据处理平台,对数据处理的规模和响应速度的要求都相当高。
三、从计算广告到理解“人工智能”;
就目前情况来看,深度学习技术在计算广告上取得的提高,没有语音图像这些领域那样显著。这里面规律性的解释是,语音图像识别是对自然现象的数据收集和处理,我们完全可以通过主动的语料收集,让各色传感器都做到充分的覆盖,这是一个基本确定、变化不快的数据空间;而计算广告面对的社会现象数据是一个由千万网民反馈、快速变化的数据空间,即使对同一个人、同一则广告、同一个广告位,点击与否是一个很不确定的时间,而这样的不确定性即使引入再多的上下文信息也无法消除。
从狭义层面来理解人工智能便是“大数据+自动化”的产物,“自动化”依赖从标注数据中寻得y=f的规律模型来完成下一个的识别,狭义人工智能是建立在海量的数据基础之上的,也就是现下火热的深度学习和大数据有着非常紧密的联系。
而普罗大众所期待的广义人工智能,是要做到像人类一样面对任何不确定环境都能凭借种类各异的思考方式来试图给出解决方案。
松鼠没有像人类一样拥有种类各异的思考方式,但即使在几年之后,它依然可以精确记住几千个橡子所在的具体位置,这种技能就能甩人类好几条街了。人工智能也很类似,我们完全可以把计算器当成算数天才,计算广告利用狭义人工智能的存储力和计算力,在对人类各色标签记忆的完整度也已经超过了人类,在竞价环节的实时数据反馈也交上了令人满意的答卷,但面对不确定环境的决策能力,其实人类也没有教给它,所以广义的人工智能即通用人工智能,机器远不及人类。
也许换个层面来理解智能,这不是一个单一维度的概念,有的智能或许非常复杂,包含许多象征各种思维模式的子节点,还有的或许较为简单,但却发挥到了极端,处在可能性空间的角落位置。我们可以将智能视作一套生态系统,不同思维模式的节点相互依赖、共创共生。
人工智能在中国已经掀起了新一轮技术创新的浪潮,我们如何去感受人工智能的风向标?技术、创新、应用如何突破?未来人工智能这片蓝海怎么去航行?
数据分析咨询请扫描二维码
若不方便扫码,搜微信号:CDAshujufenxi
在 MySQL 实际应用中,“频繁写入同一表” 是常见场景 —— 如实时日志存储(用户操作日志、系统运行日志)、高频交易记录(支付 ...
2025-10-30为帮助教育工作者、研究者科学分析 “班级规模” 与 “平均成绩” 的关联关系,我将从相关系数的核心定义与类型切入,详解 “数 ...
2025-10-30对 CDA(Certified Data Analyst)数据分析师而言,“相关系数” 不是简单的数字计算,而是 “从业务问题出发,量化变量间关联强 ...
2025-10-30在构建前向神经网络(Feedforward Neural Network,简称 FNN)时,“隐藏层数目设多少?每个隐藏层该放多少个神经元?” 是每个 ...
2025-10-29这个问题切中了 Excel 用户的常见困惑 —— 将 “数据可视化工具” 与 “数据挖掘算法” 的功能边界混淆。核心结论是:Excel 透 ...
2025-10-29在 CDA(Certified Data Analyst)数据分析师的工作中,“多组数据差异验证” 是高频需求 —— 例如 “3 家门店的销售额是否有显 ...
2025-10-29在数据分析中,“正态分布” 是许多统计方法(如 t 检验、方差分析、线性回归)的核心假设 —— 数据符合正态分布时,统计检验的 ...
2025-10-28箱线图(Box Plot)作为展示数据分布的核心统计图表,能直观呈现数据的中位数、四分位数、离散程度与异常值,是质量控制、实验分 ...
2025-10-28在 CDA(Certified Data Analyst)数据分析师的工作中,“分类变量关联分析” 是高频需求 —— 例如 “用户性别是否影响支付方式 ...
2025-10-28在数据可视化领域,单一图表往往难以承载多维度信息 —— 力导向图擅长展现节点间的关联结构与空间分布,却无法直观呈现 “流量 ...
2025-10-27这个问题问到了 Tableau 中两个核心行级函数的经典组合,理解它能帮你快速实现 “相对位置占比” 的分析需求。“index ()/size ( ...
2025-10-27对 CDA(Certified Data Analyst)数据分析师而言,“假设检验” 绝非 “套用统计公式的机械操作”,而是 “将模糊的业务猜想转 ...
2025-10-27在数字化运营中,“凭感觉做决策” 早已成为过去式 —— 运营指标作为业务增长的 “晴雨表” 与 “导航仪”,直接决定了运营动作 ...
2025-10-24在卷积神经网络(CNN)的训练中,“卷积层(Conv)后是否添加归一化(如 BN、LN)和激活函数(如 ReLU、GELU)” 是每个开发者都 ...
2025-10-24在数据决策链条中,“统计分析” 是挖掘数据规律的核心,“可视化” 是呈现规律的桥梁 ——CDA(Certified Data Analyst)数据分 ...
2025-10-24在 “神经网络与卡尔曼滤波融合” 的理论基础上,Python 凭借其丰富的科学计算库(NumPy、FilterPy)、深度学习框架(PyTorch、T ...
2025-10-23在工业控制、自动驾驶、机器人导航、气象预测等领域,“状态估计” 是核心任务 —— 即从含噪声的观测数据中,精准推断系统的真 ...
2025-10-23在数据分析全流程中,“数据清洗” 恰似烹饪前的食材处理:若食材(数据)腐烂变质、混杂异物(脏数据),即便拥有精湛的烹饪技 ...
2025-10-23在人工智能领域,“大模型” 已成为近年来的热点标签:从参数超 1750 亿的 GPT-3,到万亿级参数的 PaLM,再到多模态大模型 GPT-4 ...
2025-10-22在 MySQL 数据库的日常运维与开发中,“更新数据是否会影响读数据” 是一个高频疑问。这个问题的答案并非简单的 “是” 或 “否 ...
2025-10-22