广点通背后的大数据技术秘密_大规模主题模型建模及其在腾讯业务中的应用(附PPT)一-CDA数据分析师官网

热线电话：13121318867

首页精彩阅读广点通背后的大数据技术秘密_大规模主题模型建模及其在腾讯业务中的应用(附PPT)一

广点通背后的大数据技术秘密_大规模主题模型建模及其在腾讯业务中的应用(附PPT)一

2015-01-09

广点通背后的大数据技术秘密_大规模主题模型建模及其在腾讯业务中的应用(附PPT)一

12月14日，腾讯广点通高级研究员靳志辉在2014中国大数据技术大会上发表演讲，题为《Peacock: 大规模主题模型及其在腾讯业务中的应用》。腾讯广点通高级研究员靳志辉（Rickjin）所在的广点通部门，承接的流量一天接近150亿，他希望用技术帮助腾讯更好地处理这些流量，具体而言就是通过大规模主题模型学习系统 Peacock找出用户在网络数据深层的密码。“我们觉得互联网需要挖掘长尾的语义，主题模型能够突破传统处理的一些限制挖掘数据里面深层的隐含的语义。以下为作者演讲实录。

相关阅读：

21页PPT重磅发布：Mariana——腾讯深度学习平台的进展与应用

33页PPT|腾讯社交网络的大数据建模框架探索报告

重磅推荐：129页PPT讲述移动时代创业黄金法则 via：腾讯企鹅智酷

重磅！50页PPT揭秘腾讯大数据平台与推荐应用架构

36页PPT│大数据分析关键技术在腾讯的应用服务创新

腾讯广点通

大家好，我来自腾讯的效果广告平台部，参与开发的广告平台是广点通，广点通目前是腾讯最大的效果广告平台，每天承接的流量接近150亿PV，未来其实应该会达到200亿PV的流量，这是非常海量的流量。作为技术人员，我们在腾讯的梦想就是希望腾讯变成更加技术型的公司。我们团队在广告部门所负责的主要工作是各种机器学习工具的开发，以及利用机器学习工具处理腾讯的用户数据挖掘。之前互联网广告业务有两大机器学习系统，第一大系统 Logistic Regression，广泛用于广告点击率预估；第二大系统就是隐含主题建模(Latent Topic Model)。这两大系统早期都是由谷歌推动的，然后传播到国内的各个互联网公司。当然，现在由于深度学习的兴起，最近广告业务中又增加了一套基于 DNN 的系统。

腾讯广点通

在隐含主题模型方向上，我们从 2010 年开始就不断的做一些探索，我今天要讲的Peacock 系统就是我们团队在主题模型建模上的工作。今天的报告主要分成如下几个部分：我先Demo一下我们Peacock系统是如何工作的,随后简单介绍一下主题模型的背景，接着介绍Peacock是怎么来实现大规模并行计算的，最后我们讲一下主题模型在腾讯业务中的应用。

先来讲几个例子。用户在网络上的行为会留下很多的数据，其中最典型是一些文本数据，你搜索的一些文章，你发的微博，我们通过自然语言处理技术理解这些词。第一个例子是用户搜索了“红酒木瓜汤”，这样的Query给它展示什么广告？单纯的从关健词来说，多是酒或者水果。第二个词是“苹果”，苹果实际上是多义词，可以是水果也可以是手机。第三个词“莫代尔”，在座的估计很多人不知道这个词是什么意思。

如果我们把这些词输入Peacock系统，我们看看系统会产生什么样的输出。我们可以看到Peacock 系统打印出很多行，每一行其实代表一个主题(topic)，“红酒木瓜汤”系统给出的第一个主题的语义解释是 “减肥、丰胸、美容” ，从广告系统的角度，如果能够展现跟女性减肥、丰胸更相关广告，这个点击率可能高。我们发现整个Peacock的系统处理文本语义的时候，不同的主题有不同的权重，展现的时候按照主题权重排序，而每个主题用一包词描述。

腾讯广点通