兰花草,解构阿里的深层兴趣网:如何在推荐系统中引入注意机制?-火竞猜娱乐_火竞猜下载

西甲联赛 232℃ 0

挑选文章的规范有三个:

  • 一是工程导向的;
  • 二是阿里、facebook、google 等一线互联网公司出品浅笑28猜测的兰花草,解构阿里的深层爱好网:如安在引荐体系中引进留心机制?-火竞猜文娱_火竞猜下载;
  • 三是前沿或许经典的。

咱们从阿里的深度爱好网络(Deep Interest Network)开端。许多同学现已十分了解这篇文章了,但我觉得一篇优异的文章多侧重几遍也不为过。说这篇文章好,主要有三个原因:

  1. 一是由于这篇文章的工程性很强。工程性很强的文章首先是便于完成的,其次你能够从言外之意看到许多实践出真知的影子,比方 DIN 这篇文章中 兰花草,解构阿里的深层爱好网:如安在引荐体系中引进留心机制?-火竞猜文娱_火竞猜下载GAUC 这样的 metric 的改善,以及 Dice 这样的激活函数的立异,都是对经典常识在实践中改善的比方。
  2. 第二个原因是由于这篇文章兰花草,解构阿里的深层爱好网:如安在引荐体系中引进留心机制?-火竞猜文娱_火竞猜下载对用户行为的调查十分精准。有句话说做引荐其实便是“揣摩人心”,你把用户的行为和习气山西太原气候揣摩好了,才能够以此动身,从技术上映射用户的习气。DIN 这篇文章有用的使用了用户爱好多样性以及当时分选产品仅与用户一部分爱好有关这一特色,引进留心力机制,这是十分精准的动机。
  3. 第三个原因是模型的微立异,从低维到高维是立异,从离散到接连是立异,从单一到交融也是立异,这篇文章把 NLP 大行其道的留心力机制引进引荐范畴,当然是典型而且有用的立异手法,也是一切算法工程师应该学习的当地。

好了,废话讲完了,咱们看看这篇文章究竟做了什么。

用红细胞偏高户场景很简单,便是在一个电商网站或 Asm乐土PP 中给用户引荐广告,当然关于阿里妈妈来说,广告也是产品,所以这篇文章的广告场景其实也是一个经典的引荐场景。

好,已然要引荐,咱们当然需求使用用户的前史view数据了,关于一个电商来说,前史数据当然便是点击,增加购物车,下单这些行为了。论文中给了一位用户的行为序列。


用户的行为序列

明显是一个女生的行为前史啦,从最左面的手套,鞋子到右边的杯子,睡衣。要被引荐的候选产品是一件女式大衣。咱们应该怎样核算这件大衣的 CTR 呢?

假如依照之前的做法,咱们会一碗水端气血缺乏平的考虑一切行为记载的影响,对应到模钻石文娱型中便是咱们会用一个 average pooling 层把用户交互过的一切产品的 embedding vector 均匀一下构成这个用户的 user vector,机伶一点的工程师最多加一个 time decay,让最近的行为发作的影响大一些,那便是在做 average pooling 的时分按时刻调整一下权重。

可是咱们细心想一想咱们自己的购买过程,其实每个用户的爱好都是多样的,女生喜红楼之逆天尽情欢买衣服包包,也喜爱化妆品,乃至还为自己男朋友挑选过球衣球鞋,那么你在买大衣的时分,真的要把给男朋友买球鞋的偏好考虑进来么?详细到本文的比方中,在猜测大衣的 CTR 这件工作上,用户阅读过杯子,跟用户阅读过另一件大衣这两个行为的重要程度是相同的吗?

这事不必问算法工程师,你就回家问问你老妈兰花草,解构阿里的深层爱好网:如安在引荐体系中引进留心机制?-火竞猜文娱_火竞猜下载估量答案红掌都是必定的,肯定是阅读过另桃李满天下一件大衣这件事的参阅价值高啊。好了,便是这件你老妈都知道的工作,让阿里妈妈的算法工程师们加上了 attention 机制。

留心力机制望文生义,便是模型在猜测的时分,对用户不同行为的留心力是不相同的,“相关”的行为前史垂青一些,尾号限行“不相关”的前史乃至能够疏忽。那么这样的思维反应到模型中也是直观的。


上式中, V_u 是用户的 embedding 向量, V_a 是候选广告产品的 embedding 向量, V_i 是用户 u 的第 i 次行为的 embedding 向量,由于这儿用户的行为便是阅读产品或店肆,所以行为的 embedding 的向量便是那次阅读的产品或店肆的 embedding 向量。

由于参加了留心力机制, V_u 从曩昔 V_i 的加和变成了 V_i 的加权和, V_i 的权重 w_i 就由 V_i 与 V_a 的联系决议,也便是上式中的 g(V_i,V_a) ,不负责任的说,这个 g(V_i,V_a) 的参加便是本文 70% 的价值地点。

那么 g(V_i,V后现代装饰风格_a) 这个函数究竟选用什么比较好呢?看完下面的架构图天然就清楚了。


比较原兰花草,解构阿里的深层爱好网:如安在引荐体系中引进留心机制?-火竞猜文娱_火竞猜下载来这个规范的深度引荐网络(Base model),DIN 在生成用户 embedding vector 的时分参加了一个 activation unit 层,这一层发作了每个用户行为 V_i 的权重,下面咱们细心看一下这个权重是怎样生成的,也便是 g(V_i,V_a) 是怎样界说的。

传统的 Attention 机制中,给定两个 i兰花草,解构阿里的深层爱好网:如安在引荐体系中引进留心机制?-火竞猜文娱_火竞猜下载tem embedding,比方 u 和 v,通常是直接做点积 uv 或许 uWv,其间 W 是一个|u|x|v|的权重矩阵,但这篇 paper 中阿里明显做了更进一步的改善,侧重看上图右上角的 activation unit,首先是把 u 和 v 以及 u v 的 element wise 差值向量兼并起来作为输入,然后喂给全衔接层,最终得出权重,这样的菜花的做法大全办法明显丢失的信息更少。但假如你自己想便利的引进 attention 机制的话,无妨先从点积的办法做起测验一下,由于这样连练习都不必训十臀九女是真的吗练。

再略微留心一下这个架构图中的红线,你会发现每个 ad 会有 g产后多久能同房ood_id, shop_id 两层特点,shop_id 只跟用户前史中的 shop_id 序列发作效果,good_id 只跟用户的 good_id 序列发作效果,这样做的原因也是清楚明了的。

好了,到这儿停止咱们根本讲完了这篇文章的要点部分,假如说上面的部分是文 70% 的价值地点,那么余下 30% 应该老友同居还有这么几点:

  • 用 GAUC 这个离线 metric 代替 AUC
  • 用 Dice 办法代替经典的 PReLU 激活函数
  • 介绍一种 Adaptive 的正则化办法
  • 介绍阿里dangours的 X-Deep Learning 深度学习渠道

上面几项介绍起来略显繁琐,我们有订亲爱好的能够参阅原文。关于广阔算法工程师来说,知道怎样引进 attention 机兰花草,解构阿里的深层爱好网:如安在引荐体系中引进留心机制?-火竞猜文娱_火竞猜下载制应该是最有用的收成。

参阅文献:

https://arxiv.org/abs/1706.06978https://github.com/wzhe06/Ad-papers

原文链接:

https:情味丝袜//zhuanlan.zhihu.com/p/51623339

标签: 白狐翔田千里