小红书大数据在推荐中的应用 - ucc.alicdn.comƒ一小红书... ·...

小红书大数据在推荐中的应用

郭一

小红书推荐架构负责人

小红书：找到你想要的生活

月活

8500万年同比增长

300%每天笔试展示

• 实时计算在推荐业务中的场景

• 实时归因: 一个推荐业务的Flink实时计算任务的实践

• Red Flink实时流计算平台

• Red ML平台

• 总结和展望

推荐 & 实时计算

根据用户画像从笔记池中召回（多种策略）

给每个笔记打分Score = pCTR * (pLike * Like权重 + pCmt * Cmt权重 … )

笔记位置多样性调整

分页显示, 有交互之后重排

线上推荐过程

算法推荐

用户消费笔记产生交互

训练样本

预测模型

用户/笔记画象

分析报表

策略

笔记索引

推荐系统架构

实时

离线

离线批处理

客户端用户交互

LogServer

Hive 报表 (T+1)

训练样本 (T+1) 模型训练

BI工具

用户笔记画象(T+1)

实时流处理

Kafka 实时归因

训练样本

实时指标 ClickHouse

数据接入数据计算数据落地数据应用

模型训练

BI工具

客户端用户交互

LogServer

实时用户/笔记画象

实时归因

实时流计算：实时归因

1. 曝光

2. 点击

4. 点击

3. 点赞

曝光笔记有无点击

点击模型数据标签

点赞和时长模型数据标签

点击笔记有无点赞停留时长

2 Yes 20s

4 No 10s

笔记1 曝光笔记2 曝光笔记3 曝光笔记4 曝光笔记2 点击笔记2 点赞笔记2 回退, 时长20s笔记4 点击笔记4 回退, 时长10s…

用户行为流:

• Flink任务

• Kafka Source => Kafka Sink

• keyBy (user_id, note_id, 曝光/点击)

• 使用Process Function API

(SessionStateProcesser)

• SessionStateProcesser

• 创建一个定时的20分钟窗口

• 创建维护ValueState<SessionState>状态

• 窗口结束的时候

• 根据SessionState输出下游记录

• 清除ValueState<SessionState>

Flink Job – Session Labeler

• Flink集群管理

• Checkpoint & 状态持久化

• Backfill

实际生产需要解决的问题

Flink集群部署 on K8s (Standalone)

Checkpoint和State持久化

FsStateBackend RocksDBStateBackend

• state 存储在HDFS

• 不支持增量checkpoint

• state 存储在RocksDB on HDFS

• 利用RocksDB的compaction机制合并，

支持增量Checkpoint

• 适用于state比较大的情况

• 磁盘I/O高，反压上游

• 内存OOM

• 本地 HDD => SSD

• 堆外内存 = MemTable * #Parallelism

• Checkpoint频率 1min = > 10 min

• RocksDB Compaction Threshold => 1G

RocksDB参数挑优

• Source流控

• 支持Kafka Source和文件

• 期待Flink 1.9 对批的支持加强

Backfill

Red Flink实时流计算平台

配置目的地

自动识别格式

自动产成FlinkSQL ETL命令

Red ML平台

• 9个预测任务 (click, hide, like, fav, comment, share, follow, …)

• Click模型规模： 5亿样本/天， 1T数据/天

小红书推荐预测模型的演近

GBDT (SparkML)

GBDT + LR(TensorFlow)

GBDT +

Deep & Wide (TensorFlow)

Online Training

12/2018 Coming soon

GBDT +

Sparse D&W (Tensorflow on

KubeFlow)

07/2019

• 开源社区支持

• TFJob支持TensorFlow的分布式训练

Red ML on KubeFlow

• 依赖开源社区

• 期待Flink 1.9新功能

• 模型训练算力需求增加, 效率敏感

• Flink + AI

总结与展望

扫码加入社群与志同道合的码友一起

Code Up

阿里云开发者社区

粘贴二维码

谢谢！

小红书大数据在推荐中的应用 - ucc.alicdn.comƒ一小红书... ·...

Documents

小儿贫血 - scu.edu.cnccftp.scu.edu.cn/Download/20180905192319595.pdfv 红细胞和血红蛋白（erythrocyte and hemoglobin) Ø 出生时红细胞数：5-7×1012/L Ø 出生时血红蛋白:

读书小港湾 ( 七）

红旗小学 —— 郭淑娟

A HARDSTONE-INLAIED BLACK 朱红小立柜百宝嵌红漆立柜百宝 …

Okbuy 李小红好乐买自动化运维实践

Lesson 7 Arriving in Beijing 灵寿县小东关明德小学张红艳. By train

小红书入驻指导手册...小红书将尽快反馈资质审核结果四、签署合同并缴纳店铺保证金店铺在线上确认合同内容，审核通过后，将纸质合同寄回小红书平台进行归档

麟游县西街小学马红云

小红书入驻指导手册dc.xhscdn.com/9481de50-85b3-11e9-9c3b-4fe3f818950b/小红... · 2019-06-03 · 小红书入驻指导手册 4.0 版二、公章要求 1、加盖入驻主体公章。

读书小港湾（二）

文旅 - epaper.jrkunshan.cnepaper.jrkunshan.cn/resfile/2019-08-08/B01/B01.pdf书，以期打造一间美好的乡野网红书店。书店还将设立一个二手书中转站，让村民与书店形成

扶余县新源镇霍家小学邹红静

小米参与感小米口碑营销内部手册 (书摘)

《泰》蹿红背后：谁在消费“小喜剧”dianzibao.cb.com.cn/images/2012-12/24/37/1992c05c.pdf · 《泰》蹿红背后：谁在消费“小喜剧” 本报记者朱耘

二年级第十二课小红也学中文

11 小华常去图书馆

孙犁的四本“文学课”小书 - chaozhoudaily.com · 风骨的一位作家，我经常买他的书。最近，我淘到了孙犁的四本小书。这四本小书不是他新时期以来

静海镇第四小学刘红利

小宝精灵2S说明书 · 2019. 12. 19. · Title: 小宝精灵2S说明书 Created Date: 12/19/2019 2:37:18 PM

关于《红楼梦》整本书阅读 - pep.com.cn · •至于说到《红楼梦》的价值，可是在中国底小说中实在是不可多得的。其要点在敢于如实描写，并无讳饰，和从前的小说叙好人

小红书大数据在推荐中的应用 - ucc.alicdn.comƒ一 小红书... ·...

小红书大数据在推荐中的应用 - ucc.alicdn.comƒ一小红书... ·...