推荐引擎模块
- 接收请求
- 处理请求
- 返回结果
制造结果集
格式:
- UID: item_id, item_id, item_id
- Item_id: item_id, item_id, item_id
制造日志
日志格式
- cookie
- uid
- user agent
- ip
- video_id
- topic
- order_id
- log_type:代表日志种类
日志种类
- 点击
- 播放
- 点赞
- 收藏
- 付费观看
- 站外分享
- 评论
重定向营销
- 电影重定向
- 电影重定向
- 文章重定向
处理日志
- 处理点击日志
- 处理播放日志
- 处理点赞日志
- 处理收藏日志
- 处理付费观看日志
- 处理站外分享日志
- 处理评论日志
流式处理
- 流式处理概念
- 流式处理逻辑实现
- 流式处理应用
打造你自己的流式处理系统
- 设计场景和梳理需求
- 例如视频网站场景
- 例如在线阅读小说的场景
- 制定流式处理规则
- 点击流式处理机制
- 收藏流式处理规则
- 人工干预推荐结果
- 编辑推荐
流式处理的优势
- 低响应时延
- 动态效果丰富
- 用户体验效果好
- 转化率高
流式处理的劣势
- 资源消耗严重
- 效果准确度有影响
- 效果起伏大、分析原因难
实现流式处理
- 内存更新方式
- In Memory
- map
- list
- 一致性哈希算法
- 平衡性
- 单调性
- 分散性
- 负载
- 更新缓存机制
应用流式处理
- 重定向
- 类别关联
- 同类目推荐
- 人工干预推荐结果
推荐引擎中期实践
- 同类目推荐
- 处理日志
- 保存日志处理结果,即进行日志打包,将该日志文件推送到文件服务器端
- 服务器端加载日志结果,重新还原日志格式,即进行日志拆包
- 关联类目推荐
- 与同类目相比,区别是不仅仅保存同类的物品结果,相似类目的都保存下来
- 一致性哈希适应
- 分摊数据风险,最大限度防止数据丢失,提供最大的用户体验
- 多线程内存更新
- 利用全局锁实现,在读时不能写,在写时不能读就行
- 人工干预推荐
三大推荐引擎
- 电商推荐
- 内容推荐
- 社交推荐
内容推荐
- 场景
- 小说网站
- 缺乏运营
- 使用习惯
- 重度用户
- 搭建推 荐引擎
- 分词工具:jieba中文分词
- 设计流程模块
- Coding
- Real Time Ranking
文章推荐引擎
- 响应请求
- 数据预处理
- 生成索引
- 加入引擎
- 响应请求
数据准备
- 构建小说
- 存储到制定路径
- 制定存储格式
- 确保能够找到
Build Your Own Engine
- 分词
- 构建结果
- 存储结果
- 构建引擎
- 产品上线
Real Time Ranking
- 实时打分概念
- 实现实时打分排序
- 制定规则
- 搭建软件环境
- 设计数据流向链条
- 混合算法推荐初试
实时排序是推荐系统的必然需要,采用实时或者近实时的方式获取每一个元素的排序依据,因为实时排序的结果将会主导用户再短期未来的行为。
可以缓解库存压力,少的排在后面,多的排在前面。
Note: Cover Picture