多臂赌博机
多臂赌博机问题(Multi-armed bandit problem, K-armed bandit problem, MAB),简称MAB问题。
推荐系统有两个顽疾,一个是冷启动,一个探索利用问题,后者又称为EE问题,Exploit-Explore问题。针对这两个问题,Bandit算法可以有效解决。
Bandit算法是一类算法。核心思想是:看看选择会带来多少遗憾,遗憾越少越好。在MAB问题里,用来量化选择好坏的指标就是累积遗憾,计算公式如下:
$$ R_T = \sum_{i=1}^{T}(W_{opt} - W_{B(i)}) = TW^* - \sum_{i=1}^{T}W_{B(i)} $$
公式由两部分组成,一个是遗憾,一个是累积,求和符号内部就表示每次选择的遗憾多少。W_opt表示每次都运气好,选择了最好的选择,该得到多少收益,W_B(i)就表示每一次实际选择得到的收益,两者之差就是遗憾的量化,在T次选择后,就有了累积遗憾。
为了简化MAB问题,每个臂收益不是0,就是1,也就是伯努利收益。该公式可以用来对比不同Bandit算法的效果:对同样的多臂问题,用不同的Bandit是算法模拟试验相同次数,比比看哪个Bandit算法的累积遗憾增长的慢,谁就是效果较好的算法。
关键元素:
- 臂:是每次推荐的候选项,如具体物品,推荐策略,物品类别
- 回报:选择一个臂之后得到的奖励,用户是否对推荐结果喜欢
- 环境:决定每个臂不同的那些元素,推荐系统面临的这个用户就是不可捉摸的环境
常见算法
- 完全随机:不顾用户反馈的做法
- 朴素选择:认准一个效果好的,一直推荐
- Epsilon贪婪算法:每次以小概率尝试新的,大概率选择效果好的
- UCB:每次都会给予机会较少的候选一些倾向
- 汤普森采样:用贝塔分布管理每一个候选的效果
汤普森采样
原理: 假设每个臂是否产生收益,起决定作用的是背后的一个概率分布,产生收益的概率为P
贝塔分布有a和b两个参数,这两个参数决定了分布的形状和位置:
- 曲线很窄,而且靠近1:a/(a+b)的值越大,分布的中心位置越靠近1
- 曲线很窄,而且靠近0:a/(a+b)的值越小,分布的中心位置越靠近0
- 曲线很宽:a+b值越大,分布曲线就越窄,分布就越集中,产生的随机数会容易靠近中心位置,反之,曲线就越宽
汤普森采样过程:
- 取出每一个候选对应的参数a和b
- 为每个候选用a和b作为参数,用贝塔分布产生一个随机数
- 按照随机数排序,输出最大值对应的候选
- 观察用户反馈,如果用户点击则将对应候选的a加1,否则b加1
注意:实际上在推荐系统中,要为每一个用户都保存一套参数,m:候选数,n:用户数,参数数:2mn. Python实现代码:
choice = numpy.argmax(pymc.rbete(1 + self.wins, 1 + self.trials - self.wins))
UCB算法
Upper Confidence Bound,即置信区间上界。同样为每个臂评分,每次选择评分最高的候选臂输出,每次输出后观察用户反馈,然后更新候选臂参数。
每个臂的评分公式为:
$$ \bar{x_j}(t) + \sqrt{\frac{2\ln t}{T_{j,t}}} $$
公式有两个部分组成:
- 加号前面是这个候选臂到目前的平均收益,反应了它的效果
- 后面的叫做Bonus,本质上是均值的标准差,反映了候选臂效果的不确定性,就是置信区间的上界,t是目前的总选择次数,T_jt是每个臂被选择的次数
算法过程:
- 每个候选的汇报均值都有个置信区间,随着试验次数增加,置信区间会变窄,相当于逐渐确定了到底回报丰厚还是可怜
- 每次选择前,都根据已经实验的结果重新估计每个候选的均值及置信区间
- 选择置信区间上界最大的那个候选
这个评分公式和汤普森采样是一样的思想:
- 以每个候选的平均收益为基准线进行选择
- 对于被选择次数不足的给予照顾
- 选择倾向的是那些确定收益较好的候选
Epsilon贪婪算法
算法过程:
- 先选择一个(0,1)之间较小的数,叫做Epsilon
- 每次以概率Epsilon的概率在所有候选臂中随机选择一个,以1-Epsilon的概率去选择平均收益最大的那个臂
Epsilon的值可以控制对探索和利用的权衡程度,这个值越接近0,在探索上就越保守。
朴素的做法
先试几次,等每个臂都统计到收益之后,就一直选择均值最大的那个臂。
### 冷启动问题
数据不足就是冷启动问题,解决的大致思路:
- 针对一个新用户,使用汤普森采样为每一个Topic采样一个随机数排序后,输出采样Top N的推荐Item,注意,一次选择了Top N个候选臂
- 等着获取用户的反馈,没有反馈则更新对应的Topic的b值,点击了则更新对应Topic的a值
结合上下文信息的Bandit算法
上面的Bandit算法有一个特点:完全没有使用候选臂的特征信息。问题是只能对当前已有的这些候选臂进行选择,对于新加入的候选臂只能从0开始积累数据,而不能借助已有的候选泛化作用。
改进的UCB算法LinUCB
UCB置信区间可以简单理解为不确定的程度,区间越宽,越不确定,反之就很确定。与传统的UCB算法相比,最大的改进就是加入了特征信息,每次估算每个候选的置信区间,不再仅仅根据实验,而是根据特征信息来估算。
LinUCB算法最重要的步骤,就是给用户和物品构建特征,也就是刻画上下文。
简单版本LinUCB
让每一个候选臂之间完全互相无关,参数不共享。LinUCB认为,参数和特征之间线性相乘就应该得到收益:
$$ D_{m \times d} \times \hat{\theta}_{d \times 1} = C_{ m \times 1} $$
已知D和C,求解theta:
$$ \hat{\theta}_{d \times 1} = (D_{m \times d}^T)^{-1} \times C_{m \times 1} $$
岭回归(Ridge Regression)主要用于当样本数小于特征数时,对回归参数进行修正,对于加了特征的Bandit问题,正好符合这个特点:试验次数(样本数量)少于特征数。因此给原始矩阵加上一个单位对角矩阵后再参与计算:
$$ \hat{\theta}_{d \times 1} = (D_{m \times d}^T D_{m \times d} + I_{d \times d})^{-1} \times D_{m \times d}^T C_{m \times 1} $$
如果x是上下文特征,则期望收益和置信上边界计算公式:
期望收益:
$$ \hat{r} = x_{d \times 1}^T \hat{\theta}_{d \times 1} $$
置信区间上边界:
$$ \hat{b} = \alpha \sqrt{x_{d \times 1}^T (D_{m \times d}^T D_{m \times d} + I_{d \times d})^{-1} x_{d \times 1})} $$
每次选择时给每一个候选臂都计算这两个值,相加之后选择最大的候选臂输出。
LinUCB特点:
- 会考虑上下文因素,比如是用户特征、物品特征和场景特征一起考虑
- 每一个候选臂针对这些特征各自维护一个参数向量,各自更新,互不干扰
- 每次选择时用各自的参数去计算期望收益和置信区间,然后按照置信区间上边界最大的输出结果
- 返回用户的反馈,即是否点击,结合对应的特征,按照上面的公式,去重新计算这个候选臂的参数
当LinUCB的特征向量始终取1,每个候选臂的参数是收益均值的时候,LinUCB就是UCB。
高级版本LinUCB
与简单版本相比,高级版本认为一部分特征对应的参数在所有候选臂之间是共享的,就是无论哪个候选臂被选中,都会去更新这部分参数。
步骤:
- 对用户特征和物品特征向量进行归一化处理,变成单位向量
- 将用户特征向量做第一次降维处理为与物品特征一样的A维空间向量,利用用户特征和物品特征以及用户的点积行为去你和一个矩阵W,直观上理解是能够把用户特征映射到物品特征上
- 用投射后的A维用户特征向量进行聚类,得到B个类,物品也同样聚类为B个类,再加上常数1,用户和物品各自被表示成B+1维向量
- 接下来应用简单版本的LinUCB就行
总结
LinUCB优点:
- 由于加入了特征,收益收敛比UCB更快
- 各个候选臂之间参数是独立的,可以互相不影响地更新参数
- 由于参与计算的是特征,所以可以处理动态的推荐候选池,编辑可以增删文章
LinUCB缺点:
同时处理的候选臂数量不能太多,不超过几百个最佳,因为每一次要计算每一个候选臂的期望收益和置信区间,一旦候选太多,计算代价将不可接受。
如何将Bandit算法与协同过滤结合使用
协同过滤核心就是“物以类聚,人以群分”。
信息茧房:推荐的物品局限在了部分圈子中,看不到新奇的物品。
COFIBA算法
与LinUCB相比,COFIBA不同点有两个:
- 基于用户聚类挑选最佳的物品,即相似用户集体动态决策
- 基于用户的反馈情况调整用户和物品的聚类结果
简单过程:
- 用协同过滤来少选可以参与决策的用代表,用LinUCB算法来实际进行选择
- 根据用户的反馈,调整基于用户和基于物品的聚类结果,即对物品和用户的群体代表做换届选举
- 基于物品的聚类如果变化,又进一步改变了用户的聚类结果
- 不断根据用户实时动态的反馈来调整用户的决策参数,从而重新划分聚类结果矩阵
总结
- Bandit是一种不太常用在推荐系统的算法,究其原因,是它能同时处理的物品数量不能太多
- 针对冷启动和EE问题,Bandit算法简单好用,值得一试
- COFIBA算法是把协同过滤思想引入到了Bandit算法中,不再是用户独立决策,而是用户所在群体共同决策推荐结果。
本文是《推荐系统三十六式》的读书笔记,仅限个人学习,请勿用作商业用途,谢谢。
Note: Cover Picture