基于LowPopArt方法的低秩bandit算法

 

◦ 概念理解:

• 低秩矩阵估计(Low-Rank Matrix Estimation):

​ 从部分观测值或有噪声的数据中,恢复或近似一个低秩矩阵(数据矩阵维度过高,有效信息集中在一个较小的子空间)。

• 实验设计(Experimental Design)

​ 在有限的探索资源下,应该优先选择哪一部分臂进行探索,以最小代价获取最大收益。

• 依赖臂集的低秩多臂老虎机(Arm-Set-Dependent Low-Rank Bandits)

​ 考虑一组臂的组合且它们的收益相互依赖,要综合考虑单个臂和组合臂。

◦  摘要和引言部分

​ 论文主要研究低秩矩阵估计和低秩bandit问题。假设不同臂的回报矩阵具有低秩结构,于是通过少量的探索推测出其他选择方案的回报,提高效率。论文主要提出了一种新的低秩矩阵估计方法LowPopArt,该算法可以给出更紧的恢复界(?),可以更高效的估计低秩矩阵。为了提高在有限的实验次数中的估计效率,本文提出了一种新的实验设计准则,通过最小化B(Q)(?)来选择最有利的观测分布。基于LowPopArt方法,论文提出两种新的低秩bandit算法LPA-ETC和LPA-ESTR。

Q : 核范数正则化最小二乘法?后悔界?