multiarmed bandit原本是从赌场中的多臂老虎机的场景中提取出来的数学模型。 是无状态(无记忆)的reinforcement learning。目前应用在operation research,机器人,网站优化等领域。
arm:指的是老虎机 (slot machine)的拉杆。
bandit:多个拉杆的集合,bandit = {arm1, arm2.. armn}。每个bandit setting对应一个回报函数(reward function)。问题是如何最大化总回报
exploration:尝试新策略(experimentation/innovation)
exploitation:利用已有经验中的最优策略(reward maximization)
exploration vs exploitation tradeoff:过度exploration造成无谓的浪费,而过度exploitation则导致停滞,从而失去新的机会。
btw 这和innovator's dilemma可以有一个挂钩。innovator's dilemma中论证了精于管理的公司在行业风向大转的关键点错失机会的两难问题。