多臂老虎机（multiarmed bandit）的核心概念_Bandit Algorithms for Website Optimization书评-查字典图书网

multiarmed bandit原本是从赌场中的多臂老虎机的场景中提取出来的数学模型。是无状态（无记忆）的reinforcement learning。目前应用在operation research，机器人，网站优化等领域。

arm：指的是老虎机（slot machine）的拉杆。
bandit：多个拉杆的集合，bandit = {arm1, arm2.. armn}。每个bandit setting对应一个回报函数（reward function）。问题是如何最大化总回报

exploration：尝试新策略（experimentation／innovation）
exploitation：利用已有经验中的最优策略（reward maximization）
exploration vs exploitation tradeoff：过度exploration造成无谓的浪费，而过度exploitation则导致停滞，从而失去新的机会。

btw 这和innovator's dilemma可以有一个挂钩。innovator's dilemma中论证了精于管理的公司在行业风向大转的关键点错失机会的两难问题。

对“多臂老虎机（multiarmed bandit）的核心概念”的回应

GoingMyWay 2017-03-28 11:59:55

不错！Sutton的书也提到了

回应他

多臂老虎机（multiarmed bandit）的核心概念

您对该书评有什么想说的？

推荐文章

猜你喜欢

附近的人在看

推荐阅读

拓展阅读

对“多臂老虎机（multiarmed bandit）的核心概念”的回应