MAB(Multi-Armed Bandits)

Reference

https://myeonghak.github.io/recommender systems/RecSys-Multi-Armed-Bandits(MAB)/ https://velog.io/@autorag/AutoRAG-팀의-AutoRAG-HP-논문-리뷰-야구로-이해해보자

•

최대의 이득을 찾는 전략을 학습하는 강화학습 방식의 추천 알고리즘인 MAB에 대해 살펴 봅니다.

어떤 슬롯머신이 어떤 수익률을 가지는지 모를 때,

탐색(Exploration)과 활용(Exploitation)을 적절히 사용하여

최적의 수익을 찾아내고자 하는 강화학습 알고리즘!

1. MAB(Multi-Armed Bandits)란, 여러 선택지가 있을 때 어떤 선택이 가장 큰 보상을 얻을 수 있을지 모를 때 최적의 전략을 세우기 위한 알고리즘

2. 아직 잘 모르는 선택지를 시도해보는 탐험(Exploration)과, 높은 보상을 얻을 수 있다고 알려진 선택지를 선택하는 활용(Exploitation)을 적절히 활용해야함

3. 이러한 탐험과 활용 사이를 잘 조정하기 위해, ϵ𝜖-greedy, UCB(Upper Confidence Bound) 등의 다양한 variant가 고안되었음

Reference

1. Multi-Armed Bandits이란?

2. 예시 상황

3. 탐색과 활용 (Exploration & Exploitation)

4. 보상 최대화 알고리즘

4.1. Greedy 알고리즘

4.2. 𝜖 - Greedy 알고리즘

4.3. UCB(Upper-Confidence-Bound) 알고리즘

4.4. 그 외 알고리즘

5. 코드 예제

1. Multi-Armed Bandits이란?

•

여러개(Multi)의 레버(Arm)를 가진 여러대의 슬롯머신(Bandits)

◦

알고리즘의 유래: “과거 카지노에서 어떤 슬롯머신에 게임을 해야 최대한 많은 수익을 얻어낼 수 있을까?”

•

기술적 정의 - 아래의 세 가지의 제약이 모두 주어졌을 때의 문제 (multi-armed bandit problem)를 해결하는 알고리즘

한정된 자원 상황 하에 여러 개의 상충하는 선택을 내려야하는 경우

어떠한 선택이 얼마 만큼의 이득을 얼마 만큼의 편차로 제공하는지를 알 수 없을 때 (그러나 같은 선택을 여러번 내림에 따라 불확실성이 줄어들 때)

이 선택들의 예상되는 최대 이득이 극대화되도록 하고자 할 때

•

타짜 철용좌가 자신의 마지막 승부를 거는 상황을 예시로 들어보자.

2. 예시 상황

무너진 줄만 알았던 마포대교를 무사히 건넌 철용좌는 마지막 재산 1,000만원을 끌어 안고 인근의 유명한 도박장에 도착했습니다. 3대의 슬롯머신이 눈 앞에 놓여있고, 기계마다 수익률이 다르게 책정되어 있다는 사실을 알게 됩니다. 여기서 우리의 철용좌가 재기를 위해 최대한의 이익을 낼 수 있는 방법은 무엇일까요?

•

여기서 철용좌는 아직 3개의 bandit의 보상을 전혀 알지 못합니다. 철용좌는 마지막 자존심을 되찾을 수 있을까요?

•

평소 머신러닝에 관심이 많던 철용좌는 이 마지막 기회를 최대한 살리기 위해, 강화학습의 기초적인 형태인 Multi-Armed Bandit 알고리즘을 적용해보고자 합니다. 그가 떠올린 기초적인 강화학습의 플로우는 다음과 같습니다. 일반적인 강화학습과는 달리, 환경이 변하지 않는다는 점에서 더욱 문제가 단순해졌습니다.

•

Agent: 우리의 강화학습 모델

•

Action: 버튼을 2번 누른다!

•

결과에 따라 Enviorment 는 보상 여부 결정

Agent가 선택을 잘 했으면 “잘했어~” 하고 칭찬 해주고,
잘못된 선택을 하면 “응, 왜 그거 골랐어~” 하고 혼내주는 것

•

Agent는 최종 시점에서 최대의 누적 수익을 얻기위해 자신의 전략(Policy)을 점점 수정해 나가고, 이러한 플로우가 잘 구성되어 있는 경우에 최적의 전략을 발견하면서 학습을 종료

•

칭찬과 면박은 각각 Reward의 수치값으로 표현

◦

잘했어: 돈을 더 줌

◦

못했어: 돈을 잃게 만듦

•

보상의 형태

일정한 보상 (Stationary Reward)

•

보상이 일정하다면 문제는 아주 간단해짐

1번 버튼은 500원
2번 버튼은 100원
3번 버튼은 -1,000원

•

몇번의 탐색 끝에 1번 버튼이 최고라는 것을 알게 될 것이고, 우리의 Agent는 1번을 남은 기회동안 눌러 최대의 보상을 얻게 될 것

변칙적인 보상 (Non-Stationary Reward)

•

하지만, 현실은 역시 녹록치 않다.

1번 버튼은 첫 회에 500원이었다가 시간이 흐름에 따라 한 회마다 -50원씩 줄어듦
2번 버튼은 100원이었다가 -10원, +20원, -30원, +40원…
3번 버튼은 -1000원에서 한 회마다 500원씩 늘어남

•

보상의 분포가 시간의 흐름에 따라 변화한다고 표현 (Reward distribution changes over time)

•

어떻게하면 이렇게 알 수 없는 보상을 정확히, 최소한의 손실로 알아낼 수 있을까요? 

•

이를 위해, 탐색과 활용(Exploration and Exploitation) 전략을 취하게 됩니다.