遊戲說明
這是一個簡單的多臂拉霸機模擬遊戲,玩家可以選擇不同的機器以觀察其回報特性。
此遊戲可手動操作或由程式控制,非常適合強化學習的訓練環境。
遊戲機制
- 玩家選擇一台機器,該機器根據預先設定的機率分布產生隨機回報。
- 回報值為 0 到 10 的整數,嚴格依照機率分布生成。
- 玩家可多次選擇相同機器,觀察其行為特性並制定策略。
手動操作
- 按下「Action 0」到「Action 4」按鈕,選擇對應的機器。
- 選擇後,顯示該次操作的回報值及機器的期望值 (EV)。
狀態描述 (State)
動作描述 (Action)
- 0:選擇第 0 號機器
- 1:選擇第 1 號機器
- 2:選擇第 2 號機器
- 3:選擇第 3 號機器
- 4:選擇第 4 號機器