乱数ポーカーの解答
ルール
- 2 人のプレイヤーにそれぞれ 0 から 1 までの一様分布から抽出された乱数が与えられます。
- プレイヤー 1 は自分の番号をそのままにするか、新しいランダムな番号に切り替えることができます。
- プレイヤー 2 は、プレイヤー 1 の決定を知っているため、番号を変更することも、元の番号を維持することもできます。
- 最終的に高い数字を出す人が勝ちます。
質問
- 各プレイヤーにとって最適な戦略は何でしょうか?
- 両方のプレイヤーが最適な戦略に従うと仮定した場合、各プレイヤーの勝利確率はどれくらいでしょうか?
回答
- プレイヤー 1 は 0.567364 未満でスイッチし、それ以外の場合はスタンドします。
- プレイヤー 1 がスイッチする場合、プレイヤー 2 は 0.5 未満でスイッチする必要があります。それ以外の場合はスタンドします。
- プレイヤー 1 がスタンドする場合、プレイヤー 2 は 0.660951 未満でスイッチし、それ以外の場合はスタンドします。
- プレイヤー1が勝つ確率 = 0.494333。
- プレイヤー2が勝つ確率 = 0.505667。
- 各プレイヤーが 1 つの数字に賭けると仮定すると、プレイヤー 1 の期待値は -0.011333 になります。
解決
プレイヤー 1 がスイッチする場合、プレイヤー 2 は 0.5 未満でスイッチし、それ以外の場合はスタンドする必要があることは明らかです。それ以外の場合、プレイヤー1は元の数字が特定の数字より大きい場合はスタンドします。その数字をxとしましょう。
プレイヤー1がスタンドした場合、プレイヤー2はプレイヤー1がそれなりの数字を持っていると想定できます。プレイヤー2は、プレイヤー1に勝つために積極的に行動する必要があります。彼の戦略は、プレイヤー1がスタンドした場合、特定の数字(ここではyとします)以上でスイッチすることです。
このような問題を解くには、無差別点xとyを解く必要があります。これは、立っている場合と切り替えた場合の期待値を等しくすることで実現できます。
このソリューションの残りの部分では、両方のプレイヤーがそれぞれ 1 ユニットを賭けていると仮定して、プレイヤー 1 の観点から期待値を計算します。
まずは x について解きましょう。
立場による期待値 = y*(2x-1) - (1-y)
ヒットによる期待値 = 0.5 * 0 + 0.25 * 0 + 0.25 * -1 = -0.25。
次に、これらの期待値を互いに等しく設定します。
y*(2x-1) - (1-y) = -0.25
2xy - y - 1 + y =-0.25
2xy - 1 = -0.25
2xy = 0.75
xy = 3/8
次に、プレイヤー 1 がスタンドした後にプレイヤー 2 が y を持ってスタンドした場合の期待値を計算してみましょう。
(yx)/(1-x) + (1-y)/(1-x) * -1 = (x-2y+1) / (x-1)
次に、プレイヤー 1 がスタンドした後にプレイヤー 2 が y を持ってヒットした場合の期待値を計算してみましょう。
(1 / (1-x)) * [(1-x)^2 * 0 + x * (1-x) * -1] =
(1 / (1-x)) * [x^2 - x] =
x * (x-1) / -(x-1) =
-x
次に、これらの期待値を互いに等しく設定します。
(x-2y+a) / (x-1) = -x
x^2 - 2y + 1 = 0
x^3 - 2xy + x = 0
次に、xy を 3/8 に置き換えます。
x^3 + x - 0.75 = 0
4x^3 + 4x - 3 = 0 です。
この時点で 3 次方程式ソルバーを使用して x = 0.567364 を得ることができます。
xy = 3/8 であることがわかっているので、上記の値を x に代入すると、y = 0.660951 になります。
2~4つの数字が出現するすべての可能性を検討し、各プレイヤーの勝率を求めるだけです。これは幾何学や微積分学で行うことができます。この部分は読者にお任せしますが、ご容赦ください。答えは次のとおりです。
プレイヤー1が勝つ確率 = 0.494333。
プレイヤー2が勝つ確率 = 0.505667。
各プレイヤーが 1 つの数字に賭けると仮定すると、プレイヤー 1 の期待値は -0.011333 になります。
正確な答えを知りたい人のために:
z = (3/8 + (307/1728)^(1/2))^(1/3) ~ 0.926962とします。
するとx = z - 1/(3z) ~ 0.567364となる。
するとy = 3/(8x) ~ 0.660951
すると、プレイヤー1の期待値 = 3x/8 + y(y-1) ~ -0.011333
この問題の報告をしてくれた Joe Shipman に感謝します。