مساله ۷۵. تقسیم بستنی

یک بستنی را می‌خواهیم بین دو نفر تقسیم کنیم. هر دفعه یک سکه می‌اندازیم و یکی از دو نفر را انتخاب می‌کنیم. به او می‌گوییم آیا قبول می‌کنی ۱۰٪ بستنی را به تو بدهیم و ۹۰٪ را به نفر دیگر؟ اگر قبول کرد، تمام می‌شود و تقسیم انجام می‌شود.

و گرنه ۱۰٪ بستنی آب می‌شود (یعنی حجمش ضربدر ۹۰٪ می‌شود) و مراحل دوباره تکرار می‌شوند.

اگر بازیکنان بهینه بازی کنند به صورت میانگین چقدر بستنی به هر بازیکن می‌رسد؟

(هدف هر بازیکن این است که حجم بستنی که به خودش میرسد بیشینه شود)

لینک سوال در توویتر: https://x.com/Riazi_Cafe/status/1805100680463704139

-

اگر بازیکنان به صورت بهینه بازی کنند، هر کدام سهمی معادل \(1/9\) از بستنی دریافت می‌کنند و هر دو با احتمال \(1/36\) معامله را می‌پذیرند.

پاسخ این سوال به مفهوم «تعادل نش» وابسته است. در اینجا ما به دنبال یک استراتژی بهینه برای بازیکنان هستیم که (۱) سهم متوسط بستنی دریافتی آن‌ها را به حداکثر برساند (۲) آن‌ها را در یک «تعادل نش» قرار دهد (یعنی هیچ بازیکنی نمی‌تواند با تغییر استراتژی خود، بازدهی بهتری کسب کند). بر اساس تقارن، چنین استراتژی‌ای برای هر دو بازیکن یکسان خواهد بود.

به خاطر داشته باشید که نه استراتژی‌ای که همیشه هر پیشنهادی را می‌پذیرد و نه استراتژی‌ای که هیچ پیشنهادی را نمی‌پذیرد، شرایط بالا را تضمین نمی‌کند. بنابراین، بازیکنان باید از یک استراتژی تصادفی استفاده کنند. ما چنین استراتژی‌ای را با یک احتمال \(p\) نشان می‌دهیم که در آن بازیکن با احتمال \(p\) معامله را می‌پذیرد و با احتمال \(1-p\) آن را رد می‌کند. برای یافتن مقدار بهینه \(p\)، باید این نکته را در نظر بگیریم که یک بازیکن نمی‌تواند با تغییر استراتژی خود به بازدهی بالاتری دست یابد. برای این منظور، حالتی را در نظر بگیرید که در ابتدای بازی سکه‌ای پرتاب می‌شود و بازیکن اول باید تصمیم بگیرد که آیا ۱۰ درصد از بستنی را دریافت می‌کند یا خیر. در این حالت، اگر پیشنهاد را بپذیرد، دریافنی او برابر با \(0.1\) بستنی خواهد بود. از آنجایی که بازی در «تعادل نش» است، او باید صرف نظر از پذیرش یا رد معامله، به همان مقدار بستنی دریافت کند. توجه داشته باشید که از آنجایی که پس از رد معامله، ۱۰ درصد از بستنی آب می‌شود، چنین مطلوبیتی برابر با \(0.9 u\) خواهد بود که در آن \(u\) مطلوبیت بازیکنان هنگام بازی با استراتژی بهینه است. این بدان معناست که\(u=1/9‏\)‎.

از سوی دیگر، زمانی که هر دو بازیکن هر معامله‌ای را با احتمال \(p\) بپذیرند، میانگین مطلوبیت بازیکنان برابر با \(\frac{p + p(1-p) 0.9 + p(1-p)^2 0.9^2 + p(1-p)^3 0.9^3 + \ldots}{2}\) خواهد بود که بر اساس تعریف، برابر با \(u\) است. این بدان معناست که \(2u = \frac{2u-p}{(1-p)0.9}\) و بنابراین \(2/9 = \frac{2/9 - p}{(1-p)0.9}\). بنابراین، \(0.2 - 0.2 p = 2/9 - p\) و به این معنی است که \(p = 1/36\).