مساله ۷۵. تقسیم بستنی

یک بستنی را میخواهیم بین دو نفر تقسیم کنیم. هر دفعه یک سکه میاندازیم و یکی از دو نفر را انتخاب میکنیم. به او میگوییم آیا قبول میکنی ۱۰٪ بستنی را به تو بدهیم و ۹۰٪ را به نفر دیگر؟ اگر قبول کرد، تمام میشود و تقسیم انجام میشود.
و گرنه ۱۰٪ بستنی آب میشود (یعنی حجمش ضربدر ۹۰٪ میشود) و مراحل دوباره تکرار میشوند.
اگر بازیکنان بهینه بازی کنند به صورت میانگین چقدر بستنی به هر بازیکن میرسد؟
(هدف هر بازیکن این است که حجم بستنی که به خودش میرسد بیشینه شود)
لینک سوال در توویتر: https://x.com/Riazi_Cafe/status/1805100680463704139
اگر بازیکنان به صورت بهینه بازی کنند، هر کدام سهمی معادل \(1/9\) از بستنی دریافت میکنند و هر دو با احتمال \(1/36\) معامله را میپذیرند.
پاسخ این سوال به مفهوم «تعادل نش» وابسته است. در اینجا ما به دنبال یک استراتژی بهینه برای بازیکنان هستیم که (۱) سهم متوسط بستنی دریافتی آنها را به حداکثر برساند (۲) آنها را در یک «تعادل نش» قرار دهد (یعنی هیچ بازیکنی نمیتواند با تغییر استراتژی خود، بازدهی بهتری کسب کند). بر اساس تقارن، چنین استراتژیای برای هر دو بازیکن یکسان خواهد بود.
به خاطر داشته باشید که نه استراتژیای که همیشه هر پیشنهادی را میپذیرد و نه استراتژیای که هیچ پیشنهادی را نمیپذیرد، شرایط بالا را تضمین نمیکند. بنابراین، بازیکنان باید از یک استراتژی تصادفی استفاده کنند. ما چنین استراتژیای را با یک احتمال \(p\) نشان میدهیم که در آن بازیکن با احتمال \(p\) معامله را میپذیرد و با احتمال \(1-p\) آن را رد میکند. برای یافتن مقدار بهینه \(p\)، باید این نکته را در نظر بگیریم که یک بازیکن نمیتواند با تغییر استراتژی خود به بازدهی بالاتری دست یابد. برای این منظور، حالتی را در نظر بگیرید که در ابتدای بازی سکهای پرتاب میشود و بازیکن اول باید تصمیم بگیرد که آیا ۱۰ درصد از بستنی را دریافت میکند یا خیر. در این حالت، اگر پیشنهاد را بپذیرد، دریافنی او برابر با \(0.1\) بستنی خواهد بود. از آنجایی که بازی در «تعادل نش» است، او باید صرف نظر از پذیرش یا رد معامله، به همان مقدار بستنی دریافت کند. توجه داشته باشید که از آنجایی که پس از رد معامله، ۱۰ درصد از بستنی آب میشود، چنین مطلوبیتی برابر با \(0.9 u\) خواهد بود که در آن \(u\) مطلوبیت بازیکنان هنگام بازی با استراتژی بهینه است. این بدان معناست که\(u=1/9\).
از سوی دیگر، زمانی که هر دو بازیکن هر معاملهای را با احتمال \(p\) بپذیرند، میانگین مطلوبیت بازیکنان برابر با \(\frac{p + p(1-p) 0.9 + p(1-p)^2 0.9^2 + p(1-p)^3 0.9^3 + \ldots}{2}\) خواهد بود که بر اساس تعریف، برابر با \(u\) است. این بدان معناست که \(2u = \frac{2u-p}{(1-p)0.9}\) و بنابراین \(2/9 = \frac{2/9 - p}{(1-p)0.9}\). بنابراین، \(0.2 - 0.2 p = 2/9 - p\) و به این معنی است که \(p = 1/36\).