דילמת האסיר – הבדלי גרסאות
מ ←הדילמה הבסיסית: {{ש}} |
|||
(20 גרסאות ביניים של 17 משתמשים אינן מוצגות) | |||
שורה 1: | שורה 1: | ||
'''דילמת האסיר''' ([[אנגלית]]: '''Prisoner's dilemma''') היא בעיה [[פרדוקס]]לית ב[[תורת המשחקים]] שפורסמה בשנת [[1950]] על ידי [[מריל פלאד]] {{אנ|Merrill Flood}} ו[[מלווין דרשר]] {{אנ|Melvin Dresher}} מ"[[תאגיד ראנד]]" ב[[ארצות הברית]]. הדילמה מדגימה מצב בו התנהגות רציונלית לחלוטין, מנקודת מבטו של הפרט, תוביל לתוצאה שאינה אופטימלית, כלומר אינה [[יעילות פארטו|יעילה פארטו]]. בשל פשטותה, משמשת הדילמה כדוגמה קלאסית לבעיות בהן עוסקת תורת המשחקים. |
'''דילמת האסיר''' (ב[[אנגלית]]: '''Prisoner's dilemma''') היא בעיה [[פרדוקס]]לית ב[[תורת המשחקים]], שפורסמה בשנת [[1950]] על ידי [[מריל פלאד]] {{אנ|Merrill Flood}} ו[[מלווין דרשר]] {{אנ|Melvin Dresher}} מ"[[תאגיד ראנד]]" ב[[ארצות הברית]], לפיה במצב שבו שני אנשים אינם יכולים לתאם ביניהם, יש שלושה מצבים: הראשון - אם שניהם יבטחו זה בזה, אזי הם יצליחו במידת מה. השני - אם הם יבגדו זה בזה, אז שניהם ייענשו במידת מה. השלישי - אם האחד יאמין והשני יבגוד, אז הבוגד יזכה בכל והאחר יענש בחומרה. הדילמה מדגימה מצב בו התנהגות רציונלית לחלוטין, מנקודת מבטו של הפרט, תוביל לתוצאה שאינה אופטימלית לצמד, כלומר אינה [[יעילות פארטו|יעילה פארטו]]. בשל פשטותה, משמשת הדילמה כדוגמה קלאסית לבעיות בהן עוסקת תורת המשחקים. |
||
==הדילמה הבסיסית== |
==הדילמה הבסיסית== |
||
שורה 14: | שורה 14: | ||
| rowspan=2 BGCOLOR=yellow | '''<span style="color: red;">אסיר א</span>''' |
| rowspan=2 BGCOLOR=yellow | '''<span style="color: red;">אסיר א</span>''' |
||
| BGCOLOR=yellow | שותק |
| BGCOLOR=yellow | שותק |
||
| <span style="color: red;">שנה אחת</span>, <span style="color: blue;">שנה אחת</span> |
| <span style="color: red;">שנה אחת</span>,{{ש}} <span style="color: blue;">שנה אחת</span> |
||
| <span style="color: red;">15 שנה</span>, <span style="color: blue;">אפס שנים</span> |
| <span style="color: red;">15 שנה</span>,{{ש}} <span style="color: blue;">אפס שנים</span> |
||
|- |
|- |
||
| BGCOLOR=yellow | מלשין |
| BGCOLOR=yellow | מלשין |
||
| <span style="color: red;">אפס שנים</span>, <span style="color: blue;">15 שנה</span> |
| <span style="color: red;">אפס שנים</span>,{{ש}} <span style="color: blue;">15 שנה</span> |
||
| <span style="color: red;">חמש שנים</span>, <span style="color: blue;">חמש שנים</span> |
| <span style="color: red;">חמש שנים</span>,{{ש}} <span style="color: blue;">חמש שנים</span> |
||
|} |
|} |
||
</div> |
</div> |
||
שורה 28: | שורה 28: | ||
גם אם יוכלו האסירים לתקשר זה עם זה, כל עוד אין הם חותמים על הסכם מחייב, שמבטיח שהחותמים עליו ינהגו בהתאם להצהרתם, דרך הפעולה הרציונלית ממשיכה להיות [[הלשנה]] הדדית. רק הסכם שהפרתו גוררת [[סנקציות|סנקציה]] שתהווה משקל נגד לרווח שב[[בגידה (מעילה באמון)|בגידה]] יבטיח שיתוף פעולה הדדי. |
גם אם יוכלו האסירים לתקשר זה עם זה, כל עוד אין הם חותמים על הסכם מחייב, שמבטיח שהחותמים עליו ינהגו בהתאם להצהרתם, דרך הפעולה הרציונלית ממשיכה להיות [[הלשנה]] הדדית. רק הסכם שהפרתו גוררת [[סנקציות|סנקציה]] שתהווה משקל נגד לרווח שב[[בגידה (מעילה באמון)|בגידה]] יבטיח שיתוף פעולה הדדי. |
||
הדילמה ממחישה מצב שאינו נדיר, לפיו שיתוף פעולה יביא תועלת רבה יותר לשני הצדדים מאשר גישה שבה כל צד פועל על דעת עצמו. |
הדילמה ממחישה מצב שאינו נדיר, לפיו שיתוף פעולה יביא תועלת רבה יותר לשני הצדדים מאשר גישה שבה כל צד פועל על דעת עצמו. להלן מספר דוגמאות אקטואליות לנושא זה: |
||
* ב[[מדע המדינה]] משמשת דילמת האסיר להמחשת מצב שבו שתי מדינות נכנסות ל[[מרוץ חימוש]] (ובעיקר מרוץ לחימוש גרעיני). לכל מדינה יש שתי אפשרויות: להגדיל את תקציב הביטחון שלה או להגיע להסכם עם יריבתה לפירוק החימוש. בכל מדינה מקנן החשש שיריבתה תפר את ההסכם, ולכן כל אחת מהן נוטה לכיוון של מרוץ חימוש. כל מדינה נראית כפועלת באופן רציונלי, אך התוצאה היא בלתי רציונלית בעליל. דוגמה למרוץ חימוש מסוג זה הוא [[המלחמה הקרה]]. |
* ב[[מדע המדינה]] משמשת דילמת האסיר להמחשת מצב שבו שתי מדינות נכנסות ל[[מרוץ חימוש]] (ובעיקר מרוץ לחימוש גרעיני). לכל מדינה יש שתי אפשרויות: להגדיל את תקציב הביטחון שלה או להגיע להסכם עם יריבתה לפירוק החימוש. בכל מדינה מקנן החשש שיריבתה תפר את ההסכם, ולכן כל אחת מהן נוטה לכיוון של מרוץ חימוש. כל מדינה נראית כפועלת באופן רציונלי, אך התוצאה היא בלתי רציונלית בעליל. דוגמה למרוץ חימוש מסוג זה הוא [[המלחמה הקרה]]. |
||
* בתחום ה[[כלכלה]], ניתן להוכיח, שכאשר ה[[ריבית#ריבית נומינלית|ריבית הנומינלית]] במשק גדולה מ-0, וכל גורם במשק דואג רק לטובת עצמו, התוצאות עבור המשק כולו אינן אופטימליות. פתרון אפשרי לבעיה זו הוא להוריד את שער הריבית ל-0{{הערה|1={{קישור כללי|כותרת=ריבית 0 - הכלכלה האידיאלית|כתובת=http://www.tora.us.fm/tryg/ribit0/ribit0.html|תאריך_וידוא=25 במאי 2015|ציטוט=אחד האיסורים החמורים בתורה הוא [[איסור ריבית (הלכה)|איסור ריבית]]. מקובל לחשוב שהאיסור הזה נובע משיקולים של חסד ורחמים על החלש, אך למעשה עומד מאחריו גם שיקול הגיוני של תועלת למשק. |מידע נוסף= |
* בתחום ה[[כלכלה]], ניתן להוכיח, שכאשר ה[[ריבית#ריבית נומינלית|ריבית הנומינלית]] במשק גדולה מ-0, וכל גורם במשק דואג רק לטובת עצמו, התוצאות עבור המשק כולו אינן אופטימליות. פתרון אפשרי לבעיה זו הוא להוריד את שער הריבית ל-0{{הערה|1={{קישור כללי|כותרת=ריבית 0 - הכלכלה האידיאלית|כתובת=http://www.tora.us.fm/tryg/ribit0/ribit0.html|תאריך_וידוא=25 במאי 2015|ציטוט=אחד האיסורים החמורים בתורה הוא [[איסור ריבית (הלכה)|איסור ריבית]]. מקובל לחשוב שהאיסור הזה נובע משיקולים של חסד ורחמים על החלש, אך למעשה עומד מאחריו גם שיקול הגיוני של תועלת למשק. |מידע נוסף=ניסיון להסבר פשוט, ככל האפשר בלי מתמטיקה, ובעברית, של {{קישור כללי|כותרת=Zero Nominal Interest Rates: Why They're Good and How to Get Them|כתובת=http://minneapolisfed.org/research/qr/qr2221.pdf|תאריך_וידוא=25 במאי 2015|ציטוט=In a classic essay, Milton Friedman (1969, p. 34) states that |
||
only monetary policies that generate a zero nominal in-terest rate will lead to optimal resource allocations|תאריך=Spring 1998|עמודים=8|הכותב=Harold L. Cole and Narayana Kocherlakota|מידע נוסף=Federal Reserve Bank of Minneapolis |
only monetary policies that generate a zero nominal in-terest rate will lead to optimal resource allocations|תאריך=Spring 1998|עמודים=8|הכותב=Harold L. Cole and Narayana Kocherlakota|מידע נוסף=Federal Reserve Bank of Minneapolis |
||
Quarterly Review vol 22. No 2 |
Quarterly Review vol 22. No 2 |
||
ISSN 0271-5287 }}}}}}. |
ISSN 0271-5287 }}}}}}. |
||
* דוגמה כללית מספרו של [[ויליאם פאונדסטון]] {{אנ|William Poundstone}}: תארו לעצמכם מצב בו אין אכיפה על תשלום ברכבות. תמיד משתלם לנוסעים לא לשלם (כלומר גם אם השאר בוחרים לשלם או "לגנוב" נסיעות), אך מצב זה יוביל |
* דוגמה כללית מספרו של [[ויליאם פאונדסטון]] {{אנ|William Poundstone}}: תארו לעצמכם מצב בו אין אכיפה על תשלום ברכבות. תמיד משתלם לנוסעים לא לשלם (כלומר גם אם השאר בוחרים לשלם או "לגנוב" נסיעות), אך מצב זה יוביל ל[[פשיטת רגל]] וסגירת הרכבת, בעוד שעדיף לכל אחד לשלם כדי לשמור על קיומה של הרכבת. |
||
==דילמת האסיר האיטרטיבית== |
==דילמת האסיר האיטרטיבית== |
||
כאשר ההחלטה שעל האסירים לקבל אינה חד-פעמית, כמו בדוגמה לעיל, אלא יש להם הזדמנות לחזור על ה"משחק" פעמים רבות, האסירים עשויים לנהוג אחרת, ואף לנקוט באסטרטגיה בה היו נוקטים לו היו משתפים פעולה, לצורך קבלת תוצאה טובה יותר מבחינתם. חזרה על הדילמה או במילים אחרות '''דילמת אסיר [[איטרציה|איטרטיבית]]''' (כלומר כזו שחוזרת על עצמה שוב ושוב), משמשת בסיס למחקרים [[פסיכולוגיה|פסיכולוגיים]] רבים, שבהם נבחנה התנהגותם של המשתתפים בדגם זה של ה"משחק". |
כאשר ההחלטה שעל האסירים לקבל אינה חד-פעמית, כמו בדוגמה לעיל, אלא יש להם הזדמנות לחזור על ה"משחק" פעמים רבות, האסירים עשויים לנהוג אחרת, ואף לנקוט באסטרטגיה בה היו נוקטים לו היו משתפים פעולה, לצורך קבלת תוצאה טובה יותר מבחינתם. חזרה על הדילמה או במילים אחרות '''דילמת אסיר [[איטרציה|איטרטיבית]]''' (כלומר כזו שחוזרת על עצמה שוב ושוב), משמשת בסיס למחקרים [[פסיכולוגיה|פסיכולוגיים]] רבים, שבהם נבחנה התנהגותם של המשתתפים בדגם זה של ה"משחק". |
||
אחד ה[[ניסוי]]ים המפורסמים בתחום זה הוא הניסוי שערך '''[[רוברט אקסלרוד]]''' מ[[אוניברסיטת מישיגן|אוניברסיטת אן ארבור במישיגן]]. בניסוי זה התבקשו מומחים ממגוון דיסציפלינות ([[כלכלה]], [[פסיכולוגיה]], [[מדע המדינה]], [[ביולוגיה]], [[מדעי המחשב]] ועוד) לשלוח [[תוכנית מחשב|תוכניות מחשב]] שישחקו זו נגד זו בדילמת אסיר איטרטיבית במשך 200 משחקים לכל זוג תוכניות. התוכנית שתוכרז כזוכה היא זו שתזכה ברווח המצטבר הגבוה ביותר בכל 200 המשחקים. <BR> |
אחד ה[[ניסוי]]ים המפורסמים בתחום זה הוא הניסוי שערך '''[[רוברט אקסלרוד]]''' מ[[אוניברסיטת מישיגן|אוניברסיטת אן ארבור במישיגן]]. בניסוי זה התבקשו מומחים ממגוון [[דיסציפלינה|דיסציפלינות]] ([[כלכלה]], [[פסיכולוגיה]], [[מדע המדינה]], [[ביולוגיה]], [[מדעי המחשב]] ועוד) לשלוח [[תוכנית מחשב|תוכניות מחשב]] שישחקו זו נגד זו בדילמת אסיר איטרטיבית במשך 200 משחקים לכל זוג תוכניות. התוכנית שתוכרז כזוכה היא זו שתזכה ברווח המצטבר הגבוה ביותר בכל 200 המשחקים. <BR> |
||
תוכניות אלה נקטו באסטרטגיות שונות כדי להשיג מטרה זו, ובהן: |
תוכניות אלה נקטו באסטרטגיות שונות כדי להשיג מטרה זו, ובהן: |
||
* בגידה קבועה: ללא תלות במשחקים קודמים, תוכנית זו בגדה תמיד. |
* בגידה קבועה: ללא תלות במשחקים קודמים, תוכנית זו בגדה תמיד. |
||
שורה 46: | שורה 46: | ||
* [[מידה כנגד מידה]] (Tit For Tat): במשחק הראשון התוכנית שיתפה פעולה, ובכל משחק אחר בחרה בדרך שבה בחר היריב במשחק הקודם. |
* [[מידה כנגד מידה]] (Tit For Tat): במשחק הראשון התוכנית שיתפה פעולה, ובכל משחק אחר בחרה בדרך שבה בחר היריב במשחק הקודם. |
||
* אסטרטגיות אחרות, מורכבות יותר. |
* אסטרטגיות אחרות, מורכבות יותר. |
||
בטורניר שערך אקסלרוד השיגה '''מידה כנגד מידה''' את התוצאה הטובה ביותר. |
בטורניר שערך אקסלרוד השיגה '''מידה כנגד מידה''' את התוצאה הטובה ביותר. גם בטורנירים נוספים שנערכו, לאחר שנודעו תוצאות הטורניר הראשון, עדיין השיגה אסטרטגיה זו את הניקוד הגבוה ביותר. לעומת זאת, תוכניות שהיו בנויות על אסטרטגיות תוקפניות הגיעו להישגים נמוכים. |
||
הצלחתה של אסטרטגיה מסוימת '''תלויה באסטרטגיות האחרות'''. משמע - לו היו התוכניות שנשלחו לטורניר שונות, לא הייתה מידה כנגד מידה זוכה בטורניר. לא ניתן לכתוב תוכנה או אסטרטגיה שתזכה מול כל אסטרטגיה אחרת. |
|||
בתנאים מסוימים ההחלטה הרציונלית היא דווקא לשתף פעולה ולא לבגוד. |
בתנאים מסוימים ההחלטה הרציונלית היא דווקא לשתף פעולה ולא לבגוד. |
||
שורה 53: | שורה 53: | ||
בתחומים [[ביולוגיה|ביולוגיים]], כגון [[התנהגות בעלי חיים]], ניתן לצפות לקיומם של תנאים אלה במקרים רבים ואז ההעדפה היא לשיתוף פעולה על-פני אי שיתוף, מסיבות רציונליות. כאשר [[ציפור]] [[פלייה|פולה]] את [[נוצות]] חברתה כדי לסלק [[טפילות|טפיל]] (ממקומות שהציפור השנייה אינה יכולה לגשת בעצמה, כגון [[פדחת]] ה[[ראש]]), עושה היא זאת כדי לקבל אותו הטיפול בעת צרה. אומנם, "עלות" פליית פדחת הציפור השותפה איננה גדולה, בהשוואה לתועלת שבסילוק טפיל, אבל אין היא זניחה לחלוטין, משום שהסילוק כרוך בהוצאת זמן ואנרגיה. |
בתחומים [[ביולוגיה|ביולוגיים]], כגון [[התנהגות בעלי חיים]], ניתן לצפות לקיומם של תנאים אלה במקרים רבים ואז ההעדפה היא לשיתוף פעולה על-פני אי שיתוף, מסיבות רציונליות. כאשר [[ציפור]] [[פלייה|פולה]] את [[נוצות]] חברתה כדי לסלק [[טפילות|טפיל]] (ממקומות שהציפור השנייה אינה יכולה לגשת בעצמה, כגון [[פדחת]] ה[[ראש]]), עושה היא זאת כדי לקבל אותו הטיפול בעת צרה. אומנם, "עלות" פליית פדחת הציפור השותפה איננה גדולה, בהשוואה לתועלת שבסילוק טפיל, אבל אין היא זניחה לחלוטין, משום שהסילוק כרוך בהוצאת זמן ואנרגיה. |
||
דילמת האסיר האיטרטיבית נתגלתה כיעילה לצורך |
דילמת האסיר האיטרטיבית נתגלתה כיעילה לצורך בניית מודלים וסימולציות המתארות [[קבלת החלטות]] הקשורות ל[[מאזן אימה|מאזן האימה]] הגרעיני, וכמו כן לניתוח אופן הפעולה של [[מערכת מוניטין|מערכות מוניטין]] המשמשות באתרי מכירות פומביות ו[[מסחר אלקטרוני]]. |
||
==דילמת האסיר ה[[אבולוציה|אבולוציונית]]== |
==דילמת האסיר ה[[אבולוציה|אבולוציונית]]== |
||
שורה 59: | שורה 59: | ||
הסכֶמה הכללית של דילמת האסיר האבולוציונית היא [[סימולציה]] של משחק איטרטיבי, בו אוכלוסיית שחקנים בעלי אסטרטגיות שונות משחקת בינה לבין עצמה. בכל צעד של הסימולציה מתקיימים משחקים בין זוגות שחקנים, כאשר תוצאות המשחקים משפיעות על הרכב האוכלוסייה בצעד הבא: חלקו היחסי של כל שחקן (אסטרטגיה) באוכלוסייה גדל או קטן בהתאם למידת ההצלחה שלו במשחקים האחרונים. במשחק איטרטיבי כזה, אסטרטגיות לא יציבות אבולוציונית צפויות להכחד, ואסטרטגיות יציבות צפויות לשגשג. |
הסכֶמה הכללית של דילמת האסיר האבולוציונית היא [[סימולציה]] של משחק איטרטיבי, בו אוכלוסיית שחקנים בעלי אסטרטגיות שונות משחקת בינה לבין עצמה. בכל צעד של הסימולציה מתקיימים משחקים בין זוגות שחקנים, כאשר תוצאות המשחקים משפיעות על הרכב האוכלוסייה בצעד הבא: חלקו היחסי של כל שחקן (אסטרטגיה) באוכלוסייה גדל או קטן בהתאם למידת ההצלחה שלו במשחקים האחרונים. במשחק איטרטיבי כזה, אסטרטגיות לא יציבות אבולוציונית צפויות להכחד, ואסטרטגיות יציבות צפויות לשגשג. |
||
הסכֶמה כוללת בדרך-כלל גם אקראיות, הנחוצה הן כדי להתאים לתנאים המציאותיים בטבע, והן כדי להימנע מתלות גדולה מדי בתנאי ההתחלה השרירותיים של הסימולציה. האקראיות עשויה להתבטא בהגרלת השחקנים המתמודדים זה מול זה בכל צעד, ובסיכוי קטן ל"[[מוטציה]]" (תשנית) באוכלוסייה, שמשמעותה הכנסת אסטרטגיות חדשות לאוכלוסייה בכל צעד בהסתברות קטנה. לעיתים נעשה שימוש גם באופרטורים גנטיים נוספים, כגון [[שחלוף (ביולוגיה)|שחלוף]] ( |
הסכֶמה כוללת בדרך-כלל גם אקראיות, הנחוצה הן כדי להתאים לתנאים המציאותיים בטבע, והן כדי להימנע מתלות גדולה מדי בתנאי ההתחלה השרירותיים של הסימולציה. האקראיות עשויה להתבטא בהגרלת השחקנים המתמודדים זה מול זה בכל צעד, ובסיכוי קטן ל"[[מוטציה]]" (תשנית) באוכלוסייה, שמשמעותה הכנסת אסטרטגיות חדשות לאוכלוסייה בכל צעד בהסתברות קטנה. לעיתים נעשה שימוש גם באופרטורים גנטיים נוספים, כגון [[שחלוף (ביולוגיה)|שחלוף]] (באינטרפרטציה המתאימה לסימולציה). |
||
אחת הסימולציות הראשונות נערכה על ידי רוברט אקסלרוד במהלך שנות השמונים{{הערה|1=[http://www.casos.cs.cmu.edu/education/phd/classpapers/Axelrod_Evolution_1987.pdf The Evolution of Strategies in the Iterated Prisoner's Dilemma], Robert Axelrod |
אחת הסימולציות הראשונות נערכה על ידי רוברט אקסלרוד במהלך שנות השמונים{{הערה|1=[https://web.archive.org/web/20100216060138/http://www.casos.cs.cmu.edu/education/phd/classpapers/Axelrod_Evolution_1987.pdf The Evolution of Strategies in the Iterated Prisoner's Dilemma], Robert Axelrod}}, והתוצאות היו מובהקות לטובת מידה כנגד מידה: לאחר כאלף "דורות" של ריצת הסימולציה מידה כנגד מידה הייתה האסטרטגיה הדומיננטית באוכלוסייה, וגם זו שגדלה בקצב המהיר ביותר. כאמור, אקסלרוד הוא גם זה שערך את הטורניר בין תוכניות המחשב, שגם בו ניצחה אותה אסטרטגיה. |
||
הסימולציה של אקסלרוד כללה יחסית מעט אסטרטגיות, ולא כללה תנאי רעש. בתחילת שנות התשעים שני חוקרים, [[מרטין נוואק]] {{אנ|Martin Nowak}} ו[[קארל סיגמונד]] {{אנ|Karl Sigmund}}, פרסמו תוצאות של סימולציות בתנאים יותר מציאותיים שכללו גם רעש ומוטציות. מהסימולציות האלה עלה שהאסטרטגיה היציבה ביותר היא '''מידה תחת מידה סלחנית''' (Generous Tit-for-Tat, ובקיצור GTfT או גם Forgiving Tit For Tat ובקיצור FTfT), שבסיכוי מסוים מגיבה בשיתוף פעולה גם על בגידה של היריב בצעד הקודם{{הערה|1=[http://homepage.univie.ac.at/Karl.Sigmund/Nature92b.pdf Tit for tat in heterogeneous populations], Martin Nowak and Karl Sigmund}}. ה"סלחנות" הזו מאפשרת ל-GTFT להתגבר על מצבים שבהם מידה כנגד מידה הייתה עשויה להיכנס לשרשרת של בגידות הדדיות, כתוצאה מהרעש (שאולי ניתן לפרש כאן כ"אי הבנה"). |
הסימולציה של אקסלרוד כללה יחסית מעט אסטרטגיות, ולא כללה תנאי רעש. בתחילת שנות התשעים שני חוקרים, [[מרטין נוואק]] {{אנ|Martin Nowak}} ו[[קארל סיגמונד]] {{אנ|Karl Sigmund}}, פרסמו תוצאות של סימולציות בתנאים יותר מציאותיים שכללו גם רעש ומוטציות. מהסימולציות האלה עלה שהאסטרטגיה היציבה ביותר היא '''מידה תחת מידה סלחנית''' (Generous Tit-for-Tat, ובקיצור GTfT או גם Forgiving Tit For Tat ובקיצור FTfT), שבסיכוי מסוים מגיבה בשיתוף פעולה גם על בגידה של היריב בצעד הקודם{{הערה|1=[http://homepage.univie.ac.at/Karl.Sigmund/Nature92b.pdf Tit for tat in heterogeneous populations], Martin Nowak and Karl Sigmund|כיוון=שמאל}}. ה"סלחנות" הזו מאפשרת ל-GTFT להתגבר על מצבים שבהם מידה כנגד מידה הייתה עשויה להיכנס לשרשרת של בגידות הדדיות, כתוצאה מהרעש (שאולי ניתן לפרש כאן כ"אי הבנה"). |
||
אלא שגם סימולציות אלה היו פשטניות יחסית, משום שהן כללו רק אסטרטגיות שפעלו רק בהתאם לפעולה האחרונה של היריב. לכן בהמשך עבודתם{{הערה|1=[http://www.ped.fas.harvard.edu/people/faculty/publications_nowak/Nature93.pdf A strategy of win-stay, lose-shift that outperforms Tit-for-Tat in the Prisoner's Dilemma game], Martin Nowak and Karl Sigmund |
אלא שגם סימולציות אלה היו פשטניות יחסית, משום שהן כללו רק אסטרטגיות שפעלו רק בהתאם לפעולה האחרונה של היריב. לכן בהמשך עבודתם{{הערה|1=[https://web.archive.org/web/20130919064418/http://www.ped.fas.harvard.edu/people/faculty/publications_nowak/Nature93.pdf A strategy of win-stay, lose-shift that outperforms Tit-for-Tat in the Prisoner's Dilemma game], Martin Nowak and Karl Sigmund}}, נוואק וסיגמונד שכללו את הסימולציות שלהם, כך שהן כללו אסטרטגיות שפעלו בהתאם לפעולה האחרונה של היריב ושל עצמן, או בהצגה אחרת, בהתאם לרווח האחרון שהתקבל. אסטרטגיות כאלה ניתנות לתיאור כווקטור ארבע-ממדי, <math>\left[R, S, T, P\right]</math>, המייצג את ההסתברויות לשיתוף פעולה בהינתן שיתוף פעולה הדדי בצעד הקודם (Reward), שיתוף פעולה חד-צדדי שלי (Sucker), בגידה חד-צדדית שלי (Temptation), או בגידה הדדית (Punishment). המונחים בסוגריים הם המונחים המקובלים בספרות. בהצגה הזו, "תמיד בגידה" היא <math>\left[0, 0, 0, 0\right]</math>, מידה כנגד מידה היא <math>\left[1, 0, 1, 0\right]</math>, ומידה כנגד מידה סלחנית היא, למשל, <math>\left[1, 0.3, 1, 0.3\right]</math>. בסימולציות על מרחב האסטרטגיות הזה התקבלו תוצאות מפתיעות: לאחר 10 מיליון דורות, ביותר מ-80 אחוז מהסימולציות שלטה האסטרטגיה <math>\left[1, 0, 0, 1\right]</math>, אותה כינו החוקרים "פבלוב" (Pavlov) על שום התנהגותה הדומה ל[[התניה קלאסית|התניה פבלובית]]: כאשר היא מקבלת את אחת מהתשואות הנמוכות היא משנה את התנהגותה, וכאשר היא מקבלת את אחת מהתשואות הגבוהות היא נשארת עם אותה התנהגות. רק אחוז קטן מהסימולציות הסתיימו עם דומיננטיות של GTFT. |
||
לאחר מכן פורסמו תוצאות נוספות בתחום, הן על ידי נוואק וסיגמונד והן על ידי חוקרים נוספים. בעבודות אלה הסתבר שישנם הבדלים לא זניחים באופי האסטרטגיות היציבות המתקבלות עבור ואריאציות שונות של סימולציות (קריטריונים מעט שונים ליציבות אבולוציונית, או אסטרטגיות דטרמיניסטיות לעומת הסתברותיות). |
לאחר מכן פורסמו תוצאות נוספות בתחום, הן על ידי נוואק וסיגמונד והן על ידי חוקרים נוספים. בעבודות אלה הסתבר שישנם הבדלים לא זניחים באופי האסטרטגיות היציבות המתקבלות עבור ואריאציות שונות של סימולציות (קריטריונים מעט שונים ליציבות אבולוציונית, או אסטרטגיות דטרמיניסטיות לעומת הסתברותיות). |
||
חרף ההבדלים באסטרטגיות היציבות שהתקבלו במחקרים השונים, אפיון משותף שלהם הוא שבסופו של דבר הסימולציות מתכנסות למצב שבו רוב הפעולות של השחקנים הן שיתוף פעולה. תכונה זו מתקיימת, למשל, גם כאשר האסטרטגיה השלטת היא "פבלוב" וגם כאשר היא מידה-כנגד-מידה או GTFT. אלא שההתכנסות לשיתוף-פעולה נובעת מתכונה מאוד לא טבעית של הסימולציות: בכל עימות השחקנים הם שווי-כוחות (מטריצת התשלום שלהם זהה), וכך נוצר ביניהם [[מאזן אימה]]. במציאות כמעט בכל עימות קיימת אסימטריה בין השחקנים, כך שהשחקן החזק יותר יכול "להעניש" באופן משמעותי יותר את יריבו. ב-2007 הראו חוקרים מ[[מכון מקס פלאנק]] שניסויים בדילמת האסיר האסימטרית נותנים אחוז משמעותית נמוך יותר של שיתופי פעולה, וגם כאשר יש התכנסות למצב של שיתוף פעולה הדדי, מצב זה הרבה פחות יציב מאשר במשחק הסימטרי{{הערה|1=[http://www.coll.mpg.de/pdf_dat/2006_25online.pdf Cooperation in Symmetric and Asymmetric Prisoner's Dilemma Games], Martin Beckenkamp et al}}. |
חרף ההבדלים באסטרטגיות היציבות שהתקבלו במחקרים השונים, אפיון משותף שלהם הוא שבסופו של דבר הסימולציות מתכנסות למצב שבו רוב הפעולות של השחקנים הן שיתוף פעולה. תכונה זו מתקיימת, למשל, גם כאשר האסטרטגיה השלטת היא "פבלוב" וגם כאשר היא מידה-כנגד-מידה או GTFT. אלא שההתכנסות לשיתוף-פעולה נובעת מתכונה מאוד לא טבעית של הסימולציות: בכל עימות השחקנים הם שווי-כוחות (מטריצת התשלום שלהם זהה), וכך נוצר ביניהם [[מאזן אימה]]. במציאות כמעט בכל עימות קיימת אסימטריה בין השחקנים, כך שהשחקן החזק יותר יכול "להעניש" באופן משמעותי יותר את יריבו. ב-2007 הראו חוקרים מ[[מכון מקס פלאנק]] שניסויים בדילמת האסיר האסימטרית נותנים אחוז משמעותית נמוך יותר של שיתופי פעולה, וגם כאשר יש התכנסות למצב של שיתוף פעולה הדדי, מצב זה הרבה פחות יציב מאשר במשחק הסימטרי{{הערה|1=[http://www.coll.mpg.de/pdf_dat/2006_25online.pdf Cooperation in Symmetric and Asymmetric Prisoner's Dilemma Games], Martin Beckenkamp et al|כיוון=שמאל}}. |
||
==דילמת האסיר מרובת-משתתפים== |
==דילמת האסיר מרובת-משתתפים== |
||
{{ערך מורחב|דילמת הסועדים}} |
{{ערך מורחב|דילמת הסועדים}} |
||
דילמת האסיר כפי שהוצגה עד כה מיועדת לשני שחקנים בלבד. אולם יש אפשרות להרחיב אותה ליותר משחקן אחד: מספר שחקנים, שלכל אחד מהם אפשרות בחירה בין שתי אפשרויות כאשר אחת מהן בהכרח מביאה תוצאה טובה יותר לשחקן שבחר בה, אך ככל שאנשים רבים יותר בוחרים בה, המצב נהיה גרוע יותר עבור כלל השחקנים. דוגמה לדילמה כזאת היא דילמת הסועדים: כל אחד יכול להזמין מנה זולה או יקרה, כך שככל שיותר אנשים בוחרים מנה יקרה, ככה המחיר לסועד עולה, עד שעלול להיווצר מצב שכולם משלמים מחיר גבוה למנה יקרה אף על פי שזהו מצב גרוע יותר מאשר כשכולם מזמינים מנה זולה. מקרה אחר הוא [[השתמטות ממס]]: אנשים רבים בוחרים להשתמט מתשלום [[מס]]ים, אף על פי שאם כולם היו משלמים זה היה מאפשר להוריד את גובה המיסים. במקרה זה נוסף גם אלמנט של [[פרדוקס הערימה]]: אין אדם שהשתמטותו מעלה את גובה המיסים, אך כאשר אנשים רבים משתמטים גובה המיסים עולה. |
דילמת האסיר כפי שהוצגה עד כה מיועדת לשני שחקנים בלבד. אולם יש אפשרות להרחיב אותה ליותר משחקן אחד: מספר שחקנים, שלכל אחד מהם אפשרות בחירה בין שתי אפשרויות כאשר אחת מהן בהכרח מביאה תוצאה טובה יותר לשחקן שבחר בה, אך ככל שאנשים רבים יותר בוחרים בה, המצב נהיה גרוע יותר עבור כלל השחקנים. דוגמה לדילמה כזאת היא דילמת הסועדים: כל אחד יכול להזמין מנה זולה או יקרה, כך שככל שיותר אנשים בוחרים מנה יקרה, ככה המחיר לסועד עולה, עד שעלול להיווצר מצב שכולם משלמים מחיר גבוה למנה יקרה אף על פי שזהו מצב גרוע יותר מאשר כשכולם מזמינים מנה זולה. מקרה אחר הוא [[השתמטות ממס]]: אנשים רבים בוחרים להשתמט מתשלום [[מס]]ים, אף על פי שאם כולם היו משלמים זה היה מאפשר להוריד את גובה המיסים. במקרה זה נוסף גם אלמנט של [[פרדוקס הערימה]]: אין אדם שהשתמטותו מעלה את גובה המיסים, אך כאשר אנשים רבים משתמטים גובה המיסים עולה. |
||
==הבסה עצמית של הנחות הרציונליות== |
==הבסה עצמית של הנחות הרציונליות== |
||
שורה 98: | שורה 97: | ||
* {{סרטונים}} [[לוסי איוב]], [https://www.youtube.com/watch?v=G-jSgLRD_kg דילמת האסיר בתא השירותים], בערוץ [[כאן 11]] ב[[יוטיוב]], [[15 באוגוסט]] [[2018]] |
* {{סרטונים}} [[לוסי איוב]], [https://www.youtube.com/watch?v=G-jSgLRD_kg דילמת האסיר בתא השירותים], בערוץ [[כאן 11]] ב[[יוטיוב]], [[15 באוגוסט]] [[2018]] |
||
* {{פרונטירז|דייוויד מקאדאמס|תורת המשחקים ושיתופי פעולה: איך להתחשב באחרים כך שכולם מרוויחים|2017.00066|18 בינואר 2019}} |
* {{פרונטירז|דייוויד מקאדאמס|תורת המשחקים ושיתופי פעולה: איך להתחשב באחרים כך שכולם מרוויחים|2017.00066|18 בינואר 2019}} |
||
* {{יוטיוב|mScpHTIi-kM|שם=What Game Theory Reveals About Life, The Universe, and Everything|אורך=27:19|ערוץ=Veritasium}}, 23 בדצמבר 2023 (באנגלית) |
|||
* {{MathWorld}} |
* {{MathWorld}} |
||
* {{בריטניקה}} |
|||
==הערות שוליים== |
==הערות שוליים== |
||
{{הערות שוליים}} |
{{הערות שוליים}} |
||
{{בקרת זהויות}} |
|||
[[קטגוריה:תורת המשחקים]] |
[[קטגוריה:תורת המשחקים]] |
גרסה אחרונה מ־06:49, 6 בספטמבר 2024
דילמת האסיר (באנגלית: Prisoner's dilemma) היא בעיה פרדוקסלית בתורת המשחקים, שפורסמה בשנת 1950 על ידי מריל פלאד (אנ') ומלווין דרשר (אנ') מ"תאגיד ראנד" בארצות הברית, לפיה במצב שבו שני אנשים אינם יכולים לתאם ביניהם, יש שלושה מצבים: הראשון - אם שניהם יבטחו זה בזה, אזי הם יצליחו במידת מה. השני - אם הם יבגדו זה בזה, אז שניהם ייענשו במידת מה. השלישי - אם האחד יאמין והשני יבגוד, אז הבוגד יזכה בכל והאחר יענש בחומרה. הדילמה מדגימה מצב בו התנהגות רציונלית לחלוטין, מנקודת מבטו של הפרט, תוביל לתוצאה שאינה אופטימלית לצמד, כלומר אינה יעילה פארטו. בשל פשטותה, משמשת הדילמה כדוגמה קלאסית לבעיות בהן עוסקת תורת המשחקים.
הדילמה הבסיסית
[עריכת קוד מקור | עריכה]גרסה נפוצה לבעיה זו: המשטרה עצרה שני עבריינים שביצעו פשע משותף, ומפרידה ביניהם לצורך חקירה. אם תצליח המשטרה להביא להרשעתם, ייכנס כל אחד מהם לכלא ל-15 שנה, אך בחוסר ראיות הם יועמדו לדין על עבירה משנית שבגינה ייכנס כל אחד מהם לכלא לשנה אחת. למשטרה אין די ראיות להעמידם לדין, ולכן היא מציעה לכל אחד מהם להעיד נגד רעהו, וכפרס מובטח לעד עונש מופחת: אם שני האסירים יקבלו את הצעת המשטרה, ייכנס כל אחד מהם לכלא לחמש שנים, ואם רק אחד מהם יעיד ורעהו ישתוק, העד יצא מיד לחופשי וחברו ייכלא ל-15 שנה. ניתן לסכם סיטואציה זו בטבלה הבאה, שמסכמת את העונשים שייגזרו על אסיר א (אדום) ואסיר ב (כחול) בהתאם לפעולתם:
אסיר ב | |||
שותק | מלשין | ||
אסיר א | שותק | שנה אחת, שנה אחת |
15 שנה, אפס שנים |
מלשין | אפס שנים, 15 שנה |
חמש שנים, חמש שנים |
כל העובדות הללו ידועות לשני האסירים, אך אין באפשרותם לתקשר האחד עם השני. הדילמה שעומדת בפני כל אחד מהם היא "איזו טקטיקה לנקוט - לשתוק או להעיד?". אסיר א' מסתכל בטבלה וחושב: "בלי תלות בטקטיקה שבה יבחר ב', כדאי לי להעיד, משום שבכל מקרה אם אעיד, עונשי יהיה קטן מאשר אם אשתוק" ולפיכך "הודאה" היא אסטרטגיה שלטת עבורו. גם אסיר ב' מנתח את המצב בצורה דומה. החלטה רציונלית של שניהם מובילה לכך ששניהם בוחרים להעיד, ונכנסים לכלא לחמש שנים. אילו שתקו שניהם, היה כל אחד מהם נכנס לכלא לשנה בלבד.
הפרדוקסליות שבדילמה נובעת מכך שהחלטה רציונלית מביאה לתוצאה שאינה הטובה ביותר. כדי להגיע לתוצאה הטובה ביותר עבור שניהם נדרשים השחקנים לשיתוף פעולה (קרי, שתיקה של שניהם), אך מכיוון שדרך הפעולה המשתלמת יותר לכל שחקן לבדו היא תמיד לא לשתף פעולה (כלומר, להעיד), בוחר כל אחד מהשחקנים לא לשתף פעולה.
גם אם יוכלו האסירים לתקשר זה עם זה, כל עוד אין הם חותמים על הסכם מחייב, שמבטיח שהחותמים עליו ינהגו בהתאם להצהרתם, דרך הפעולה הרציונלית ממשיכה להיות הלשנה הדדית. רק הסכם שהפרתו גוררת סנקציה שתהווה משקל נגד לרווח שבבגידה יבטיח שיתוף פעולה הדדי.
הדילמה ממחישה מצב שאינו נדיר, לפיו שיתוף פעולה יביא תועלת רבה יותר לשני הצדדים מאשר גישה שבה כל צד פועל על דעת עצמו. להלן מספר דוגמאות אקטואליות לנושא זה:
- במדע המדינה משמשת דילמת האסיר להמחשת מצב שבו שתי מדינות נכנסות למרוץ חימוש (ובעיקר מרוץ לחימוש גרעיני). לכל מדינה יש שתי אפשרויות: להגדיל את תקציב הביטחון שלה או להגיע להסכם עם יריבתה לפירוק החימוש. בכל מדינה מקנן החשש שיריבתה תפר את ההסכם, ולכן כל אחת מהן נוטה לכיוון של מרוץ חימוש. כל מדינה נראית כפועלת באופן רציונלי, אך התוצאה היא בלתי רציונלית בעליל. דוגמה למרוץ חימוש מסוג זה הוא המלחמה הקרה.
- בתחום הכלכלה, ניתן להוכיח, שכאשר הריבית הנומינלית במשק גדולה מ-0, וכל גורם במשק דואג רק לטובת עצמו, התוצאות עבור המשק כולו אינן אופטימליות. פתרון אפשרי לבעיה זו הוא להוריד את שער הריבית ל-0[1].
- דוגמה כללית מספרו של ויליאם פאונדסטון (אנ'): תארו לעצמכם מצב בו אין אכיפה על תשלום ברכבות. תמיד משתלם לנוסעים לא לשלם (כלומר גם אם השאר בוחרים לשלם או "לגנוב" נסיעות), אך מצב זה יוביל לפשיטת רגל וסגירת הרכבת, בעוד שעדיף לכל אחד לשלם כדי לשמור על קיומה של הרכבת.
דילמת האסיר האיטרטיבית
[עריכת קוד מקור | עריכה]כאשר ההחלטה שעל האסירים לקבל אינה חד-פעמית, כמו בדוגמה לעיל, אלא יש להם הזדמנות לחזור על ה"משחק" פעמים רבות, האסירים עשויים לנהוג אחרת, ואף לנקוט באסטרטגיה בה היו נוקטים לו היו משתפים פעולה, לצורך קבלת תוצאה טובה יותר מבחינתם. חזרה על הדילמה או במילים אחרות דילמת אסיר איטרטיבית (כלומר כזו שחוזרת על עצמה שוב ושוב), משמשת בסיס למחקרים פסיכולוגיים רבים, שבהם נבחנה התנהגותם של המשתתפים בדגם זה של ה"משחק".
אחד הניסויים המפורסמים בתחום זה הוא הניסוי שערך רוברט אקסלרוד מאוניברסיטת אן ארבור במישיגן. בניסוי זה התבקשו מומחים ממגוון דיסציפלינות (כלכלה, פסיכולוגיה, מדע המדינה, ביולוגיה, מדעי המחשב ועוד) לשלוח תוכניות מחשב שישחקו זו נגד זו בדילמת אסיר איטרטיבית במשך 200 משחקים לכל זוג תוכניות. התוכנית שתוכרז כזוכה היא זו שתזכה ברווח המצטבר הגבוה ביותר בכל 200 המשחקים.
תוכניות אלה נקטו באסטרטגיות שונות כדי להשיג מטרה זו, ובהן:
- בגידה קבועה: ללא תלות במשחקים קודמים, תוכנית זו בגדה תמיד.
- שיתוף פעולה קבוע: ללא תלות במשחקים קודמים, תוכנית זו שיתפה פעולה תמיד.
- אקראית: התוכנית בוחרת בבגידה או בשיתוף פעולה באופן אקראי.
- מידה כנגד מידה (Tit For Tat): במשחק הראשון התוכנית שיתפה פעולה, ובכל משחק אחר בחרה בדרך שבה בחר היריב במשחק הקודם.
- אסטרטגיות אחרות, מורכבות יותר.
בטורניר שערך אקסלרוד השיגה מידה כנגד מידה את התוצאה הטובה ביותר. גם בטורנירים נוספים שנערכו, לאחר שנודעו תוצאות הטורניר הראשון, עדיין השיגה אסטרטגיה זו את הניקוד הגבוה ביותר. לעומת זאת, תוכניות שהיו בנויות על אסטרטגיות תוקפניות הגיעו להישגים נמוכים. הצלחתה של אסטרטגיה מסוימת תלויה באסטרטגיות האחרות. משמע - לו היו התוכניות שנשלחו לטורניר שונות, לא הייתה מידה כנגד מידה זוכה בטורניר. לא ניתן לכתוב תוכנה או אסטרטגיה שתזכה מול כל אסטרטגיה אחרת.
בתנאים מסוימים ההחלטה הרציונלית היא דווקא לשתף פעולה ולא לבגוד. תנאי יסוד הוא אכיפה של עונש. אכיפה מתקבלת באמצעות קיום משחקים חוזרים אינסופיים או בעלי אופק אירועים לא ידוע, דבר השקול לאופק אין סופי. משום שאם מספר המשחקים ידוע, במשחק שלפני האחרון כדאי לבגוד ואז ניתן להוכיח באינדוקציה לאחור שכדאי לבגוד מהמשחק הראשון: הרי במשחק האחרון שני הצדדים יבגדו, אין יותר למה לשתף פעולה. אם כך גם באחד-לפני-האחרון, כי גם אז אין למה לשתף פעולה (הרי באחרון בכל מקרה שניהם יבגדו) וכך הלאה עד למשחק הראשון. לשם אכיפה צריכים להתקיים תנאים כאלה שהסיכוי למפגש חוזר גבוה מספיק וכן שישנו עונש. העונש גם צריך להיות גבוה מהרווח של הבגידה. בתחומים ביולוגיים, כגון התנהגות בעלי חיים, ניתן לצפות לקיומם של תנאים אלה במקרים רבים ואז ההעדפה היא לשיתוף פעולה על-פני אי שיתוף, מסיבות רציונליות. כאשר ציפור פולה את נוצות חברתה כדי לסלק טפיל (ממקומות שהציפור השנייה אינה יכולה לגשת בעצמה, כגון פדחת הראש), עושה היא זאת כדי לקבל אותו הטיפול בעת צרה. אומנם, "עלות" פליית פדחת הציפור השותפה איננה גדולה, בהשוואה לתועלת שבסילוק טפיל, אבל אין היא זניחה לחלוטין, משום שהסילוק כרוך בהוצאת זמן ואנרגיה.
דילמת האסיר האיטרטיבית נתגלתה כיעילה לצורך בניית מודלים וסימולציות המתארות קבלת החלטות הקשורות למאזן האימה הגרעיני, וכמו כן לניתוח אופן הפעולה של מערכות מוניטין המשמשות באתרי מכירות פומביות ומסחר אלקטרוני.
דילמת האסיר האבולוציונית
[עריכת קוד מקור | עריכה]אחד מתחומי המחקר הפעילים ביותר בדילמת האסיר עוסק בגרסאות אבולוציוניות של המשחק[2]. העניין בתחום נובע מכך שרבים מהקונפליקטים בחברה ובטבע תואמים את המודל של דילמת האסיר, כפי שאפשר להיווכח מהדוגמאות שהובאו לעיל. לכן ההנחה היא שמחקר אבולוציוני של דילמת האסיר עשוי לעזור לנו להבין את ההתפתחות הספונטנית של שיתוף פעולה בחברה ובטבע. המחקרים בנושא מתייחסים לשאלות כגון עד כמה התפתחות ספונטנית כזו אפשרית, אילו תבניות של שיתוף פעולה היינו מצפים לראות, ואיך משפיעים תנאי רעש ואי-וודאות.
הסכֶמה הכללית של דילמת האסיר האבולוציונית היא סימולציה של משחק איטרטיבי, בו אוכלוסיית שחקנים בעלי אסטרטגיות שונות משחקת בינה לבין עצמה. בכל צעד של הסימולציה מתקיימים משחקים בין זוגות שחקנים, כאשר תוצאות המשחקים משפיעות על הרכב האוכלוסייה בצעד הבא: חלקו היחסי של כל שחקן (אסטרטגיה) באוכלוסייה גדל או קטן בהתאם למידת ההצלחה שלו במשחקים האחרונים. במשחק איטרטיבי כזה, אסטרטגיות לא יציבות אבולוציונית צפויות להכחד, ואסטרטגיות יציבות צפויות לשגשג. הסכֶמה כוללת בדרך-כלל גם אקראיות, הנחוצה הן כדי להתאים לתנאים המציאותיים בטבע, והן כדי להימנע מתלות גדולה מדי בתנאי ההתחלה השרירותיים של הסימולציה. האקראיות עשויה להתבטא בהגרלת השחקנים המתמודדים זה מול זה בכל צעד, ובסיכוי קטן ל"מוטציה" (תשנית) באוכלוסייה, שמשמעותה הכנסת אסטרטגיות חדשות לאוכלוסייה בכל צעד בהסתברות קטנה. לעיתים נעשה שימוש גם באופרטורים גנטיים נוספים, כגון שחלוף (באינטרפרטציה המתאימה לסימולציה).
אחת הסימולציות הראשונות נערכה על ידי רוברט אקסלרוד במהלך שנות השמונים[3], והתוצאות היו מובהקות לטובת מידה כנגד מידה: לאחר כאלף "דורות" של ריצת הסימולציה מידה כנגד מידה הייתה האסטרטגיה הדומיננטית באוכלוסייה, וגם זו שגדלה בקצב המהיר ביותר. כאמור, אקסלרוד הוא גם זה שערך את הטורניר בין תוכניות המחשב, שגם בו ניצחה אותה אסטרטגיה.
הסימולציה של אקסלרוד כללה יחסית מעט אסטרטגיות, ולא כללה תנאי רעש. בתחילת שנות התשעים שני חוקרים, מרטין נוואק (אנ') וקארל סיגמונד (אנ'), פרסמו תוצאות של סימולציות בתנאים יותר מציאותיים שכללו גם רעש ומוטציות. מהסימולציות האלה עלה שהאסטרטגיה היציבה ביותר היא מידה תחת מידה סלחנית (Generous Tit-for-Tat, ובקיצור GTfT או גם Forgiving Tit For Tat ובקיצור FTfT), שבסיכוי מסוים מגיבה בשיתוף פעולה גם על בגידה של היריב בצעד הקודם[4]. ה"סלחנות" הזו מאפשרת ל-GTFT להתגבר על מצבים שבהם מידה כנגד מידה הייתה עשויה להיכנס לשרשרת של בגידות הדדיות, כתוצאה מהרעש (שאולי ניתן לפרש כאן כ"אי הבנה").
אלא שגם סימולציות אלה היו פשטניות יחסית, משום שהן כללו רק אסטרטגיות שפעלו רק בהתאם לפעולה האחרונה של היריב. לכן בהמשך עבודתם[5], נוואק וסיגמונד שכללו את הסימולציות שלהם, כך שהן כללו אסטרטגיות שפעלו בהתאם לפעולה האחרונה של היריב ושל עצמן, או בהצגה אחרת, בהתאם לרווח האחרון שהתקבל. אסטרטגיות כאלה ניתנות לתיאור כווקטור ארבע-ממדי, , המייצג את ההסתברויות לשיתוף פעולה בהינתן שיתוף פעולה הדדי בצעד הקודם (Reward), שיתוף פעולה חד-צדדי שלי (Sucker), בגידה חד-צדדית שלי (Temptation), או בגידה הדדית (Punishment). המונחים בסוגריים הם המונחים המקובלים בספרות. בהצגה הזו, "תמיד בגידה" היא , מידה כנגד מידה היא , ומידה כנגד מידה סלחנית היא, למשל, . בסימולציות על מרחב האסטרטגיות הזה התקבלו תוצאות מפתיעות: לאחר 10 מיליון דורות, ביותר מ-80 אחוז מהסימולציות שלטה האסטרטגיה , אותה כינו החוקרים "פבלוב" (Pavlov) על שום התנהגותה הדומה להתניה פבלובית: כאשר היא מקבלת את אחת מהתשואות הנמוכות היא משנה את התנהגותה, וכאשר היא מקבלת את אחת מהתשואות הגבוהות היא נשארת עם אותה התנהגות. רק אחוז קטן מהסימולציות הסתיימו עם דומיננטיות של GTFT.
לאחר מכן פורסמו תוצאות נוספות בתחום, הן על ידי נוואק וסיגמונד והן על ידי חוקרים נוספים. בעבודות אלה הסתבר שישנם הבדלים לא זניחים באופי האסטרטגיות היציבות המתקבלות עבור ואריאציות שונות של סימולציות (קריטריונים מעט שונים ליציבות אבולוציונית, או אסטרטגיות דטרמיניסטיות לעומת הסתברותיות).
חרף ההבדלים באסטרטגיות היציבות שהתקבלו במחקרים השונים, אפיון משותף שלהם הוא שבסופו של דבר הסימולציות מתכנסות למצב שבו רוב הפעולות של השחקנים הן שיתוף פעולה. תכונה זו מתקיימת, למשל, גם כאשר האסטרטגיה השלטת היא "פבלוב" וגם כאשר היא מידה-כנגד-מידה או GTFT. אלא שההתכנסות לשיתוף-פעולה נובעת מתכונה מאוד לא טבעית של הסימולציות: בכל עימות השחקנים הם שווי-כוחות (מטריצת התשלום שלהם זהה), וכך נוצר ביניהם מאזן אימה. במציאות כמעט בכל עימות קיימת אסימטריה בין השחקנים, כך שהשחקן החזק יותר יכול "להעניש" באופן משמעותי יותר את יריבו. ב-2007 הראו חוקרים ממכון מקס פלאנק שניסויים בדילמת האסיר האסימטרית נותנים אחוז משמעותית נמוך יותר של שיתופי פעולה, וגם כאשר יש התכנסות למצב של שיתוף פעולה הדדי, מצב זה הרבה פחות יציב מאשר במשחק הסימטרי[6].
דילמת האסיר מרובת-משתתפים
[עריכת קוד מקור | עריכה]- ערך מורחב – דילמת הסועדים
דילמת האסיר כפי שהוצגה עד כה מיועדת לשני שחקנים בלבד. אולם יש אפשרות להרחיב אותה ליותר משחקן אחד: מספר שחקנים, שלכל אחד מהם אפשרות בחירה בין שתי אפשרויות כאשר אחת מהן בהכרח מביאה תוצאה טובה יותר לשחקן שבחר בה, אך ככל שאנשים רבים יותר בוחרים בה, המצב נהיה גרוע יותר עבור כלל השחקנים. דוגמה לדילמה כזאת היא דילמת הסועדים: כל אחד יכול להזמין מנה זולה או יקרה, כך שככל שיותר אנשים בוחרים מנה יקרה, ככה המחיר לסועד עולה, עד שעלול להיווצר מצב שכולם משלמים מחיר גבוה למנה יקרה אף על פי שזהו מצב גרוע יותר מאשר כשכולם מזמינים מנה זולה. מקרה אחר הוא השתמטות ממס: אנשים רבים בוחרים להשתמט מתשלום מסים, אף על פי שאם כולם היו משלמים זה היה מאפשר להוריד את גובה המיסים. במקרה זה נוסף גם אלמנט של פרדוקס הערימה: אין אדם שהשתמטותו מעלה את גובה המיסים, אך כאשר אנשים רבים משתמטים גובה המיסים עולה.
הבסה עצמית של הנחות הרציונליות
[עריכת קוד מקור | עריכה]יש מי שהשתמשו בתצפיות מסוג דילמת האסיר, בהם האסטרטגיה הדומיננטית והרציונלית היא לא לשתף פעולה, כדי לטעון שהנחות הרציונליות מביסות את עצמן. הטיעון נעשה באמצעות אינדוקציה על מספר המשחקים החוזרים. תחת מספר הנחות, דרך אחת של שחקן לבחון האם הוא רציונלי היא לערער על התנהגותו הקיימת ולפעול באופן אחר. בדילמת אסיר חוזרת באורך נתון, למשל, שחקן 1 עשוי להסיק שאם ינהג לפי אסטרטגיה "לא רציונלית" של מידה כנגד מידה למשל, השחקן השני יגיב באופן רציונלי בשיתוף פעולה הדדי כמעט בכל הסיבובים. כך, הנחת הרציונליות מראה שאנחנו מצדדים בכך ששחקן 1 גם ימשיך לא לשתף פעולה וגם לא ייבנה מכך. לטענת אותם כותבים, מכאן עולה שההנחות הסטנדרטיות לגבי רציונליות אינן עקביות וכי הן מביסות את עצמן. (ראו גם Skyrms, Brian, 1990, The Dynamics of Rational Deliberation, Cambridge, MA: Harvard University Press, pp 125-139, Bicchieri, Cristina, 1989, “Self-refuting Theories of Strategic Interaction,” Erkenntinis, 30: 69–85.)
ראו גם
[עריכת קוד מקור | עריכה]לקריאה נוספת
[עריכת קוד מקור | עריכה]- אילן עמית, הליברליזם ופרדוקס האסירים, מחשבות, דצמבר 1984
- ריצ'רד דוקינס, הגן האנוכיי, תורגם על ידי עמנואל לוטם, הוצאת דביר, 1989
- אריאל רובינשטיין, דילמה לוקה בחסר, הארץ, אפריל 1995
- ויליאם פאונדסטון, דילמת האסיר, הוצאת זמורה ביתן, 2000
- אבינש דיקסיט ובארי ניילבאף, תורת המשחקים, הוצאת ידיעות אחרונות, 2005
קישורים חיצוניים
[עריכת קוד מקור | עריכה]- גדי אלכסנדרוביץ', דילמת הבלונדינית האלטרואיסטית, באתר "לא מדויק", 27 באפריל 2007
- מרגרט בקט: "בעניין שינוי אקלים המדינות נוהגות כמו בדילמת האסיר". בארכיון הסרטונים של AP
- יפעת אדלר, דילמת האסיר, במדור "מאגר המדע" באתר של מכון דוידסון לחינוך מדעי, אפריל 2014
- לוסי איוב, דילמת האסיר בתא השירותים, בערוץ כאן 11 ביוטיוב, 15 באוגוסט 2018
- דייוויד מקאדאמס, תורת המשחקים ושיתופי פעולה: איך להתחשב באחרים כך שכולם מרוויחים, באתר Frontiers, 18 בינואר 2019
- What Game Theory Reveals About Life, The Universe, and Everything, סרטון בערוץ "Veritasium", באתר יוטיוב (אורך: 27:19), 23 בדצמבר 2023 (באנגלית)
- דילמת האסיר, באתר MathWorld (באנגלית)
- דילמת האסיר, באתר אנציקלופדיה בריטניקה (באנגלית)
הערות שוליים
[עריכת קוד מקור | עריכה]- ^ ריבית 0 - הכלכלה האידיאלית, ניסיון להסבר פשוט, ככל האפשר בלי מתמטיקה, ובעברית, של Harold L. Cole and Narayana Kocherlakota, Zero Nominal Interest Rates: Why They're Good and How to Get Them (עמ' 8), Federal Reserve Bank of Minneapolis Quarterly Review vol 22. No 2 ISSN 0271-5287, Spring 1998
- ^ מאמר מקיף על דילמת האסיר, באנציקלופדיה של סטנפורד לפילוסופיה
- ^ The Evolution of Strategies in the Iterated Prisoner's Dilemma, Robert Axelrod
- ^ Tit for tat in heterogeneous populations, Martin Nowak and Karl Sigmund
- ^ A strategy of win-stay, lose-shift that outperforms Tit-for-Tat in the Prisoner's Dilemma game, Martin Nowak and Karl Sigmund
- ^ Cooperation in Symmetric and Asymmetric Prisoner's Dilemma Games, Martin Beckenkamp et al