teoria dei giochi - Università degli Studi di Trento

Prendere decisioni in condizioni di incertezza
S. Bonaccorsi
Corso di Mathematical model for the Physical, Natural and Social Sciences
Outline
Indice
1
Prendere decisioni in condizioni di incertezza
1.1 Giochi a somma nulla . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . .
1
2
2
Giochi (non) cooperativi
2.1 Equilibrio di Nash . . . . .
2.2 Il dilemma del prigioniero
2.3 La battaglia dei sessi . . .
2.4 Conclusioni . . . . . . . .
3
1
.
.
.
.
.
.
.
.
.
.
.
.
.
.
.
.
.
.
.
.
.
.
.
.
.
.
.
.
.
.
.
.
.
.
.
.
.
.
.
.
.
.
.
.
.
.
.
.
.
.
.
.
.
.
.
.
.
.
.
.
.
.
.
.
.
.
.
.
.
.
.
.
.
.
.
.
.
.
.
.
.
.
.
.
.
.
.
.
.
.
.
.
.
.
.
.
.
.
.
.
.
.
.
.
.
.
.
.
.
.
.
.
.
.
.
.
.
.
.
.
.
.
.
.
.
.
.
.
5
5
6
7
8
Giochi ripetuti (e no)
3.1 La cooperazione . . . . . . . . . . . . . . .
3.2 Giochi con un numero fissato di ripetizioni .
3.3 Giochi con probabilità positiva di continuare
3.4 Giochi infiniti . . . . . . . . . . . . . . . .
.
.
.
.
.
.
.
.
.
.
.
.
.
.
.
.
.
.
.
.
.
.
.
.
.
.
.
.
.
.
.
.
.
.
.
.
.
.
.
.
.
.
.
.
.
.
.
.
.
.
.
.
.
.
.
.
.
.
.
.
.
.
.
.
.
.
.
.
.
.
.
.
.
.
.
.
.
.
.
.
.
.
.
.
.
.
.
.
.
.
.
.
.
.
.
.
.
.
.
.
.
.
.
.
.
.
.
.
.
.
.
.
.
.
.
.
.
.
.
.
.
.
.
.
8
9
9
10
11
.
.
.
.
.
.
.
.
.
.
.
.
.
.
.
.
.
.
.
.
.
.
.
.
.
.
.
.
.
.
.
.
Prendere decisioni in condizioni di incertezza
Inseguito da Moriarty e tutta la banda, Sherlock Holmes si è rifugiato sul primo treno in partenza dalla
Victoria’s station... Purtroppo, il suo nemico è saltato
al volo sull’ultimo vagone: ora solo una porta li divide. Come saprete, nei treni della fine del XIX secolo
non è possibile cambiare carrozza, quindi Holmes si
trova momentaneamente al sicuro. Ma cosa fare alla
prossima stazione? Il treno è diretto a Dover; prima
di allora, ferma a Canterbury. Ovviamente, Holmes
potrebbe scendere a Canterbury da uno dei due lati
della carrozza e tentare di dileguarsi tra la folla: ma
se Moriarty ha la stessa idea? oppure, si potrebbe fermare sul treno fino a Dover: ma se anche Moriarty si
fermasse, a Dover lo raggiungerebbe di sicuro.
E allora, qual è la soluzione migliore per Holmes?
1
Oskar Morgenstern: l’economista...
Nel periodo compreso tra le due guerre mondiali, l’economista austriaco Oskar Morgenstern rifletteva spesso su questo problema. Il suo compito, come direttore di un istituto
di ricerca per l’economia, era quello di aiutare a prendere
decisioni... la teoria economica dell’epoca sosteneva che
l’economia si muoveva in accordo alle decisioni dei singoli
i quali perseguivano il proprio massimo guadagno. Però
queste decisioni si influenzano a vicenda: Morgenstern ne
Dopo gli studi a Vienna divenne direttore dell’istituto austriaco di ricerca sulla congiuntura deduceva l’impossibilità di fare previsioni economiche.
economica e professore ordinario a Vienna.
Nel 1938 emigrò negli USA dove divenne professore alla Princeton University e direttore del
programma di ricerca in economia.
Con il libro pubblicato nel 1944 The Theory of Games and Economic Behavior Oskar
Morgenstern e John von Neumann fondarono la teoria dei giochi.
Nel 1963 Morgenstern insieme a Paul Lazarsfeld fondò l’Institut für Höhere Studien (IHS)
Istituto per studi superiori a Vienna, che guidò fino al 1970. In seguito fece ritorno negli USA.
John von Neumann: il matematico
Grazie al suggerimento di un collega, Morgenstern venne a conoscenza dell’opera di un matematico ungherese naturalizzato americano: John von Neumann, che poneva l’intero problema sotto una luce del tutto diversa. Così come (lo
vedremo poi) i giochi d’azzardo avevano posto le basi della teoria della probabilità, giochi come gli scacchi o il poker
fornivano i primi esempi formali di giochi di conflitto e interazione delle decisioni prese da numerosi giocatori. von
Neumann era un giocatore di poker dilettante. Molti giocavano meglio di lui: eppure fu lui a dimostrare che esiste una
strategia ottimale per il gioco. Lui stesso ammetteva che questa strategia non era esplicita! Però si poteva calcolare in
qualche versione semplificata del gioco.
John von Neumann (nato János Lajos Neumann: Budapest, 28 dicembre 1903 – Washington, 8 febbraio 1957) è stato un matematico, fisico
e informatico ungherese naturalizzato statunitense.
A lui si devono fondamentali contributi in numerosi campi come la teoria degli insiemi, analisi funzionale, topologia, fisica quantistica,
economia, informatica, teoria dei giochi, fluidodinamica e in molti altri settori della matematica.
Viene generalmente considerato come uno dei più grandi matematici della storia moderna oltre ad essere una delle personalità scientifiche
preminenti del XX secolo.
1.1
Giochi a somma nulla
Ritorniamo al problema di Holmes (la versione di Morgenstern, potremmo chiamarlo)
2
Alla stazione di Canterbury, Moriarty potrebbe decidere di rimanere a guardia di una porta, per vedere se Holmes scende dal
treno. Ma Sherlock Holmes potrebbe scendere dall’altra parte e quindi sopravvivere, se Moriarty decidesse di proseguire.
Questo porta, in definitiva, a una probabilità di salvezza di 21 .
Se Holmes prosegue fino a Dover e Moriarty lo segue, allora la probabilità di salvezza è zero!
Quindi Holmes deve rischiare e scendere a Canterbury: ma Moriarty potrebbe fare lo stesso ragionamento e scendere
anch’egli: addio a Holmes, allora?
Ma se Holmes capisce che Moriarty ha deciso di scendere a Canterbury, gli basta proseguire verso la salvezza di Dover...
Holmes
Moriarty
Dover Canterbury
0
1
1
0
2
Dover
Canterbury
Il poker secondo von Neumann.
Vi sono solo due giocatori, diciamo John e Oskar, e due carte, Asso e Re. Ogni giocatore punta un e all’inizio della mano.
John prende una carta. Ha due possibilità: lasciare (e Oskar prende tutto il pozzo) oppure raddoppiare (giocare un altro e).
Ora tocca a Oskar. Se decide di lasciare, John prende il pozzo. Oppure mette un altro e e prende la carta.
Solo a questo punto si girano le carte e, ovviamente, chi ha l’asso vince.
Ogni giocatore ha due strategie e può decidere in anticipo, anche prima di iniziare il gioco, come comportarsi. John, se ha
l’asso, raddoppia. Altrimenti può scegliere: una strategia conservativa (se ha il Re, lascia) oppure il bluff (raddoppiare anche se ha
un Re). Oskar deve decidere cosa fare quando John raddoppia senza conoscere le carte: può chiamare oppure lasciare. Possiamo
calcolare la vincita attesa di John nei vari casi. Ad esempio, se John sceglie una strategia conservativa e Oskar chiama, allora
E[V ] = (+2) · P(esce Asso) + (−1) · P(esce Re) =
e alla fine otteniamo la seguente tabella:
3
1
2
John
bluffa
non bluffa
Oskar
chiama lascia
0
1
1
0
2
Abbiamo ottenuto la stessa tabella nei due casi. Quello che sembrava un gioco facile è in realtà sufficiente a
descrivere il gioco del gatto con il topo che Moriarty ha inflitto a Holmes e contiene anche l’incertezza delle scelte
(lascio oppure bluffo?) del gioco del poker reale.
Possiamo usare il gioco del poker per aiutare Sherlock Holmes? Tutti i giocatori di poker sanno che la loro strategia
deve essere imprevedibile. Non azzardare sempre, ma a volte si. Con che frequenza?
Sia x la probabilità che John bluffi. Se Oskar chiama, allora la vincita attesa di John è x · 0 + (1 − x) · 21 =
1−x
2 ;
se Oskar lascia, allora la vincita attesa di John è x · 1 + (1 − x) · 0 = x.
Se Oskar decide di chiamare con probabilità y, allora la vincita attesa di John è
E[V ] = y ·
E[V ] = y ·
1−x
y 3
+ (1 − y) · x = x + − xy.
2
2 2
y 3
1−x
+ (1 − y) · x = x + − xy.
2
2 2
Supponiamo che John bluffi con probabilità x > 31 . Allora il caso peggiore per lui è che Oskar vada sempre a vedere (sceglie
y = 1), per cui la vincita attesa di John è E[V ] = 1−x
< 13 . Se invece John bluffa con probabilità x < 31 , allora per lui il
2
peggio è che Oskar non vada mai a vedere (y = 0) e la sua vincita attesa è E[V ] = x < 13 . La strategia ottimale per John,
per massimizzare la sua vincita nel caso peggiore, risulta allora di bluffare con probabilità x = 13 . In questo caso, qualunque
sia la strategia scelta da Oskar, la vincita attesa di John è E[V ] = 31 .
Anche Oskar ha una strategia ottimale, sempre allo scopo di massimizzare la sua vincita nel caso peggiore. Si tratta di
chiamare con probabilità y = 32 .
E[V ] = y ·
1−x
y 3
+ (1 − y) · x = x + − xy.
2
2 2
Aspettate! se le tabelle sono uguali, significa che possiamo usare quanto abbiamo ottenuto per aiutare Sherlock Holmes.
Se Holmes sceglie di proseguire fino a Dover con probabilità del 33%, allora la sua probabilità di sopravvivere sarà del 33%.
Forse non è tanto, ma abbiamo visto che è il massimo che può aspettarsi: se sceglie di proseguire con una probabilità diversa,
allora il suo avversario può scegliere delle strategie che rendono più bassa la sua probabilità di sopravvivere.
Invece, Moriarty non ha ragioni per cambiare la sua strategia, che si basa sullo scegliere di proseguire fino a Dover con
probabilità 32 .
Alla fine, anche l’esempio impossibile di Morgenstern aveva una soluzione. Anche se entrambi i giocatori conoscono la strategia dell’avversario, non hanno ragioni di cambiare le proprie scelte. Ma perché considerare il caso
peggiore?
Soluzioni maxmin
Dietro la strategia di von Neumann e Morgenstern delle
soluzioni minimax: massimizzare la vincita attesa nel caso peggiore
stanno due ipotesi pessimistiche:
il tuo avversario conosce quale sarà la tua strategia
4
prenderà la decisione per te peggiore.
La prima ipotesi equivale a prevedere un avversario almeno della tua stessa intelligenza: mai sottostimare il tuo
avversario. Non è, di per sé, una cattiva ipotesi.
La seconda ipotesi è più delicata. Vuol dire che gli interessi dei giocatori sono tra loro completamente in contrasto:
se questo è vero nei giochi di carte o di società, non è più vero per le situazioni economiche e le interazioni sociali: gli
interessi dei partecipanti possono essere in competizione, ma non necessariamente opposti!
2
Giochi (non) cooperativi
La suddivisione fondamentale nella teoria dei giochi è data dalla risposta alla domanda seguente:
vi è, oppure no, la possibilità per i giocatori di sottoscrivere accordi vincolanti?
Se non c’è, allora si parla di giochi non cooperativi. Quando invece i giocatori hanno questa possibilità allora si
usa il termine giochi cooperativi.
Si badi bene che questi termini non hanno nulla a che fare col significato consueto del termine cooperativo, così
come viene utilizzato nel linguaggio comune. Quando si studia un gioco cooperativo, non vuol dire che si ha a che
fare con decisori (detti normalmente giocatori) più buoni o più ben disposti a cooperare che quando si ha a che fare
con una situazione di gioco classificato come non cooperativo.
La differenza sta solo ed esclusivamente in quanto chiesto prima: si possono sottoscrivere oppure no accordi
vincolanti?
Come abbiamo visto, una delle situazioni più semplici possibili di interazione strategica si ha quando sono coinvolti
due giocatori (chiamiamoli John e Oskar, per fissare le idee), ognuno dei quali ha a disposizione solo due alternative
tra le quali scegliere. Possiamo allora riassumere tutta la situazione in una tabella come quella vista in precedenza.
Definizione di gioco in forma strategica, a due giocatori
Un gioco in forma strategica, a due giocatori è dato dalla quaterna G = (X, Y, f, g), dove:
• X, Y sono insiemi non vuoti: le strategie a disposizione dei due giocatori
• f, g : X × Y → R: i guadagni ottenuti dai due giocatori per ogni coppia di strategie (x ∈ X, y ∈ Y ).
Per quanto riguarda le funzioni f e g, l’interpretazione che abbiamo dato è delicata. Non sempre i giochi vengono
valutati in termini del guadagno atteso anzi a volte questa interpretazione non ha neanche senso (l’esito di un gioco
molte volte non è un guadagno monetario).
2.1
Equilibrio di Nash
Qual è la soluzione di un gioco? L’idea più accreditata di soluzione è quella di equilibrio.
Definizione di equilibrio
Sia dato il gioco G = (X, Y, f, g). Diremo che (x? , y ? ) ∈ X × Y è un equilibrio per G se
f (x? , y ? ) ≥ f (x, y ? )
?
?
per ogni x ∈ X, e
?
g(x , y ) ≥ g(x , y)
per ogni y ∈ Y
5
Definizione di equilibrio
Di solito, quando si parla di equilibri, si usa chiamarli equilibri di Nash o di Cournot - Nash. La ragione è storica:
• Nash nel 1950 prova un importante teorema il quale garantisce l’esistenza di un equilibrio per una classe molto
ampia ed importante di giochi, estendendo al caso generale il precedente risultato di von Neumann, che l’aveva
ottenuto nel 1928 per i giochi a somma zero (cioè quelli per cui f (x, y) + g(x, y) = 0 per ogni (x, y) ∈ X × Y ).
• Cournot nel 1838 aveva anticipato la teoria dei giochi adottando, come soluzione per un modello di oligopolio,
proprio questa idea di equilibrio.
Per capire la definizione precedente, ci dobbiamo ricordare che i giocatori effettuano la loro scelta contemporaneamente e che,
nel caso di giochi non cooperativi, non possono essere vincolati.
A questo punto, possiamo trovare un supporto alla definizione di equilibrio con questa motivazione. Supponiamo che i due
giocatori si accordino per giocare secondo la coppia di strategie (x? , y ? ). Se vogliamo che questo accordo sia un minimo sensato,
sembra ragionevole richiedere che resista a considerazioni del tipo seguente:
il giocatore I sa che se viola l’accordo non gli succede nulla. Allora può cercare di trovare una strategia
con un payoff migliore di f (x? , y ? ). In particolare, avendo deciso di violare unilateralmente l’accordo,
cercherà una strategia x ∈ X per cui f (x, y ? ) sia maggiore di f (x? , y ? ).
La definizione di equilibrio è strutturata proprio in modo da recepire queste considerazioni: nessuno dei due
giocatori ha convenienza a deviare dalla strategia che gli è prescritta dall’equilibrio, fermo restando che neppure
l’altro giocatore se ne discosti.
Possiamo anche dare una seconda motivazione per la definizione di equilibrio di Nash: l’idea è che esso risulta necessariamente da ogni concetto di soluzione che possa essere proposto da una teoria fondata sulla razionalità e intelligenza degli individui.
L’osservazione cruciale è che una teoria che prescriva come soluzione per un gioco non cooperativo una coppia di strategie che non
fossero un equilibrio di Nash, sarebbe una teoria auto-falsificantesi.
Tale teoria, infatti, darebbe un incentivo ad almeno uno dei giocatori di comportarsi in modo diverso da quanto prescritto, in
base alle stesse considerazioni viste in precedenza. Anzi, quanto più la teoria è fondata e quindi tanto maggiore è l’aspettativa che
i giocatori vi si conformino, tanto maggiore sarà l’incentivo per almeno uno di loro a scegliere in modo diverso da come prescritto
dalla teoria.
Questa seconda giustificazione per l’equilibrio di Nash sarebbe molto più persuasiva della prima se non fosse
significativamente indebolita da una debolezza dell’equilibrio di Nash: in condizioni ragionevoli, avviene che un
gioco abbia più di un equilibrio di Nash e che questi prescrivano scelte diverse per i giocatori.
Se potessimo contare su una essenziale unicità dell’equilibrio di Nash, lÕargomentazione che abbiamo visto a suo
supporto avrebbe una molto maggiore forza di persuasione.
2.2
Il dilemma del prigioniero
Il dilemma del prigioniero
È il gioco più famoso nella teoria dei giochi.
La storia è la seguente. Due individui vengono arrestati dalla polizia e chiusi in celle separate. I due individui
sono sospettati di aver compiuto un crimine (una rapina, ad esempio) che, se provato, comporta una pena di 5 anni. La
polizia ha le prove per farli condannare a 1 anno per un crimine lieve (ad esempio, porto abusivo d’arma...), per cui
promette che se uno confesserà e l’altro no, chi avrà confessato sarà libero.
Ovviamente, se entrambi confessano, verranno condannati (ma ad una pena un poco più lieve, data la loro
collaborazione: 4 anni).
Il significato dei numeri nelle caselle è in tal caso non soldi, bensì numero di anni di sconto di pena (rispetto alla
condanna più grave).
La tabella è la seguente:
I \ II
NC
C
NC
(4,4)
(5,0)
6
C
(0,5)
(1,1)
Si vede che l’equilibrio di questo gioco è dato dalla coppia di strategie (C,C). La cosa poco gradevole è che
entrambi i giocatori preferirebbero l’esito derivante dalla coppia di strategie (NC,NC).
Abbiamo cioè un risultato inefficiente.
Efficienza
Abbiamo una situazione i cui esiti E sono valutati da differenti decisori, le cui preferenze sono rappresentate da
funzioni utilità ui : E → R. Dire che un esito e? è efficiente vuol dire che non esiste un altro esito e tale che
• ui (e? ) ≥ ui (e) per ogni decisore i
• uk (e? ) > uk (e) per almeno un decisore k.
In effetti, nel dilemma del prigioniero, all’esito derivante dall’equilibrio (cioè, all’esito derivante da (C,C)), entrambi i giocatori preferiscono l’esito derivante da (NC,NC), cosa che si vede chiaramente dalla tabella in quanto
entrambi i numeri nella casella individuata da (NC,NC) sono maggiori dei numeri nella casella individuata da (C, C).
Naturalmente questo gioco è importante perché mostra come l’esito prevedibile di un gioco possa essere inefficiente, anche se consideriamo che i giocatori siano razionali ed intelligenti. In questo senso, il dilemma del prigioniero
rappresenta l’esempio paradigmatico di molte situazioni in cui si verifica questo fenomeno.
Oltretutto, le strategie che danno luogo all’equilibrio di Nash sono anche strategie fortemente dominanti, cioè, la
scelta di collaborare (C) dà ad ogni giocatore un risultato migliore che se non avesse scelto NC, qualunque sia la scelta
fatta dall’altro giocatore.
Questo fatto rende ancora più netto il messaggio che proviene da questo gioco e quindi non ci si deve sorprendere
del fatto che esso sia da sempre al centro dell’attenzione.
Dopo tutto, questo semplice giochino ci dice una cosa che è sorprendente: il fatto che i decisori siano razionali ed
intelligenti non è sufficiente per consentire loro di ottenere un risultato efficiente!
2.3
La battaglia dei sessi
La storia che dà il nome al gioco riguarda la scelta se andare a teatro o allÕincontro di calcio. Potete immaginare
marito (giocatore I) e moglie (giocatore II): il marito preferisce il calcio (ossia C), mentre la moglie preferisce il teatro
T. In ogni caso preferiscono essere assieme anziché in due posti diversi. Ognuno deve recarsi per suo conto al posto
che ritiene opportuno.
La tabella è la seguente:
I \ II
C
T
C
(2,1)
(0,0)
T
(0,0)
(1,2)
Qui di equilibri ce ne sono due: (C,C) e (T,T).
Il guaio è che:
• se i due giocatori hanno la possibilità di parlarsi prima e possono accordarsi sulla scelta di una di queste due
coppie di strategie, sulla base delle considerazioni che abbiamo fatto immaginiamo che questa coppia venga
effettivamente giocata.
Ma quale delle due coppie sceglieranno? Il marito preferisce l’equilibrio (C,C), mentre la moglie preferisce
l’equilibrio (T, T).
• se i due giocatori non hanno questa possibilità, devono scegliere quale strategia giocare al buio. In questo caso,
non è facile capire come giocare. Perché il marito potrebbe decidere di giocare C, in quanto mira all’equilibrio
che egli preferisce. Per le stesse identiche ragioni la moglie potrebbe decidere di giocare T.
Risultato: entrambi guadagnerebbero 0, anziché il 2 sperato.
Cosa rende così interessante questo gioco?
7
• Il fatto che un gioco abbia due equilibri non è di per sé particolarmente grave. Il guaio è che questi due equilibri
non sono equivalenti: come già notato, il marito preferisce (C,C) e la moglie (T,T).
Questo è un limite significativo per il valore predittivo dell’equilibrio di Nash (dalla conoscenza teorica degli equilibri
non possiamo ricavare cosa succederà nella realtà).
• Ma la non unicità mette in evidenza una debolezza fondamentale dell’equilibrio di Nash: un equilibrio di Nash
è una coppia di strategie che aut simul stabunt, aut simul cadent.
Un equilibrio di Nash non è ottenuto per giustapposizione di due strategie determinate in modo indipendente per i
due giocatori. La strategia di equilibrio è una coppia, ad esempio (C,C) ma questo non vuol dire che giocare C sia una
strati di equilibrio per il marito.
In effetti, perché questo avesse senso, dovrebbe essere possibile associare a questa una strategia di equilibrio per
la moglie, ad esempio T, e ottenere che la strategia complessiva (C,T) sia un equilibrio. Ma questo in generale non è
vero (anche se è vero per i giochi a somma zero).
2.4
Conclusioni
Abbiamo visto l’equilibrio di Nash e ne abbiamo esaminato alcune proprietà.
Abbiamo cercato di indicare delle motivazioni significative per adottarlo appunto come idea di soluzione, per di
più confortati dal fatto che ogni gioco finito ha equilibri di Nash (per lo meno in strategie miste).
L’equilibrio ha però dei problemi. In una veloce sintesi:
• un gioco normalmente ha più di un equilibrio
• essere equilibrio è una proprietà che hanno le coppie di strategie
• non vale la proprietà di rettangolarità
Il combinato disposto di questi fatti è che, dato un gioco, non solo è difficile prevedere quale equilibrio venga
giocato, ma non è neppure scontato che l’esito sia un esito d’equilibrio!
3
Giochi ripetuti (e no)
Vediamo un altro esempio di gioco in cui l’equilibrio di Nash non è efficiente.
L’urna miracolosa
I due giocatori, Johnny e Oskar, hanno davanti questa alternativa: ognuno di loro può
• mettere nell’urna 25e
• oppure non mettere nulla.
L’arbitro del gioco moltiplicherà quanto contenuto nell’urna per
8
5
e lo dividerà in parti uguali ai giocatori.
Vediamo qual è la tabella di payoff del gioco:
J\O
25
0
25
(15,15)
(20,-5)
0
(-5,20)
(0,0)
←− equilibrio di Nash
Siamo di nuovo nella situazione in cui l’equilibrio di Nash non è efficiente. Ma cosa avviene quando i giocatori si
ritrovano a poter giocare più volte di seguito?
È evidente che esistono casi in cui una situazione di interazione strategica viene ripetuta più volte:
• un gruppo di impiegati ed il capufficio intrattengono relazioni, alcuni aspetti delle quali si ripropongono ad ogni giornata di
lavoro;
8
• in molti settori merceologici il negoziante ha di fronte a sé una clientela non molto variabile;
• nelle relazioni internazionali occorre ricordare che gli Stati di solito non hanno una breve durata; etc.
Le situazioni di interazione difficilmente si ripetono inalterate. Ma, come al solito, è opportuno che l’analisi parta
dal caso più semplice: quello in cui un prefissato gruppo di giocatori si ritrova a giocare sempre lo stesso gioco, che
usualmente viene detto gioco costituente. Esattamente questi sono i giochi ripetuti.
3.1
La cooperazione
Perché molte persone deviano dall’equilibrio di Nash nel gioco dell’urna miracolosa? Forse perché immaginano di
poter/dover rincontrare l’avversario più volte e che questi si vendichi se viene tradito.
Una delle ragioni più importanti che spingono a studiare i giochi ripetuti ha a che fare col sorgere spontaneo della cooperazione in un contesto che definiamo tecnicamente non cooperativo, cioè in assenza
di istituzioni che possano garantire il rispetto di patti eventualmente sottoscritti fra le parti.
Vi è una intuizione diffusa che taluni comportamenti apparentemente non egoistici appaiano tali solo
ad uno sguardo superficiale, mentre possono essere ricondotti al perseguimento del proprio particulare,
semplicemente collocandosi in un’ottica di lungo periodo e di interazioni ripetute.
È notevole la rilevanza, anche filosofica, di questo tipo di problematiche (si pensi alle domande: cos’è la
morale? qual è l’origine delle leggi? cosa giustifica le cure parentali?).
Il contributo disciplinare della teoria dei giochi a questa problematica consiste nel costruire ed analizzare modelli
che permettano di comprendere come la cooperazione possa sorgere e fin dove possa spingersi in un contesto, appunto,
non cooperativo.
3.2
Giochi con un numero fissato di ripetizioni
Giochi con un numero fissato di ripetizioni
Consideriamo ora il caso in cui si sia fissato un numero N > 1 di ripetizioni del gioco.
Faremo vedere che in assenza di vincoli e in assenza di meccanismi di punizione, allora la strategia ottimale risulta
essere la ripetizione della strategia di equilibrio nelle singole partite.
Tuttavia, è possibile fare esempi in cui compare spontaneamente una strategia di equilibrio che possiamo chiamare
di cooperazione.
Nel gioco dell’urna miracolosa, se c’è un ultimo stadio, è chiaro che in quello stadio per Johnny è conveniente
adottare la strategia 0. Il fatto è che razionalità ed intelligenza dei giocatori sono conoscenza comune, e quindi Oskar
non ha problemi a prevedere questa scelta da parte di Johnny, scegliendo quindi di deviare allo stadio precedente, visto
che non ha comunque nessuna speranza di indurre un atteggiamento di reciprocità da parte di Johnny adottando una
strategia benevolente al penultimo stadio, e così via. . .
Un gioco spontaneamente cooperativo
Consideriamo il seguente gioco costituente, che sarà ripetuto N volte:
J\O
T
M
B
L
(15,15)
(20,-5)
(0,0)
C
(-5,20)
(5,5)
(0,0)
R
(0,0)
(0,0)
(-5,-5)
La strategia di Nash è (M,C) ma non è efficiente; sarebbe meglio giocare la strategia (T,L) che, però, è più rischiosa
per ogni giocatore.
Notiamo che ogni giocatore ha a disposizione una strategia per poter punire il proprio avversario (per Johnny,
questa è la strategia B).
9
Johnny inizia giocando T (ovvero, la sua componente della coppia di strategie che dà il risultato più efficiente) e
continua così fino allo stadio N − n (daremo in seguito la ricetta di come scegliere il numero n), a meno che Oskar
non giochi qualcosa di diverso da L. Se questo avviene, allora Johnny passa a giocare B dallo stadio successivo fino
alla fine del gioco. Giunti allo stadio K − n, se non vi è stata prima alcuna deviazione di Oskar dalla strategia L,
Johnny passa a giocare M fino alla fine del gioco.
La strategia che abbiamo descritto è un equilibrio di Nash (per essere precisi, l’equilibrio di Nash è la coppia
formata dalla strategia per Johnny e la corrispondente, speculare, strategia per Oskar).
Basta far vedere che Johnny non ha convenienza a deviare unilateralmente da questa strategia.
• Negli ultimi n turni, Johnny sta giocando un equilibrio di Nash, quindi non gli conviene cambiare;
• nei primi N − n turni, invece, Johnny sta giocando una strategia efficiente ma non di equilibrio: gli conviene
cambiare?
Ricordiamo che Johnny sta giocando T e Oskar sta giocando L. Se Johnny cambia, Oskar inizia dal turno
successivo a giocare la strategia punitiva R, per cui
– Johnny guadagna f (M, L) − f (T, L) = 20 − 15 = 5 euro in più per un turno;
– Johnny perde almeno f (M, C) = 5 per almeno n turni (nel caso in cui abbia deviato nell’ultima occasione
possibile, prima di ottenere il payoff di equilibrio negli ultimi n turni).
• quindi è sufficiente che sia n >
f (M,L)−f (T,L)
f (M,C)−0
= 1 perché deviare sia non conveniente.
Ora calcoliamo il payoff atteso per questa strategia. Dato che i giocatori usano per N − n volte la coppia (T,L) e
per n volte la coppia (M,C), risulta che il payoff per Johnny (e, per simmetria, per Oskar) è 15(N − n) + 5n. Con il
limite su n calcolato prima, scegliendo cioè n = 2 (il più piccolo che verifica la diseguaglianza), si ottiene 15N − 20.
Avessero giocato la strategia di equilibrio (M,C) per tutto il gioco, avrebbero ottenuto 5N .
Se i giocatori hanno la possibilità di scegliere N , allora, prendendo N grande a piacere, il payoff atteso per turno
può essere portato a essere arbitrariamente vicino a 15.
• Notiamo che la matrice di payoff di questo gioco è molto simile a quella dell’urna miracolosa, a cui abbiamo
aggiunto una riga che, a prima vista, sembra poco interessante (chi la giocherebbe mai, in una singola partita?)
I giochi con tabelle troppo semplici non sono sempre rappresentativi della complessità della situazione
• anche nei giochi con N ripetizioni i giocatori possono ottenere un payoff significativamente migliore di quello
che verrebbe dalla ripetizione dell’equilibrio di Nash
• per ottenere questo risultato, senza accordi vincolanti, serve che vi sia la possibilità di ritorsioni e che il numero
di stadi sia abbastanza grande da poter permettere che la ritorsione sia in grado di controbilanciare il potenziale
guadagno di chi viola l’accordo
purché la minaccia sia credibile.
3.3
Giochi con probabilità positiva di continuare
Giochi con probabilità positiva di continuare
Consideriamo ora il caso in cui sia possibile continuare a giocare, contando su un meccanismo che termina il gioco,
dopo ogni turno, con probabilità p > 0.
Modellizziamo in questo modo la presenza di incertezza sulla durata dl gioco:
• dopo ogni stadio, a partire dal primo, la probabilità di continuare è p < 1.
10
Consideriamo la strategia per Johnny che consiste nel giocare 25e al primo stadio e che prevede di continuare a
giocare così finché l’altro gioca 25e, e passare a 0 e giocare per sempre 0, qualora l’altro giocasse 0.
Questa strategia, accoppiata a quella speculare giocata da Oskar, dà luogo a un equilibrio di Nash.
Il payoff atteso è, assumendo che entrambi i giocatori seguano la strategia descritta:
15e moltiplicati la durata attesa del gioco, ossia 15
1
1−p
Se Johnny devia dalla strategia guadagna di più al primo turno, ma nel complesso il suo guadagno atteso risulta:
20e al primo turno, e poi nulla, ossia 20
quindi se p >
1
4
seguire la strategia è meglio.
Se la deviazione avviene a uno stadio successivo, il payoff atteso, condizionato al fatto che già si è arrivati a giocare quello
stadio, resta 20 e quindi è di nuovo inferiore al payoff atteso senza deviazione (anche questo, condizionatamente al fatto che si è
1
arrivati fino a quello stadio) che è 15 1−p
.
Qual è la differenza rispetto a quanto abbiamo visto nel dilemma del prigioniero?
• Una ragione chiave è data dal fatto che non esiste l’ultima mossa: ogni stadio potrebbe anche essere l’ultimo,
ma è anche altrettanto vero che il gioco potrebbe continuare.
• Se c’è un ultimo stadio, è chiaro che in quello stadio per Johnny è conveniente adottare la strategia 0. Il fatto
è che razionalità ed intelligenza dei giocatori sono conoscenza comune, e quindi Oskar non ha problemi a
prevedere questa scelta da parte di Johnny, scegliendo quindi di deviare allo stadio precedente, visto che non
ha comunque nessuna speranza di indurre un atteggiamento di reciprocità da parte di Johnny adottando una
strategia benevolente al penultimo stadio, e così via. . .
3.4
Giochi infiniti
Avendo visto come sia possibile ottenere un risultato efficiente nel caso del dilemma del prigioniero a durata aleatoria,
non dovrebbe sorprendere che si possa ottenere un risultato similare quando il gioco sia ripetuto infinite volte.
Occorre prestare attenzione a un aspetto: se il gioco ha una durata infinita ci troviamo a dover sommare infiniti
numeri (i payoff che si ottengono a ogni stadio). Il modo più semplice per ovviare a questo è quello di rinormalizzare
i profitti futuri introducendo un fattore di sconto.
In effetti, basterà interpretare il valore p come il tasso di sconto futuro... Anche in questo caso, l’interpretazione è
intuitiva:
• se il tasso di sconto p è piccolo, come a dire che il giocatore è impaziente e gli interessa solo quanto succede ora,
i payoff ottenuti nel futuro non sono considerati importanti dal giocatore e verrà meno lÕeffetto di deterrenza
incorporato nelle strategie che stiamo considerando: la punizione che certamente verrà non sarà così grave da
controbilanciare il guadagno ottenuto qui e ora deviando.
11