ΠΑΝΕΠΙΣΤΗΜΙΟ ΠΑΤΡΩΝ ΠΟΛΥΤΕΧΝΙΚΗ ΣΧΟΛΗ ΤΜΗΜΑ ΜΗΧΑΝΙΚΩΝ ΗΛΕΚΤΡΟΝΙΚΩΝ ΥΠΟΛΟΓΙΣΤΩΝ ΚΑΙ ΠΛΗΡΟΦΟΡΙΚΗΣ Δ Ε Το Παίγνιο Εξισορρόπησης Φορτίου με Τρεμάμενο Χέρι Α Ε Κ. Φ :Κ Π Π ,Σ Γ. Σ 2011 Πρόλογος Στην παρούσα διπλωματική εργασία εφαρμόζουμε τις αρχές της Θεωρίας Παιγνίων και πιο συγκεκριμένα τις έννοιες των Ισορροπιών Nash και των Παιγνίων Εξισορρόπησης Φορτίου, με σκοπό να αναλύσουμε την επίδραση που έχει στην απόδοση των δικτύων και των κατανεμημένων συστημάτων η εγωιστική και ανταγωνιστική συμπεριφορά των χρηστών τους. Αρχικά ασχολούμαστε με την παιγνιοθεωρητική προσέγγιση του προβλήματος εξισορρόπησης φορτίου. Οι χρήστες καλούνται να επιλέξουν μία μηχανή μέσα από ένα σύνολο μηχανών για να εξυπηρετηθούν. Με την επιλογή τους αυτή, έρχονται αντιμέτωποι με καθυστερήσεις που προκαλούνται από άλλους χρήστες, με τους οποίους διαμοιράζονται το ίδιο σύνολο μηχανών. Κάθε χρήστης στοχεύει στην ελαχιστοποίηση του εγωιστικού του κόστους, που αντιστοιχεί σε αυτήν ακριβώς την καθυστέρηση. Ο στόχος των χρηστών έρχεται συνήθως σε αντίθεση με τον στόχο της βελτιστοποίησης της καθολικής απόδοσης του συστήματος. Στην συνέχεια ορίζουμε το παίγνιο εξισορρόπησης φορτίου με τρεμάμενο χέρι. Το τρεμάμενο χέρι είναι μία έννοια που εισήχθη από τον οικονομολόγο R.Selten και σύμφωνα με την οποία όταν κάποιος παίκτης επιλέγει μία στρατηγική, γνωρίζει πως με μία μικρή πιθανότητα θα συμβεί ένα λάθος. Όταν συμβεί το λάθος αυτό, ο παίκτης τελικά επιλέγει μια διαφορετική στρατηγική από αυτήν που πραγματικά ήθελε, ως αποτέλεσμα του τρεμάμενου χεριού του. Τα αποτελέσματα της έρευνάς μας κινούνται σε τρεις κατευθύνσεις. Πρώτα εξετάζουμε το παίγνιο της εξισορρόπησης φορτίου με τρεμάμενο χέρι σε ταυτόσημες μηχανές ως προς την ύπαρξη αγνών ισορροπιών Nash. Δείχνουμε πως υπάρχει πάντα μία αγνή ισορροπία Nash με αναγωγή από τα αποτελέσματα για τα παίγνια εξισορρόπησης φορτίου. Έπειτα, δίνουμε αλγόριθμο πολυωνυμικού χρόνου για τον υπολογισμό της ισορροπίας αυτής. Τέλος, εξετάζουμε το κόστος της Αναρχίας του παιγνίου. Το κόστος της Αναρχίας εκφράζει την απόκλιση της απόδοσης της χειρότερης Ισορροπίας Nash από την βέλτιστη απόδοση. Αποδεικνύουμε πως το κόστος της Αναρχίας του παιχνιδιού φράσσεται εκ των άνω από μία μικρή σταθερά. Στο σημείο αυτό θέλω να ευχαριστήσω τον επιβλέποντα καθηγητή μου κ. Παύλο Σπυράκη για την εμπιστοσύνη που μου έδειξε κατά την ανάθεση αυτής της διπλωματικής εργασίας, τον χρόνο που μου αφιέρωσε κατά την εκπόνηση της και την διαρκή προθυμία του να μου λύσει οποιαδήποτε απορία αφορά στο αντικείμενο, βοηθώντας έτσι στην δημιουργία ιδανικού κλίματος έρευνας. Θα ήθελα επίσης να ευχαριστήσω τους φίλους μου και συμφοιτητές μου Παναγιώτη Ρήγα, Χαράλαμπο Κυριακόπουλο, Χρήστο Παπαπαύλου και Γιάννη Σμυρνιό για όλα αυτά που μου έδωσαν τα πέντε τελευταία χρόνια. Απόστολος Φίλιππας Πάτρα, Σεπτέμβριος 2011 4 UNIVERSITY OF PATRAS SCHOOL OF ENGINEERING DEPARTMENT OF COMPUTER ENGINEERING AND INFORMATICS D T The Trembling Hand Load Balancing Game A S K. F :P P G. S PATRAS, SEPTEMBER 2011 Abstract In the present diploma thesis we will be using basic concepts of Game Theory, more specifically the concepts of Nash Equilibrium and Load Balancing Games, in order to analyse the effect of egois c and compe ve user’s behaviour on the efficiency of networks and distributed systems. We start by studying the game theore c version of the load balancing problem. Each player manages a task that he wants to place on a machine, chosen among a shared set of machines. The agents are selfish, in the sense that they aim to maximize their individual benefit, by minimi zing the wai ng me on the machine they choose. Each agent’s wai ng me is affected by the tasks of other agents that choose the same machine. We introduce the trembling hand load balancing game. According to the trembling hand concept, we assume that the players’ trembling hands may choose unintended strategies with a small probability. Trembling hand perfect equilibrium is a refinement of the Nash equilibrium proposed by the German economist Reinhard Selten, who shared the 1994 Nobel Memorial Prize in Economic Sciences with John Nash and John Harsanyi. We now summarize our research results. Firstly, we prove that the trembling hand load balancing game on iden cal machines always admits a pure Nash equilibrium. Secondly, we find an algorithm that computes this Nash equilibrium in polynomial me. Finally, we compare the social cost of pure equilibria with op mal solu ons. This ra o is called pure price of Anarchy. We prove that the pure price of anarchy is bounded by a small constant factor. Concluding, i would like to thank my supervisor, professor Paul G. Spirakis, for entrus ng me with the assignment of this Diploma Thesis, the valuable me he dedicated during its wri ng and his constant willingness to answer any ques ons, providing the ideal environment for research. I would also like to thank my friends and classmates Panagio s Rigas, Charalambos Kyriakopoulos, Chris Papapaulou and John Smyrnios for everything they did for me during the last five years. Apostolos Filippas Patras, September 2011 4 To me you are a work of art and i would give you my heart that’s if i had one Περιεχόμενα 1 Κεφάλαιο 1 1.1 Ιστορία, Φιλοσοφία και η αναγκαιότητα της Θεωρίας Παιγνίων 1.2 Η Θεωρία Παιγνίων . . . . . . . . . . . . . . . . . . . . . . . . 1.3 Εξισορρόπηση Φορτίου . . . . . . . . . . . . . . . . . . . . . . 1.4 Τρεμάμενο Χέρι . . . . . . . . . . . . . . . . . . . . . . . . . . 1.5 Συνεισφορά της Διπλωματικής Εργασίας . . . . . . . . . . . . . 2 Κεφάλαιο 2 2.1 Βασικές Έννοιες της Θεωρίας Παιγνίων . . . 2.1.1 Το Αντικείμενο της Θεωρίας Παιγνίων 2.1.2 Κατηγορίες Παιγνίων . . . . . . . . . 2.1.3 Στρατηγικά Παίγνια . . . . . . . . . . 2.1.4 Μικτές Στρατηγικές . . . . . . . . . . 2.2 Λύσεις των Παιγνίων . . . . . . . . . . . . . 2.2.1 Κυριαρχούσες Στρατηγικές . . . . . . 2.2.2 Ισορροπίες Nash . . . . . . . . . . . 2.2.3 Τρεμάμενο Χέρι . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . 9 10 12 13 14 15 . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . 17 17 17 18 19 19 20 20 21 23 3 Κεφάλαιο 3 3.1 Το Πρόβλημα Εξισορρόπησης Φορτίου . . . . . . 3.1.1 Εισαγωγή . . . . . . . . . . . . . . . . . 3.1.2 Το Μοντέλο . . . . . . . . . . . . . . . . 3.1.3 Το Κόστος της Αναρχίας . . . . . . . . . 3.2 Εξισορρόπηση Φορτιου σε Ταυτόσημες Μηχανές 3.2.1 Ύπαρξη Αγνών Ισορροπιών Nash . . . . . 3.2.2 Υπολογισμός Αγνών Ισορροπιών Nash . . 3.2.3 Αγνό Κόστος της Αναρχίας . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . 25 25 25 26 27 27 27 29 30 . . . . . . . . . 4 Κεφάλαιο 4 33 4.1 To Παίγνιο Εξισορρόπησης Φορτίου με Τρεμάμενο Χέρι . . . . . . . . . . . . 33 4.1.1 Oρισμός . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . 33 8 ΠΕΡΙΕΧΟΜΕΝΑ 4.2 4.1.2 Περιορισμοί στην πιθανότητα λάθους ϵ . . . . Αγνές Ισορροπίες Nash για το THLBI . . . . . . . . . . 4.2.1 To κόστος των παικτών . . . . . . . . . . . . . 4.2.2 Πότε είναι μία ανάθεση αγνή ισορροπία Nash 4.2.3 Θεώρημα Ύπαρξης Αγνής Ισορροπίας Nash . . 4.2.4 Υπολογισμός Ισορροπίας Nash . . . . . . . . . 4.2.5 Το κόστος της Αναρχίας . . . . . . . . . . . . . 5 Κεφάλαιο 5 . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . 34 35 35 36 37 38 39 43 Κεφάλαιο 1 Εισαγωγή “ All I’ve ever wanted was an honest week’s pay for an honest day’s work.” Sgt. Bilko Λίγο μετά το τέλος του Δευτέρου Παγκοσμίου Πολέμου ο Ούγγρος μαθηματικός John Von Neumann, ένας από τους μεγαλύτερους επιστήμονες του τελευταίου αιώνα, δημοσίευσε μαζί με τον Oskar Morgenstern το ”Games and Economic Behaviour” [1]. Το άρθρο αυτό έμελλε να αποτελέσει τον θεμέλιο λίθο ενός καινούριου κλάδου των εφαρμοσμένων μαθηματικών. Η Θεωρία Παιγνίων υπήρξε στα πρώτα χρόνια της ζωής της τομέας ο οποίος χρησιμοποιήθηκε σχεδόν αποκλειστικά από οικονομολόγους, καθώς τους εφοδίαζε με το ιδανικό μαθηματικό υπόβαθρο για να μελετήσουν τις αγορές και την στρατηγική λήψης αποφάσεων όσων εμπλέκονταν σε αυτές. Δύο χρόνια αργότερα, το 1945, και πάλι ο von Neumann με την αναφορά του για τον ηλεκτρονικό υπολογιστή EDVAC [2] θα εγκαινίαζε ίσως τον πιο σημαντικό τομέα των σύγχρονων επιστημών, την Πληροφορική ή όπως αλλιώς την ονομάζουμε την επιστήμη των Υπολογιστών. Η επιστήμη των Υπολογιστών αποτέλεσε και συνεχίζει να αποτελεί καταλύτη της εξέλιξης της ανθρώπινης αντίληψης για τον κόσμο, καθιστώντας δυνατές και επιταχύνοντας ανακαλύψεις σε σχεδόν οποιαδήποτε άλλη επιστήμη. Όμως ακόμα και ο ίδιος ο von Neumann δεν θα μπορούσε να έχει προβλέψει αυτό που συνέβη 50 χρόνια μετά . Η εφεύρεση του Διαδικτύου αποτελεί το μέχρι τώρα απαύγασμα της επιστήμης των Υπολογιστών. Το διαδίκτυο έφερε ριζικές αλλαγές στις αγορές καθώς έκανε την ενημέρωση πιο προσιτή και κατέστησε την διεκπεραίωση των συναλλαγών πιο εύκολη. Επίσης, δημιούργησε καινούριες μορφές αγορών, επέχοντας το ίδιο σε πολλές περιπτώσεις τον ρόλο αγοράς. Ιδανικό εργαλείο για να έρθουν στο φως οι νόμοι και οι κανόνες που διέπουν τους καινούριους αυτούς τομείς της παγκόσμιας οικονομίας αποτελεί η αλγοριθμική ανάλυση, η οποία άρχισε να γίνεται όλο και πιο δημοφιλής. 10 Κεφάλαιο 1 Από την άλλη το διαδίκτυο αποτέλεσε το πρώτο εφεύρημα της επιστήμης των Υπολογιστών το οποίο δεν δημιουργήθηκε από ένα άτομο, από μία ομάδα ατόμων ή από μία επιχείρηση. Στην σημερινή του μορφή υπάρχει, λειτουργεί αποδοτικά και εξελίσσεται χάρη στην συνεργασία και στην στρατηγική αλληλεπίδραση πολλών οντοτήτων. Το μέγεθός του, η αποκεντρικοποιημένη φύση των υπολογισμών που συμβαίνουν σε αυτό καθώς και η ύπαρξη πολλών χρηστών με διαφορετικούς στόχους δημιουργεί μία εγγενή και ιδιαίτερη πολυπλοκότητα με την οποία η επιστήμη των Υπολογιστών δεν είχε βρεθεί ξανά αντιμέτωπη. Ως φυσικό επακόλουθο, οι επιστήμονες της Πληροφορικής στράφηκαν στην Θεωρία Παιγνίων για την μελέτη και την ανάλυση του διαδικτύου. Έτσι τα δύο δίδυμα πνευματικά τέκνα του von Neumann, η θεωρία Παιγνίων και η θεωρία των Αλγορίθμων συνέκλιναν σε έναν νέο επιστημονικό τομέα που καλούμε σήμερα Αλγοριθμική Θεωρία Παιγνίων. Στον τομέα αυτό συγκεράζοντας ιδέες, τεχνικές και βασικές αρχές της Οικονομίας και της Πληροφορικής με κυρίαρχο σκοπό να αναλυθεί η μυστηριώδης φύση του διαδικτύου. 1.1 Ιστορία, Φιλοσοφία και η αναγκαιότητα της Θεωρίας Παιγνίων Στα 67 χρόνια που διαμεσολάβησαν από το 1944 και την επίσημη ίδρυσή της μέχρι σήμερα, οι δυνατότητες που προσφέρει η Θεωρία Παιγνίων έχουν διευρυνθεί και εμβαθυνθεί με ποικίλους τρόπους. Σήμερα μάλιστα, μπορούμε να πούμε με σιγουριά πως η παιγνιοθεωρητική προσέγγιση είναι το πιο δυνατό εργαλείο στα χέρια ενός αναλυτή όταν αυτός επιθυμεί να μελετήσει καταστάσεις - δηλαδή παίγνια με τουλάχιστον δύο παίκτες - στα οποία η καλύτερη στρατηγική που μπορεί να ακολουθήσει κάθε παίκτης εξαρτάται από τις πεποιθήσεις του για το τι θα κάνουν οι άλλοι παίκτες, καθώς και από τις στρατηγικές που θα ακολουθήσουν. Παρόλο που η μαθηματική και λογική εγκαθίδρυσή της έγινε σχετικά πρόσφατα, ίχνη παιγνιοθεωρητικής σκέψης μπορούν να βρεθούν στην ανθρώπινη ιστορία ανά τους αιώνες. Μερικά από αυτά θα παραθέσουμε σε αυτήν την ενότητα, καθώς πιστεύουμε πως θα βοηθήσουν στο να καταλάβει κανείς τι είναι ένα παίγνιο και να αντιληφθεί το εύρος των καταστάσεων στις οποίες μπορού να εφαρμοστούν οι αρχές της θεωρίας παιγνίων. Μερικά από τα πρώτα δείγματα τέτοιου είδους ανάλυσης συναντάμε στην Αρχαία Ελλάδα. Στο Συμπόσιον και Λάχης του Πλάτωνα, ο Σωκράτης ανακαλλεί ένα επεισόδιο από την μάχη του Δηλίου όπου περιγράφεται η ακόλουθη κατάσταση. Ένας στρατιώτης της πρώτης γραμμής του στρατού περιμένει τους συμμαχητές του για να πολεμήσουν τον αντίπαλο στρατό. Ο στρατιώτης ακολουθεί την εξής συλλογιστική πορεία: αν πιστεύει πως το στράτευμα του έχει μεγάλη πιθανότητα νίκης, τότε η δικιά του συμμετοχή σε αυτήν δεν είναι πολύ πιθανόν να είναι μεγάλης σημασίας. Έτσι αν συμμετέχει στην μάχη θα διατρέξει κίνδυνο τραυματισμού, ουσιαστικά για κανέναν λόγο. Από την άλλη, αν πιστεύει πως υπάρχει μικρή πιθανότητα νίκης, τότε το να μείνει στην θέση του και να παλέψει δεν μοιάζει καλή στρατηγική - θα πεθάνει 1.1 Ιστορία, Φιλοσοφία και η αναγκαιότητα της Θεωρίας Παιγνίων 11 ούτως ή άλλως. Την ίδια συλλογιστική πορεία μπορεί να ακολουθήσει κάθε στρατιώτης, και αφού βρίσκεται στην ίδια περίσταση με όλους τους άλλους, θα καταλήξει στο ίδιο συμπέρασμα. Ανεξάρτητα από το αν θα κερδίσει ή όχι η παράταξη του, η καλύτερη στρατηγική μοιάζει η υποχώρηση. Αν όμως όλοι οι στρατιώτες ακολουθήσουν την ίδια στρατηγική, τότε υπάρχει μεγάλος κίνδυνος η μάχη να χαθεί πριν καν ξεκινήσει. Σε αυτήν ακριβώς την θέση βρέθηκε ο Ισπανός κονκισταδόρ Κορτέζ, όταν έφτασε με μια μικρή στρατιωτική δύναμη στο Μεξικό. Ο στρατός του είχε κάθε λόγο να φοβάται πως οι υπεράριθμοί τους Αζτέκοι θα επικρατούσαν και έτσι η λιποταξία έμοιαζε η καλύτερη λύση. Ο Κορτέζ διέγνωσε έγκαιρα την κατάσταση και ακολούθησε μία φαινομενικά παράδοξη αλλά ιδιοφυή στρατηγική. Έκαψε τα πλοία του στόλου του, αφαιρώντας έτσι από τους στρατιώτες την επιλογή της υποχώρησης. Οι στρατιώτες πλέον έπρεπε να πολεμήσουν για την ζωή τους. Η κίνηση όμως αυτή του στρατηλάτη είχε και ένα δεύτερο όφελος. Οι Αζτέκοι βλέποντας τον στρατηγό να καίει τα πλοία του, υπέθεσαν πως υπάρχει κάποιος λόγος για την υπέρμετρη φιλοδοξία του. Συμπέραναν έτσι πως ο Κορτέζ είχε καλό λόγο να πιστεύει στην νίκη του στρατού του, παρόλο που οι ίδιοι δεν μπορούσαν να τον αντιληφθούν. Έτσι απέφυγαν την μάχη μαζί του και υποχώρησαν, δίνοντας του μία αναπάντεχα εύκολη νίκη. Στις δύο προηγούμενες ιστορίες έχουμε άτομα (παίκτες) που αλληλεπιδρούν και αποφασίζουν με τρόπο ορθολογικό και στρατηγικό που βασίζεται στις πεποιθήσεις τους για τις στρατηγικές των άλλων παικτών. Και στις δύο περιπτώσεις η διαδικασία αυτή ενδέχεται να οδηγήσει σε ένα αποτέλεσμα το οποίο δεν επιθυμεί κανένας παίκτης. Οι περισσότεροι στρατοί προσπαθούν να αποφύγουν το αποτέλεσμα αυτό με τρόπο παρόμοιο του Κορτέζ - το στρατοδικείο φροντίζει η λιποταξία να τους κοστίσει ακριβώς όσο το να μείνουν και να πολεμήσουν. Τα παραδείγματά μας μέχρι τώρα περιορίστηκαν στον πόλεμο. Αλλάζοντας περιβάλλον, μεταφερόμαστε στο 1651, οπότε εκδίδεται το βιβλίο Leviathan του Thomas Hobbes. Στο βιβλίο αυτό, o Hobbes ασχολείται με την κοινωνική δομή, την κυβέρνηση, τους περιορισμούς και τις ελευθερίες που αυτή επιβάλει στο άτομο. Το βιβλίο αυτό αποτέλεσε την βάση της σύγχρονης πολιτικής φιλοσοφίας. Ο συλλογισμός του Hobbes μπορεί να συνοψιστεί από τα εξής. Υποθέτουμε πως κάθε άνθρωπος είναι ικανοποιημένος αν έχει ελευθερία να κάνει ό,τι αυτός θέλει. Πολύ συχνά, ελεύθεροι άνθρωποι θέλουν να συνεργαστούν για να πραγματοποιήσουν έργα, τα οποία από μόνοι τους δεν θα μπορούσαν να φέρουν εις πέρας. Για παράδειγμα, δύο άνθρωποι συμφωνούν να συνεργαστούν βοηθώντας ο ένας το άλλον στο χτίσιμο των σπιτιών τους. Θεωρούμε όμως πως υπάρχει η πιθανότητα κάποιος από τους δύο παίκτες να περιμένει να κτιστεί το σπίτι του και έπειτα να μην βοηθήσει τον συνεργάτη του - να συμπεριφερθεί δηλαδή ανήθικα. Αθετώντας την υπόσχεση του, αυτός ο παίκτης αποκομίζει την μέγιστη ωφέλεια, καθώς το σπίτι του έχει χτιστει και δεν χρειάζεται να καταβάλλει περαιτέρω κόπο. Όμως ο ίδιος περιμένει πως ο δεύτερος παίκτης, αφού δεν έχει το υποσχεθέν του σπίτι, θα αντιδράσει και θα κινηθεί εναντίον του. Η καλύτερη λύση για τον πρώτο παίκτη πλέον είναι να προλάβει την αντίδραση του δεύτερου παίκτη και να κινηθεί εχθρικά εναντίον του πρώτος. Βλέπουμε λοιπόν πως αυτή η συλλογιστική πορεία ξεκινά μόλις η παραμικρή αμφιβολία μπει στο μυαλό οποιουδήποτε από τους παίκτες. Η συλλογιστική τους σκέψη τότε εκφυλλίζεται στο ποιος θα προλάβει να 12 Κεφάλαιο 1 κάνει το πρώτο κτύπημα, καταλήγοντας έτσι σε αυτό που ο Hobbes ονόμασε ”πόλεμος όλων εναντίον όλων”. Είναι προφανές πως το φαινόμενο αυτό είναι το ακριβώς αντίθετο της κοινωνικής ευημερίας και καθιστά την ζωή των ανθρώπων, και πάλι κατά τον Hobbes, ”μοναχική, φτωχή, κακή, βίαια και μικρή”. Για να μπορέσουν οι άνθρωποι να αποφύγουν αυτή την κατάσταση και να αποκομίσουν τα οφέλη της συνεργασίας, ο Hobbes προτείνει μια τυραννική κυβέρνηση. Αυτή, ανάλογα με το στρατοδικείο, επιβάλλει ποινές σε όσους πολίτες συμπεριφέρονται ανήθικα. Έτσι κανένας δεν έχει όφελος από μία παράνομη συμπεριφορά, αφού τότε θα πρέπει να αντιμετωπίσει τις συνέπειες (ο Hobbes θεωρούσε τον αποκεφαλισμό μία κοινωνικά αποδεκτή τιμωρία - σήμερα τα περισσότερα κράτη διαφωνούν). Οι πολίτες θυσιάζουν λίγη από την ελευθερία τους, όμως η συνεργασία γίνεται πλέον η αναμενόμενη κοινωνική νόρμα και κανένας άνθρωπος δεν κινδυνεύει από τον άλλον. Η λογική αυτή ονομάζεται Κοινωνικό Συμβόλαιο και είναι ο τρόπος με τον οποίο δομούνται τα σύγχρονα κράτη. Βλέπουμε λοιπόν πως όχι μόνο οι οικονομολόγοι αλλά και οι φιλόσοφοι μοιράζονται το ίδιο «επαγγελματικό ενδιαφέρον» για την ανθρώπινη ευημερία και τους τρόπους με τους οποίους αυτή μπορεί να μεγιστοποιηθεί. Επίσης, η φιλοσοφική έρευνα ασχολείται ιδιαίτερα με την λογική επεξήγηση των πράξεων μέσω των αναμενόμενων αποτελεσμάτων τους. Η αντίστοιχη φιλοσοφική θεωρία ονομάζεται ωφελιμισμός. Όλες οι περιπτώσεις που περιγράψαμε έχουν ως κοινό ωφελιμιστικές οντότητες που αλληλεπιδρούν. Επίσης, η ωφέλεια που τελικά αποκομίζουν δεν εξαρτάται αποκλειστικά από τις αποφάσεις τους αλλά και από τις αποφάσεις των άλλων οντοτήτων. Τις καταστάσεις αυτές θα τις ονομάζουμε από εδώ και στο εξής παίγνια. Να σημειώσουμε πως παίγνια δεν συναντάμε μόνο στην ανθρώπινη κοινωνία αλλά και στον φυσικό κόσμο. Για παράδειγμα, παίγνιο είναι η εξελικτική διαδικασία που ακολουθεί ένας πληθυσμός εντόμων προκειμένου να μεγιστοποιήσει την ικανότητα του να επιβιώνει. Λύση σε αυτές τις καθημερινές περιπτώσεις θα προσπαθήσουμε να δώσουμε μέσω της ανάλυσής τους με την θεωρία παιγνίων. Είναι μάλιστα πολλές φορές δύσκολο παίγνια όπως αυτά που περιγράψαμε να αναλυθούν με διαφορετική προσέγγιση. Στις επόμενες ενότητες θα δούμε πως τα παίγνια μοντελοποιούνται με μαθηματικές περιγραφές. 1.2 Η Θεωρία Παιγνίων Η θεωρία παιγνίων μπορεί να οριστεί ως η συστηματική μελέτη μαθηματικών μοντέλων διαδραστικής λήψης αποφάσεων. Μας παρέχει λοιπόν τις απαραίτητες αναλυτικές τεχνικές και εργαλεία που μας βοηθούν να μελετήσουμε και να κατανοήσουμε τα φαινόμενα που παρατηρούνται όταν δύο ή περισσότερες οντότητες που αλληλεπιδρούν και λαμβάνουν αποφάσεις. Τις οντότητες αυτές θα τις ονομάζουμε παίκτες. Κάθε παίχτης έχει κάποιους στόχους και καλείται να λάβει αποφάσεις που θα τον βοηθήσουν να επιτύχει τους στόχους αυτούς. Βασικό στοιχείο που διαχωρίζει την θεωρία παιγνίων με την θεωρία αποφάσεων είναι πως το πόσο επωφελείται τελικά ο κάθε παίκτης (δηλαδή το πόσο κοντά έρχεται στην ικανοποίηση των 1.3 Εξισορρόπηση Φορτίου 13 στόχων του) δεν εξαρτάται μόνο από την απόφαση που θα λάβει ο ίδιος αλλά και από τις αποφάσεις όλων των άλλων παικτών. Ένα παίγνιο ορίζεται λοιπόν από το σύνολο των παικτών που αλληλεπιδρούν, το σύνολο των διαθέσιμων σε κάθε παίκτη ενεργειών (δηλαδή το σύνολο των αποφάσεων που μπορεί να πάρει κάθε παίκτης) και από την ωφέλεια που έχει κάθε παίκτης από κάθε συνδυασμό ενεργειών. Όταν μελετάμε ένα παίγνιο, κάθε παίκτης μπορεί να διαλέξει όχι μόνο μία από τις διαθέσιμες ενέργειές του, αλλά μία πιθανοτική κατανομή πάνω στο σύνολο των ενεργειών του. Αυτή την κατανομή πιθανότητας θα ονομάζουμε στρατηγική. Η ειδική περίπτωση κατά την οποία η στρατηγική θέτει πιθανότητα 1 σε μία μόνο ενέργεια ονομάζεται αγνή στρατηγική. Η ισορροπία Nash Η σπουδαιότερη και πιο ευρέως διαδεδομένη έννοια λύσης στην Θεωρία Παιγνίων είναι η Ισορροπία Nash. Πρόκειται για έναν συνδυασμό στρατηγικών, μία για κάθε παίκτη, με το χαρακτηριστικό πως δεν υπάρχει παίκτης που μπορεί να αυξήσει την αναμενόμενη ωφέλειά του αν αλλάξει την στρατηγική του. Με άλλα λόγια μια ισορροπία Nash αποτελεί μία σταθερή κατάσταση για το παίγνιο, όπου κάθε παίκτης επιλέγει την στρατηγική που μεγιστοποιεί την αναμενόμενη ωφέλειά του δοθέντων των στρατηγικών των άλλων παικτών. Η διάσημη αυτή έννοια προτάθηκε από τον μαθηματικό John Nash το 1951 [3], ο οποίος απέδειξε μάλιστα πως κάθε παίγνιο έχει τουλάχιστον μια τέτοια ισορροπία. Ωστόσο, η μη κατασκευαστική φύση της απόδειξης ύπαρξης ισορροπιών Nash άφησε ανοικτό το ζήτημα υπολογισμού της. Το 2006 οι Papadimitriou et al. έδειξαν πως ο υπολογισμός ισορροπιών Nash ανήκει στην κλάση πολυπλοκότητας PPAD [4]. H απόδειξη αυτή αποτελεί ισχυρή ένδειξη πως απαιτείται στην γενική περίπτωση υπερπολυωνυμικός χρόνος για τον υπολογισμό αυτού του είδους λύσης παιγνίων και συνεπώς δεν μπορούμε να την υπολογίσουμε σε εύλογο χρόνο με την παρούσα τεχνολογία. Με δεδομένη αυτήν την διαφαινόμενη δυσκολία στον υπολογισμό, φυσικό επακόλουθο ήταν να στραφεί η ερευνητική δραστηριότητα προς νέες λύσεις. Μία τέτοια έννοια είναι η προσεγγιστική ισορροπία Nash, δηλαδή ένας συνδυασμός στρατηγικών με την ιδιότητα πως κανένας παίκτης δεν μπορεί να αυξήσει το κέρδος του περισσότερο από ϵ αν αποκλίνει μονομερώς. 1.3 Εξισορρόπηση Φορτίου Στα δίκτυα και τα κατανεμημένα συστήματα έχουμε συνήθως ένα σύνολο εργασιών το οποίο πρέπει να εκτελεστεί από ένα σύνολο πόρων. Είναι προφανές πως πρέπει να κατανείμουμε τις εργασίες με τρόπο τέτοιο ώστε να εκμεταλευτούμε όσο το δυνατόν αποδοτικότερα τους διαθέσιμους πόρους. Το πρόβλημα αυτό είναι ζωτικής σημασίας σε τέτοιου ειδους συστήματα και ονομάζεται εξισορρόπηση φορτίου. Στην επιστήμη των υπολογιστών το πρόβλημα 14 Κεφάλαιο 1 αυτό έχει μελετηθεί καλά και έχουν βρεθεί αλγόριθμοι, κατανεμημένοι και μη, για την επίλυσή του. Παρόλα αυτά, όταν κανείς τη μελετήσει απο την σκοπιά της θεωρίας παιγνίων, η εξισορρόπηση φορτίου παίρνει μία διαφορετική διάσταση. Θεωρούμε πως υπάρχουν n παίκτες και m μηχανές. Κάθε παίκτης, που εδώ είναι ένας χρήστης του συστήματος μας, έχει μία εργασία με κάποιο φορτίο. Ο παίκτης, ως εγωιστική οντότητα, θέλει να αναθέσει την εργασία του σε μία απο τις διαθέσιμες μηχανές, ώστε να υφίσταται την ελάχιστη καθυστέρηση. Η καθυστέρηση που θα υποστεί είναι ανάλογη του αριθμού των παικτών που έχουν επιλέξει την ίδια μηχανή. Οι μηχανές εδώ μοντελοποιούν τους πόρους του εκάστοτε συστήματος. Βλέπουμε πως η παιγνιοθεωρητική προσέγγιση του προβλήματος μοιάζει πολύ με τον τρόπο που λειτουργεί η κατανομή πόρων στο διαδίκτυο. Το κόστος της Αναρχίας Το ενδιαφέρον φαινόμενο που παρατηρείται στο παίγνιο εξισορρόπησης φορτίου, είναι πως οι παίκτες συμπεριφέρονται εγωιστικά. Επιλέγουν δηλαδή τις στρατηγικές τους με βάση τα προσωπικά τους οφέλη και μόνο. Συνεπώς έχουμε κάποια μορφή αναρχίας - δεν υπάρχει κάποια κεντρική αρχή η οποία θα καθορίσει τις στρατηγικές των παικτών έτσι ώστε να βελτιστοποιηθεί η καθολική απόδοση του συστήματος. Οι Koutsoupias και Papadimitriou [5] προσπάθησαν να μετρήσουν την επίδραση που έχει το φαινόμενο αυτό στην απόδοση των συστημάτων, μελετώντας την περίπτωση του παιγνίου εξισορρόπησης φορτίου. Για τον σκοπό αυτό, όρισαν το Κόστος της Αναρχίας ως τον λόγο της χειρότερης απόδοσης του συστήματος σε μια ισορροπία Nash δια την βέλτιστη δυνατή απόδοση που θα επιτύγχανε μια κεντρική αρχή, η οποία θα αγνοούσε τα προσωπικά συμφέροντα των παικτών. Πρόκειται για μια πολύ ενδιαφέρουσα μετρική με κοινωνικές και οικονομικές προεκτάσεις, της οποίας ο υπολογισμός εντάσσεται στο πεδίο της αλγοριθμικής θεωρίας παιγνίων. 1.4 Τρεμάμενο Χέρι Πολλές φορές στα παίγνια παρατηρείται η εξής περίεργη κατάσταση: οι παίκτες επιλέγουν στρατηγικές που δεν μοιάζουν λογικές, δεν μεγιστοποιούν δηλαδή την αναμενόμενη για αυτούς ωφέλεια. Επιπρόσθετα, όταν οι παίκτες προσπαθούν να βρουν την λύση σε ένα παίγνιο, μπορούν να το καταφέρουν μόνο όταν υποθέσουν πως οι άλλοι παίκτες δεν συμπεριφέρονται με τρόπο λογικό. Το απροσδόκητο αυτό γεγονός ονομάζεται παράδοξο της πίσω επαγωγής. O οικονομολόγος R.Selten πρότεινε ένα τρόπο για να αποφευχθεί αυτό το παράδοξο, επιννοώντας την έννοια του τρεμάμενου χεριού [6] . Σύμφωνα με αυτήν, υπάρχει μια μικρή πιθανότητα η απόφαση που θα λάβει ένας παίκτης και η στρατηγική τελικά θα ακολουθήσει να διαφέρουν. Έτσι, ο παίκτης μπορεί να αποφάσισει να κάνει μία συγκεκριμένη ενέργεια αλλά κατά την διάρκεια της εκτέλεσής της, το χέρι του γλιστράει (ή αντίστοιχα τρέμει) και τελικά εκτελεί μια διαφορετική ενέργεια. 1.5 Συνεισφορά της Διπλωματικής Εργασίας 15 Η πολύ σημαντική αυτή έννοια φέρνει στην επιφάνεια φαινόμενα που παρατηρούνται κατά την διαδικασία της κοινωνικής μάθησης. Επιπρόσθετα εισάγει μία πιο ισχυρή εκλέπτυνση της ισορροπίας Nash. Θα την μελετήσουμε εκτενέστερα στην ενότητα 2.2.4. 1.5 Συνεισφορά της Διπλωματικής Εργασίας Στα πλαίσια της παρούσας διπλωματικής εργασίας ορίσαμε το παίγνιο εξισορρόπησης φορτίου με τρεμάμενο χέρι. Το παίγνιο αυτό αποτελεί παραλλαγή του κλασικού παιγνίου εξισορρόπησης φορτίου με μοναδική διαφορά πως κάθε παίκτης, με μία πιθανότητα ϵ, επιλέγει διαφορετική στρατηγική από αυτήν που έχει αποφασίσει. Αποδεικνύουμε βασιζόμενοι σε γνωστά αποτελέσματα της θεωρίας παιγνίων, πως το παίγνιο εξισορρόπησης φορτίου με τρεμάμενο χέρι έχει, ακόμα και για μεγάλη πιθανότητα σφάλματος, αγνή ισορροπία Nash. Στην συνέχεια αποδεικνύουμε πως η ισορροπία αυτή υπολογίζεται σε πολυωνυμικό χρόνο. Έπειτα, δείχνουμε πως το αγνό κόστος της Αναρχίας είναι σταθερό και μικρότερο του 2. Τέλος, από τα αποτελέσματα που προκύπτουν, αποδεικνύουμε πως η αγνή ισορροπία Nash του κλασικού παιγνίου εξισορρόπησης φορτίου είναι τέλεια ισορροπία Nash. Αυτό σημαίνει πως ακόμα και υπό την παρουσία του φαινομένου του τρεμάμενου χεριού, οι παίκτες δεν έχουν κανέναν λόγο να αποκλίνουν από τις στρατηγικές που ορίζει η ισορροπία Nash στην οποία έχουν οδηγηθεί. Το αποτέλεσμα αυτό καταδεικνύει με ακόμα ισχυρότερο τρόπο την σημασία ύπαρξης αγνών ισορροπιών Nash στα παίγνια εξισορρόπησης φορτίου. 16 Κεφάλαιο 1 Κεφάλαιο 2 Κλασική Θεωρία Παιγνίων “ You can’t hide from the Grim Reaper. Especially when he’s got a gun.” Manny Calavera 2.1 Βασικές Έννοιες της Θεωρίας Παιγνίων Στο κεφάλαιο αυτό θα παρουσιάσουμε τις βασικές αρχές που διέπουν την Θεωρία Παιγνίων. Περισσότερη έμφαση δίνουμε στα παίγνια σε στρατηγική μορφή, στις ισορροπίες Nash, στο κόστος τις Αναρχίας, και στο τρεμάμενο χέρι, καθώς αυτές οι έννοιες θα μας απασχολήσουν στα επόμενα κεφάλαια. Θα επικεντρωθούμε στον τυπικό όρισμό των παραπάνω εννοιών και θα παραλείψουμε τις αποδείξεις, καθώς αυτές μπορούν να βρεθούν σε οποιδήποτε εισαγωγικό στην θεωρία παιγνίων βιβλίο. Παραπέμπουμε στα [7], [8] και [9]. Οι συμβολισμοί που θα χρησιμοποιούμε είναι οι ίδιοι με το βιβλίο Algorithmic Game Theory [10] 2.1.1 Το Αντικείμενο της Θεωρίας Παιγνίων Όπως δηλώνει το όνομά της, αντικείμενο της θεωρίας Παιγνίων είναι το παίγνιο. Πως μπορούμε όμως να ορίσουμε ένα παίγνο ή κοινώς, παιχνίδι; Στην καθημερινότητα αντιλαμβανόμαστε ένα παιχνίδι ως μια δραστηριότητα στην οποία οι εμπλεκόμενοι ανταγωνίζονται μεταξύ τους υπακούωντας σε κάποιους συγκεκριμένους κανόνες. Στην πραγματικότητα όμως, τα παίγνια που γνωρίζουμε απο την καθημερινότητα μας αποτελούν μονάχα ένα μικρό υποσύνολο των παιγνίων που μελετά η θεωρία. Τα μοντέλα της θεωρίας παιγνίων είναι αφαιρετικές αναπαραστάσεις των πραγματικών καταστάσεων. Μέρος 18 Κεφάλαιο 2 της ομορφιάς της θεωρίας παιγνίων έγκειται σε αυτό ακριβώς το γεγονός - η αφαιρετικότητα των μοντέλων προσφέρεται για την μελέτη ένα μεγάλου εύρους φαινομένων. Για παράδειγμα, έννοιες τις θεωρίας παιγνίων χρησιμοποιούνται για να αναλυθούν ολιγοπώλεια, ο πολιτικός ανταγωνισμός, η βιολογική εξελικτική διαδικασία ή και κοινωνικές νόρμες όπως οι υποσχέσεις και οι απειλές. Σκοπός λοιπόν της θεωρίας παιγνίων είναι να μας βοηθήσει να αναλύσουμε καταστάσεις στις οποίες αλληλεπιδρούν τουλάχιστον δύο οντότητες, κάθε μία από τις οποίες καλείται να λάβει μία η περισσότερες αποφάσεις. Οι οντότητες αυτές ονομάζονται παίκτες και βασική υπόθεση μας είναι πως κάθε παίκτης είναι εφυής και λογικός. Στην γλώσσα της θεωρίας παιγνίων οι έννοιες της λογικής και της εφυίας έχουν ειδική σημασία. Ένας παίκτης είναι λογικός όταν λαμβάνει τις αποφάσεις του με βάση την επίτευξη των προσωπικών του στόχων. Για να περιγράψουμε μαθηματικά το γεγονός αυτό, θα στηριχτούμε στην έννοια της ωφέλειας, η οποία αναπτύχθηκε απο τους Samuelson [11] και Von Neumann [1] . Σύμφωνα με αυτήν, ο στόχος κάθε παίκτη είναι η μεγιστοποίηση της αναμενόμενης τιμής μίας προσωπικής συνάρτησης ωφελείας, η οποία εξαρτάται όχι μόνο από την απόφαση του ίδιου αλλά και απο τις αποφάσεις των άλλων παικτών. Να σημειώσουμε πως η υπόθεση λογικών παικτών δεν σημαίνει πως μελετάμε αποκλειστικά εγωιστικούς παίκτες, με την έννοια οτι θα ακολουθούσαν αμοραλιστικές στρατηγικές προκειμένου να ικανοποιηθούν. Για παράδειγμα, θα μπορούσε η ωφέλεια κάποιου παίκτη να μεγιστοποιείται όταν αυτός επιτυγχάνει το μεγαλύτερο κοινωνικό όφελος και ας ζημειώνεται ο ίδιος περισσότερο. Κάθε παικτης είναι επίσης εφυής . Αυτό σημαίνει πως γνωρίζει τα πάντα σχετικά με το παίγνιο στο οποίο εμπλέκεται (π.χ. τους κανόνες του παιγνίου, τις εναλλακτικές του ενέργειες, τις προτιμήσεις των άλλων παικτών), έχει την ικανότητα να αξιοποιεί τις γνώσεις του ώστε να εξάγει εύλογα συμπεράσματα και διαλέγει την στρατηγική του ύστερα από κάποια διαδικασία βελτιστοποίησης. 2.1.2 Κατηγορίες Παιγνίων Είδαμε πως η Θεωρία Παιγνίων ευελπιστεί να περιγράψει όλες τις καταστάσεις που αλληλεπιδρούν εγωιστικές οντότητες. Για αυτόν τον σκοπό, χρειάζεται να διακρίνουμε τις διαφορετικές οικογένειες παιγνίων, να εξετάσουμε τις ιδιότητες που κάθε μία από αυτές έχει, και έπειτα να τις εκμεταλλευτούμε για να ορίσουμε τις κατάλληλες έννοιες λύσης. Μπορούμε γενικά να διαχωρίσουμε τα παίγνια σε τέσσερις βασικές κατηγορίες: τα παίγνια σε στρατηγική μορφή, τα παίγνια σε εκτεταμένη μορφή με τέλεια και ατελή πληροφόρηση, και τα συνεργατικά παιγνια. Θα περιγράψουμε παρακάτω μερικές απο τις ιδιαιτερότητες κάθε κατηγορίας στις οποίες βασίζεται αυτός ο διαχωρισμός. Ένα παίγνιο είναι σε στρατηγική ή κανονική μορφή, όταν κάθε παίκτης επιλέγει το πλάνο δράσης του μία μόνο φορά και όλοι οι παίκτες αποφασίζουν ταυτόχρονα. Συνεπώς οι παίκτες λαμβάνουν τις αποφάσεις τους εν αγνοία των αποφάσεων των άλλων παικτών. Αντίθετα, ένα παίγνιο σε στρατηγική μορφή καθορίζεται από τις δυνατές αλληλουχίες γεγονότων. Κάθε παί- 2.1 Βασικές Έννοιες της Θεωρίας Παιγνίων 19 κτης μπορεί να κληθεί να λάβει μία απόφαση όχι μόνο στην αρχη, αλλά και κατά την εξέλιξη του παιγνίου. Μπορούμε να διαχωρίσουμε περαιτέρω τα παίγνια σε εκτεταμένη μορφή ανάλογα με την πληροφόρηση που έχουν οι παίκτες. Σε ένα παίγνιο τέλειας πληροφόρησης οι παίκτες ειναι πλήρως ενημερωμένοι σχετικά με τις κινήσεις των υπολοίπων παικτών. Αντίθετα σε ένα παίγνιο ατελούς πληροφόρησης οι παίκτες ενδέχεται να μην έχουν πλήρη πληροφόρηση για τις πράξεις που έχουν γίνει. Με τον τρόπο αυτό μοντελοποιείται όχι μόνο η αβεβαιότητα ενός παίκτη για τις κινήσεις των άλλων, αλλά και η πολύ ρεαλιστική κατάσταση όπου ο παίκτης ξεχνάει τι έχει συμβεί μέχρι το εκάστοτε στάδιο του παιγνίου. Η θεωρία παιγνίων θεωρεί πως οι παίκτες δρουν ατομικά, δηλαδή κάθε παίκτης παιρνει τις αποφάσεις του χωρίς να έχει συνεννοηθεί με τους άλλους παίκτες. Τότε έχουμε ένα μη συνεργατικό παίγνιο. Παρόλα αυτά, πολλές φορές οι παίκτες μπορούν να συγκροτήσουν ομάδες που λαμβάνουν αποφάσεις από κοινού. Στην περίπτωση αυτή έχουμε ενα συνεργατικό παίγνιο. 2.1.3 Στρατηγικά Παίγνια Μέχρι τώρα αναφερόμασταν στα παίγνια με τρόπο μη τυπικό όταν συζητούσαμε για τους παίκτες, την ωφέλεια τους και τις στρατηγικές που διαλέγουν. Στην ενότητα αυτή θα δώσουμε τον επίσημο ορισμό των στρατηγικών παιγνίων, που αποτελούν τις πιο συχνά απαντώμενες περιπτώσεις. Eνα στρατηγικό παίγνιο G αποτελείται από ένα σύνολο παικτών n . Κάθε παίκτης i έχει το δικό του σύνολο διαθέσιμων ενεργειών Si . Για να παίξει το παίγνιο, κάθε παίκτης πρέπει να διαλέξει μία στρατηγική si ∈ Si . Θα συμβολίζουμε με s = (s1 , s2 , . . . , sn ) το διάνυσμα (ή περίγραμμα) στρατηγικών που επιλέγουν οι παίκτες, μία για κάθε παίκτη. Το σύνολο S = ×i Si περιέχει όλα τα πιθανά διανύσματα στρατηγικών, δηλαδή όλους τους πιθανούς συνδυσμούς με τους οποίους οι παίκτες μπορούν να επιλέξουν στρατηγικές. Το διάνυσμα στρατηγικών s ∈ S που διαλέγουν οι παίκτες ορίζει το κέρδος για κάθε παίκτη. Συμβολίζουμε με ui : S → R την συνάρτηση ωφελείας του παίκτη i. Η συνάρτηση ωφελείας λειτουργεί με τον εξής τρόπο: αν ο παίκτης i προτιμά το διάνυσμα στρατηγικών S1 από το διάνυσμα στρατηγικών S2 τότε ui (S1 ) > ui (S2 ). Σε αυτό το σημείο είναι σημαντικό να τονίσουμε το εξής: αν η συνάρτηση ωφέλειας για κάθε παίκτη εξαρτιόταν μόνο από την στρατηγική που διάλεγε ο παίκτης αυτός, τότε θα είχαμε n διαφορετικά και ανεξάρτητα προβλήματα βελτιστοποίησης. Εδώ εντοπίζεται και η σημαντική διαφορά με τα παίγνια - το κέρδος κάθε παίκτη δεν εξαρτάται μόνο από την δική του στρατηγική αλλά και από τις στρατηγικές που διαλέγουν οι άλλοι παίκτες. 2.1.4 Μικτές Στρατηγικές Η έννοια της μικτής στρατηγικής χρησιμοποιείται για να μοντελοποιηθεί η περίπτωση στην οποία οι παίκτες δεν διαλέγουν ντετερμινιστικά κάποια ενέργεια από το σύνολο των διαθέ- 20 Κεφάλαιο 2 σιμων ενεργειών τους, αλλά χρησιμοποιούν έναν πιθανοκρατικό τρόπο επιλογής. Έτσι, ο παίκτης i μπορεί να επιλέξει οποιαδήποτε μικτή στρατηγική pi ∈ ∆(Si ), όπου το ∆(Si ) συμβολίζει το σύνολο όλων των πιθανοτικών κατανομών πάνω στο Si . Όταν η στρατηγική pi θέτει πιθανότητα 1 σε μία μόνο ενέργεια τότε την καλούμε αγνή στρατηγική. Ο τυπικός ορισμός του συνόλου μικτών στρατηγικών για τον παικτη i είναι { } ∑ ∆(Si ) = pi : Si → [0, 1] έτσι ώστε pi (si ) = 1 si ∈Si Αντίστοιχα με την προηγούμενη ενότητα, οι μικτές στρατηγικές που οι παίκτες ακολουθούν σε ένα παίγνιο ορίζουν το μικτό διάνυσμα (ή περίγραμμα) στρατηγικών, το οποίο θα συμβολίζουμε με p = (p1 , p2 , . . . , pn ). Το σύνολο ∆(S) = ×i ∆(Si ) περιέχει όλα τα πιθανά μικτά διανύσματα στρατηγικών. H χρήση τυχαιότητας από πλευράς των παικτών τυχαιοποιεί και το αποτέλεσμα του παιγνίου. Έτσι για να βρούμε τι κερδίζει κάθε παίκτης στο μικτό διάνυσμα στρατηγικών p θα ορίσουμε την αναμενόμενη ωφέλεια του παίκτη i ως ( ) ∑ ∏ ui (p) = pj (sj ) ui (s) s∈S j∈n H επιλογή στρατηγικών με στοχαστικό τρόπο δεν είναι απλά ένα μαθηματικό εργαλείο αλλά απαντάται σε πολλά παίγνια της καθημερινότητας. Για παράδειγμα, οι παίκτες στο πόκερ επιλέγουν με τυχαίο τρόπο πότε θα μπλοφάρουν και οι κυβερνήσεις εκτελούν με τυχαίο τρόπο ελέγχους για φοροδιαφυγή. 2.2 Λύσεις των Παιγνίων Όπως αναφέραμε στα προηγούμενα κεφαλαια, ένα παίγνιο περιγράφει μία κατάσταση στην οποία αλληλεπιδρούν δύο ή περισσότεροι παίκτες που καλούνται να πάρουν κάποιες αποφάσεις. Ένα παίγνιο ορίζει το σύνολο τω παικτών, το σύνολο των στρατηγικών, δηλαδή των αποφάσεων που μπορεί να πάρει κάθε παίκτης, καθώς και τους προσωπικούς στόχους που έχει κάθε παίκτης. Παρόλα αυτά, ένα παίγνιο δεν καθορίζει τις ενέργειες που τελικά ακολουθούν οι παίκτες. Μία λύση στην θεωρία παιγνίων είναι η συστηματική περιγραφή των εκβάσεων που μπορεί να έχει ένα παίγνιο. Ορίζουμε λοιπόν εύλογες έννοιες λύσης για διάφορα παίγνια και οικογένειες παιγνίων και μελετούμε τις ιδιότητες τους. 2.2.1 Κυριαρχούσες Στρατηγικές Mία μεγάλη οικογένεια παιγνίων μοιράζονται την εξής βασική ιδιότητα: στα παίγνια αυτά, κάθε παίκτης έχει μια μοναδική βέλτιστη στρατηγική, ανεξάρτητα από τις στρατηγικές που 2.2 Λύσεις των Παιγνίων 21 επιλέγουν οι άλλοι παίκτες. Θα λέμε πως τα παίγνια με αυτήν την ιδιότητα έχουν μία λύση κυριαρχούσας στρατηγικής. Ας δούμε τώρα τον πιο τυπικό ορισμό της κυριαρχούσας στρατηγικής. Για κάποιο διάνυσμα στρατηγικών s ∈ S θα συμβολίζουμε με si την στρατηγική του παίκτη i και με s−i το (n-1)-διάστατο διάνυσμα με τις στρατηγικές όλων των άλλων παικτών. Υπενθυμίζουμε πως συμβολίζαμε την ωφέλεια του παίκτη i με ui (s). Εδώ θα χρησιμοποιούμε, όπου αυτό είναι πιο βολικό, τον συμβολισμό ui (si , s−i ). Χρησιμοποιώντας τους παραπάνω συμβολισμούς, θα λέμε πως ένα διάνυσμα στρατηγικών s ∈ S είναι μία λύση κυριαρχούσας στρατηγικής, αν για κάθε παίκτη i και για κάθε εναλλακτικό διάνυσμα στρατηγικών s′ ∈ S ισχύει πως ui (si , s′−i ) ≥ ui (s′i , s′−i ) Σε αυτό το σημείο είναι σημαντικό να τονίσουμε πως μία λύση κυριαρχούσας στρατηγικής δεν αποφέρει πάντα την μέγιστη ωφέλεια στους παίκτες. Αυτό μπορεί να το δει κανείς σε πολλά γνωστά παιγνια όπως το Δίλημμα των Φυλακισμένων [12]. Εδώ γίνεται φανερό πως πολλές φορές στα παίγνια η συνεργασία είναι προτιμότερη από την ανταγωνιστική συμπεριφορά. Η ύπαρξη μοναδικής κυριαρχούσας στρατηγικής είναι λοιπόν μία αυστηρή απαίτηση την οποία ικανοποιεί ένας πολύ περιορισμένος αριθμός παιγνίων. 2.2.2 Ισορροπίες Nash Αφού όπως είδαμε στην προηγούμενη ενότητα, ένας πολύ περιορισμένος αριθμός παιγνίων έχουν λύση κυριαρχούσας στρατηγικής, πρέπει να αναζητηθεί μία άλλη λιγότερο αυστηρή και ευρύτερα εφαρμόσιμη έννοια λύσης. Μία κατάλληλη απο παιγνιοθεωρητικής άποψης έννοια λύσης, θα πρέπει να λαμβάνει υπόψην την εγωιστική φύση των παικτών και το γεγονός πως αυτοί αποζητούν την μεγιστοποίηση της προσωπικής τους ωφέλειας. Την ιδέα αυτή προσεγγίζει καλύτερα η Ισορροπία Nash, η οποία προτάθηκε από τον John Νash το 1951 [3] και αποτελεί την κεντρική έννοια λύσης της Θεωρίας Παιγνίων με εξαιρετικά πολλές και ποικίλες εφαρμογές. Η ισορροπία Nash αποτελεί το παιγνιοθεωρητικό αντίστοιχο μιας σταθερής κατάστασης ενός φυσικού συστήματος. Ένα φυσικό σύστημα έχει φτάσει σε μία σταθερή κατάσταση, όταν οι εσωτερικές δυνάμεις του συστήματος εξισορροπούν η μία την άλλη, αφήνοντας το σε ”ηρεμία”. Αντίστοιχα, ένα παίγνιο έχει φτάσει σε μία ισορροπία Nash όταν οι παίκτες ακολουθούν ένα διάνυσμα στρατηγικών s από το οποίο κανένας παίκτης δεν μπορεί να αυξήσει την ωφέλειά του αποκλίνοντας μονομερώς. Έτσι φτάνουμε στην πιο τυπική περιγραφή της ισορροπίας Nash. Θα λέμε πως ενα διάνυσμα στρατηγικών s ∈ S είναι ισορροπία Nash αν για όλους τους παίκτες i και για κάθε διαφορετική στρατηγική s′i ∈ Si , ισχύει πως ui (si , s−i ) ≥ ui (s′i , s−i ) 22 Κεφάλαιο 2 Με άλλα λόγια, σε μία ισορροπία Nash κανένας παίκτης i δεν μπορεί να αλλάξει την στρατηγική του από si σε s′i και να αυξήσει την ωφέλεια του, όσο οι άλλοι παίκτες δεν αποκλίνουν από τις στρατηγικές που διαλέγουν σύμφωνα με το διάνυσμα στρατηγικών s. Μια ισορροπία Nash επιβάλλεται από τους παίκτες στον εαυτό τους, με την έννοια πως αν φτάσουν σε αυτήν, είναι σύμφωνο με το συμφέρον τους να μην αλλάξουν ποτέ στρατηγική. Από τα παραπάνω είναι προφανές πως μία λύση κυριαρχούσας στρατηγικής αποτελεί και μία ισορροπία Nash του παιγνίου. Αυτό όμως μας δείχνει πως ούτε οι ισορροπίες Nash αποφέρουν την βέλτιστη ωφέλεια στους παίκτες. Συγκεκριμένα ένα παίγνιο μπορεί να έχει πολλές ισορροπίες Nash, και κάθε μία από τις οποίες να έχει μεγάλη διαφορά στην ωφέλεια που αποκομίζει ο κάθε παίκτης. Από το γεγονός αυτό ανακύπτει το εύλογο ερώτημα για το ποια ισορροπία Nash επιλέγουν τελικά οι παίκτες και πως τελικά θα συντονιστούν για να επιλέξουν την ίδια ισορροπία. Οι ισορροπίες Nash στις οποίες αναφερθήκαμε μέχρι τώρα ονομάζονται αγνές ισορροπίες Nash λόγω του γεγονότος πως κάθε παίκτης παίζει ντετερμινιστικά την στρατηγική του, παίζει δηλαδή μία αγνή στρατηγική. Υπάρχουν πολλά παίγνια τα οποία δεν έχουν αγνή ισορροπία Nash. Για παράδειγμα στα παίγνια μηδενικού αθροίσματος, παίγνια με το βασικό χαρακτηριστικό πως το κέρδος ενός παίκτη αποφέρει μία ισομεγέθη απώλεια για τον άλλον παίκτη, είναι φυσικό να καταλάβουμε γιατί δεν υπάρχουν αγνές ισορροπίες Nash. Επεκτείνουμε λοιπόν τις διαθέσιμες στρατηγικές στις μικτές στρατηγικές. Σε μία μικτή στρατηγική, κάθε παίκτης δεν επιλέγει μόνο μία στρατηγική, αλλά μπορεί πλέον να επιλέξει μία οποιαδήποτε πιθανοτική κατανομή πάνω στο σύνολο των διαθέσιμων στρατηγικών του. Σύφωνα με τον ορισμό αυτό, μία αγνή στρατηγική είναι η υποπερίπτωση μικτής στρατηγικής όπου ο παίκτης επιλέγει πιθανοτική κατανομή που δίνει πιθανότητα 1 σε μία συγκεκριμένη στρατηγική. Μία ισορροπία Nash όπου οι παίκτες επιτρέπεται να παίζουν μικτές στρατηγικές καλείται μικτή ισορροπία Nash. O Nash απέδειξε στο [3] πως κάθε παίγνιο με πεπερασμένο αριθμό παικτών καθένας από τους οποίους έχει πεπερασμένο αριθμό διαθέσιμων στρατηγικών, έχει τουλάχιστον μία μικτή ισορροπία Nash. Υπολογισμός Ισορροπιών Nash Όπως είδαμε, το θεώρημα του Nash εγγυάται πως κάθε πεπερασμένο παίγνιο έχει τουλάχιστον μία ισορροπία Nash. Ωστόσο, η απόδειξη του θεωρήματος του Nash είναι μη κατασκευαστική, υπό την έννοια πως δεν υποννοεί κάποιον αλγόριθμο υπολογισμού της ισορροπίας. Το μεγάλο άλμα στον χαρακτηρισμό της πολυπλοκότητας εύρεσης ισορροπιών Nash έγινε πρόσφατα από τους Daskalakis, Goldberg και Papadimitriou [4], οι οποίοι έδειξαν πως το πρόβλημα υπολογισμού ισορροπίας Nash είναι PPAD-πλήρες. Η κλάση PPAD είναι μία κλάση η οποία από πλευράς πολυπλοκότητας βρίσκεται μεταξύ της P και της NP. Η απόδειξη PPADπληρότητας ενός προβλήματος είναι λοιπόν ένα αποτέλεσμα ασθενέστερο από το να δείξει κανείς πως το πρόβλημα είναι NP-πλήρες. Παρόλα αυτά έχουμε ισχυρές ενδείξεις που υποννούν πως τέτοια προβλήματα είναι δυσεπίλυτα. 2.2 Λύσεις των Παιγνίων 2.2.3 23 Τρεμάμενο Χέρι Η έννοια του Τρεμάμενου Χεριού επιννοήθηκε από τον οικονομολόγο Reinhard Selten και οδήγησε σε μία εκλέπτυνση της ισορροπίας Nash που ονομάζεται τέλεια Ισορροπία Nash. Mία τέλεια ισορροπία Nash λαμβάνει υπόψην την πιθανότητα να ακολουθήσει ένας παίκτης στρατηγική διαφορετική με αυτή που υπαγορεύει η εκάστοτε ισορροπία Nash. Αυτό συμβαίνει ως αποτέλεσμα του τρεμάμενου χεριού του παίκτη, το οποίο τον αναγκάζει με μία μικρή πιθανότητα να επιλέξει διαφορετική στρατηγική από αυτήν που πραγματικά θέλει. Για να δώσουμε τον τυπικό ορισμό της τέλειας ισορροπίας Nash αρχικά πρέπει να ορίσουμε το ϵ-διαταραγμένο παίγνιο. Σε ένα ϵ-διαταραγμένο παίγνιο, υπάρχει ο περιορισμός πως οι παίκτες μπορούν να επιλέξουν μόνο πλήρως μικτές στρατηγικές. Μία πλήρως μικτή στρατηγική αναθέτει θετική πιθανότητα σε κάθε αγνή στρατηγική. Έτσι, αν ο παίκτης i διαλέξει την στρατηγική si ∈ Si τότε τελικά παίζει την στρατηγική αυτή με πιθανότητα 1 − ϵ και κάθε άλλη στρατηγική με πιθανότητα ϵ ομοιμόμορφα κατανεμημένη πάνω στο Si \ si . Θα λέμε λοιπόν πως για ένα παίγνιο G, ένα διάνυσμα στρατηγικών s είναι τέλεια ισορροπία Nash αν υπάρχει μία ακολουθία ϵ-διαταραγμένων παιγνίων τα οποία συγκλίνουν στο G και για τα οποία υπάρχει μία ακολουθία ισορροπιών Nash η οποία συγκλίνει στην s. Η ιδέα πως η απόφαση ενός παίκτη και η πράξη που τελικά ακολουθεί μπορεί να διαφέρουν μπορεί να ερμηνευθεί με διάφορους τρόπους. Το τρεμάμενο χέρι αρχικά μοντελοποιεί την περίπτωση που ένας παίκτης έχει την πεποίθηση πως κάποιος άλλος παίκτης μπορεί ναι μεν να είναι λογικός και εφυής, αλλά παρόλο που παίρνει την σωστή απόφαση δεν μπορεί να την υλοποιήσει σωστά. Μοντελοποιεί επίσης την πεποίθηση όπου δεν έχει εκτιμήσει καλά την συνάρτηση ωφελείας των άλλων παικτών. Από μία διαφορετική πλευρά, η έννοια του τρεμάμενου χεριού μπορεί να χρησιμοποιηθεί για να προσεγγιστεί το φαινόμενο της κοινωνικής μάθησης. Οι παίκτες, δηλαδή στην συγκεκριμένη περίπτωση οι άνθρωποι, πρέπει να μάθουν με κάποιον τρόπο τις στρατηγικές που αντιστοιχούν σε ισορροπίες Nash στα παίγνια που παίζουν στην καθημερινή τους ζωή. Έρευνες έχουν δείξει πως ακόμα και πολύ απλά παίγνια όπως το δίλημμα των φυλακισμένων χρειάζονται μία διαδικασία μάθησης μέχρι οι παίκτες να ισορροπήσουν [13] [14]. Έτσι όταν κάποιος παίκτης έχει την πεποίθηση πως οι άλλοι παίκτες δεν ξέρουν ακόμα τις στρατηγικές που αντιστοιχούν σε ισορροπίες Nash, αυτό αφαιρεί το κίνητρό του να παιξει ο ίδιος σύμφωνα με την ισορροπία Nash. Το γεγονός αυτό εγείρει ενδιαφέρουσες ερωτήσεις, όπως το πως μπορεί ένας άπειρος παίκτης να μάθει τις ισορροπίες Nash αν οι πιο έμπειροι παίκτες δεν παίζουν σύμφωνα με αυτές. Παρατηρήσαμε λοιπόν σύμφωνα με τα παραπάνω πως το τρεμάμενο χέρι, αν και μία πολύ απλή παιγνιοθεωρητική έννοια, θίγει πολλά και ενδιαφέροντα ζητήματα του κλάδου. 24 Κεφάλαιο 2 Κεφάλαιο 3 Εξισορρόπηση Φορτίου “ Has the Perrier gone straight to my head? Or is life sick and cruel instead?” Morrissey Oποτεδήποτε έχουμε ένα σύνολο εργασιών το οποίο πρέπει να εκτελεστεί χρησιμοποιώντας ένα σύνολο πόρων, προκύπτει το πρόβλημα εξισορρόπησης φορτίου. Στο κλασικό αυτό πρόβλημα, θέλουμε να βρούμε μία ανάθεση των εργασιών στους πόρους, τέτοια ώστε να τους εκμεταλλευόμαστε με όσο το δυνατόν μεγαλύτερη αποδοτικότητα. 3.1 3.1.1 Το Πρόβλημα Εξισορρόπησης Φορτίου Εισαγωγή Στην επιστήμη των Υπολογιστών, η εξισορρόπηση φορτίου αντιμετωπίζεται παραδοσιακά ως πρόβλημα βελτιστοποίησης. Ο σκοπός συνήθως είναι η ελαχιστοποίηση του μέγιστου φορτίου ανάμεσα σε όλες τις μηχανές. Το πρόβλημα αυτό έχει μελετηθεί εκτενώς και έχουν προταθεί αλγόριθμοι, κεντρικοποιημένοι και καταναμημένοι, οι οποίοι το λύνουν. Στο κεφάλαιο αυτό θα μελετήσουμε το πρόβλημα εξισορρόπησης φορτίου από παιγνιοθεωρητική σκοπιά. Η εκδοχή αυτή του προβλήματος με τρόπο φυσικό, αν παρατηρήσει κανείς την λειτουργία πολλών δικτύων και κατανεμημένων συστημάτων. Για παράδειγμα, στο διαδίκτυο οι εργασίες μπορεί να είναι μεγάλα αρχεία τα οποία οι χρήστες θέλουν να κατεβάσουν από εξυπηρετητές, που εδώ παίζουν τον ρόλο των πόρων. Οι χρήστες συμπεριφέρονται εγωιστικά, δηλαδή ενδιαφέρονται μόνο για την ελαχιστοποίηση χρόνου που απαιτείται για την ολοκλήρωση της εργασίας τους. Ο μεγάλος αριθμός των χρηστών καθιστά δύσκολη την παρουσία μίας κεντρικής αρχής που θα μπορούσε να αναθέτει τις εργασίες στους διαθέσιμους πόρους με τρόπο αποδοτικό. 26 Κεφάλαιο 3 Ο αριθμός των χρηστών και η φύση των εργασιών τους δεν αυξάνει μόνο την δυσκολία του συντονισμού τους αλλά και την δυσκολία υπολογισμού μίας αποδοτικής ανάθεσης σε εύλογο χρόνο. 3.1.2 Το Μοντέλο Ένα Παίγνιο Εξισορρόπησης Φορτίου αποτελείται από: • ένα σύνολο Mηχανών [m] = {1, 2, . . . , m}. Η μηχανή j έχει ταχύτητα sj • ένα σύνολο Παικτών [n] = {1, 2, . . . , n}. O παίκτης i έχει εργασία βάρους wi Αν θεωρήσουμε πως s1 = s2 = . . . = sm τότε έχουμε το μοντέλο των ταυτόσημων μηχανών. Σε κάθε άλλη περίπτωση ασχολούμαστε με το μοντέλο των συσχετιζόμενων μηχανών Κάθε φορά που παίζεται το παίγνιο οι παίκτες αναθέτουν την εργασία τους σε κάποια μηχανή. Βλέπουμε λοιπόν πως το σύνολο [m] αποτελεί και σύνολο στρατηγικών, ίδιο για κάθε παίκτη. Τελικά προκύπτει μία ανάθεση A : [n] → [m]. Άρα αν A(i) = j τότε ο παίκτης i αναθέτει την εργασία του στην μηχανή j. Για κάθε ανάθεση ορίζουμε τα εξής: • το φορτίο της μηχανής j υπό την ανάθεση A, lj = ∑ wi sj i∈[n] A(i)=j • το κοινωνικό κόστος της ανάθεσης A, cost(A) = makespan(A) = max lj ∀j∈[m] Το κοινωνικό κόστος είναι μία μετρική μη ωφελιμιστικού χαρακτήρα. Χρησιμοποιώντας την ως αντικειμενική συνάρτηση στην ανάλυση μας, κατορθώνουμε να μελετάμε ταυτόχρονα το πρόβλημα από πλευράς δικαιοσύνης και αποδοτικότητας. Η δικαιοσύνη εξασφαλίζεται για τους χρήστες του συστήματος αφού ελαχιστοποιώντας το κοινωνικό κόστος, ελαχιστοποιούμε ουσιαστικά το μέγιστο φορτίο και συνεπώς τον μέγιστο υπολογιστικό χρόνο σε οποιαδήποτε μηχανή. Φυσικά, οι παίκτες μπορούν να χρησιμοποιούν μικτές στρατηγικές, δηλαδή να διαλέγουν με τρόπο πιθανοτικό την μηχανή στην οποία θα αναθέσουν την εργασία τους. Έστω pji η πιθανότητα με την οποία ο παίκτης i αναθέτει την εργασία του στην μηχανή j. Όλες οι πιθανότητες για όλους τους παίκτες, ορίζουν το διάνυσμα στρατηγικών P = (pji )i∈[n],j∈[m] . Αντίστοιχα με πριν, ορίζουμε τις έννοιες του αναμενόμενου φορτίου μηχανής και αναμενόμενου μέγιστου φορτίου υπό το περίγραμμα στρατηγικών P ως: 3.2 Εξισορρόπηση Φορτιου σε Ταυτόσημες Μηχανές 27 ∑ wi p j i E[lj ] = sj i∈[n] [ ] cost(P ) = E[cost(A)] = E max lj j∈[m] 3.1.3 Το Κόστος της Αναρχίας Το κόστος της αναρχίας είναι μία από τις πιο ενδιαφέρουσες μετρικές για την αποδοτικότητα του παιγνίου εξισορρόπησης φορτίου. Οι εγωιστικοί και λογικοί παίκτες φτάνουν σε μία ισορροπία Nash. Προκύπτει η εξής ερώτηση: πόσο μη αποδοτική είναι η ισορροπία Nash συγκρινόμενη με μία εξιδανικευμένη κατάσταση όπου οι παίκτες θα συνεργάζονταν αλτρουιστικά, πιθανόν συντονιζόμενοι από μία κεντρική αρχή, με τον κοινό σκοπό να ελαχιστοποιήσουν το συνολικό κόστος; To κόστος της Αναρχίας προσφέρει μία ανάλυση χειρότερης περίπτωσης για την εύρεση της σχέσης μεταξύ της βέλτιστης ανάθεσης και της χειρότερης ισορροπίας Nash, ως προς το κοινωνικό κόστος. Η έννοια αυτή παρουσιάστηκε για πρώτη φορά από τους Koutsoupias και Papadimitriou [5]. Ορισμός 3.1. Το Κόστος της Αναρχίας Για m ∈ N , συμβολίζουμε με G(m) το σύνολο όλων των παιγνίων εξισορρόπησης φορτίου με m μηχανές. Για G ∈ G(m), συμβολίζουμε με N ash(G) το σύνολο όλων των διανυσμάτων στρατηγικών τα οποία αποτελούν ισορροπίες Nash για το G. Με opt(G) συμβολίζουμε την ανάθεση με το ελάχιστο κοινωνικό κόστος ανάμεσα σε όλες τις δυνατές αναθέσεις. Τότε το κόστος της Αναρχίας ορίζεται ως cost(P ) G∈G(m) P ∈N ash(G) opt(G) P oA(m) = max 3.2 max Εξισορρόπηση Φορτιου σε Ταυτόσημες Μηχανές Σε αυτήν την ενότητα θα παραθέσουμε τα αποτελέσματα σχετικά με την ύπαρξη αγνών ισορροπιών Nash, τον υπολογισμό τους, καθώς και το κόστος της Αναρχίας για το παίγνιο εξισορρόπησης φορτίου σε ταυτόσημες μηχανές. Υπενθυμίζουμε πως σε αυτήν την εκδοχή, θεωρούμε πως κάθε μηχανή έχει την ίδια ταχύτητα, και συνεπώς μπορούμε να υποθέσουμε χωρίς βλάβη της γενικότητας πως s1 = s2 = . . . = sm = 1 3.2.1 Ύπαρξη Αγνών Ισορροπιών Nash Σύμφωνα με το θεώρημα του Nash για κάθε παίγνιο υπάρχει τουλάχιστον μία ισορροπία Nash. Στην γενική περίπτωση όμως, είδαμε πως δεν υπάρχει πάντα αγνή Ισορροπία Nash, όπως για παράδειγμα στα παίγνια μηδενικού αθροίσματος. Αρχίζουμε με τις συνθήκες που πρέπει να ισχύουν για να είναι μία ανάθεση (διάνυσμα αγνών στρατηγικών) αγνή Ισορροπία Nash. 28 Κεφάλαιο 3 Συμβολίζουμε με cji το κόστος που θα αντιμετωπίσει ο παίκτης i αν υπό την ανάθεση A επιλέξει την μηχανή j. Στην περίπτωση των ταυτοσήμων μηχανών, ∑ cji = wi + wk k̸=i A(k)=j Από το παραπάνω προκύπτει άμεσα η εξής πρόταση: Πρόταση 3.1. Μια ανάθεση A (διάνυσμα αγνών στρατηγικών) είναι αγνή ισορροπία Nash αν A(i) και μόνο αν ∀i ∈ [n] : ∀k ∈ [m] : ci ≤ cki Βλέπουμε λοιπόν πως σε μία αγνή ισορροπία Nash, κανένας παίκτης δεν μπορεί να μειώσει την καθυστέρηση που υφίσταται μετακινώντας την εργασία του σε κάποια άλλη μηχανή. Τα παίγνια εξισορρόπησης φορτίου σε ταυτόσημες μηχανές έχουν την εξής ενδιαφέρουσα ιδιότητα, η οποία αποδείχθηκε από τους Fotakis et al. [15] και μπορει επίσης να βρεθεί στην εργασια των Even-Dar et al. [16]. Θεώρημα 3.1. Κάθε στιγμιότυπο του παιγνίου εξισορρόπησης φορτίου σε ταυτόσημες μηχανές έχει τουλάχιστον μία αγνή ισορροπία Nash Απόδειξη. Μία ανάθεση A έχει ως αποτέλεσμα ένα ταξινομημένο διάνυσμα βαρών λ = (λ1 , . . . , λm ), όπου με λj συμβολίζουμε το φορτίο της μηχανής η οποία έχει το j-οστό μεγαλύτερο φορτίο. Αν η ανάθεση A δεν είναι ισορροπία Nash, αυτό σημαίνει πως υπάρχει ένας παίκτης i ο οποίος μπορεί να εκτελέσει ένα βήμα βελτίωσης, δηλαδή μπορεί να ελαττώσει το κόστος που υφίσταται μετακινώντας την εργασία του σε μία άλλη μηχανή. Αρκεί να δείξουμε πως το διάνυσμα φορτίου που προκύπτει αφότου ο παίκτης i εκτελέσει το βήμα βελτίωσης είναι λεξικογραφικά μικρότερο από το προηγούμενο διάνυσμα φορτίου. Αν το δείξουμε, αυτό σημαίνει πως οι παίκτες φτάνουν σε μία αγνή ισορροπία Nash μετά από έναν πεπερασμένο αριθμό βημάτων. Έστω λοιπόν πως δοθέντος ενός ταξινομημένου διανύσματος βαρών (λ1 , . . . , λm ), o παίκτης i εκτελεί ένα βήμα βελτίωσης και μετακινεί την εργασία του από την μηχανή j στην μηχανή k. Οι δείκτες j, k χρησιμοπούνται σύμφωνα με την θέση τους στο ταξινομημένο διάνυσμα βαρών. Συνεπώς πριν το βήμα βελτίωσης ίσχυε λj > λk . Το βήμα βελτίωσης που εκτέλεσε ο παίκτης i έχει ως αποτέλεσμα το φορτίο της μηχανής j να ελαττωθεί και το φορτίο της μηχανής k να αυξηθεί. Όμως μετά το βήμα βελτίωσης, η μηχανή k πρέπει να συνεχίσει να έχει μικρότερο φορτίο από την μηχανή j, αλλιώς ο παίκτης i δεν θα είχε μετακινήσει την εργασία του εκεί, αφού δεν θα μείωνε το κόστος του. Έτσι, μπορούμε να πούμε πως μετά από το βήμα βελτίωσης ο αριθμός των μηχανών με φορτίο τουλάχιστον λj έχει μειωθεί. Επιπλέον, τα φορτίο οποιασδήποτε άλλης μηχανής με φορτίο τουλάχιστον λj δεν έχουν μεταβληθεί. Συνεπώς, το βήμα βελτίωσης μας δίνει ενα νέο ταξινομημένο διάνυσμα βαρών το οποίο είναι λεξικογραφικά μικρότερο από το (λ1 , . . . , λm ). 3.2 Εξισορρόπηση Φορτιου σε Ταυτόσημες Μηχανές 3.2.2 29 Υπολογισμός Αγνών Ισορροπιών Nash Στην προηγούμενη ενότητα είδαμε την απόδειξη για την ύπαρξη αγνών ισορροπιών Nash για το παίγνιο εξισορρόπησης φορτίου σε ταυτόσημες μηχανές. Δείξαμε πως οποιαδήποτε ακολουθία βημάτων βελτίωσης θα οδηγήσει τελικά σε μία αγνή ισορροπία Nash. Παρόλα αυτά, αν οι παίκτες δεν συγκλίνουν στην ισορροπία Nash σε εύλογο χρονικό διάστημα, τότε τελικά μπορεί και να μην έχει σημασία αν η ισορροπία αυτή υπάρχει και είναι αποδοτική. Έτσι ανακύπτει με τρόπο φυσικό η ερώτηση για το πόσα βήματα βελτίωσης χρειάζονται μέχρι να οδηγηθούμε σε μία ισορροπία Nash. Σύμφωνα με το επόμενο θεώρημα, θα δούμε πως υπάρχει μία μικρή ακολουθία βημάτων βελτίωσης που μας οδηγεί από οποιαδήποτε αρχική ανάθεση σε μία αγνή ισορροπία Nash. Η απόδειξη παρουσιάστηκε για πρώτη φορά στην εργασία των Fotakis et al. [15]. Aς ορίσουμε πρώτα μερικές χρήσιμες έννοιες για την απόδειξή μας. Θα λέμε πως ένας παίκτης είναι ικανοποιημένος (ή κορεσμένος) αν δεν μπορεί να μειώσει το κόστος του αποκλίνοντας μονομερώς από την τρέχουσα ανάθεση και μετακινώντας την εργασία του σε κάποια άλλη μηχανή. Σύμφωνα με την πολιτική βέλτιστης απόκρισης - μέγιστου φορτίου ενεργοποιούμε έναν παίκτη κάθε φορά. Πρώτα θα ενεργοποιούμε τον παίκτη με την εργασία με το μέγιστο φορτίο ανάμεσα από τους μη ικανοποιημένους παίκτες. Ένας ενεργός παίκτης παίζει μία στρατηγική βέλτιστης απόκρισης, μετακινεί δηλαδή την εργασία του στην μηχανή με το ελάχιστο φορτίο. Θεώρημα 3.2. Έστω A : [n] → [m] μία οποιαδήποτε αρχική ανάθεση n εργασιών σε m ταυτόσημες μηχανές. Αρχίζοντας από την ανάθεση , η πολιτική βέλτιστης απόκρισης - μέγιστου φορτίου φτάνει σε μία αγνή ισορροπία Nash αφότου κάθε παίκτης ενεργοποιηθεί το πολύ μια φορά. Απόδειξη. Ισχυριζόμαστε πως όταν ένας παικτης i ∈ [n] ενεργοποιείται και παιζει την βέλτιστη απόκρισή του, τότε αυτός ο παίκτης δεν θα γίνει ποτέ ξανά μη ικανοποιημένος. Ο ισχυρισμός αυτός οδηγεί άμεσα στο θεώρημα μας. Αρχίζουμε την ανάλυση μας με τις ακόλουθες δύο παρατηρήσεις, οι οποίες ισχύουν μόνο για την περίπτωση των ταυτοσήμων μηχανών. Πρώτα, παρατηρούμε πως μία βέλτιστη απόκριση δεν μειώνει σε καμία περίπτωση το ελάχιστο φορτίο ανάμεσα στις μηχανές. Συνέπεια της παρατήρησης αυτής είναι πως ένας ικανοποιημένος παίκτης μπορεί γίνει μη ικανοποιημένος μόνο σε μία περίπτωση: όταν κάποιος άλλος παίκτης μετακινήσει την εργασία του στην ίδια μηχανή που έχει επιλέξει ο παίκτης αυτός. Τότε το φορτίο της μηχανής αυτής αυξάνεται και είναι πιθανόν ο παίκτης να περάσει πάλι στην κατάσταση της μη ικανοποίησης. Έστω πως ο παίκτης k ενεργοποιείται μετά τον παίκτη i, και μετακινεί την εργασία του στην ίδια μηχανή στην οποία ο παίκτης i έχει αναθέσει την εργασία του. Έστω j ∗ η μηχανή αυτή. Για τις μηχανές j ∈ [m], συμβολίζουμε με lj το φορτίο της μηχανής j ακριβώς μετά από την βέλτιστη απόκριση του παίκτη k. Αφού η ανάθεση της εργασίας του παίκτη k στην μηχανή 30 Κεφάλαιο 3 j ∗ είναι βέλτιστη απόκριση και ισχύει wk ≤ wi λόγω της πολιτικής βέλτιστης απόκρισης μέγιστου φορτίου, τότε για κάθε j ∈ [m] λj ∗ ≤ λj + w k ≤ λj + w i Συνεπώς, έπειτα από την βέλτιστη απόκριση του παίκτη k, ο παίκτης i παραμένει ικανοποιημένος στην μηχανή j ∗ αφού δεν μπορεί να μειώσει το κόστος του μετακινώντας την εργασία του σε οποιαδήποτε άλλη μηχανή. Στο σημείο αυτό πρέπει να σημειώσουμε πως η σειρά ενεργοποίησης των παικτών είναι ζωτικής σημασίας για τον χρόνο που χρειάζεται για να φτάσουν σε μία ισορροπία Nash. Για παράδειγμα, αν ενεργοποιούσαμε τον παίκτη με το ελάχιστο βάρος ανάμεσα από τους μη ικανοποιημένους παίκτες, τότε υπάρχουν στιγμιότυπα του παιγνίου όπου χρειάζεται εκθετικός αριθμός βέλτιστων αποκρίσεων για να φτάσουμε σε κατάσταση ισορροπίας. Η απόδειξη μπορει να βρεθεί στην εργασια των Even-Dar et al. [16]. 3.2.3 Αγνό Κόστος της Αναρχίας Στην περίπτωση των αγνών ισορροπιών Nash και των ταυτοσήμων μηχανών, η ανάλυση για το κόστος της αναρχίας είναι παρόμοια με την ανάλυση για τον άπληστο αλγόριθμο εξισορρόπησης φορτίου. Ο αλγόριθμος αυτός αναθέτει τις εργασίες σε μηχανές με αυθαίρετη σειρά, αναθέτοντας κάθε εργασία στην μηχανή με το ελάχιστο φορτίο. Ο Graham [17] έδειξε πως ο προσεγγιστικός παράγοντας του άπληστου αλγορίθμου είναι 2 − m1 . Θα δείξουμε πως το κόστος της αναρχίας είναι στην πραγματικότητα λίγο μικρότερο. Το άνω φράγμα του κόστους της Αναρχίας βρέθηκε από τους Czumaj και Vöcking [18], ενώ υπάρχει και στην εργασια των Koutsoupias et al. [19] Θεώρημα 3.3. Έστω ένα στιγμιότυπο G του παιγνίου εξισορρόπησης φορτίου με [n] εργασίες φορτίων w1 , . . . , wn και m ταυτόσημες μηχανές. Έστω : [n] → [m] μία οποιαδήποτε ανάθεση η οποία αποτελεί ισορροπία Nash για το παίγνιο. Τότε ( ) 2 cost(A) ≤ 2 − opt(G). m+1 Απόδειξη. Έστω j ∗ η μηχανή με το μέγιστο φορτίο υπό την ανάθεση A, και i∗ η εργασία με το ελάχιστο φορτίο που έχει ανατεθεί στην μηχανή j ∗ . Χωρίς βλάβη της γενικότητας, μπορούμε να υποθέσουμε πως υπάρχουν τουλάχιστον 2 εργασίες που έχουν ανατεθεί στην μηχανή j ∗ γιατί, διαφορετικά, cost(A) = opt(G) άρα το θεώρημα μας ισχύει με τρόπο τετριμμένο. Επομένως wi∗ ≤ 12 cost(A). Έστω λοιπόν πως υπάρχει μηχανή j ∈ [n] \ {j ∗ } με φορτίο μικρότερο από lj ∗ − wi∗ . Tότε μετακινώντας την εργασία i∗ από την μηχανή j ∗ στην j, ο παίκτης θα μείωνε το κόστος του. Συνεπώς, αφού το A είναι ισορροπία Nash ισχύει 3.2 Εξισορρόπηση Φορτιου σε Ταυτόσημες Μηχανές 31 1 1 lj ≥ lj ∗ − wi∗ ≥ cost(A) − cost(A) = cost(A) 2 2 Παρατηρούμε τώρα πως το κοινωνικό κόστος της βέλτιστης ανάθεσης δεν μπορεί να είναι μικρότερο από το μέσο φορτίο των μηχανών στην ανάθεση A, συνεπώς ∑ opt(G) ≥ = i∈[n] wi ∑ m j∈[m] lj m cost(A) + 12 cost(A)(m − 1) ≥ m (m + 1)cost(A) = . 2m Συνεπώς, 2m cost(A) ≤ opt(G) = m+1 ( 2− ) 2 opt(G). m+1 32 Κεφάλαιο 3 Κεφάλαιο 4 Εξισορρόπηση Φορτίου με Τρεμάμενο Χέρι “ If you want to achieve something that is difficult, you must first make it easy” Bertolt Brecht 4.1 To Παίγνιο Εξισορρόπησης Φορτίου με Τρεμάμενο Χέρι Στην ενότητα αυτή θα ορίσουμε μία διαφορετική εκδοχή του παιγνίου εξισορρόπησης φορτίου, που αποτελεί συγκερασμό του με την έννοια του τρεμάμενου χεριού, με την οποία ασχοληθήκαμε στην ενότητα 2.2.4. 4.1.1 Oρισμός Το παίγνιο εξισορρόπησης φορτίου με τρεμάμενο χέρι (THLB) ορίζεται όπως το κλασικό παίγνιο εξισορρόπησης φορτίου με την εξής διαφορά: οι παίκτες, ως αποτέλεσμα του τρεμάμενου χεριού τους, μπορεί να υποπέσουν σε λάθος με μία μικρή πιθανότητα και να διαλέξουν διαφορετική στρατηγική από αυτήν που είχαν αποφασίσει. Εδώ θα μελετήσουμε το παίγνιο THLBΙ, δηλαδή το THLB για ταυτόσημες μηχανές. Υπενθυμίζουμε πως στο μοντέλο των ταυτόσημων μηχανών ισχύει s1 = . . . = sm = 1. Παραθέτουμε πρώτα τον τυπικό ορισμό του THLBI. Ορισμός 4.1. THLBΙ Το παίγνιο εξισορρόπησης φορτίου με τρεμάμενο χέρι για ταυτόσημες μηχανές αποτελείται από • ένα σύνολο παικτών [n] 34 Κεφάλαιο 4 • ένα σύνολο βαρών [w]. H εργασία του παίκτη i έχει βάρος wi • ένα σύνολο μηχανών [m] • μία πιθανότητα λάθους ϵ Ας δούμε τώρα πως λειτουργεί η πιθανότητα λάθους στο μοντέλο μας. Kάθε παίκτης ξέρει πως υπάρχει πιθανότητα να υποπέσει σε σφάλμα και να διαλέξει λανθασμένη στρατηγική και ο ίδιος αλλά και οι υπόλοιποι παίκτες. Έτσι, δοθείσας κάποιας ανάθεσης A : [n] → [m], αν για τον παίκτη i ∈ [n] ισχύει A(i) = j τότε: • ο παίκτης i αναθέτει την εργασία του στην μηχανή j, με πιθανότητα 1 − ϵ • o παίκτης i αναθέτει την εργασία του σε κάποια μηχανή διαλεγμένη ομοιόμορφα μέσα από το [m] \ j, με πιθανότητα ϵ. Ουσιαστικά, επιλέγει κάθε άλλη μηχανή k ̸= j με ϵ πιθανότητα m−1 4.1.2 Περιορισμοί στην πιθανότητα λάθους ϵ H πιθανότητα λάθους, όπως και οποιαδήποτε πιθανότητα, μπορεί να κυμαίνεται μέσα στο σύνολο τιμών [0, 1]. Για το μοντέλο μας, υποθέτουμε πως ισχύει ο ακόλουθος περιορισμός για την τιμή της m−1 m ϵ 1−ϵ> m−1 ϵ< (4.1) (4.2) Οι (4.1) και (4.2) είναι διαφορετικές μορφές της ίδιας σχέσης και αποτελούν έναν πολύ φυσικό περιορισμό. O περιορισμός που επιβάλλαμε μας εγγυάται πως η πιθανότητα να επιλεγεί η επιθυμητή μηχανή είναι μεγαλύτερη από την πιθανότητα να επιλεγεί οποιαδήποτε άλλη μηχανή, δηλαδή αν A(i) = j τότε ∀k ∈ [m] \ j P r{o i επιλέγει την j} > P r{o i επιλέγει την k} Δεν θα υπήρχε νόημα λοιπόν να μελετήσουμε το παίγνιο αν δεν ίσχυε ο περιορισμός της σχέσης (4.1). Αυτό συμβαίνει επειδή στην περίπτωση που δεν ίσχυε, θα υπήρχαν περιπτώσεις στις οποίες κάθε παίκτης θα απέδιδε τελικά μικρότερη πιθανότητα επιλογής στην μηχανή στην οποία είχε αποφασίσει να αναθέσει την εργασία του, σε σχέση με αυτές που δεν είχε επιλέξει. Κάτι τέτοιο δεν θα είχε νόημα σε κανένα ρεαλιστικό σύστημα. Συνεπώς ο περιορισμός που θέτουμε δεν είναι καθόλου αυστηρός αλλά αντίθετα απόλυτα φυσικός. 4.2 Αγνές Ισορροπίες Nash για το THLBI 4.2 35 Αγνές Ισορροπίες Nash για το THLBI Στην ενότητα αυτή θα μελετήσουμε το παίγνιο THLBI ως προς την ύπαρξη αγνών ισορροπιών Nash, τον τρόπο υπολογισμού τους και το κόστος της Αναρχίας. 4.2.1 To κόστος των παικτών Eξετάζουμε αρχικά το κόστος που υφίσταται κάθε παίκτης σε κάποια ανάθεση τoυ παιγνίου εξισορρόπησης φορτίου με τρεμάμενο χέρι σε ταυτόσημες μηχανές. Έστω λοιπόν ο παίκτης i και η ανάθεση A. Ο παίκτης i έχει γνώση της ανάθεσης και πλέον καλείται να επιλέξει μία μηχανή για να αναθέσει το φορτίο του. Η παρακάτω ποσότητα μας δείχνει το αναμενόμενο φορτίο της μηχανής j αν όλοι οι παίκτες επιλέξουν την στρατηγική που ορίζει για αυτούς η ανάθεση A και ο παίκτης i επιλέξει την μηχανή j με πιθανότητα 1. lij = wi + ∑ ∑ (1 − ϵ)wi′ + ( i′ ̸=i A(i′ )=j = wi + ∑ (1 − ϵ − i′ ̸=i A(i′ )=j = wi + (1 − ϵ m ) m−1 i∗ ̸=i A(i∗ )̸=j ϵ )wi∗ m−1 (4.3) ∑ ∑ ϵ ϵ ϵ )wi′ + )wi′ + )wi∗ ( ( m−1 m−1 m − 1 ∗ ′ i ̸=i ∑ i′ ̸=i A(i′ )=j i ̸=i A(i′ )=j wi′ + ( ∑ ϵ wi∗ ) m − 1 i∗ ̸=i (4.4) A(i∗ )̸=j (4.5) O πρώτος αθροιστικός όρος στην σχέση (4.3) προέρχεται από τους παίκτες οι οποίοι επιλέγουν την μηχανή j ενώ ο δεύτερος από αυτούς που δεν την επιλέγουν. Παρατηρούμε πως η ανάλυση μπορεί να γίνεται με πιθανότητες, αλλά οι στρατηγικές των παικτών είναι αγνές. To πρώτο άθροισμα της (4.3) σπάμε σε δύο θετικά αθροίσματα στην (4.4) εκμεταλλευόμενοι τον περιορισμό στην τιμή του ϵ. Στην (4.5) συνενώνουμε τα δύο τελευταία αθροίσματα της (4.4) σε ένα κοινό αθροιστικό όρο. Έχοντας δει τα παραπάνω, μπορούμε τώρα να υπολογίσουμε το κόστος που υφίσταται ο παίκτης i υπό την ανάθεση A 36 Κεφάλαιο 4 A(i) costi (A) = (1 − ϵ) li ( = 1−ϵ− + ∑ k̸=A(i) ϵ lik m−1 (4.6) ) ∑ ϵ ϵ ϵ A(i) A(i) li + li + lik m−1 m−1 m−1 k̸=A(i) ) ( ∑ m ϵ A(i) li + lik = 1−ϵ m−1 m−1 (4.7) (4.8) k∈[m] Η τελευταία αυτή σχέση μας φανερώνει μία ενδιαφέρουσα ιδιότητα του παιγνίου THLBI. Σε όλες τις αναθέσεις A′ = (A−i , l), τις αναθέσεις που ο παίκτης i ίσως αποκλίνει μονομερώς, αλλά όλοι οι άλλοι παίκτες παίζουν τις στρατηγικές που τους επιβάλει A, ο παίκτης ∑ η ανάθεση ϵ k i υφίσταται ένα σταθερό κόστος. Το κόστος αυτό είναι ο όρος m−1 k∈[m] li της σχέσης (4.8) και προέρχεται από την πιθανότητα λάθους ϵ του μοντέλου. 4.2.2 Πότε είναι μία ανάθεση αγνή ισορροπία Nash Για να είναι μία ανάθεση A αγνή ισορροπία Nash πρέπει να ισχύει ∀i ∈ [n], ∀j ∈ [m] costii (A) ≤ costi (A−i , j) (4.9) Aς δούμε τώρα πως μεταφράζεται αυτή η συνθήκη στο παίγνιο THLBI. Με την βοήθεια της (4.8), η (4.9) γίνεται: ) ( ) ( ∑ ∑ m ϵ m ϵ A(i) k 1−ϵ li + li ≤ 1 − ϵ lij + lik m−1 m−1 m−1 m−1 k∈[m] (4.10) k∈[m] m Aπό τον περιορισμό στο ϵ έχουμε πως 1 − ϵ m−1 > 0, οπότε η (4.10) γίνεται A(i) li ≤ lij Με την βοήθεια της (4.5) η τελευταία σχέση γίνεται (4.11) 4.2 Αγνές Ισορροπίες Nash για το THLBI wi + (1 − ϵ 37 ∑ ∑ m m ) ) wi∗ wi′ ≤ wi + (1 − ϵ m−1 m − 1 i∗ ̸=i ′ i ̸=i A(i′ )=A(i) (4.12) A(i∗ )=l η οποία με την σειρά της απλοποιείται σε (1 − ϵ ∑ ∑ m m wi′ ≤ (1 − ϵ ) ) wi∗ m−1 m − 1 i∗ ̸=i ′ i ̸=i A(i′ )=A(i) (4.13) A(i∗ )=l Η σχέση (4.13) μας αποκαλύπτει μία ιδιότητα για τις αγνές ισορροπίες Nash του παιγνίου THLBI. Για να αποφασίσουμε αν μία ανάθεση είναι αγή ισορροπία Nash, κάθε παίκτης πρέπει να βρει την καθυστέρηση που υφίσταται σε κάθε μηχανή. Έστω λοιπόν πως ο παίκτης i θέλει να αναλύσει αν κερδίζει κάτι μετακινώντας την εργασία του από την μηχανή j στην μηχανή j ′ . Η καθυστέρηση που υφίσταται εξαρτάται όπως είδαμε από την σχέση (4.8) όχι μόνο από την μηχανή που θα επιλέξει, αλλά και από όλες τις άλλες μηχανές, λόγω του φαινομένου του τρεμάμενου χεριού. Παρόλα αυτά, για να εξετάσει αν θα έχει κάποια ωφέλεια από την αλλαγη στρατηγικής του, ο παίκτης i αρκεί να εξετάσει μόνο το ποιοι παίκτες έχουν επιλέξει την μηχανή j και την μηχανή j ′ . To φαινόμενο αυτό προκύπτει από την ομοιομορφία της πιθανότητας λάθους, η οποία κάθιστά κάθε παίκτη ανίκανο να αποφύγει συγκεκριμένες καθυστερήσεις, όποια στρατηγική και αν επιλέξει. 4.2.3 Θεώρημα Ύπαρξης Αγνής Ισορροπίας Nash H σχέση (4.13) που είδαμε στην προηγούμενη ενότητα, θα μας βοηθήσει να βρούμε τρόπο για να αποδείξουμε την ύπαρξη αγνών ισορροπιών Nash για το παίγνιο THLBI. Λήμμα 4.1. Αν μία ανάθεση A : [n] → [m] είναι αγνή { ισορροπία } Nash για το παίγνιο εξιm ′ ′ σορρόπησης φορτίου σε ταυτόσημες μηχανές G = [n], [m], [w ] , με wi′ = (1 − ϵ m−1 )wi , τότε η ίδια ανάθεση είναι αγνή ισορροπία Nash για φορτίου με { το παίγνιο εξισορρόπησης } τρεμάμενο χέρι σε ταυτόσημες μηχανές, έστω G = [n], [m], [w], ϵ . Απόδειξη. Έστω μία ανάθεση A η οποία είναι αγνή ισορροπία Nash για το G′ . Για την ανάθεση αυτή ισχύει ∀i ∈ [n], ∀k ∈ [m]: A(i) costi ≤ costki 38 Κεφάλαιο 4 η οποία γίνεται wi′ + ∑ wi′′ ≤ wi′ + i′ ̸=i A(i′ )=A(i) ∑ wi′∗ i∗ ̸=i A(i∗ )=l m αν λάβουμε τώρα υπόψην πως wi′ = (1−ϵ m−1 )wi και κάνουμε τις απλοποιήσεις, η παραπάνω σχέση γίνεται: ∑ ∑ m m (1 − ϵ ) wi′ ≤ (1 − ϵ ) wi∗ m−1 m − 1 i∗ ̸=i ′ i ̸=i A(i′ )=A(i) A(i∗ )=l Παρατηρούμε όμως πως η ανάθεση A πληρεί την σχέση (4.13) συνεπώς αποτελεί αγνή ισορροπία Nash του παιγνίου G. H απόδειξη ύπαρξης αγνής ισορροπίας Nash για το THLBI γίνεται τώρα έυκολα Θεώρημα 4.1. Κάθε στιγμιότυπο του παιγνίου εξισορρόπησης φορτίου με τρεμάμενο χέρι σε ταυτόσημες μηχανές έχει τουλάχιστον μία αγνή ισορροπία Nash Απόδειξη. Η απόδειξη επάγεται άμεσα από το Θεώρημα 3.1 και το Λήμμα 4.1. Το Λήμμα 4.1 και το Θεώρημα 4.1 έχουν τώρα ως άμεση συνέπεια το εξής: Θεώρημα 4.2. Η αγνή ισορροπία Nash που υπολογίζει ο αλγόριθμος βέλτιστης απόκρισης μέγιστου φορτίου είναι τέλεια ισορροπία Nash Απόδειξη. To θεώρημα αυτό ειναι άμεση συνέπεια του Λήμματος 4.1 και του Θεωρήματος 4.1. Καθώς η πιθανότητα σφάλματος ϵ τείνει στο μηδέν, η ακολουθία παιγνίων εξισορρόπησης φορτίου με τρεμάμενο χέρι τείνει στο κλασικό παίγνιο εξισορρόπησης φορτίου, και η ακολουθία αγνών ισορροπιών Nash τείνει στην αγνή ισορροπία Nash του κλασικού παιγνίου. Έτσι, αποδείκνύεται πως η αγνή ισορροπία Nash η οποία σύμφωνα με το Θεώρημα 3.1 υπάρχει πάντα στο κλασικό παίγνιο εξισορρόπησης φορτίου, είναι τέλεια ισορροπία Nash. 4.2.4 Υπολογισμός Ισορροπίας Nash Το Θεώρημα 4.1 μας δίνει έναν άμεσο και αποδοτικό τρόπο υπολογισμού μίας αγνής ισορροπίας Nash για το THLBI. Δίνουμε τα βήματα του αλγορίθμου. { } { } ′ ′ 1. Δοθέντος του G = [n], [m], [w], ϵ , κατασκεύασε το G = [n], [m], [w ] , όπου wi′ = m (1 − ϵ m−1 )wi 2. Υπολόγισε ανάθεση A ∈ N ash(G′ ) 4.2 Αγνές Ισορροπίες Nash για το THLBI 39 3. Από Λήμμα 4.1, A ∈ N ash(G) To Bήμα 2 απαιτεί για τον υπολογισμό του χρόνο το πολύ O(n) χρησιμοποιώντας πολιτική βέλτιστης απόκρισης - μέγιστου φορτίου, όπως αυτή περιγράφεται στην απόδειξη του θεωρήματος 3.2. Άρα ο αλγόριθμος που δώσαμε είναι ορθός και εκτελείται σε χρόνο O(n). 4.2.5 Το κόστος της Αναρχίας Για την μελέτη του αγνού κόστους της Αναρχίας για το παιγνιο THLBI θα χρησιμοποιήσουμε τους ακόλουθους συμβολισμούς • loadA j , το φορτίο της μηχανής j υπό την ανάθεση A. { } • cost(A) = makespan(A) = maxj∈[m] loadA j , το κοινωνικό κόστος της ανάθεσης A. Θεωρούμε όπως στην προηγούμενη ενότητα{το παίγνιο εξισορρόπησης φορτίου με τρεμά} μενο χέρι σε ταυτόσημες μηχανές, έστω G = [n], [m], [w], ϵ και το παίγνιο εξισορρόπησης { } m )wi . Αρχίζουμε φορτίου σε ταυτοσημες μηχανές G′ = [n], [m], [w′ ] , όπου wi′ = (1 − ϵ m−1 την ανάλυση μας παρατηρώντας το εξής Λήμμα 4.2. Αν στο παίγνιο G′ η μηχανή j έχει υπό την ανάθεση A φορτίο LoadA j , τότε υπό A A την ίδια ανάθεση για το παίγνιο G, η μηχανή j έχει φορτίο load = Load + W , όπου W = j j ∑ ϵ k∈[n] wk m−1 Απόδειξη. Για το G′ , υπό την ανάθεση A ισχύει LoadA j = ∑ A(i)=j Για το G, υπό την ανάθεση A ισχύει wi′ = ∑ A(i)=j (1 − ϵ m )wi m−1 40 Κεφάλαιο 4 loadA j = ∑ (1 − ϵ)wi + A(i)=j = ∑ A(i)=j = ∑ A(i)=j = ∑ A(k)̸=j m (1 − ϵ )wi + m−1 ϵ wk m−1 ∑ ϵ A(i)=j m−1 wk + ∑ ϵ m (1 − ϵ )wi + wk m−1 m−1 LoadA j ∑ A(k)̸=j ϵ wk m−1 k∈[n] +W To Λήμμα 4.2 μας οδηγεί άμεσα στo εξής Λήμμα 4.3. Για τα παίγνια G′ , G ισχύει costG (A) = costG′ (A) + W Απόδειξη. Από το Λήμμα 4.2 ξέρουμε πως για κάθε ανάθεση A, το φορτίο όλων των μηχανών στο G αυξάνεται κατά W σε σχέση με αυτό που ειχαν στο G′ . Συνεπώς η μηχανή με το μέγιστο φορτίο στο G′ συνεχίζει να είναι η μηχανή με το μέγιστο φορτίο στο G. Αφού ξέρουμε πως το φορτίο της θα αυξηθεί κατά W στο G, ακριβώς τόσο θα αυξηθεί και το κοινωνικό κόστος της ανάθεσης A. Θα προσδιορίσουμε τώρα το αγνό κόστος της αναρχίας για το THLBI. Θεώρημα 4.3. Το αγνό κόστος της αναρχιας του παιγνίου εξισορρόπησης φορτίου με τρεμάμενο χέρι σε ταυτόσημες μηχανές είναι το πολύ 2. Απόδειξη. Από το Θεώρημα 3.3 ξέρουμε πως για το παίγνιο G′ ισχύει για οποιαδήποτε ανάθεση A ∈ N ASH(G′ ): ( ) 2 cost(A) ≤ 2 − opt(G′ ) m+1 Σύμφωνα με το Λήμμα 4.1 για κάθε ανάθεση A ∈ N ASH(G′ ) ισχύει A ∈ N ASH(G). Άρα τώρα, χρησιμοποιώντας το Λήμμα 4.3 ξέρουμε πως για κάθε ανάθεση A ∈ N ASH(G) ισχύει: 4.2 Αγνές Ισορροπίες Nash για το THLBI 41 ( )( ) 2 cost(A) − W ≤ 2 − opt(G) − W m+1 ( ) ( ) 2 2 opt(G) − 2 − W cost(A) − W ≤ 2 − m+1 m+1 cost(A) − W ≤ 2opt(G) − 2W cost(A) ≤ 2opt(G) − W cost(A) ≤ 2opt(G) Συνεπώς P oA ≤ 2 42 Κεφάλαιο 4 Κεφάλαιο 5 Συμπεράσματα και Μελλοντικές Κατευθύνσεις “ We’ll surely avoid scurvy if we all eat an orange…” Guybrush Threepwood Σε αυτό το τελευταίο κεφάλαιο συζητάμε τα αποτελέσματα που παρουσιάσαμε για τα προβλήματα που μελετήσαμε, και εντοπίζουμε τα σχετικά ανοιχτά προβλήματα. Μελετήσαμε λοιπόν το πρόβλημα εξισορρόπησης φορτίου με τρεμάμενο χέρι. Αποδείξαμε πως στο παίγνιο αυτό υπάρχει πάντα μία ανγή ισορροπία Nash. Είδαμε όμως πως καθώς η πιθανότητα σφάλματος ϵ τείνει στο μηδέν, η ακολουθία παιγνίων εξισορρόπησης φορτίου με τρεμάμενο χέρι τείνει στο κλασικό παίγνιο εξισορρόπησης φορτίου, και η ακολουθία αγνών ισορροπιών Nash τείνει στην αγνή ισορροπία Nash του κλασικού παιγνίου. Έτσι, αποδείξαμε πως η αγνή ισορροπία Nash που υπάρχει πάντα στο κλασικό παίγνιο εξισορρόπησης φορτίου είναι τέλεια ισορροπία Nash. Αυτό είναι ένα πολύ ισχυρό αποτέλεσμα που μας δείχνει πως οι παίκτες δεν έχουν λόγο να αποκλίνουν από την ισορροπία Nash στην περίπτωση όπου έχουν αμφιβολίες για το επίπεδο γνώσης και ικανότητας των άλλων παικτών. Η ιδιότητα αυτή είναι ιδιαίτερα επιθυμητή επειδή μας φανερώνει την ”ευσταθή” φύση του παιγνίου αυτού. Έπειτα είδαμε πως ακόμα και σε περιπτώσεις με πολύ μεγάλη πιθανότητα σφάλματος, υπάρχει πάντα μία αγνή ισορροπία Nash στην οποία οι παίκτες φτάνουν σε πολυωνυμικό αριθμό βημάτων. Η ισορροπία αυτή μάλιστα εμφανίζει πάντα πολύ μικρό, ανεξάρτητο του αριθμού των παικτών κόστος της αναρχίας. Το αποτέλεσμα αυτό ουσιαστικά σημαίνει πως η εγωιστική συμπεριφορά των παικτών δεν έχει εδώ μεγάλο αντίκτυπο στην απόδοση του συστήματος και έτσι αποθαρρύνεται η χρήση κεντρικής αρχής για την βελτιστοποίηση της κατανομής των πόρων. Το γεγονός αυτό υποννοεί επίσης πως συστήματα κατανομής πόρων χαίρουν μεγάλης κλιμακωσημότητας, αφού γνωρίζουμε από την θεωρια πολυπλοκότητας πως η βελτιστοποίηση κατανομής πόρων θα ήταν αδύνατη για μεγάλους αριθμούς χρηστών. 44 Κεφάλαιο 5 Ένα ενδιαφέρον ερώτημα που θα μπορούσε να μελετήσει κανείς είναι η ύπαρξη ανγών ισορροπιών Nash στην περίπτωση που η πιθανότητα σφάλματος δεν είναι ομοιόμορφη αλλά ακολουθεί κάποια άλλη κατανομή, όπως για παράδειγμα την γκαουσιανή. Επίσης, δεν έχει μελετηθεί η περίπτωση όπου οι μηχανές δεν είναι ίδιας ταχύτητας αλλά διαφορετικώ. Εκεί αναμένουμε διαφορετική συμπεριφορά, αφού ακόμα και στην περίπτωση μηδενικής πιθανότητας σφάλματος, το κόστος της αναρχίας εξαρτάται γραμμικά από τον αριθμό των χρηστών. Βιβλιογραφία [1] J. Von Neumann. 0. morgenstern, theory of games and economic behavior. Princeton University Press, 1947:1953, 1944. [2] J. Neumann. First dra of a report on the edvac. University of Pennsylvania, 1945. [3] J. Nash. Non-coopera ve games. The Annals of Mathema cs, 54(2):286–295, 1951. [4] C. Daskalakis, P.W. Goldberg, and C.H. Papadimitriou. The complexity of compu ng a nash equilibrium. In Proceedings of the thirty-eighth annual ACM symposium on Theory of compu ng, pages 71–78. ACM, 2006. [5] E. Koutsoupias and C. Papadimitriou. Worst-case equilibria. In Proceedings of the 16th annual conference on Theore cal aspects of computer science, pages 404–413. SpringerVerlag, 1999. [6] R. Selten. Reexamina on of the perfectness concept for equilibrium points in extensive games. Interna onal journal of game theory, 4(1):25–55, 1975. [7] M.J. Osborne and A. Rubinstein. A course in game theory. The MIT press, 1994. [8] R.B. Myerson. Game theory: analysis of conflict. Harvard Univ Pr, 1997. [9] J.N. Webb. Game theory: Decisions, interac on and evolu on. Springer Verlag, 2007. [10] N. Nisan. Algorithmic game theory. Cambridge Univ Pr, 2007. [11] P.A. Samuelson. A note on the pure theory of consumer’s behaviour. 5(17):61–71, 1938. Economica, [12] A.W. Tucker. On jargon: The prisoner’s dilemma. UMAP Journal, 1(S 101), 1980. [13] J.O. Ledyard. Public goods. Handbook of experimental economics, pages 111–194, 1995. [14] C. Camerer and Russell Sage Founda on. Behavioral game theory: Experiments in strategic interac on. Russell Sage Founda on New York, 2003. 46 ΒΙΒΛΙΟΓΡΑΦΙΑ [15] D. Fotakis, S. Kontogiannis, E. Koutsoupias, M. Mavronicolas, and P. Spirakis. The structure and complexity of nash equilibria for a selfish rou ng game. Automata, Languages and Programming, pages 785–785, 2002. [16] E. Even-Dar, A. Kesselman, and Y. Mansour. Convergence me to nash equilibria. Automata, Languages and Programming, pages 193–193, 2003. [17] R.L. Graham. Bounds for certain mul processing anomalies. Journal, 45(9):1563–1581, 1966. Bell System Technical [18] A. Czumaj and B. Vöcking. Tight bounds for worst-case equilibria. In Proceedings of the thirteenth annual ACM-SIAM symposium on Discrete algorithms, pages 413–420. Society for Industrial and Applied Mathema cs, 2002. [19] E. Koutsoupias, M. Mavronicolas, and P. Spirakis. Approximate equilibria and ball fusion. Theory of Compu ng Systems, 36(6):683–693, 2003.
© Copyright 2025 Paperzz