ΣΤΑΤΙΣΤΙΚΗ ΑΝΑΛΥΣΗ ΠΛΗΡΟΦΟΡΙΑΣ 5. ΠΛΗΡΟΦΟΡΙΑ και ΑΛΛΗΛΟΕΞΑΡΤΗΣΗ Ioannis E. Antoniou Mathematics Department Aristotle University 54124,Thessaloniki,Greece [email protected] http://users.auth.gr/iantonio Πληροφορια Αλληλοεξαρτησης Κατανομη Πιθανοτητας της ΤΜ Πληροφορια Παρατηρησης της ΤΜ Κοινη Πιθανοτητα 2 η περισσοτερων ΤΜ Κοινη Πληροφορια 2 η περισσοτερων ΤΜ Δεσμευμενη Πιθανοτητα Δεσμευμενη Πληροφορια Συνδιασπορα Συνδυακυμανση (Covariance) Αμοιβαια Πληροφορια Κοινη Πληροφορια Oρισμος Η Κοινη Πληροφορια των διαμερισεων ξ και η ℐ[ξ⋁η] = η Κοινη Πληροφορια των διαμερισεων ξ,η ξ ⋁ η = η koινη εκλεπτυνση των διαμερισεων ξ και η ℐ[ξ] = η Πληροφορια απο την διαμεριση ξ ℐ[η] = η Πληροφορια απο την διαμεριση η ℐ[ξ⋁η]−ℐ[η] = η επιπλεον Πληροφορια που εισαγει η ξ απο την Πληροφορια της η ℐ[ξ⋁η]−ℐ[ξ] = η επιπλεον Πληροφορια που εισαγει η η απο την Πληροφορια της ξ Oρισμος Η Κοινη Πληροφορια των ΤΜ Α και Β (Joint Information, Common Information) Η Εντροπια Παρατηρησης των Μεταβλητων Α,Β ℐ[Α,Β] = − ∑𝛼,𝛽 𝜌(𝑎, 𝑏)𝑙𝑑𝜌(𝛼, 𝛽) Η Πληροφορια Παρατηρησης των ΤΜ Α1,Α2 ,..., ΑΝ ℐ[Α1,Α2 ,..., ΑΝ] = − ∑𝛼1,𝛼2,…,𝛼𝛮 𝜌(𝛼1 , 𝛼2 , … , 𝛼𝛮 )𝑙𝑑(𝛼1 , 𝛼2 , … , 𝛼𝛮 )] Η Κοινη Εντροπια Συνεχων Μεταβλητων 𝓘[A,B]=−∫dα dβ ρ(α,β) lnρ(a,β) Θεωρημα Ιδιοτητες Κοινης Πληροφοριας 1) ℐ[A , B] = ℐ[Β , Α] Αποδ. Προφανης από τον ορισμο 2) ℐ[A ,B] ≥ max (ℐ[A] , ℐ[B]) Αποδ. H διαμεριση ξΑ,Β = ξΑ ∨ ξΒ είναι λεπτοτερη των διαμερισεων ξΑ , ξΒ 3) ℐ[A ,B] = ℐ[Β] ⟺ ξΑ ≤ ξΒ ⟺ Α=φ(Β) οπου: φ : Σ� ⟶ Σ και ξΑ , ξΒ οι διαμερισεις των ΤΜ Α, Β Proof ξΑ ≤ ξΒ ⟺ Α=φ(Β) , ιδιοτητα των Διαμερισεων ξΑ ≤ ξΒ ⟺ ξΑ ∨ ξΒ = ξΒ , ιδιοτητα των Διαμερισεων ⟹ ℐ[A ,B] = ℐ[Β] ℐ[A ,B] = ℐ[Β] ⟹ ξΑ ∨ ξΒ = ξΒ , διοτι ξΑ ∨ ξΒ ≥ ξΒ από την ιδιοτητα: ξ ≤ η and ℐ(ξ) = ℐ(η) ⟹ ξ = η 4) ℐ[A ,B] = 0 ⟺ Βοth A,Β are deterministic RV Proof Eστω ξΑ , ξΒ οι διαμερισεις των ΤΜ Α, Β ℐ[Α] ≤ ℐ[A ,B] και ℐ[Β] ≤ ℐ[A ,B] , διοτι η διαμεριση ξΑ,Β = ξΑ ∨ ξΒ είναι λεπτοτερη των ξΑ , ξΒ Συνεπως : ℐ[Α] =0 και ℐ[Β] =0 ⟺ A,Β are Deterministic RV 5) Entropy is subadditive: ℐ[A ,B] ≤ ℐ[A] + ℐ[B] ℐ[A1 , A2 ,..., Aν] ≤ ℐ[A1] + ℐ[A2] +...+ ℐ[Aν] Proof {0.3} , 6) Entropy and Independence ℐ[A,B] = ℐ[A] + ℐ[B] ⟺ Α,Β ανεξαρτητες ΤΜ ℐ[A1 , A2 ,..., Aν] = ℐ[A1] + ℐ[A2] +...+ ℐ[Aν] ⟺ A1 , A2 ,..., Aν ανεξαρτητες ΤΜ Proof {0.3} ΣΧΟΛΙΟ Απο τις 2),3) φαινεται οτι η Εντροπια αλληλοεξαρτωμενων ΤΜ ειναι μικροτερη απο το αθροισμα των επι μερους Εντροπιων τους ⟺ Οι αλληλοεξαρτησεις μειωνουν την Εντροπια Η διαφορα ℐ[A] + ℐ[B] − ℐ[A,B] ειναι ποσοτικη εκτιμηση της Αμοιβαιας εξαρτησης των Α,Β ως αποκλισης της προσεγγισης ανεξαρτητων ΤΜ απο την κοινη Πληροφορια Ορισμος ℐ[A] + ℐ[B] − ℐ[A,B] = ℐ[A;B] καλειται Αμοιβαια Πληροφορια των ΤΜ Α,Β ΣΧΟΛΙΟ Η ℐ[A1] + ℐ[A2] +...+ ℐ[Aν] − ℐ[A1 , A2 ,..., Aν] = 𝒞[A1 , A2 ,..., Aν] Estimation of the Total Correlation among the RV A1 , A2 ,..., Aν Watanabe S. 1960, Information theoretical analysis of multivariate correlation, IBM Journal of Research and Development 4, 66–82. the multivariate constraint among the RV A1 , A2 ,..., Aν Garner W. 1962, Uncertainty and Structure as Psychological Concepts, Wiley, New York. the multi-information of the RV A1 , A2 ,..., Aν the redundancy or interdependence among the RV A1 , A2 ,..., Aν the information shared among the RV A1 , A2 ,..., Aν Studeny M., Vejnarova J.1999, The multi-information function as a tool for measuring stochastic dependence, in M. Jordan, ed., Learning in Graphical Models, MIT Press, Cambridge, MA, pp. 261–296. Applications: Clustering and feature selection algorithms ΠΑΡΑΔΕΙΓΜΑΤΑ Eστω οι Καλπες Α,Β με ισο αριθμο Λευκων και Μαυρων Σφαιρων Πειραμα: Επιλεγω μια σφαιρα απο την Α και μια σφαιρα απο τη Β Περιπτωση 1 Οι επιλογες ειναι ανεξαρτητες Περιπτωση 2 Οι επιλογες μονο Λευκων ειτε μονο Μαυρων σφαιρων δεν ειναι επιτρεπτες (Οι επιλογες δεν ειναι ανεξαρτητες) Η κοινη Πληροφορια στις 2 περιπτωσεις Α={0=Λ,1=Μ} η επιλογη της καλπης Α Β={0=Λ,1=Μ} η επιλογη της καλπης Β ℐ[Α,Β] = − ∑1𝛼,𝛽=0 𝜌(𝑎, 𝑏)𝒾(𝛼, 𝛽) Περιπτωση 1 Οι επιλογες ειναι ανεξαρτητες 11 1 ρ(α,β)= ρ(α) ρ(β)= = 1 4 22 1 4 4 ℐ1[Α,Β] = 4 �− 𝑙𝑑 � = 2bits Περιπτωση 2 Οι επιλογες δεν ειναι ανεξαρτητες 1 ρ(α,β)= (1- δαβ) 2 1 2 1 2 ℐ2[Α,Β] = 2 �− 𝑙𝑑 � = 1bit ℐ2< ℐ1 Οι αλληλοεξαρτηση μειωνει την Εντροπια Δεσμευμενη Πληροφορια Oρισμος Δεσμευμενη Πληροφορια του συνολου Ξ απο το συνολο Η 𝒾[Ξ|Η] = −ldp(Ξ|Η) Oρισμος Δεσμευμενη Πληροφορια της TΜ Α απο το συνολο H ℐ[A|Η] = ∑n𝛼=1 𝑝[𝛢 = 𝛼|𝛨] 𝒾[𝐴 = 𝛼|𝛨] = − ∑nα=1 𝑝[𝛼|𝛨]𝑙𝑑 𝑝[𝛼|𝛨] Oρισμος Δεσμευμενη Πληροφορια της Διαμερισης ξ απο την Διαμεριση η 𝓘[ξ|η] = H Πληροφορια της ξ δεδομενης της η =Η Επιπλεον Πληροφορια που παιρνω βελτιωνοντας την ακριβεια των μετρησεων (απο την υφισταμενη διαμεριση η στην διαμεριση ξ) ξ={Ξν, ν=1,2,…,n} , η={Ηκ, κ=1,2,…, m} m n ℐ[ξ|η] = ∑m κ=1 p[Ηκ ] ℐ [ξ |Ηκ ] = ∑κ=1 p[Ηκ ] (− ∑ν=1 p[Ξν |Ηκ ] ld p[Ξν |Ηκ ]) ℐ [ξ |Ηκ ] = ℐ𝑝𝜅 (ξ) = − ∑nν=1 p[Ξν |Ηκ ] ld p[Ξν |Ηκ ] η ΔΠ της ξ από το Ηκ Oρισμος Δεσμευμενη Πληροφορια της TΜ Α απο την TΜ Β 𝓘[A|B] Conditional Information οf the RV A by the RV B Equivocation = Aμφιλογια The uncertainty about the RV A after observing another RV B ℐ[Α|Β] = ∑𝑚 κ=1 p[Β = βκ ] ℐ [A|Β = βκ ] ℐ[A|Β = βκ ] = − ∑nα=1 𝑝[𝛼 |𝛨]𝑙𝑑 𝑝[𝛼 |Β = βκ ] Δεσμευμενη Πληροφορια των TΜ Α1, Α2,…, ΑΝ απο τις TΜ Β1, Β2,…, ΒΜ 𝓘[Α1, Α2,…, ΑΝ | Β1, Β2,…, ΒΜ ] ΚΑΛΠΕΣ Eπιλεγω 2 βωλους απο Καλπη που περιεχει n βωλους, m μαυρους και n - m λευκους. Eπιλεγω διαδοχικα 2 βωλους απο την Καλπη. Α=η επιλογη του πρωτου βωλου Β=η επιλογη του δευτερου βωλου 1) Ποια Επιλογη ειναι πιο Αβεβαια? 2) Πως αλλαζουν οι Αβεβαιοτητες καθε επιλογης αν εχει πραγματοποιηθει η αλλη επιλογη? 3) Υπολογιστε τις Δεσμευμενες Πληροφοριες ℐ(B|A) και ℐ(Α|Β) [Υ 67] 𝑚 𝑛−𝑚 𝑚 𝑛−𝑚 Η Α εχει 2 ενδεχομενα (μ ,λ) με πιθανοτητες pA(μ)= , pA(λ)= n Η B εχει 2 ενδεχομενα (μ ,λ) με πιθανοτητες pB(μ)= , pB(λ)= 1) ℐ(Α)=ℐ(B)=− 𝑚 n ld 𝑚 n − 𝑛−𝑚 n ld 𝑛−𝑚 n n n n . Οι Επιλογες εχουν την αυτη αβεβαιοτητα 2) Θα συγκρινουμε τις Δεσμευμενες Πληροφοριες ℐ(B|A) , ℐ(Α|Β) ℐ[A|B]= ℐ[Β|Α] , επειδη ℐ[A|B]= ℐ[Β|Α]+ℐ[A]−ℐ[Β] και ℐ(Α)= ℐ(B) Οι Αβεβαιοτητες καθε επιλογης δεν αλλαζουν αν εχει πραγματοποιηθει η αλλη επιλογη 3) Υπολογισμος της Δεσμευμενης Πληροφοριας ℐ(B|A) ℐ(B|A) = pA(μ)ℐ(B|Α=μ)+ pA(λ)ℐ(B|Α=λ) 𝑚−1 ℐ(B|Α=μ) = ℐ(Β=μ| Α=μ) + ℐ(Β=λ|Α=μ)= − n−1 𝑙𝑑 𝑚−1 n−1 ℐ(Β=μ| Α=μ)=−p(B=μ|Α=μ)ld p(B=μ|Α=μ)=− 𝑚−1 𝑙𝑑 𝑚−1 ℐ(Β=λ| Α=μ)=−p(B=λ|Α=μ)ld p(B=λ|Α=μ)=− 𝑛−𝑚 𝑙𝑑 𝑛−𝑚 p(B=μ|Α=μ)= p(B=λ|Α=μ)= n−1 𝑚−1 n−1 𝑛−𝑚 n−1 n−1 ℐ(B|Α=λ) = ℐ(Β=μ| Α=λ) + ℐ(Β=λ|Α=λ) = − ℐ(Β=μ| Α=λ)=−p(B=μ|Α=λ)ld p(B=μ|Α=λ) = − p(B=μ|Α=λ) = − 𝑚 n−1 𝑙𝑑 𝑚 n−1 ℐ(Β=λ| Α=λ)=−p(B=λ|Α=λ)ld p(B=λ|Α=λ)=− p(B=λ|Α=λ)= 𝑛−𝑚−1 n−1 𝑚 n−1 𝑚 n−1 n−1 𝑛−𝑚 n−1 𝑙𝑑 𝑛−𝑚 n−1 n−1 n−1 𝑙𝑑 𝑙𝑑 𝑛−𝑚−1 − 𝑚 n−1 𝑚 n−1 𝑙𝑑 − 𝑛−𝑚−1 n−1 𝑛−𝑚−1 n−1 𝑙𝑑 𝑛−𝑚−1 n−1 ℐ(B|A) = pA(μ)ℐ(B|Α=μ)+ pA(λ)ℐ(B|Α=λ) =�− m n ld =Ι(Β) �− m n − m−1 n−1 ℐ(B|A) ≤ ℐ(Β) γενικα n−m ld n ld m−1 n−1 n−m − n � �− n−m n−1 ld m−1 n−1 n−m n−1 ld m−1 �+ n−1 n−m n − n−m n−1 �− ld n−m−1 n−1 n−m n−1 ld �+ n−m n−m−1 n−1 � n �− n−m−1 n−1 ld n−m−1 n−1 � Eπιλεγω βωλους απο Καλπη που περιεχει n Βωλους, m μαυρους και n - m λευκους. Α = η επιλογη κ βωλων Β=η επιλογη ενος βωλου 1) Ποια Επιλογη ειναι πιο Αβεβαια? 2) Πως αλλαζουν οι Αβεβαιοτητες καθε επιλογης αν εχει πραγματοποιηθει η αλλη επιλογη? 3) Υπολογιστε τις Δεσμευμενες Πληροφοριες ℐ(B|A)και ℐ(Α|Β) [Υ 67] ΕΡΓ {1} Eπιλεγω βωλους απο Καλπη που περιεχει 15 Βωλους, 5 μαυρους και 10 λευκους. Ακ = η επιλογη κ βωλων , κ=1,2,...,14 Β=η επιλογη του επομενου βωλου 1) Υπολογιστε τις Αμοιβαιες Πληροφοριες ℐ(A1;Β), ℐ(A2;Β), ℐ(A13;Β), ℐ(A14;Β) [Υ 76] ℐ(Α;Β)=ℐ(Β)−ℐ(Β|Α) 2) Συγκρινατε με την Πληροφορια ℐ(Β) ΕΡΓ {1} Αξιολογηση Διαγνωστικης Μεθοδου 2% του Πληθυσμου υποφερουν απο μια Νοσο Προτεινεται Διαγνωση μεσω Αντιδραστηριου με ενδειξη Θετικη, εαν το Ατομο Νοσει με επιτυχια 100% Αρνητικη, εαν το Ατομο ειναι Υγιες με επιτυχια 50% Ειναι χρησιμο το Αντιδραστηριο? ---------------------------------------------------------Α = το Αποτελεσμα της Δοκιμης {(+)=Θετικο , (−)=Αρνητικο} Κ = η κατασταση του Ατομου {(υ)= Υγειες , (ν)=Νοσει} [Ya 67] Η χρησιμοτητα του Αντιδραστηριου μπορει να εκτιμηθει συγκρινοντας την Αβεβαιοτητα για την κατασταση του Ατομου πριν τη Δοκιμη με την Αβεβαιοτητα για την κατασταση του Ατομου μετα τη Δοκιμη Η Αβεβαιοτητα για την κατασταση του Ατομου πριν τη Δοκιμη ειναι: ℐ(Β)=−0.02∙ld0.02−0.08∙ld0.08≅0.14bits H Aβεβαιοτητα για την κατασταση του Ατομου δεδομενου του Αποτελεσματος της Δοκιμης ειναι: ℐ(Κ|Α)=p(Α=+)∙ ℐ(Κ|Α=+) + p(Α=−)∙ ℐ(Κ|Α=−) p(Α=+) = 2 100 + 1 98 2 100 =0.51 p(Α=−) = 0.49 ℐ(Κ|Α=+) = −p(K=υ|Α=+)∙ld p(K=υ|Α=+)−p(K=ν|Α=+)∙ld p(K=ν|Α=+) ℐ(Κ|Α=−) = −p(K=υ|Α=−)∙ld p(K=υ|Α=−)−p(K=ν|Α=−)∙ld p(K=ν|Α=−) p(K=υ|Α=+) = p(K=ν|Α=+) = 49 απο τις 2+ 2 απο τις 51 περιπτωσεις που Α= + , το Ατομο νοσει στις 2 51 51 98 2 = 51 περιπτωσεις που Α=+ , το Ατομο ειναι υγιες στις 49 p(K=υ|Α=−) = 1 εαν Α=− , τοτε το Ατομο ειναι σιγουρα υγειες p(K=ν|Α=−) = 0 ℐ(Κ|Α=+) =− 49 ld 51 ℐ(Κ|Α=−) = 0 bits 49 51 − 2 ∙ld 51 2 51 ≅ 0.24 bits ℐ(Κ|Α)= p(Α=+) ∙ ℐ(Κ|Α=+) + p(Α=−) ∙ ℐ(Κ|Α=−)=0,51∙0.24+ 0,49∙0= 0,12 bits Η Δοκιμη μειωνει την αβεβαιοτητα κατα (0.14−0.12) bits = 0.02 bits 14,3% Θεωρημα ΙΔΙΟΤΗΤΕΣ ΔΕΣΜΕΥΜΕΝΗΣ ΠΛΗΡΟΦΟΡΙΑΣ CI 1) ℐ[Α|Β] = − ∑𝜶,𝜷 𝝆(𝒂, 𝒃)𝒍𝒅𝝆(𝜶|𝜷) Αποδειξη In terms of partitions 𝑛 ∑ ℐ[ξ|η] = − ∑m κ=1 ν=1 𝑝[𝛨𝜅 ] 𝑝[𝛯𝜈 |𝛨𝜅 ] 𝑙𝑑𝑝[𝛯𝜈 |𝛨𝜅 ] 𝑛 ℐ[ξ|η] = − ∑m κ=1 ∑ν=1 𝑝[𝛯𝜈 ∩ 𝛨𝜅 ]𝑙𝑑𝑝[𝛯𝜈 |𝛨𝜅 ] m 𝑛 𝑝[𝛯𝜈 ∩ 𝛨𝜅 ] � ℐ[ξ|η] = − � � 𝑝[𝛯𝜈 ∩ 𝛨𝜅 ]𝑙𝑑 � 𝑝[𝛨𝜅 ] κ=1 ν=1 In terms of Variables n ℐ[Α|Β] = ∑m κ=1 p[𝛣 = 𝛽κ ] (− ∑ν=1 p[Α = αν |𝛣 = βκ ] ld p[Α = αν |Β = βκ ]) m 𝑛 = − � � 𝑝[𝛣 = 𝛽κ ] 𝑝[Α = αν |𝛣 = 𝛽κ ] 𝑙𝑑𝑝[Α = αν |𝛣 = 𝛽κ ] = κ=1 ν=1 m 𝑛 = − � � 𝑝[Α = αν , 𝛣 = 𝛽κ ] 𝑙𝑑𝑝[Α = αν |𝛣 = 𝛽κ ] = κ=1 ν=1 m 𝑛 = − � � 𝑝[αν , 𝛽κ ] 𝑙𝑑𝑝[αν |𝛽κ ] κ=1 ν=1 ρ(α,β)= η κοινη πιθανοτητα των ΤΜ Α,Β ρ(α|β) = p(Α=α|Β=β) = p(Ξα|Ηβ) = η δεσμευμενη πιθανοτητα της ΤΜ Α απο την ΤΜ Β ρ(α|β) ως η Πιθανοτητα Μεταδοσης (Transmission Probability) Διαυλου � με ΤΜ Εισοδου B=Ψ και ΤΜ Εξοδου Α = Ψ Ο Πινακας των Πιθανοτητων Μεταδοσης ρ(α|β) οριζει τον Διαυλο Δεσμευμενη Πληροφορια Συνεχων Μεταβλητων: 𝛒(𝐚,𝛃) 𝓘[A|B]=−∫dα dβ ρ(α,β) ln 𝛒𝟐 (𝛃) ρ2(β) =∫ dα ρ(α,β) Δεσμευμενη Πληροφορια των TΜ Α1, Α2,…, ΑΝ απο τις TΜ Β1, Β2,…, ΒΜ 𝓘[Α1, Α2,…, ΑΝ | Β1, Β2,…, ΒΜ ] = − ∑𝛼,𝛽 𝜌(𝑎, 𝑏)𝑙𝑑𝜌(𝛼|𝛽) = − � 𝜌(𝑎1 , 𝑎2 , … , 𝑎𝛮 , 𝛽1 , 𝛽2 , … , 𝛽𝛭 )𝑙𝑑𝜌(𝑎1 , 𝑎2 , … , 𝑎𝛮 |𝛽1 , 𝛽2 , … , 𝛽𝛭 ) 𝛼,𝛽 ρ(α,β) = ρ(α1, , α2,…, αΝ , β1, β2,…, βΜ) ρ(α|β) = ρ(α1, , α2,…, αΝ | β1, β2,…, βΜ) CI 2) Kανων Αλυσσου ΔΠ: ℐ[A , B] = ℐ[A]+ ℐ[Β|Α] = ℐ[Β] +ℐ[A|Β] H Κοινη Πληροφορια των ΤΜ Α,Β ειναι το αθροισμα της Πληροφοριας της ΤΜ Α και της Δεσμευμενης Πληροφοριας της ΤΜ Β δεδομενης της μετρησης της ΤΜ Α ℐ[ξ⋁η] = ℐ[ξ] + ℐ[η|ξ]= ℐ[η] + ℐ[ξ|η] ⟺ ℐ[ξ|η] = ℐ[ξ⋁η]−ℐ[η] ℐ[A , B] = ℐ[A]+ ℐ[Β|Α] = ℐ[Β] +ℐ[A|Β] ℐ[A1 , A2] = ℐ[A1] +ℐ[A2|A1] ℐ[A1 , A2 , A3] = ℐ[A2 , A1] +ℐ[A3|A2 , A1] = ℐ[A1] + ℐ[A2|A1] +ℐ[A3|A2 , A1] ℐ[A1 , A2 ,..., Am] = ℐ[A1] + ∑𝑚 𝜈=2 ℐ [Αν |Α1 , Α2 , … , Αν−1 ] Αποδ Κ 𝛮 𝑝[𝛯𝜈 ∩ 𝛨𝜅 ] ] [ � ℐ [ξ|η] = − � � 𝑝 𝛯𝜈 ∩ 𝛨𝜅 𝑙𝑑 � 𝑝[𝛨𝜅 ] κ=1 ν=1 m ∑𝑛 𝛮 [ ] [ ] ∑ ∑ = − ∑Κ 𝑝 𝛯 𝑙𝑑𝑝 𝛯 ∩ 𝛨 ∩ 𝛨 − (− 𝜈 𝜅 𝜈 𝜅 κ=1 ν=1 κ=1 ν=1 𝑝[𝛯𝜈 |𝛨𝜅 ] 𝑝[𝛨𝜅 ] 𝑙𝑑𝑝[𝛨𝜅 ]) 𝑚 𝑚 = ℐ[ξ, η] − �− � 𝑝 �� 𝛯𝜈 �𝛨𝜅 � 𝑝[𝛨𝜅 ]𝑙𝑑𝑝[𝛨𝜅 ]� κ=1 m 𝜈=1 = ℐ[ξ, η] − �− � p[Υ|Ηκ ]p[Ηκ ]ldp[Ηκ ]� κ=1 m = ℐ[ξ, η] − �− � p[Ηκ ]ldp[Ηκ ]� κ=1 = ℐ[ξ , η] − ℐ[η] Για m TM : {0.2} CI 3) Θεμελιωδης Ανισοτης Shannon ℐ[A] ≥ ℐ[A|B] ≥ 0 Evidence Decreases Uncertainty The amount of information given by the realization of the RV A can only decrease if another RV B is realized beforehand Shannon C. 1948, A Mathematical Theory of Communication, Bell Systems Techn. J. 27,379-423; 623-656 Khinchin A. 1957, Mathematical Foundations of Information Theory, Dover, New York. Αποδ Aπο τον κανονα της Αλυσσου: ℐ[A , B] = ℐ[Β] +ℐ[A|Β] ⟹ ℐ[A] −ℐ[A|Β]= ℐ[A] − ( ℐ[A , B] − ℐ[Β])= ℐ[A] + ℐ[Β] − ℐ[A , B] ≥ 0 CI 4) ℐ[Α|Β] ≠ ℐ[Β|Α] ℐ[A|B]= 𝓘[Β|Α] + 𝓘[A]−𝓘[Β] ℐ[A|B]= ℐ[Β|Α] ⇔ ℐ[A]=ℐ[Β] Πορισμα Η ℐ[Α|Β] δεν οριζει αποσταση στην Αλγεβρα των ΤΜ Αποδ Aπο τον κανονα της Αλυσσου: ℐ[A , B] = ℐ[A]+ ℐ[Β|Α] = ℐ[Β] +ℐ[A|Β] ⟹ ℐ[A|Β] = ℐ[Β|Α] + ℐ[A] − ℐ[Β] CI 5) ℐ[A|B]=0 ⇔ A = φ(B) ℐ(ξ|η) = 0 ⟺ ξ ≤ η Δηλαδη: Λεπτοτερες Διαμερισεις εχουν μεγαλυτερη Πληροφορια TΜ που λαμβανουν περισσοτερες τιμες περιεχουν περισσοτερη Πληροφορια διοτι η μετρηση τους παρεχει περισσοτερη Πληροφορια Μετρησεις μεγαλυτερης ακριβειας παρεχουν περισσοτερη Πληροφορια Proof 𝑝[𝛯𝜆 ∩𝛨𝜅 ] � 𝑝[𝛨𝜅 ] ℐ[𝜉|η] = − ∑𝜆 ∑𝜅 𝑝[𝛯𝜆 ∩ 𝛨𝜅 ]𝑙𝑑 � ξ ≤ η ⟺ καθε κελλι Ηκ της η περιεχεται σε καποιο κελλι της ξ 𝑝[𝛯𝜈 ∩𝛨𝜅 ] 𝑛 m ] [ 𝑙𝑑 ∩ 𝛨 𝑝 𝛯 � � =0 𝜈 𝜅 ∑ ξ ≤ η ⟹ ℐ[ξ|η] = − ∑ κ=1 𝑝[𝛨𝜅 ] ν=1 διοτι 𝑝[𝛯𝜆 ∩ 𝛨𝜅 ]= 𝑝[𝛨𝜅 ] αν Ηκ ⊆ Ξ λ , αλλως 𝑝[𝛯𝜆 ∩ 𝛨𝜅 ]=0 Αντιστροφως 𝑝[𝛯 ∩𝛨 ] ℐ [𝜉 |η] = 0 ⟺ − ∑𝜆 ∑𝜅 𝑝[𝛯𝜆 ∩ 𝛨𝜅 ]𝑙𝑑 � [𝜆 ]𝜅 � = 0 𝑝 𝛨𝜅 ⟺ 𝑝[𝛯𝜈 ∩ 𝛨𝜅 ] = 0 𝑜𝑟 𝑝[𝛯𝜈 ∩ 𝛨𝜅 ] = 𝑝[𝛨𝜅 ] , ∀ ν,κ από την Ανισοτητα Gibbs ⟹ καθε κελλι Ηκ της η περιεχεται σε καποιο κελλι της ξ ⟺ ξ ≤ η , οεδ. Η ισοδυναμη συνθηκη ℐ[A|B] = 0 ⇔ A = φ(B) προκυπτει από το Θεωρημα ξ ≤ η ⟺ A = φ(B) , φ : Σ� ⟶ Σ οπου: ξ, η οι διαμερισεις των ΤΜ Α, Β CI 6 ) ℐ[A|B] = ℐ[A] ⇔ ℐ[B|A] = ℐ[B] ⇔ Α , Β Ανεξαρτητες ΤΜ ⇔ ξ ,η Ανεξαρτητες Διαμερισεις ⟺ ℐ(ξ |η)= ℐ(ξ) ⟺ ℐ(η|ξ)= ℐ(η) Αποδ Aπο τον κανονα της Αλυσσου: ℐ[A , B] = ℐ[A]+ ℐ[Β|Α] = ℐ[Β] +ℐ[A|Β] ⟹ℐ[A] −ℐ[A|Β]= ℐ[Β] − ℐ[Β|Α] = ℐ[A] + ℐ[Β] − ℐ[A , B] ℐ[A] −ℐ[A|Β]= 0 ⟹ ℐ[A] + ℐ[Β] − ℐ[A , B]=0 ⟺ Α,Β Ανεξαρτητες ΤΜ ΣΧΟΛΙΟ ℐ[A] −ℐ[A|Β] = Transmission Information =Μutual Information , of a channel with input RV A and output RV B Shannon C. 1948, A Mathematical Theory of Communication, Bell Systems Technical J. 27,379-423; 623-656 CI 7 ) ℐ[A1 , A2|B] ≤ ℐ[A1|B] +ℐ[A2|B] Αποδ {0.2}, Shannon C. 1948, A Mathematical Theory of Communication, Bell Systems Technical J. 27,379-423; 623-656 Billingsley P. 1965, Ergodic Theory and Information, Wiley, New York CI 8) ℐ[A , B|Z] = ℐ[A|Z] +ℐ[B|A,Z] Κανων Αλυσσου Δεσμευμενης Πληροφοριας Αποδ ℐ[A , B|Z] =− ∑𝛼,𝛽,𝑧 𝜌(𝑎, 𝑏, 𝑧)𝑙𝑑𝜌(𝛼, 𝑏|𝑧) = − ∑𝛼,𝛽,𝑧 𝜌(𝑎, 𝑏, 𝑧)𝑙𝑑𝜌(𝛼, 𝑏|𝑧) Είναι: 𝜌(𝛼, 𝑏|𝑧) = 𝜌(𝛼|𝑧)𝜌(𝑏|𝛼, 𝑧) από τον ορισμο της Δεσμευμενης Πιθανοτητος ℐ[A , B|Z] = − ∑𝛼,𝛽,𝑧 𝜌(𝑎, 𝑧)𝑙𝑑𝜌(𝛼|𝑧) − ∑𝛼,𝛽,𝑧 𝜌(𝑎, 𝑏, 𝑧)𝑙𝑑𝜌(𝑏|𝛼, 𝑧) = ℐ[A|Z] +ℐ[B|A,Z] CI 9) ℐ[Α| Β , Z] ≤ ℐ[Α|Β] , για κάθε ΤΜ Ζ Αποδ Προκυπτει από τις 6), 7) 6) ℐ[A1 , A2|Ψ] ≤ ℐ[A1|Ψ] +ℐ[A2|Ψ] 7) ℐ[X , Y|C] = ℐ[X|C] +ℐ[Y|X,C] ℐ[Ζ , Α |Β] = ℐ[Ζ|Β] +ℐ[Α|Z, Β] ⟹ ℐ[Α|Ζ,Β] = ℐ[Α , Ζ|Β] − ℐ[Ζ|Β] ≤ ℐ[Α|Β] +ℐ[Ζ|Β] − ℐ[Ζ|Β]= ℐ[Α|Β] �) CI 10) Fano Ιnequality for ℐ(Ψ|𝚿 � ) of the Estimation of the (Unobserved) RV Ψ Upper bound of the Uncertainty ℐ(Ψ|𝚿 � with error probability p from the Observation of the RV Ψ � ) ≤ ℐ2(p) + p log2(n−1) ℐ(Ψ|𝚿 where: � , Ψ take values in the same alphabet Σ={σ1, σ2, ... σn} 1) The RV Ψ � is the Observed Output from a Communication Channel with Unknown Input Ψ 2) Ψ � ] the Probability of error in the estimation of Ψ by Ψ � 3) p = P[Ψ ≠ Ψ The Error RV is: � ≠ Ψ 1, if Ψ , with p(E=1)= p , p(E= 0)= 1−p E = 1−𝛿Ψ,𝚿 � =� � 0, if Ψ = Ψ 4) ℐ2 (p)= ℐ(E) = − p ld p − (1 − p)ld(1 − p) the (Binary) Entropy of the Error RV E Proof � ). Αpply the Conditioned Chain Rule: ℐ[A , B|Z] = ℐ[A|Z] + ℐ[B|A,Z] to ℐ(Ψ,E|Ψ � ) = ℐ[Ψ|Ψ � ] +ℐ[Ε|Ψ, Ψ � ] = ℐ[Ε|Ψ � ] + ℐ[Ψ|Ψ � , Ε] ℐ(Ψ,E|Ψ � ] = ℐ[Ε|𝚿 � ] + ℐ[Ψ |𝚿 � ,Ε] − ℐ[Ε|Ψ, 𝚿 �] ⟹ ℐ[Ψ|𝚿 (1) Αnalyse each term of (1): �. � ]=0, because the RV E= 1−𝛿 � is a function of the Joint RV Ψ, Ψ a) ℐ[Ε|Ψ, Ψ Ψ,𝚿 � ] ≤ ℐ[Ε] , because Conditioning reduces Entropy b) ℐ[Ε|Ψ � , Ε] = p(E=0) ℐ[Ψ|Ψ � , Ε=0]+ p(E=1) ℐ[Ψ|Ψ � , Ε=1] c) ℐ[Ψ|Ψ � , Ε=0]=0, since Ψ � = Ψ , when there is no error: E=0 ℐ[Ψ|Ψ � , Ε=1] = ∑ν p(Ψ � = σν , E = 1)ℐ[Ψ|Ψ � = σν , Ε = 1] ℐ[Ψ|Ψ � = σν and E=1, � = σν , Ε = 1] , Ψ In each term ℐ[Ψ|Ψ ⟹ the RV Ψ can take n−1 values from the set Σ−{σν } � = σν , Ε = 1] ≤ ld (n−1) ⟹ ℐ[Ψ|Ψ � , Ε=1] ≤ ∑ν 𝑝(Ψ � = σ𝜈 , 𝐸 = 1) ld (n − 1)= p(E=1) ld (n−1) = p ld (n−1) ⟹ ℐ[Ψ|Ψ � , Ε] ≤ 0 + p ld (n−1) ⟹ ℐ[Ψ|Ψ Insert a),b),c) in (1): � ] ≤ ℐ[Ε] + p ld (n−1)−0 ℐ[Ψ|Ψ 10) Fano Inequality Weaker Forms � ) ≤ 1+ p ld (n−1) ℐ(Ψ|𝚿 � ) ≤ 1+ p ld (n) ℐ(Ψ|𝚿 Proof: ℐ2(p) ≤1 for all binary Entropies � , Ε=1] ≤ ldn ℐ[Ψ|Ψ Fano Inequality References Fano Inequality resulted from an early attempt to relate the equivocation, which includes the channel error, to the probability of error. Fano Inequality first appeared as Eq. 4.35 in the 1953 edition of the lecture notes on Statistical Theory of Information distributed to M.I.T. graduate students and, later on, as Eq, 6.16 in the textbook: Fano, R. M. 1961, “Transmission of Information”, the M.I.T. Press and John Wiley and Sons, New York & London, 1961. Cover, T.M. and Thomas, J.A. 2006, Elements of information theory. John Wiley & Sons, New York, NY, p 38 ΣΧΟΛΙΑ � , p= 0 ⟹ ℐ(Ψ|Ψ �) = 0 1) In case of no channel Error Ψ= Ψ � from Fano Inequality 2) Lower bound on the Probability of Error in the Estimation of Ψ by Ψ p≥ p≥ � �−𝟏 𝓘�𝚿�𝚿 𝐥𝐝 (𝐧−𝟏) � �−𝟏 𝓘�𝚿�𝚿 𝐥𝐝 (𝐧) Αμοιβαια Πληροφορια Η Aμοιβαια Πληροφορια των TΜ Α και Β (διαμερισεων ξ και η) (Μutual Information=Τransinformation=Transmitted Information) Ειναι: ℐ[A] + ℐ[B] ≥ ℐ[A , B] ℐ[A] + ℐ[B] = ℐ[A , B] ⟺ Α,Β ανεξαρτητες ΤΜ Συνεπως: ℐ[A] + ℐ[B] − ℐ[A , B] η Πληροφορια της Αμοιβαιας Εξαρτησης των ΤΜ Α,Β Ορισμος ℐ[A;B] = ℐ[A] + ℐ[B] − ℐ[A , B] ≥ 0 Η Αμοιβαια Πληροφορια των ΤΜ Α,Β Αμοιβαια Πληροφορια Συνεχων Μεταβλητων: 𝓘[A;B]=−∫dα dβ ρ(α,β) ln 𝛒(𝐚,𝛃) 𝛒𝟏 (𝛂)𝛒𝟐 (𝛃) ρ1(α) =∫ dβ ρ(α,β) ρ2(β) =∫ dα ρ(α,β) Θεωρημα Ιδιοτητες ΑΜΟΙΒΑΙΑΣ ΠΛΗΡΟΦΟΡΙΑΣ ρ(α|β) ΜΙ 1) ℐ[Α;Β]= ∑α,β ρ(α, β)ld = ∑α,β ρ(α, β)ld ρ(α) ρ(α,β) ρ(α)ρ(β) Αποδ ℐ[A;B] = ℐ[A] + ℐ[B] − ℐ[A,B] = (− ∑α 𝑝(𝛼)ld𝑝(𝛼)) + �− ∑β 𝑝(𝛽 )ld𝑝(𝛽 )� − (− ∑𝛼,𝛽 𝜌(𝑎, 𝑏)𝑙𝑑𝜌(𝛼, 𝛽 )) Είναι 𝑝(𝛼 ) = ∑β 𝑝(𝛼, 𝛽 ) 𝑝(𝛽 ) = ∑α 𝑝(𝛼, 𝛽 ) Αντικαθιστω: ℐ[A;B] = �− ∑α ∑β 𝑝(𝛼, 𝛽 ) ld𝑝(𝛼 )� + �− ∑β ∑α 𝑝(𝛼, 𝛽 ) ld𝑝(𝛽 )� − (− ∑𝛼,𝛽 𝜌(𝑎, 𝑏)𝑙𝑑𝜌(𝛼, 𝛽 )) = − ∑𝛼,𝛽 𝜌(𝑎, 𝑏)[ld𝑝(𝛼) + ld𝑝(𝛽 ) − 𝑙𝑑𝜌(𝛼, 𝛽 )] = + ∑α,β ρ(a, b)ld ρ(α,β) ρ(α)ρ(β) ΜΙ 2) ℐ[Α;Β] = ℐ[A] + ℐ[B] − ℐ[A,B] = ℐ[A] − ℐ[A|B] = ℐ[Β] − ℐ[Β|Α] Αποδ Από τον Κανονα της Αλυσσου της ΔΠ: ℐ[A , B] = ℐ[A]+ ℐ[Β|Α] = ℐ[Β] +ℐ[A|Β] ΜΙ 3) ℐ[Α;Β] = ℐ[A ,B] − ℐ[A|B] − ℐ[Β|Α] Σχεση Κοινης Πληροφοριας, Αμοιβαιας Πληροφοριας, Δεσμευμενης Πληροφοριας Αποδ Αθροιζουμε κατά μελη τoυς τυπους της Δεσμευμενης Πληροφοριας: ℐ[A,B] − ℐ[Β] = ℐ[A|B] ℐ[A,B] − ℐ[A] = ℐ[Β|Α] ℐ[Α|Β] + ℐ[Β|Α] = 2ℐ[Α,Β] −ℐ[Α] − ℐ[Β] Απο τον Τυπο ορισμου της Αμοιβαιας Πληροφοριας: ℐ[A] + ℐ[B] − ℐ[A,B] = ℐ[A;B] Προκυπτει: ℐ[Α|Β] + ℐ[Β|Α] = ℐ[Α,Β] −ℐ[Α;Β] οεδ Information Diagram Reza F. 1961, An Introduction to Information Theory. New York: McGraw-Hill 1961. New York: Dover 1994. ISBN 0486-68210-2 Yeung R. 2002, A First Course in Information Theory. Norwell, MA/New York: Kluwer/Plenum ΜΙ 4) Kανων Αλυσσου για την ΑΠ Ν ΤΜ: ℐ[A1 , A2; Β] = ℐ[A1; Β] + ℐ[A2; Β |A1] ℐ[A1 , A2 ,..., AN ; Β] = ∑Ν ν=1 ℐ[Aν ; Β|A1 , A2 , … , Aν−1 ] ΜΙ 5) ℐ[A, B ; Z] ≥ ℐ[A;B] H ΑΠ των ΤΜ A,B με την ΤΜ Z είναι μεγαλυτερη από την ΑΠ των ΤΜ Α,Β ℐ[A, B ; Z] = ℐ[A;B] ⟺ Α⟶Β⟶Ζ Αλυσσος Markov: ρ(α,β,z) = ρ(z|β)ρ(β|α)ρ(α) ΜΙ 6) ℐ[A ;B] = ℐ[Β;Α] Συμμετρια Αποδ Από τον Ορισμο ℐ[A;B] = ℐ[A] + ℐ[B] − ℐ[A , B] = ℐ[Β] + ℐ[Α] − ℐ[Β , Α]= ℐ[Β;Α] ΜΙ 7) ℐ[A ;Α] = ℐ[A] Αποδ Από τον Ορισμο ΜΙ 8) ℐ[A ;B] = 0 ⇔ Α , Β Ανεξαρτητες ΤΜ Αποδ {0.2} ΜΙ 9) Η Αμοιβαια Πληροφορια δεν οριζει αποσταση στην Αλγεβρα των ΤΜ Δηλαδη αν d(A,B)= ℐ[A ;B], τοτε: Αποδ {0.3} D1. d(Α,Β)≧0 ισχυει λογω της (MI2) D2. d(Α,Β)=0 ⟺ Α=Β δεν ισχυει λογω της (MI 6) D3. d(Α,Β)= d(B,Α) ισχυει λογω της (MI 4) D4. d(Α,Β)≦ d(Α,Ζ)+ d(Ζ,Β), ∀ ΤΜ Ζ ? ΜΙ 10) min (ℐ[A] , ℐ[B]) ≥ ℐ[A ;B] ≥ 0 Αποδ {0.3} ΜΙ 11) Η Αμοιβαια Πληροφορια ως Γενικευση της Συνδιακυμανσης Pearson's Ιndex (Δεικτης Συνδιακυμανσης) between two variables is defined as the covariance of the two variables divided by the product of their standard deviations: CP(X,Y) = 𝒄𝒐𝒗(𝑿,𝒀) �𝒗𝒂𝒓(𝑿)�𝒗𝒂𝒓(𝒀) = 𝐄[(𝐗−𝚬[𝐗]) (𝐘−𝚬[𝐘])] �𝒗𝒂𝒓(𝑿)�𝒗𝒂𝒓(𝒀) = 𝐄[(𝐗−𝒎𝑿 ) (𝐘−𝒎𝒀 )] 𝝈𝜲 𝝈 𝜰 Cov(A,B) = E[(A−Ε[A]) (B−Ε[B])] = E[(A− mA) (B− mB)] Theorem |CP(X,Y)| =1 ⟺ Χ,Υ linearly dependent |CP(X,Y)| ≠1 ⟺ no linear dependence between Χ,Υ Definition The MI-Interdependence Index ℐ[𝐀 ;𝐁] CMI = 𝓘[𝐀]+ 𝓘[𝐁]−𝐦𝐢𝐧 ( 𝓘[𝐀] , 𝓘[𝐁] ) CMI takes values between [0,1] CMI=0 ⟺ ℐ[A ;B] = 0 ⟺ ℐ[A,B] = ℐ[A] + ℐ[B] ⟺ Α , Β Ανεξαρτητες ΤΜ CMI=1 ⟺ 𝓘[𝐀] + 𝓘[𝐁] − 𝐦𝐢𝐧 ( 𝓘[𝐀], 𝓘[𝐁]) = ℐ[𝐀 ; 𝐁] ⟺ ℐ[A,B] = min ( ℐ[A] , ℐ[B] ) ⟺ A,B Deterministically (Causally) Dependent: Α=φ(Β) and B= φ-1(A) Therefore ℐ[A] = ℐ[B] Generalization of Pearson’s Index ΣΗΜΑΣΙΑ Αμοιβαιας Πληροφοριας Η ΑΠ ειναι ποσοτικη εκτιμηση της Αλληλοεξαρτησης (Interdependence, Association) των ΤΜ Α,Β μεσω του Διαυλου H AΠ είναι η Πληροφορια του Διαυλου Επικοινωνιας ως αμοιβαια εξαρτηση των ΤΜ Α,Β Η ΑΠ εμπεριεχει ολη την αλληλοεξαρτηση μεταξυ δυο ΤΜ , ενώ η covariance εμπεριεχει μονο τις αλληλοεξαρτησεις 2ας ταξεως. Η ΑΠ είναι γενικευση της covariance δυο ΤΜ , H AΠ εφαρμοζεται και σε Κατηγορικες Μεταβλητες Η ΑΠ εκτιμα ποσο αποκλινει η προσεγγιση ανεξαρτητων ΤΜ απο την Κοινη Πληροφορια των ΤΜ Α,Β H AΠ είναι η Πληροφορια του Διαυλου Επικοινωνιας ως μεσου επαγοντος αλληλοεξαρτηση των ΤΜ Α,Β High MI between two RV indicates Strong Interdependence by a Channel with small Uncertainty Low MI between two RV indicates Weak Interdependence by a Channel with large Uncertainty Zero MI between two RV implies No Interdependence (they are independent) No Channel ΜΙ is important in communication where it can be used to maximize the amount of information shared between sent and received signals. ΜΙ 12) Μπορουμε να θεμελιωσουμε την Θεωρια Πληροφοριας απο την Αμοιβαια Πληροφορια δηλαδη από τις αλληλοεξαρτησεις μεσω του Διαυλου? Bεβαιως! Oριζουμε: ρ(α|β) ℐ[Α;Β] ≡ − ∑α,β ρ(a, b)ld ρ(α)ρ(β) ℐ[A] = ℐ[A;Α] ℐ[A,B] = ℐ[A] + ℐ[B] − ℐ[A;B] ℐ[A|B] = ℐ[A] − ℐ[A;B] Mutual Information Applications Μελετη Συμμετρικων Αλληλοεξαρτησεων Telecommunications, Channel capacity is the maximal mutual information, over all input distributions Biology - RNA secondary structure prediction - Phylogenetic profiling prediction - Gene networks construction from microarray data Signal and Image Processing Αναλυση Συμβολικων Ακολουθιων (DΝΑ,Μουσικη) Semantics - Collocation (συμπαραθεση λεξεων με στατιστικη σημαντικοτητα) Extraction From Corpus - Word Nearness Search Engines Second Order Co-occurrence-Pointwise Mutual Information (SOC-PMI) Method - Semantic Nets , Learning - Bayesian Nets, Neural Nets - feature selection - relevance and redundancy of variables 3) The interaction information McGill W. 1954, Multivariate Ιnformation Τransmission, Psychometrika 19, 97-116 or co-Information Bell A. 2003, The co-Ιnformation Lattice, Proc. 4th International Symposium on Independent Component Analysis and Blind Source Separation (ICA2003), 921-926 ℐ[A;B;C] = ℐ[A;B|C] − ℐ[A;B] = ℐ[A;C|B] − ℐ[A;C] = ℐ[B;C|A] − ℐ[B;C] the Information of the RV A,B,C, beyond the Information in any subset of A,B,C. the difference between the information shared by {A,B} when C has been fixed and when C has not been fixed. the influence of the RV C on the information shared between {A,B}. ℐ[A;B;C] = 0 the interdependence between {A,B} is not influenced by the RV C ℐ[A;B;C] < 0 the RV C inhibits the dependence between {A,B}, ℐ[A;B;C] > 0 the RV C facilitates or enhances the dependence between {A,B}. Εκλεπτυνση και Καινοτομια = Refinement and Innovation Καθε διαμεριση ξ λεπτοτερη της διαμερισης η εισαγει επι πλεον Πληροφορια: ℐ[ξ] − ℐ[η] ℐ[ξ] − ℐ[η] = Η Επιπλεον Πληροφορια που παιρνω βελτιωνοντας την ακριβεια των μετρησεων (απο την υφισταμενη διαμεριση η στην λεπτοτερη διαμεριση ξ) = η διαφορα της Πληροφοριας ℐ[η] της υφισταμενης Πειραματικης Διαταξης η απο την Πληροφορια ℐ[ξ] της βελτιωμενης Πειραματικης Διαταξης ξ Παραδειγμα: Η κοινη εκλεπτυνση ξ ⋁ η των διαμερισεων ξ και η ειναι λεπτοτερη απο τις ξ και η: ξ⋁η≥η Θ Εαν η διαμεριση ξ ειναι λεπτοτερη της διαμερισης η (ξ≥η) δηλ καθε κελλι της ξ περιεχεται σε καποιο κελλι της η Τοτε: 1) ℐ[ξ,η]= ℐ[ξ] Η Κοινη Πληροφορια των ξ,η ειναι η Πληροφορια της Λεπτοτερης Διαμερισης 2) ℐ[ξ|η] = ℐ[ξ] - ℐ[η] 3) ℐ[ξ;η]= ℐ[η] Η Αμοιβαια Πληροφορια των ξ,η ειναι η Πληροφορια της Αδροτερης Διαμερισης διοτι η προσθετη Πληροφορια απο την ξ εντασσεται στο αντιστοιχο κελλι της η Η Πληροφορια που μπορει να αξιοποιηθει απο την ξ , δεδομενου οτι μετρω με την η Αποδ 𝑝[𝛯𝜈 ∩𝛨𝜅 ] ] [ 𝑙𝑑 2) ℐ[ξ|η] = − ∑Κκ=1 ∑𝛮 𝑝 𝛯 ∩ 𝛨 � � 𝜈 𝜅 ν=1 = − ∑Κκ=1 ∑𝛮 ν=1 𝑝[𝛯𝜈 ]𝑙𝑑 � 𝑝[𝛯𝜈 ] 𝑝[𝛨𝜅 ] 𝑝[𝛨𝜅 ] � , επειδη καθε καθε κελλι 𝛯𝜈 περιεχεται σε καποιο κελλι Ηκ Κ 𝛮 = − ∑𝛮 ν=1 𝑝[𝛯𝜈 ]𝑙𝑑𝑝[𝛯𝜈 ] − ∑κ=1 ∑ν=1 𝑝[𝛯𝜈 ]𝑙𝑑𝑝[𝛨𝜅 ] 𝛮 Κ = − ∑𝛮 ν=1 𝑝[𝛯𝜈 ]𝑙𝑑𝑝[𝛯𝜈 ] − ∑κ=1 𝑝[⋃𝜈=1 𝛯𝜈 ]𝑙𝑑𝑝[𝛨𝜅 ] Κ = − ∑𝛮 ν=1 𝑝[𝛯𝜈 ]𝑙𝑑𝑝[𝛯𝜈 ] − ∑κ=1 𝑝[𝛨𝜅 ]𝑙𝑑𝑝[𝛨𝜅 ] =ℐ[ξ] - ℐ[η] 1) ℐ[ξ,η] = ℐ[ξ|η]+ ℐ[η] = (ℐ[ξ]− ℐ[η])+ ℐ[η] = ℐ[ξ] 3) ℐ[ξ;η] = ℐ[ξ] − ℐ[ξ|η] = ℐ[ξ]−(ℐ[ξ]− ℐ[η]) = ℐ[η] Πληροφοριακη Αποσταση ΤΜ – Διαμερισεων – σ-Αλγεβρων Θεωρημα Το Αθροισμα ℐ[Α|Β] + ℐ[Β|Α] = 𝒹(Α ,Β) των ΑΠ των Α,Β οριζει αποσταση στην Αλγεβρα των ΤΜ Α~Β ⟺ οι ΤΜ Α,Β εχουν την αυτή διαμεριση Λημμα 𝒹(Α ,Β) = ℐ[Α|Β] + ℐ[Β|Α] = 2ℐ[Α,Β] −ℐ[Α] − ℐ[Β] = ℐ[Α] + ℐ[Β] − ℐ[Α;Β] = ℐ[Α,Β] −ℐ[Α;Β] Αποδ Από το Θ3 της ΑΠ και τον ορισμο της ΑΠ ℐ[Α;Β] = ℐ[A ,B] − ℐ[A|B] − ℐ[Β|Α] ℐ[Α;Β] = ℐ[A] + ℐ[B] − ℐ[A,B] = ℐ[A] − ℐ[A|B] = ℐ[Β] − ℐ[Β|Α] D1. 𝒹(Α ,Β) ≧0 ισχυει λογω της 2) D2. 𝒹(Α ,Β) =0 ⟺ ℐ[Α] = ℐ[Β] ⟺ Α~Β ℐ[Α] = ℐ[Β] ⟹ ℐ[Α,Β] = ℐ[Α] ⟹ 2ℐ[Α,Β] −ℐ[Α] − ℐ[Β] = 0 ⟹ 𝒹(Α,Β) = 0 𝒹(Α,Β) =0 ⟹ ℐ[Α|Β] + ℐ[Β|Α] = 0 ⟹ ℐ[Α|Β] = 0 και ℐ[Β|Α] = 0 διοτι ℐ[Β|Α] ≥ 0 , ℐ[Α|Β] ≥ 0 Είναι: ℐ[Α|Β] = 0 ⟺ ξ ≤ η ℐ[Β|Α] = 0 ⟺ η ≤ ξ από την ΔΠ7) οπου ξ η διαμεριση της ΤΜ Α, η η διαμεριση της ΤΜ Β Συνεπως: ξ = η ⟺ ℐ[Α] = ℐ[Β] D3. 𝒹(Α ,Β) = 𝒹(B,Α) ισχυει λογω το Θ5) της ΑΠ D4. (Α ,Β) ≦ 𝒹(Α,Ζ) + 𝒹(Ζ,Β), ∀ ΤΜ Ζ ⟺ 2ℐ[Α,Β] −ℐ[Α] − ℐ[Β] ≤ 2ℐ[Α,Ζ] −ℐ[Α] − ℐ[Ζ] + 2ℐ[Ζ,Β] −ℐ[Ζ] − ℐ[Β] ⟺ 2ℐ[Α,Β] ≤ 2ℐ[Α,Ζ] − 2ℐ[Ζ] + 2ℐ[Ζ,Β] ⟺ ℐ[Α,Β] ≤ ℐ[Α,Ζ] − ℐ[Ζ] + ℐ[Ζ,Β] ⟺ ℐ[Α,Β] ≤ ℐ[Α|Ζ] + ℐ[Ζ,Β] , από τον Κανονα Αλυσσου ΔΠ2) ℐ[A , Ζ] = ℐ[Ζ]+ ℐ[Α|Ζ] Η ανισοτητα ℐ[Α,Β] ≤ ℐ[Α|Ζ] + ℐ[Ζ,Β] προκυπτει ως εξης: ℐ[Α,Β] ≤ ℐ[Α,Β,Ζ] διοτι η διαμεριση των Α,Β,Ζ είναι λεπτοτερη από την διαμεριση των Α,Β,Ζ ℐ[Α,Β,Ζ] = ℐ[Β,Ζ]+ ℐ[Α|Β,Ζ] , από τον Κανονα Αλυσσου ΔΠ2) ⟹ℐ[Α,Β] ≤ ℐ[Β,Ζ]+ ℐ[Α|Β,Ζ] ℐ[Α| Β , Z] ≤ ℐ[Α|Ζ] , από την ΔΠ9) ⟹ℐ[Α,Β] ≤ ℐ[Β,Ζ]+ ℐ[Α|Ζ] οεδ. Ορισμος The Normalized Rokhlin Distance between Random Variables (Partitions) ℐ (Α|Β)+ℐ(Β|Α) ̃ 𝒹 (Α ,Β)≡ =2– ℐ(Α,Β) 0 ≤ 𝒹̃ (Α ,Α) ≤ 1, 𝒹̃ (Α ,Β) = 0 ⟺ διοτι ℐ(Α) + ℐ(Β) ℐ(Α,Β) ℐ (Α) + ℐ(Β) ℐ(Α,Β) ≥1 Α = Β (ταυτιζονται οι διαμερισεις) 𝒹̃ (Α ,Β) = 1 ⟺ ℐ[Α ,Β] = ℐ[Α] + ℐ[Β] ⟺ Α , Β ανεξαρτητες (μεγιστη αποσταση) ΣΧΟΛΙΟ Η Πληροφοριακη Αποσταση εκφραζει ποσο «κοντα» ειναι 2 ΤΜ (Διαμερισεις) Ως προς τη Συντακτικη Πληροφορια τους Τυχαιες μεταβλητες η Διαμερισεις με την αυτή Πληροφορια εχουν μηδενικη Αποσταση Θεωρημα Η Κλασση των Πεπερασμενων Διαμερισεων ειναι Πυκνη στην Κλασση των (απειρων) Μετρησιμων Διαμερισεων Πεπερασμενης Πληροφοριας Αποδ {1} Rokhlin V. 1967, Lectures on the Entropy Theory of Measure Preserving Transformations, Russ. Math. Surv. 22, No 5,1-52 , p19 Rokhlin Distance has been rediscovered : Crutchfield J. 1990, Information and its Metric, in Nonlinear Structures in Physical Systems— Pattern Formation, Chaos and Waves, ed. L. Lam and H. C. Morris, Springer-Verlag, New York (1990) 119-130. Meila M. 2003, Comparing Clusterings by the Variation of Information, In Learning Theory and Kernel Machines, ed. B. Scholkopf and M.K. Warmuth, Springer LNAI 2777, 173–187, Meila M. 2005, Comparing Clusterings. An Axiomatic View in Proceedings of the 22nd International Conference on Machine Learning, Bonn, Germany. Meila 2003, 2005 called the Rokhlin Distance Information Variation and applied to Cluster Comparison Στην Πραξη μελετω τις Πεπερασμενες Διαμερισεις, με τις οποιες Μπορω να προσεγγισω οσο καλα θελω τις απειρες μετρησιμες Διαμερισεις πεπερασμενης Πληροφοριας ΣΗΜΑΣΙΑ ΠΛΗΡΟΦΟΡΙΑΣ στην ΕΠΙΚΟΙΝΩΝΙΑ Eστω ℐ[A] η Πληροφορια που εστειλε η Πηγη και ℐ[B] η Πληροφορια που ελαβε ο Δεκτης (μεσω του Διαυλου Επικοινωνιας) Τοτε: ℐ[A ,B] = ℐ[A|B] + ℐ[Β|Α] + ℐ[A ;B] = 𝓭[A,B] + ℐ[A ;B] ℐ[A,B] = η Πληροφορια του ολου Συστηματος Επικοινωνιας ℐ[B|Α] = η Πληροφορια που εληφθη εαν ειναι γνωστο ότι εσταλη Πληροφορια ℐ[A] {δειχνει την επιδραση του Διαυλου Επικοινωνιας} ℐ[A|B] = η Πληροφορια που εσταλη εαν ειναι γνωστο ότι εληφθη Πληροφορια ℐ[Β] {δειχνει ποσο ευκολα ανακταται το Μηνυμα που εσταλη απο το Μηνυμα που εληφθη λογω της επιδρασης του Διαυλου Επικοινωνιας} ℐ[A ; B] = η Πληροφορια που εισαγει ο Διαυλος Επικοινωνιας ως αμοιβαια εξαρτηση Πηγης - Δεκτη 𝓭[A,B] = η Πληροφοριακη Αποσταση (Rokhlin) των ΤΜ Α,Β
© Copyright 2024 Paperzz