ΣΤΑΤΙΣΤΙΚΗ ΑΝΑΛΥΣΗ ΠΛΗΡΟΦΟΡΙΑΣ Ioannis E. Antoniou

ΣΤΑΤΙΣΤΙΚΗ ΑΝΑΛΥΣΗ ΠΛΗΡΟΦΟΡΙΑΣ
5. ΠΛΗΡΟΦΟΡΙΑ και ΑΛΛΗΛΟΕΞΑΡΤΗΣΗ
Ioannis E. Antoniou
Mathematics Department
Aristotle University
54124,Thessaloniki,Greece
[email protected]
http://users.auth.gr/iantonio
Πληροφορια Αλληλοεξαρτησης
Κατανομη Πιθανοτητας της ΤΜ
Πληροφορια Παρατηρησης της ΤΜ
Κοινη Πιθανοτητα
2 η περισσοτερων ΤΜ
Κοινη Πληροφορια
2 η περισσοτερων ΤΜ
Δεσμευμενη Πιθανοτητα
Δεσμευμενη Πληροφορια
Συνδιασπορα Συνδυακυμανση
(Covariance)
Αμοιβαια Πληροφορια
Κοινη Πληροφορια
Oρισμος Η Κοινη Πληροφορια των διαμερισεων ξ και η
ℐ[ξ⋁η] = η Κοινη Πληροφορια των διαμερισεων ξ,η
ξ ⋁ η = η koινη εκλεπτυνση των διαμερισεων ξ και η
ℐ[ξ] = η Πληροφορια απο την διαμεριση ξ
ℐ[η] = η Πληροφορια απο την διαμεριση η
ℐ[ξ⋁η]−ℐ[η] = η επιπλεον Πληροφορια που εισαγει η ξ απο την Πληροφορια της η
ℐ[ξ⋁η]−ℐ[ξ] = η επιπλεον Πληροφορια που εισαγει η η απο την Πληροφορια της ξ
Oρισμος Η Κοινη Πληροφορια των ΤΜ Α και Β
(Joint Information, Common Information)
Η Εντροπια Παρατηρησης των Μεταβλητων Α,Β
ℐ[Α,Β] = − ∑𝛼,𝛽 𝜌(𝑎, 𝑏)𝑙𝑑𝜌(𝛼, 𝛽)
Η Πληροφορια Παρατηρησης των ΤΜ Α1,Α2 ,..., ΑΝ
ℐ[Α1,Α2 ,..., ΑΝ] = − ∑𝛼1,𝛼2,…,𝛼𝛮 𝜌(𝛼1 , 𝛼2 , … , 𝛼𝛮 )𝑙𝑑(𝛼1 , 𝛼2 , … , 𝛼𝛮 )]
Η Κοινη Εντροπια Συνεχων Μεταβλητων
𝓘[A,B]=−∫dα dβ ρ(α,β) lnρ(a,β)
Θεωρημα Ιδιοτητες Κοινης Πληροφοριας
1) ℐ[A , B] = ℐ[Β , Α]
Αποδ.
Προφανης από τον ορισμο
2)
ℐ[A ,B] ≥ max (ℐ[A] , ℐ[B])
Αποδ.
H διαμεριση ξΑ,Β = ξΑ ∨ ξΒ είναι λεπτοτερη των διαμερισεων ξΑ , ξΒ
3)
ℐ[A ,B] = ℐ[Β] ⟺ ξΑ ≤ ξΒ ⟺ Α=φ(Β)
οπου: φ : Σ� ⟶ Σ και ξΑ , ξΒ οι διαμερισεις των ΤΜ Α, Β
Proof
ξΑ ≤ ξΒ ⟺ Α=φ(Β) , ιδιοτητα των Διαμερισεων
ξΑ ≤ ξΒ ⟺ ξΑ ∨ ξΒ = ξΒ , ιδιοτητα των Διαμερισεων
⟹ ℐ[A ,B] = ℐ[Β]
ℐ[A ,B] = ℐ[Β] ⟹ ξΑ ∨ ξΒ = ξΒ , διοτι ξΑ ∨ ξΒ ≥ ξΒ
από την ιδιοτητα: ξ ≤ η and ℐ(ξ) = ℐ(η) ⟹ ξ = η
4)
ℐ[A ,B] = 0 ⟺ Βοth A,Β are deterministic RV
Proof
Eστω ξΑ , ξΒ οι διαμερισεις των ΤΜ Α, Β
ℐ[Α] ≤ ℐ[A ,B] και ℐ[Β] ≤ ℐ[A ,B] ,
διοτι η διαμεριση ξΑ,Β = ξΑ ∨ ξΒ είναι λεπτοτερη των ξΑ , ξΒ
Συνεπως : ℐ[Α] =0 και ℐ[Β] =0 ⟺ A,Β are Deterministic RV
5) Entropy is subadditive:
ℐ[A ,B] ≤ ℐ[A] + ℐ[B]
ℐ[A1 , A2 ,..., Aν] ≤ ℐ[A1] + ℐ[A2] +...+ ℐ[Aν]
Proof {0.3} ,
6) Entropy and Independence
ℐ[A,B] = ℐ[A] + ℐ[B] ⟺ Α,Β ανεξαρτητες ΤΜ
ℐ[A1 , A2 ,..., Aν] = ℐ[A1] + ℐ[A2] +...+ ℐ[Aν] ⟺ A1 , A2 ,..., Aν ανεξαρτητες ΤΜ
Proof {0.3}
ΣΧΟΛΙΟ
Απο τις 2),3) φαινεται οτι
η Εντροπια αλληλοεξαρτωμενων ΤΜ ειναι μικροτερη απο
το αθροισμα των επι μερους Εντροπιων τους
⟺ Οι αλληλοεξαρτησεις μειωνουν την Εντροπια
Η διαφορα ℐ[A] + ℐ[B] − ℐ[A,B] ειναι ποσοτικη εκτιμηση της Αμοιβαιας εξαρτησης των Α,Β
ως αποκλισης της προσεγγισης ανεξαρτητων ΤΜ απο την κοινη Πληροφορια
Ορισμος
ℐ[A] + ℐ[B] − ℐ[A,B] = ℐ[A;B] καλειται Αμοιβαια Πληροφορια των ΤΜ Α,Β
ΣΧΟΛΙΟ
Η ℐ[A1] + ℐ[A2] +...+ ℐ[Aν] − ℐ[A1 , A2 ,..., Aν] = 𝒞[A1 , A2 ,..., Aν]
Estimation of
the Total Correlation among the RV A1 , A2 ,..., Aν
Watanabe S. 1960, Information theoretical analysis of multivariate correlation,
IBM Journal of Research and Development 4, 66–82.
the multivariate constraint among the RV A1 , A2 ,..., Aν
Garner W. 1962, Uncertainty and Structure as Psychological Concepts,
Wiley, New York.
the multi-information of the RV A1 , A2 ,..., Aν
the redundancy or interdependence among the RV A1 , A2 ,..., Aν
the information shared among the RV A1 , A2 ,..., Aν
Studeny M., Vejnarova J.1999, The multi-information function as a tool for measuring stochastic
dependence,
in M. Jordan, ed., Learning in Graphical Models, MIT Press, Cambridge, MA, pp. 261–296.
Applications: Clustering and feature selection algorithms
ΠΑΡΑΔΕΙΓΜΑΤΑ
Eστω οι Καλπες Α,Β με ισο αριθμο Λευκων και Μαυρων Σφαιρων
Πειραμα: Επιλεγω μια σφαιρα απο την Α και μια σφαιρα απο τη Β
Περιπτωση 1 Οι επιλογες ειναι ανεξαρτητες
Περιπτωση 2 Οι επιλογες μονο Λευκων ειτε μονο Μαυρων σφαιρων δεν
ειναι επιτρεπτες (Οι επιλογες δεν ειναι ανεξαρτητες)
Η κοινη Πληροφορια στις 2 περιπτωσεις
Α={0=Λ,1=Μ} η επιλογη της καλπης Α
Β={0=Λ,1=Μ} η επιλογη της καλπης Β
ℐ[Α,Β] = − ∑1𝛼,𝛽=0 𝜌(𝑎, 𝑏)𝒾(𝛼, 𝛽)
Περιπτωση 1 Οι επιλογες ειναι ανεξαρτητες
11
1
ρ(α,β)= ρ(α) ρ(β)=
=
1
4
22
1
4
4
ℐ1[Α,Β] = 4 �− 𝑙𝑑 � = 2bits
Περιπτωση 2 Οι επιλογες δεν ειναι ανεξαρτητες
1
ρ(α,β)= (1- δαβ)
2
1
2
1
2
ℐ2[Α,Β] = 2 �− 𝑙𝑑 � = 1bit
ℐ2< ℐ1 Οι αλληλοεξαρτηση μειωνει την Εντροπια
Δεσμευμενη Πληροφορια
Oρισμος
Δεσμευμενη Πληροφορια του συνολου Ξ απο το συνολο Η
𝒾[Ξ|Η] = −ldp(Ξ|Η)
Oρισμος
Δεσμευμενη Πληροφορια της TΜ Α απο το συνολο H
ℐ[A|Η] = ∑n𝛼=1 𝑝[𝛢 = 𝛼|𝛨] 𝒾[𝐴 = 𝛼|𝛨] = − ∑nα=1 𝑝[𝛼|𝛨]𝑙𝑑 𝑝[𝛼|𝛨]
Oρισμος
Δεσμευμενη Πληροφορια της Διαμερισης ξ απο την Διαμεριση η 𝓘[ξ|η]
= H Πληροφορια της ξ δεδομενης της η
=Η Επιπλεον Πληροφορια που παιρνω βελτιωνοντας την ακριβεια των μετρησεων
(απο την υφισταμενη διαμεριση η στην διαμεριση ξ)
ξ={Ξν, ν=1,2,…,n} , η={Ηκ, κ=1,2,…, m}
m
n
ℐ[ξ|η] = ∑m
κ=1 p[Ηκ ] ℐ [ξ |Ηκ ] = ∑κ=1 p[Ηκ ] (− ∑ν=1 p[Ξν |Ηκ ] ld p[Ξν |Ηκ ])
ℐ [ξ |Ηκ ] = ℐ𝑝𝜅 (ξ) = − ∑nν=1 p[Ξν |Ηκ ] ld p[Ξν |Ηκ ] η ΔΠ της ξ από το Ηκ
Oρισμος
Δεσμευμενη Πληροφορια της TΜ Α απο την TΜ Β 𝓘[A|B]
Conditional Information οf the RV A by the RV B
Equivocation = Aμφιλογια
The uncertainty about the RV A after observing another RV B
ℐ[Α|Β] = ∑𝑚
κ=1 p[Β = βκ ] ℐ [A|Β = βκ ]
ℐ[A|Β = βκ ] = − ∑nα=1 𝑝[𝛼 |𝛨]𝑙𝑑 𝑝[𝛼 |Β = βκ ]
Δεσμευμενη Πληροφορια των TΜ Α1, Α2,…, ΑΝ απο τις TΜ Β1, Β2,…, ΒΜ
𝓘[Α1, Α2,…, ΑΝ | Β1, Β2,…, ΒΜ ]
ΚΑΛΠΕΣ
Eπιλεγω 2 βωλους απο Καλπη που περιεχει n βωλους, m μαυρους και n - m λευκους.
Eπιλεγω διαδοχικα 2 βωλους απο την Καλπη.
Α=η επιλογη του πρωτου βωλου
Β=η επιλογη του δευτερου βωλου
1) Ποια Επιλογη ειναι πιο Αβεβαια?
2) Πως αλλαζουν οι Αβεβαιοτητες καθε επιλογης αν εχει πραγματοποιηθει η αλλη επιλογη?
3) Υπολογιστε τις Δεσμευμενες Πληροφοριες ℐ(B|A) και ℐ(Α|Β)
[Υ 67]
𝑚
𝑛−𝑚
𝑚
𝑛−𝑚
Η Α εχει 2 ενδεχομενα (μ ,λ) με πιθανοτητες pA(μ)= , pA(λ)=
n
Η B εχει 2 ενδεχομενα (μ ,λ) με πιθανοτητες pB(μ)= , pB(λ)=
1) ℐ(Α)=ℐ(B)=−
𝑚
n
ld
𝑚
n
−
𝑛−𝑚
n
ld
𝑛−𝑚
n
n
n
n
. Οι Επιλογες εχουν την αυτη αβεβαιοτητα
2) Θα συγκρινουμε τις Δεσμευμενες Πληροφοριες ℐ(B|A) , ℐ(Α|Β)
ℐ[A|B]= ℐ[Β|Α] , επειδη ℐ[A|B]= ℐ[Β|Α]+ℐ[A]−ℐ[Β] και ℐ(Α)= ℐ(B)
Οι Αβεβαιοτητες καθε επιλογης δεν αλλαζουν αν εχει πραγματοποιηθει η αλλη επιλογη
3) Υπολογισμος της Δεσμευμενης Πληροφοριας ℐ(B|A)
ℐ(B|A) = pA(μ)ℐ(B|Α=μ)+ pA(λ)ℐ(B|Α=λ)
𝑚−1
ℐ(B|Α=μ) = ℐ(Β=μ| Α=μ) + ℐ(Β=λ|Α=μ)= −
n−1
𝑙𝑑
𝑚−1
n−1
ℐ(Β=μ| Α=μ)=−p(B=μ|Α=μ)ld p(B=μ|Α=μ)=−
𝑚−1
𝑙𝑑
𝑚−1
ℐ(Β=λ| Α=μ)=−p(B=λ|Α=μ)ld p(B=λ|Α=μ)=−
𝑛−𝑚
𝑙𝑑
𝑛−𝑚
p(B=μ|Α=μ)=
p(B=λ|Α=μ)=
n−1
𝑚−1
n−1
𝑛−𝑚
n−1
n−1
ℐ(B|Α=λ) = ℐ(Β=μ| Α=λ) + ℐ(Β=λ|Α=λ) = −
ℐ(Β=μ| Α=λ)=−p(B=μ|Α=λ)ld p(B=μ|Α=λ) = −
p(B=μ|Α=λ) = −
𝑚
n−1
𝑙𝑑
𝑚
n−1
ℐ(Β=λ| Α=λ)=−p(B=λ|Α=λ)ld p(B=λ|Α=λ)=−
p(B=λ|Α=λ)=
𝑛−𝑚−1
n−1
𝑚
n−1
𝑚
n−1
n−1
𝑛−𝑚
n−1
𝑙𝑑
𝑛−𝑚
n−1
n−1
n−1
𝑙𝑑
𝑙𝑑
𝑛−𝑚−1
−
𝑚
n−1
𝑚
n−1
𝑙𝑑
−
𝑛−𝑚−1
n−1
𝑛−𝑚−1
n−1
𝑙𝑑
𝑛−𝑚−1
n−1
ℐ(B|A) = pA(μ)ℐ(B|Α=μ)+ pA(λ)ℐ(B|Α=λ)
=�−
m
n
ld
=Ι(Β) �−
m
n
−
m−1
n−1
ℐ(B|A) ≤ ℐ(Β) γενικα
n−m
ld
n
ld
m−1
n−1
n−m
−
n
� �−
n−m
n−1
ld
m−1
n−1
n−m
n−1
ld
m−1
�+
n−1
n−m
n
−
n−m
n−1
�−
ld
n−m−1
n−1
n−m
n−1
ld
�+
n−m
n−m−1
n−1
�
n
�−
n−m−1
n−1
ld
n−m−1
n−1
�
Eπιλεγω βωλους απο Καλπη που περιεχει n Βωλους, m μαυρους και n - m λευκους.
Α = η επιλογη κ βωλων
Β=η επιλογη ενος βωλου
1) Ποια Επιλογη ειναι πιο Αβεβαια?
2) Πως αλλαζουν οι Αβεβαιοτητες καθε επιλογης αν εχει πραγματοποιηθει η αλλη επιλογη?
3) Υπολογιστε τις Δεσμευμενες Πληροφοριες ℐ(B|A)και ℐ(Α|Β) [Υ 67]
ΕΡΓ {1}
Eπιλεγω βωλους απο Καλπη που περιεχει 15 Βωλους, 5 μαυρους και 10 λευκους.
Ακ = η επιλογη κ βωλων , κ=1,2,...,14
Β=η επιλογη του επομενου βωλου
1) Υπολογιστε τις Αμοιβαιες Πληροφοριες ℐ(A1;Β), ℐ(A2;Β), ℐ(A13;Β), ℐ(A14;Β)
[Υ 76]
ℐ(Α;Β)=ℐ(Β)−ℐ(Β|Α)
2) Συγκρινατε με την Πληροφορια ℐ(Β)
ΕΡΓ {1}
Αξιολογηση Διαγνωστικης Μεθοδου
2% του Πληθυσμου υποφερουν απο μια Νοσο
Προτεινεται Διαγνωση μεσω Αντιδραστηριου με ενδειξη
Θετικη, εαν το Ατομο Νοσει με επιτυχια 100%
Αρνητικη, εαν το Ατομο ειναι Υγιες με επιτυχια 50%
Ειναι χρησιμο το Αντιδραστηριο?
---------------------------------------------------------Α = το Αποτελεσμα της Δοκιμης {(+)=Θετικο , (−)=Αρνητικο}
Κ = η κατασταση του Ατομου {(υ)= Υγειες , (ν)=Νοσει}
[Ya 67]
Η χρησιμοτητα του Αντιδραστηριου μπορει να εκτιμηθει συγκρινοντας
την Αβεβαιοτητα για την κατασταση του Ατομου πριν τη Δοκιμη με
την Αβεβαιοτητα για την κατασταση του Ατομου μετα τη Δοκιμη
Η Αβεβαιοτητα για την κατασταση του Ατομου πριν τη Δοκιμη ειναι:
ℐ(Β)=−0.02∙ld0.02−0.08∙ld0.08≅0.14bits
H Aβεβαιοτητα για την κατασταση του Ατομου δεδομενου του Αποτελεσματος της Δοκιμης ειναι:
ℐ(Κ|Α)=p(Α=+)∙ ℐ(Κ|Α=+) + p(Α=−)∙ ℐ(Κ|Α=−)
p(Α=+) =
2
100
+
1 98
2 100
=0.51
p(Α=−) = 0.49
ℐ(Κ|Α=+) = −p(K=υ|Α=+)∙ld p(K=υ|Α=+)−p(K=ν|Α=+)∙ld p(K=ν|Α=+)
ℐ(Κ|Α=−) = −p(K=υ|Α=−)∙ld p(K=υ|Α=−)−p(K=ν|Α=−)∙ld p(K=ν|Α=−)
p(K=υ|Α=+) =
p(K=ν|Α=+) =
49
απο τις 2+
2
απο τις 51 περιπτωσεις που Α= + , το Ατομο νοσει στις 2
51
51
98
2
= 51 περιπτωσεις που Α=+ , το Ατομο ειναι υγιες στις 49
p(K=υ|Α=−) = 1 εαν Α=− , τοτε το Ατομο ειναι σιγουρα υγειες
p(K=ν|Α=−) = 0
ℐ(Κ|Α=+) =−
49
ld
51
ℐ(Κ|Α=−) = 0 bits
49
51
−
2
∙ld
51
2
51
≅ 0.24 bits
ℐ(Κ|Α)= p(Α=+) ∙ ℐ(Κ|Α=+) + p(Α=−) ∙ ℐ(Κ|Α=−)=0,51∙0.24+ 0,49∙0= 0,12 bits
Η Δοκιμη μειωνει την αβεβαιοτητα κατα (0.14−0.12) bits = 0.02 bits
14,3%
Θεωρημα ΙΔΙΟΤΗΤΕΣ ΔΕΣΜΕΥΜΕΝΗΣ ΠΛΗΡΟΦΟΡΙΑΣ
CI 1) ℐ[Α|Β] = − ∑𝜶,𝜷 𝝆(𝒂, 𝒃)𝒍𝒅𝝆(𝜶|𝜷)
Αποδειξη
In terms of partitions
𝑛
∑
ℐ[ξ|η] = − ∑m
κ=1 ν=1 𝑝[𝛨𝜅 ] 𝑝[𝛯𝜈 |𝛨𝜅 ] 𝑙𝑑𝑝[𝛯𝜈 |𝛨𝜅 ]
𝑛
ℐ[ξ|η] = − ∑m
κ=1 ∑ν=1 𝑝[𝛯𝜈 ∩ 𝛨𝜅 ]𝑙𝑑𝑝[𝛯𝜈 |𝛨𝜅 ]
m
𝑛
𝑝[𝛯𝜈 ∩ 𝛨𝜅 ]
�
ℐ[ξ|η] = − � � 𝑝[𝛯𝜈 ∩ 𝛨𝜅 ]𝑙𝑑 �
𝑝[𝛨𝜅 ]
κ=1 ν=1
In terms of Variables
n
ℐ[Α|Β] = ∑m
κ=1 p[𝛣 = 𝛽κ ] (− ∑ν=1 p[Α = αν |𝛣 = βκ ] ld p[Α = αν |Β = βκ ])
m
𝑛
= − � � 𝑝[𝛣 = 𝛽κ ] 𝑝[Α = αν |𝛣 = 𝛽κ ] 𝑙𝑑𝑝[Α = αν |𝛣 = 𝛽κ ] =
κ=1 ν=1
m
𝑛
= − � � 𝑝[Α = αν , 𝛣 = 𝛽κ ] 𝑙𝑑𝑝[Α = αν |𝛣 = 𝛽κ ] =
κ=1 ν=1
m
𝑛
= − � � 𝑝[αν , 𝛽κ ] 𝑙𝑑𝑝[αν |𝛽κ ]
κ=1 ν=1
ρ(α,β)= η κοινη πιθανοτητα των ΤΜ Α,Β
ρ(α|β) = p(Α=α|Β=β) = p(Ξα|Ηβ) = η δεσμευμενη πιθανοτητα της ΤΜ Α απο την ΤΜ Β
ρ(α|β) ως η Πιθανοτητα Μεταδοσης (Transmission Probability) Διαυλου
�
με ΤΜ Εισοδου B=Ψ και ΤΜ Εξοδου Α = Ψ
Ο Πινακας των Πιθανοτητων Μεταδοσης ρ(α|β) οριζει τον Διαυλο
Δεσμευμενη Πληροφορια Συνεχων Μεταβλητων:
𝛒(𝐚,𝛃)
𝓘[A|B]=−∫dα dβ ρ(α,β) ln
𝛒𝟐 (𝛃)
ρ2(β) =∫ dα ρ(α,β)
Δεσμευμενη Πληροφορια των TΜ Α1, Α2,…, ΑΝ απο τις TΜ Β1, Β2,…, ΒΜ
𝓘[Α1, Α2,…, ΑΝ | Β1, Β2,…, ΒΜ ] = − ∑𝛼,𝛽 𝜌(𝑎, 𝑏)𝑙𝑑𝜌(𝛼|𝛽)
= − � 𝜌(𝑎1 , 𝑎2 , … , 𝑎𝛮 , 𝛽1 , 𝛽2 , … , 𝛽𝛭 )𝑙𝑑𝜌(𝑎1 , 𝑎2 , … , 𝑎𝛮 |𝛽1 , 𝛽2 , … , 𝛽𝛭 )
𝛼,𝛽
ρ(α,β) = ρ(α1, , α2,…, αΝ , β1, β2,…, βΜ)
ρ(α|β) = ρ(α1, , α2,…, αΝ | β1, β2,…, βΜ)
CI 2) Kανων Αλυσσου ΔΠ:
ℐ[A , B] = ℐ[A]+ ℐ[Β|Α] = ℐ[Β] +ℐ[A|Β]
H Κοινη Πληροφορια των ΤΜ Α,Β ειναι το αθροισμα
της Πληροφοριας της ΤΜ Α και της Δεσμευμενης Πληροφοριας της ΤΜ Β
δεδομενης της μετρησης της ΤΜ Α
ℐ[ξ⋁η] = ℐ[ξ] + ℐ[η|ξ]= ℐ[η] + ℐ[ξ|η] ⟺ ℐ[ξ|η] = ℐ[ξ⋁η]−ℐ[η]
ℐ[A , B] = ℐ[A]+ ℐ[Β|Α] = ℐ[Β] +ℐ[A|Β]
ℐ[A1 , A2] = ℐ[A1] +ℐ[A2|A1]
ℐ[A1 , A2 , A3] = ℐ[A2 , A1] +ℐ[A3|A2 , A1] = ℐ[A1] + ℐ[A2|A1] +ℐ[A3|A2 , A1]
ℐ[A1 , A2 ,..., Am] = ℐ[A1] + ∑𝑚
𝜈=2 ℐ [Αν |Α1 , Α2 , … , Αν−1 ]
Αποδ
Κ
𝛮
𝑝[𝛯𝜈 ∩ 𝛨𝜅 ]
]
[
�
ℐ [ξ|η] = − � � 𝑝 𝛯𝜈 ∩ 𝛨𝜅 𝑙𝑑 �
𝑝[𝛨𝜅 ]
κ=1 ν=1
m ∑𝑛
𝛮
[
]
[
]
∑
∑
= − ∑Κ
𝑝
𝛯
𝑙𝑑𝑝
𝛯
∩
𝛨
∩
𝛨
−
(−
𝜈
𝜅
𝜈
𝜅
κ=1 ν=1
κ=1 ν=1 𝑝[𝛯𝜈 |𝛨𝜅 ] 𝑝[𝛨𝜅 ] 𝑙𝑑𝑝[𝛨𝜅 ])
𝑚
𝑚
= ℐ[ξ, η] − �− � 𝑝 �� 𝛯𝜈 �𝛨𝜅 � 𝑝[𝛨𝜅 ]𝑙𝑑𝑝[𝛨𝜅 ]�
κ=1
m
𝜈=1
= ℐ[ξ, η] − �− � p[Υ|Ηκ ]p[Ηκ ]ldp[Ηκ ]�
κ=1
m
= ℐ[ξ, η] − �− � p[Ηκ ]ldp[Ηκ ]�
κ=1
= ℐ[ξ , η] − ℐ[η]
Για m TM : {0.2}
CI 3) Θεμελιωδης Ανισοτης Shannon
ℐ[A] ≥ ℐ[A|B] ≥ 0
Evidence Decreases Uncertainty
The amount of information given
by the realization of the RV A can only decrease if another RV B is realized
beforehand
Shannon C. 1948, A Mathematical Theory of Communication, Bell Systems Techn. J. 27,379-423; 623-656
Khinchin A. 1957, Mathematical Foundations of Information Theory, Dover, New York.
Αποδ
Aπο τον κανονα της Αλυσσου: ℐ[A , B] = ℐ[Β] +ℐ[A|Β]
⟹ ℐ[A] −ℐ[A|Β]= ℐ[A] − ( ℐ[A , B] − ℐ[Β])= ℐ[A] + ℐ[Β] − ℐ[A , B] ≥ 0
CI 4) ℐ[Α|Β] ≠ ℐ[Β|Α]
ℐ[A|B]= 𝓘[Β|Α] + 𝓘[A]−𝓘[Β]
ℐ[A|B]= ℐ[Β|Α] ⇔ ℐ[A]=ℐ[Β]
Πορισμα
Η ℐ[Α|Β] δεν οριζει αποσταση στην Αλγεβρα των ΤΜ
Αποδ
Aπο τον κανονα της Αλυσσου: ℐ[A , B] = ℐ[A]+ ℐ[Β|Α] = ℐ[Β] +ℐ[A|Β]
⟹ ℐ[A|Β] = ℐ[Β|Α] + ℐ[A] − ℐ[Β]
CI 5) ℐ[A|B]=0 ⇔ A = φ(B)
ℐ(ξ|η) = 0 ⟺ ξ ≤ η
Δηλαδη: Λεπτοτερες Διαμερισεις εχουν μεγαλυτερη Πληροφορια
TΜ που λαμβανουν περισσοτερες τιμες περιεχουν περισσοτερη Πληροφορια
διοτι η μετρηση τους παρεχει περισσοτερη Πληροφορια
Μετρησεις μεγαλυτερης ακριβειας παρεχουν περισσοτερη Πληροφορια
Proof
𝑝[𝛯𝜆 ∩𝛨𝜅 ]
�
𝑝[𝛨𝜅 ]
ℐ[𝜉|η] = − ∑𝜆 ∑𝜅 𝑝[𝛯𝜆 ∩ 𝛨𝜅 ]𝑙𝑑 �
ξ ≤ η ⟺ καθε κελλι Ηκ της η περιεχεται σε καποιο κελλι της ξ
𝑝[𝛯𝜈 ∩𝛨𝜅 ]
𝑛
m
]
[
𝑙𝑑
∩
𝛨
𝑝
𝛯
�
� =0
𝜈
𝜅
∑
ξ ≤ η ⟹ ℐ[ξ|η] = − ∑
κ=1
𝑝[𝛨𝜅 ]
ν=1
διοτι 𝑝[𝛯𝜆 ∩ 𝛨𝜅 ]= 𝑝[𝛨𝜅 ] αν Ηκ ⊆ Ξ λ , αλλως 𝑝[𝛯𝜆 ∩ 𝛨𝜅 ]=0
Αντιστροφως
𝑝[𝛯 ∩𝛨 ]
ℐ [𝜉 |η] = 0 ⟺ − ∑𝜆 ∑𝜅 𝑝[𝛯𝜆 ∩ 𝛨𝜅 ]𝑙𝑑 � [𝜆 ]𝜅 � = 0
𝑝 𝛨𝜅
⟺ 𝑝[𝛯𝜈 ∩ 𝛨𝜅 ] = 0 𝑜𝑟 𝑝[𝛯𝜈 ∩ 𝛨𝜅 ] = 𝑝[𝛨𝜅 ] , ∀ ν,κ από την Ανισοτητα Gibbs
⟹ καθε κελλι Ηκ της η περιεχεται σε καποιο κελλι της ξ ⟺ ξ ≤ η , οεδ.
Η ισοδυναμη συνθηκη ℐ[A|B] = 0 ⇔ A = φ(B)
προκυπτει από το Θεωρημα ξ ≤ η ⟺ A = φ(B) , φ : Σ� ⟶ Σ
οπου: ξ, η οι διαμερισεις των ΤΜ Α, Β
CI 6 ) ℐ[A|B] = ℐ[A] ⇔ ℐ[B|A] = ℐ[B]
⇔ Α , Β Ανεξαρτητες ΤΜ
⇔ ξ ,η Ανεξαρτητες Διαμερισεις
⟺ ℐ(ξ |η)= ℐ(ξ) ⟺ ℐ(η|ξ)= ℐ(η)
Αποδ
Aπο τον κανονα της Αλυσσου: ℐ[A , B] = ℐ[A]+ ℐ[Β|Α] = ℐ[Β] +ℐ[A|Β]
⟹ℐ[A] −ℐ[A|Β]= ℐ[Β] − ℐ[Β|Α] = ℐ[A] + ℐ[Β] − ℐ[A , B]
ℐ[A] −ℐ[A|Β]= 0 ⟹ ℐ[A] + ℐ[Β] − ℐ[A , B]=0 ⟺ Α,Β Ανεξαρτητες ΤΜ
ΣΧΟΛΙΟ
ℐ[A] −ℐ[A|Β] = Transmission Information =Μutual Information ,
of a channel with input RV A and output RV B
Shannon C. 1948, A Mathematical Theory of Communication, Bell Systems Technical J. 27,379-423; 623-656
CI 7 ) ℐ[A1 , A2|B] ≤ ℐ[A1|B] +ℐ[A2|B]
Αποδ {0.2},
Shannon C. 1948, A Mathematical Theory of Communication, Bell Systems Technical J. 27,379-423; 623-656
Billingsley P. 1965, Ergodic Theory and Information, Wiley, New York
CI 8) ℐ[A , B|Z] = ℐ[A|Z] +ℐ[B|A,Z] Κανων Αλυσσου Δεσμευμενης Πληροφοριας
Αποδ
ℐ[A , B|Z] =− ∑𝛼,𝛽,𝑧 𝜌(𝑎, 𝑏, 𝑧)𝑙𝑑𝜌(𝛼, 𝑏|𝑧) = − ∑𝛼,𝛽,𝑧 𝜌(𝑎, 𝑏, 𝑧)𝑙𝑑𝜌(𝛼, 𝑏|𝑧)
Είναι:
𝜌(𝛼, 𝑏|𝑧) = 𝜌(𝛼|𝑧)𝜌(𝑏|𝛼, 𝑧) από τον ορισμο της Δεσμευμενης Πιθανοτητος
ℐ[A , B|Z] = − ∑𝛼,𝛽,𝑧 𝜌(𝑎, 𝑧)𝑙𝑑𝜌(𝛼|𝑧) − ∑𝛼,𝛽,𝑧 𝜌(𝑎, 𝑏, 𝑧)𝑙𝑑𝜌(𝑏|𝛼, 𝑧)
= ℐ[A|Z] +ℐ[B|A,Z]
CI 9) ℐ[Α| Β , Z] ≤ ℐ[Α|Β] , για κάθε ΤΜ Ζ
Αποδ
Προκυπτει από τις 6), 7)
6) ℐ[A1 , A2|Ψ] ≤ ℐ[A1|Ψ] +ℐ[A2|Ψ]
7) ℐ[X , Y|C] = ℐ[X|C] +ℐ[Y|X,C]
ℐ[Ζ , Α |Β] = ℐ[Ζ|Β] +ℐ[Α|Z, Β]
⟹ ℐ[Α|Ζ,Β] = ℐ[Α , Ζ|Β] − ℐ[Ζ|Β] ≤ ℐ[Α|Β] +ℐ[Ζ|Β] − ℐ[Ζ|Β]= ℐ[Α|Β]
�)
CI 10) Fano Ιnequality for ℐ(Ψ|𝚿
� ) of the Estimation of the (Unobserved) RV Ψ
Upper bound of the Uncertainty ℐ(Ψ|𝚿
� with error probability p
from the Observation of the RV Ψ
� ) ≤ ℐ2(p) + p log2(n−1)
ℐ(Ψ|𝚿
where:
� , Ψ take values in the same alphabet Σ={σ1, σ2, ... σn}
1) The RV Ψ
� is the Observed Output from a Communication Channel with Unknown Input Ψ
2) Ψ
� ] the Probability of error in the estimation of Ψ by Ψ
�
3) p = P[Ψ ≠ Ψ
The Error RV is:
� ≠ Ψ
1, if Ψ
, with p(E=1)= p , p(E= 0)= 1−p
E = 1−𝛿Ψ,𝚿
� =�
�
0, if Ψ = Ψ
4) ℐ2 (p)= ℐ(E) = − p ld p − (1 − p)ld(1 − p) the (Binary) Entropy of the Error RV E
Proof
� ).
Αpply the Conditioned Chain Rule: ℐ[A , B|Z] = ℐ[A|Z] + ℐ[B|A,Z] to ℐ(Ψ,E|Ψ
� ) = ℐ[Ψ|Ψ
� ] +ℐ[Ε|Ψ, Ψ
� ] = ℐ[Ε|Ψ
� ] + ℐ[Ψ|Ψ
� , Ε]
ℐ(Ψ,E|Ψ
� ] = ℐ[Ε|𝚿
� ] + ℐ[Ψ |𝚿
� ,Ε] − ℐ[Ε|Ψ, 𝚿
�]
⟹ ℐ[Ψ|𝚿
(1)
Αnalyse each term of (1):
�.
� ]=0, because the RV E= 1−𝛿 � is a function of the Joint RV Ψ, Ψ
a) ℐ[Ε|Ψ, Ψ
Ψ,𝚿
� ] ≤ ℐ[Ε] , because Conditioning reduces Entropy
b) ℐ[Ε|Ψ
� , Ε] = p(E=0) ℐ[Ψ|Ψ
� , Ε=0]+ p(E=1) ℐ[Ψ|Ψ
� , Ε=1]
c) ℐ[Ψ|Ψ
� , Ε=0]=0, since Ψ
� = Ψ , when there is no error: E=0
ℐ[Ψ|Ψ
� , Ε=1] = ∑ν p(Ψ
� = σν , E = 1)ℐ[Ψ|Ψ
� = σν , Ε = 1]
ℐ[Ψ|Ψ
� = σν and E=1,
� = σν , Ε = 1] , Ψ
In each term ℐ[Ψ|Ψ
⟹ the RV Ψ can take n−1 values from the set Σ−{σν }
� = σν , Ε = 1] ≤ ld (n−1)
⟹ ℐ[Ψ|Ψ
� , Ε=1] ≤ ∑ν 𝑝(Ψ
� = σ𝜈 , 𝐸 = 1) ld (n − 1)= p(E=1) ld (n−1) = p ld (n−1)
⟹ ℐ[Ψ|Ψ
� , Ε] ≤ 0 + p ld (n−1)
⟹ ℐ[Ψ|Ψ
Insert a),b),c) in (1):
� ] ≤ ℐ[Ε] + p ld (n−1)−0
ℐ[Ψ|Ψ
10) Fano Inequality Weaker Forms
� ) ≤ 1+ p ld (n−1)
ℐ(Ψ|𝚿
� ) ≤ 1+ p ld (n)
ℐ(Ψ|𝚿
Proof: ℐ2(p) ≤1 for all binary Entropies
� , Ε=1] ≤ ldn
ℐ[Ψ|Ψ
Fano Inequality References
Fano Inequality resulted from an early attempt to relate the equivocation, which includes the channel error,
to the probability of error.
Fano Inequality first appeared as Eq. 4.35 in the 1953 edition of the lecture notes on Statistical Theory of
Information distributed to M.I.T. graduate students and, later on, as Eq, 6.16 in the textbook:
Fano, R. M. 1961, “Transmission of Information”, the M.I.T. Press and John Wiley and Sons, New York &
London, 1961.
Cover, T.M. and Thomas, J.A. 2006, Elements of information theory. John Wiley & Sons, New York, NY, p
38
ΣΧΟΛΙΑ
� , p= 0 ⟹ ℐ(Ψ|Ψ
�) = 0
1) In case of no channel Error Ψ= Ψ
� from Fano Inequality
2) Lower bound on the Probability of Error in the Estimation of Ψ by Ψ
p≥
p≥
� �−𝟏
𝓘�𝚿�𝚿
𝐥𝐝 (𝐧−𝟏)
� �−𝟏
𝓘�𝚿�𝚿
𝐥𝐝 (𝐧)
Αμοιβαια Πληροφορια
Η Aμοιβαια Πληροφορια των TΜ Α και Β (διαμερισεων ξ και η)
(Μutual Information=Τransinformation=Transmitted Information)
Ειναι: ℐ[A] + ℐ[B] ≥ ℐ[A , B]
ℐ[A] + ℐ[B] = ℐ[A , B] ⟺ Α,Β ανεξαρτητες ΤΜ
Συνεπως: ℐ[A] + ℐ[B] − ℐ[A , B] η Πληροφορια της Αμοιβαιας Εξαρτησης των ΤΜ Α,Β
Ορισμος
ℐ[A;B] = ℐ[A] + ℐ[B] − ℐ[A , B] ≥ 0
Η Αμοιβαια Πληροφορια των ΤΜ Α,Β
Αμοιβαια Πληροφορια Συνεχων Μεταβλητων:
𝓘[A;B]=−∫dα dβ ρ(α,β) ln
𝛒(𝐚,𝛃)
𝛒𝟏 (𝛂)𝛒𝟐 (𝛃)
ρ1(α) =∫ dβ ρ(α,β)
ρ2(β) =∫ dα ρ(α,β)
Θεωρημα
Ιδιοτητες ΑΜΟΙΒΑΙΑΣ ΠΛΗΡΟΦΟΡΙΑΣ
ρ(α|β)
ΜΙ 1) ℐ[Α;Β]= ∑α,β ρ(α, β)ld
= ∑α,β ρ(α, β)ld
ρ(α)
ρ(α,β)
ρ(α)ρ(β)
Αποδ
ℐ[A;B] = ℐ[A] + ℐ[B] − ℐ[A,B]
= (− ∑α 𝑝(𝛼)ld𝑝(𝛼)) + �− ∑β 𝑝(𝛽 )ld𝑝(𝛽 )� − (− ∑𝛼,𝛽 𝜌(𝑎, 𝑏)𝑙𝑑𝜌(𝛼, 𝛽 ))
Είναι 𝑝(𝛼 ) = ∑β 𝑝(𝛼, 𝛽 )
𝑝(𝛽 ) = ∑α 𝑝(𝛼, 𝛽 )
Αντικαθιστω:
ℐ[A;B] = �− ∑α ∑β 𝑝(𝛼, 𝛽 ) ld𝑝(𝛼 )� + �− ∑β ∑α 𝑝(𝛼, 𝛽 ) ld𝑝(𝛽 )� − (− ∑𝛼,𝛽 𝜌(𝑎, 𝑏)𝑙𝑑𝜌(𝛼, 𝛽 ))
= − ∑𝛼,𝛽 𝜌(𝑎, 𝑏)[ld𝑝(𝛼) + ld𝑝(𝛽 ) − 𝑙𝑑𝜌(𝛼, 𝛽 )]
= + ∑α,β ρ(a, b)ld
ρ(α,β)
ρ(α)ρ(β)
ΜΙ 2) ℐ[Α;Β] = ℐ[A] + ℐ[B] − ℐ[A,B] = ℐ[A] − ℐ[A|B] = ℐ[Β] − ℐ[Β|Α]
Αποδ
Από τον Κανονα της Αλυσσου της ΔΠ: ℐ[A , B] = ℐ[A]+ ℐ[Β|Α] = ℐ[Β] +ℐ[A|Β]
ΜΙ 3) ℐ[Α;Β] = ℐ[A ,B] − ℐ[A|B] − ℐ[Β|Α]
Σχεση Κοινης Πληροφοριας, Αμοιβαιας Πληροφοριας, Δεσμευμενης Πληροφοριας
Αποδ
Αθροιζουμε κατά μελη τoυς τυπους της Δεσμευμενης Πληροφοριας:
ℐ[A,B] − ℐ[Β] = ℐ[A|B]
ℐ[A,B] − ℐ[A] = ℐ[Β|Α]
ℐ[Α|Β] + ℐ[Β|Α] = 2ℐ[Α,Β] −ℐ[Α] − ℐ[Β]
Απο τον Τυπο ορισμου της Αμοιβαιας Πληροφοριας:
ℐ[A] + ℐ[B] − ℐ[A,B] = ℐ[A;B]
Προκυπτει:
ℐ[Α|Β] + ℐ[Β|Α] = ℐ[Α,Β] −ℐ[Α;Β]
οεδ
Information Diagram
Reza F. 1961, An Introduction to Information Theory. New York: McGraw-Hill 1961. New York: Dover 1994. ISBN 0486-68210-2
Yeung R. 2002, A First Course in Information Theory. Norwell, MA/New York: Kluwer/Plenum
ΜΙ 4) Kανων Αλυσσου για την ΑΠ Ν ΤΜ:
ℐ[A1 , A2; Β] = ℐ[A1; Β] + ℐ[A2; Β |A1]
ℐ[A1 , A2 ,..., AN ; Β] = ∑Ν
ν=1 ℐ[Aν ; Β|A1 , A2 , … , Aν−1 ]
ΜΙ 5) ℐ[A, B ; Z] ≥ ℐ[A;B]
H ΑΠ των ΤΜ A,B με την ΤΜ Z είναι μεγαλυτερη από την ΑΠ των ΤΜ Α,Β
ℐ[A, B ; Z] = ℐ[A;B] ⟺ Α⟶Β⟶Ζ Αλυσσος Markov: ρ(α,β,z) = ρ(z|β)ρ(β|α)ρ(α)
ΜΙ 6) ℐ[A ;B] = ℐ[Β;Α] Συμμετρια
Αποδ
Από τον Ορισμο
ℐ[A;B] = ℐ[A] + ℐ[B] − ℐ[A , B] = ℐ[Β] + ℐ[Α] − ℐ[Β , Α]= ℐ[Β;Α]
ΜΙ 7) ℐ[A ;Α] = ℐ[A]
Αποδ
Από τον Ορισμο
ΜΙ 8) ℐ[A ;B] = 0 ⇔ Α , Β Ανεξαρτητες ΤΜ
Αποδ
{0.2}
ΜΙ 9) Η Αμοιβαια Πληροφορια δεν οριζει αποσταση στην Αλγεβρα των ΤΜ
Δηλαδη αν d(A,B)= ℐ[A ;B], τοτε:
Αποδ
{0.3}
D1. d(Α,Β)≧0 ισχυει λογω της (MI2)
D2. d(Α,Β)=0 ⟺ Α=Β δεν ισχυει λογω της (MI 6)
D3. d(Α,Β)= d(B,Α) ισχυει λογω της (MI 4)
D4. d(Α,Β)≦ d(Α,Ζ)+ d(Ζ,Β), ∀ ΤΜ Ζ ?
ΜΙ 10) min (ℐ[A] , ℐ[B]) ≥ ℐ[A ;B] ≥ 0
Αποδ
{0.3}
ΜΙ 11) Η Αμοιβαια Πληροφορια ως Γενικευση της Συνδιακυμανσης
Pearson's Ιndex (Δεικτης Συνδιακυμανσης) between two variables is defined as the covariance
of the two variables divided by the product of their standard deviations:
CP(X,Y) =
𝒄𝒐𝒗(𝑿,𝒀)
�𝒗𝒂𝒓(𝑿)�𝒗𝒂𝒓(𝒀)
=
𝐄[(𝐗−𝚬[𝐗]) (𝐘−𝚬[𝐘])]
�𝒗𝒂𝒓(𝑿)�𝒗𝒂𝒓(𝒀)
=
𝐄[(𝐗−𝒎𝑿 ) (𝐘−𝒎𝒀 )]
𝝈𝜲 𝝈 𝜰
Cov(A,B) = E[(A−Ε[A]) (B−Ε[B])] = E[(A− mA) (B− mB)]
Theorem
|CP(X,Y)| =1 ⟺ Χ,Υ linearly dependent
|CP(X,Y)| ≠1 ⟺ no linear dependence between Χ,Υ
Definition
The MI-Interdependence Index
ℐ[𝐀 ;𝐁]
CMI = 𝓘[𝐀]+ 𝓘[𝐁]−𝐦𝐢𝐧
( 𝓘[𝐀] ,
𝓘[𝐁] )
CMI takes values between [0,1]
CMI=0 ⟺ ℐ[A ;B] = 0 ⟺ ℐ[A,B] = ℐ[A] + ℐ[B]
⟺ Α , Β Ανεξαρτητες ΤΜ
CMI=1 ⟺ 𝓘[𝐀] + 𝓘[𝐁] − 𝐦𝐢𝐧 ( 𝓘[𝐀], 𝓘[𝐁]) = ℐ[𝐀 ; 𝐁] ⟺ ℐ[A,B] = min ( ℐ[A] , ℐ[B] )
⟺ A,B Deterministically (Causally) Dependent:
Α=φ(Β) and B= φ-1(A)
Therefore ℐ[A] = ℐ[B]
Generalization of Pearson’s Index
ΣΗΜΑΣΙΑ Αμοιβαιας Πληροφοριας
Η ΑΠ ειναι ποσοτικη εκτιμηση της Αλληλοεξαρτησης (Interdependence, Association)
των ΤΜ Α,Β μεσω του Διαυλου
H AΠ είναι η Πληροφορια του Διαυλου Επικοινωνιας
ως αμοιβαια εξαρτηση των ΤΜ Α,Β
Η ΑΠ εμπεριεχει ολη την αλληλοεξαρτηση μεταξυ δυο ΤΜ ,
ενώ η covariance εμπεριεχει μονο τις αλληλοεξαρτησεις 2ας ταξεως.
Η ΑΠ είναι γενικευση της covariance δυο ΤΜ ,
H AΠ εφαρμοζεται και σε Κατηγορικες Μεταβλητες
Η ΑΠ εκτιμα ποσο αποκλινει η προσεγγιση ανεξαρτητων ΤΜ
απο την Κοινη Πληροφορια των ΤΜ Α,Β
H AΠ είναι η Πληροφορια του Διαυλου Επικοινωνιας
ως μεσου επαγοντος αλληλοεξαρτηση των ΤΜ Α,Β
High MI between two RV indicates Strong Interdependence
by a Channel with small Uncertainty
Low MI between two RV indicates Weak Interdependence
by a Channel with large Uncertainty
Zero MI between two RV implies No Interdependence (they are independent)
No Channel
ΜΙ is important in communication where it can be used to maximize the amount of
information shared between sent and received signals.
ΜΙ 12) Μπορουμε να θεμελιωσουμε την Θεωρια Πληροφοριας
απο την Αμοιβαια Πληροφορια
δηλαδη από τις αλληλοεξαρτησεις μεσω του Διαυλου?
Bεβαιως!
Oριζουμε:
ρ(α|β)
ℐ[Α;Β] ≡ − ∑α,β ρ(a, b)ld ρ(α)ρ(β)
ℐ[A] = ℐ[A;Α]
ℐ[A,B] = ℐ[A] + ℐ[B] − ℐ[A;B]
ℐ[A|B] = ℐ[A] − ℐ[A;B]
Mutual Information Applications
Μελετη Συμμετρικων Αλληλοεξαρτησεων
Telecommunications,
Channel capacity is the maximal mutual information, over all input distributions
Biology
- RNA secondary structure prediction
- Phylogenetic profiling prediction
- Gene networks construction from microarray data
Signal and Image Processing
Αναλυση Συμβολικων Ακολουθιων (DΝΑ,Μουσικη)
Semantics
- Collocation (συμπαραθεση λεξεων με στατιστικη σημαντικοτητα) Extraction
From Corpus
-
Word Nearness Search Engines
Second Order Co-occurrence-Pointwise Mutual Information (SOC-PMI)
Method
- Semantic Nets ,
Learning
- Bayesian Nets, Neural Nets
- feature selection
- relevance and redundancy of variables
3) The interaction information
McGill W. 1954, Multivariate Ιnformation Τransmission, Psychometrika 19, 97-116
or co-Information
Bell A. 2003, The co-Ιnformation Lattice, Proc. 4th International Symposium on Independent
Component Analysis and Blind Source Separation (ICA2003), 921-926
ℐ[A;B;C] = ℐ[A;B|C] − ℐ[A;B]
= ℐ[A;C|B] − ℐ[A;C]
= ℐ[B;C|A] − ℐ[B;C]
the Information of the RV A,B,C, beyond the Information in any subset of A,B,C.
the difference between the information shared by {A,B} when C has been fixed and
when C has not been fixed.
the influence of the RV C on the information shared between {A,B}.
ℐ[A;B;C] = 0 the interdependence between {A,B} is not influenced by the RV C
ℐ[A;B;C] < 0 the RV C inhibits the dependence between {A,B},
ℐ[A;B;C] > 0 the RV C facilitates or enhances the dependence between {A,B}.
Εκλεπτυνση και Καινοτομια = Refinement and Innovation
Καθε διαμεριση ξ λεπτοτερη της διαμερισης η εισαγει επι πλεον Πληροφορια: ℐ[ξ] − ℐ[η]
ℐ[ξ] − ℐ[η] = Η Επιπλεον Πληροφορια που παιρνω
βελτιωνοντας την ακριβεια των μετρησεων
(απο την υφισταμενη διαμεριση η στην λεπτοτερη διαμεριση ξ)
= η διαφορα της Πληροφοριας ℐ[η] της υφισταμενης Πειραματικης Διαταξης η
απο την Πληροφορια ℐ[ξ] της βελτιωμενης Πειραματικης Διαταξης ξ
Παραδειγμα:
Η κοινη εκλεπτυνση ξ ⋁ η των διαμερισεων ξ και η ειναι λεπτοτερη απο τις ξ και η:
ξ⋁η≥η
Θ Εαν η διαμεριση ξ ειναι λεπτοτερη της διαμερισης η (ξ≥η)
δηλ καθε κελλι της ξ περιεχεται σε καποιο κελλι της η
Τοτε:
1) ℐ[ξ,η]= ℐ[ξ] Η Κοινη Πληροφορια των ξ,η ειναι η Πληροφορια της Λεπτοτερης Διαμερισης
2) ℐ[ξ|η] = ℐ[ξ] - ℐ[η]
3) ℐ[ξ;η]= ℐ[η]
Η Αμοιβαια Πληροφορια των ξ,η ειναι η Πληροφορια της Αδροτερης Διαμερισης
διοτι η προσθετη Πληροφορια απο την ξ εντασσεται στο αντιστοιχο κελλι της η
Η Πληροφορια που μπορει να αξιοποιηθει απο την ξ , δεδομενου οτι μετρω με την η
Αποδ
𝑝[𝛯𝜈 ∩𝛨𝜅 ]
]
[
𝑙𝑑
2) ℐ[ξ|η] = − ∑Κκ=1 ∑𝛮
𝑝
𝛯
∩
𝛨
�
�
𝜈
𝜅
ν=1
= − ∑Κκ=1 ∑𝛮
ν=1 𝑝[𝛯𝜈 ]𝑙𝑑 �
𝑝[𝛯𝜈 ]
𝑝[𝛨𝜅 ]
𝑝[𝛨𝜅 ]
� ,
επειδη καθε καθε κελλι 𝛯𝜈 περιεχεται σε καποιο κελλι Ηκ
Κ
𝛮
= − ∑𝛮
ν=1 𝑝[𝛯𝜈 ]𝑙𝑑𝑝[𝛯𝜈 ] − ∑κ=1 ∑ν=1 𝑝[𝛯𝜈 ]𝑙𝑑𝑝[𝛨𝜅 ]
𝛮
Κ
= − ∑𝛮
ν=1 𝑝[𝛯𝜈 ]𝑙𝑑𝑝[𝛯𝜈 ] − ∑κ=1 𝑝[⋃𝜈=1 𝛯𝜈 ]𝑙𝑑𝑝[𝛨𝜅 ]
Κ
= − ∑𝛮
ν=1 𝑝[𝛯𝜈 ]𝑙𝑑𝑝[𝛯𝜈 ] − ∑κ=1 𝑝[𝛨𝜅 ]𝑙𝑑𝑝[𝛨𝜅 ]
=ℐ[ξ] - ℐ[η]
1) ℐ[ξ,η] = ℐ[ξ|η]+ ℐ[η] = (ℐ[ξ]− ℐ[η])+ ℐ[η] = ℐ[ξ]
3) ℐ[ξ;η] = ℐ[ξ] − ℐ[ξ|η] = ℐ[ξ]−(ℐ[ξ]− ℐ[η]) = ℐ[η]
Πληροφοριακη Αποσταση ΤΜ – Διαμερισεων – σ-Αλγεβρων
Θεωρημα
Το Αθροισμα ℐ[Α|Β] + ℐ[Β|Α] = 𝒹(Α ,Β) των ΑΠ των Α,Β
οριζει αποσταση στην Αλγεβρα των ΤΜ
Α~Β ⟺ οι ΤΜ Α,Β εχουν την αυτή διαμεριση
Λημμα
𝒹(Α ,Β) = ℐ[Α|Β] + ℐ[Β|Α] = 2ℐ[Α,Β] −ℐ[Α] − ℐ[Β]
= ℐ[Α] + ℐ[Β] − ℐ[Α;Β]
= ℐ[Α,Β] −ℐ[Α;Β]
Αποδ Από το Θ3 της ΑΠ και τον ορισμο της ΑΠ
ℐ[Α;Β] = ℐ[A ,B] − ℐ[A|B] − ℐ[Β|Α]
ℐ[Α;Β] = ℐ[A] + ℐ[B] − ℐ[A,B] = ℐ[A] − ℐ[A|B] = ℐ[Β] − ℐ[Β|Α]
D1. 𝒹(Α ,Β) ≧0 ισχυει λογω της 2)
D2. 𝒹(Α ,Β) =0 ⟺ ℐ[Α] = ℐ[Β] ⟺ Α~Β
ℐ[Α] = ℐ[Β] ⟹ ℐ[Α,Β] = ℐ[Α] ⟹ 2ℐ[Α,Β] −ℐ[Α] − ℐ[Β] = 0 ⟹ 𝒹(Α,Β) = 0
𝒹(Α,Β) =0 ⟹ ℐ[Α|Β] + ℐ[Β|Α] = 0 ⟹ ℐ[Α|Β] = 0 και ℐ[Β|Α] = 0
διοτι ℐ[Β|Α] ≥ 0 , ℐ[Α|Β] ≥ 0
Είναι:
ℐ[Α|Β] = 0 ⟺ ξ ≤ η
ℐ[Β|Α] = 0 ⟺ η ≤ ξ από την ΔΠ7)
οπου ξ η διαμεριση της ΤΜ Α, η η διαμεριση της ΤΜ Β
Συνεπως: ξ = η ⟺ ℐ[Α] = ℐ[Β]
D3. 𝒹(Α ,Β) = 𝒹(B,Α) ισχυει λογω το Θ5) της ΑΠ
D4. (Α ,Β) ≦ 𝒹(Α,Ζ) + 𝒹(Ζ,Β), ∀ ΤΜ Ζ
⟺ 2ℐ[Α,Β] −ℐ[Α] − ℐ[Β] ≤ 2ℐ[Α,Ζ] −ℐ[Α] − ℐ[Ζ] + 2ℐ[Ζ,Β] −ℐ[Ζ] − ℐ[Β]
⟺ 2ℐ[Α,Β] ≤ 2ℐ[Α,Ζ] − 2ℐ[Ζ] + 2ℐ[Ζ,Β]
⟺ ℐ[Α,Β] ≤ ℐ[Α,Ζ] − ℐ[Ζ] + ℐ[Ζ,Β]
⟺ ℐ[Α,Β] ≤ ℐ[Α|Ζ] + ℐ[Ζ,Β] , από τον Κανονα Αλυσσου ΔΠ2) ℐ[A , Ζ] = ℐ[Ζ]+ ℐ[Α|Ζ]
Η ανισοτητα ℐ[Α,Β] ≤ ℐ[Α|Ζ] + ℐ[Ζ,Β] προκυπτει ως εξης:
ℐ[Α,Β] ≤ ℐ[Α,Β,Ζ]
διοτι η διαμεριση των Α,Β,Ζ είναι λεπτοτερη από την διαμεριση των Α,Β,Ζ
ℐ[Α,Β,Ζ] = ℐ[Β,Ζ]+ ℐ[Α|Β,Ζ] , από τον Κανονα Αλυσσου ΔΠ2)
⟹ℐ[Α,Β] ≤ ℐ[Β,Ζ]+ ℐ[Α|Β,Ζ]
ℐ[Α| Β , Z] ≤ ℐ[Α|Ζ] , από την ΔΠ9)
⟹ℐ[Α,Β] ≤ ℐ[Β,Ζ]+ ℐ[Α|Ζ] οεδ.
Ορισμος
The Normalized Rokhlin Distance between Random Variables (Partitions)
ℐ (Α|Β)+ℐ(Β|Α)
̃
𝒹 (Α ,Β)≡
=2–
ℐ(Α,Β)
0 ≤ 𝒹̃ (Α ,Α) ≤ 1,
𝒹̃ (Α ,Β) = 0 ⟺
διοτι
ℐ(Α) + ℐ(Β)
ℐ(Α,Β)
ℐ (Α) + ℐ(Β)
ℐ(Α,Β)
≥1
Α = Β (ταυτιζονται οι διαμερισεις)
𝒹̃ (Α ,Β) = 1 ⟺ ℐ[Α ,Β] = ℐ[Α] + ℐ[Β] ⟺ Α , Β ανεξαρτητες (μεγιστη αποσταση)
ΣΧΟΛΙΟ
Η Πληροφοριακη Αποσταση εκφραζει ποσο «κοντα» ειναι 2 ΤΜ (Διαμερισεις)
Ως προς τη Συντακτικη Πληροφορια τους
Τυχαιες μεταβλητες η Διαμερισεις με την αυτή Πληροφορια εχουν μηδενικη Αποσταση
Θεωρημα
Η Κλασση των Πεπερασμενων Διαμερισεων ειναι Πυκνη
στην Κλασση των (απειρων) Μετρησιμων Διαμερισεων Πεπερασμενης Πληροφοριας
Αποδ {1}
Rokhlin V. 1967, Lectures on the Entropy Theory of Measure Preserving Transformations,
Russ. Math. Surv. 22, No 5,1-52 , p19
Rokhlin Distance has been rediscovered :
Crutchfield J. 1990, Information and its Metric, in Nonlinear Structures in Physical Systems—
Pattern Formation, Chaos and Waves, ed. L. Lam and H. C. Morris, Springer-Verlag, New York
(1990) 119-130.
Meila M. 2003, Comparing Clusterings by the Variation of Information,
In Learning Theory and Kernel Machines, ed. B. Scholkopf and M.K. Warmuth,
Springer LNAI 2777, 173–187,
Meila M. 2005, Comparing Clusterings. An Axiomatic View
in Proceedings of the 22nd International Conference on Machine Learning,
Bonn, Germany.
Meila 2003, 2005 called the Rokhlin Distance Information Variation
and applied to Cluster Comparison
Στην Πραξη μελετω τις Πεπερασμενες Διαμερισεις, με τις οποιες
Μπορω να προσεγγισω οσο καλα θελω
τις απειρες μετρησιμες Διαμερισεις πεπερασμενης Πληροφοριας
ΣΗΜΑΣΙΑ ΠΛΗΡΟΦΟΡΙΑΣ στην ΕΠΙΚΟΙΝΩΝΙΑ
Eστω ℐ[A] η Πληροφορια που εστειλε η Πηγη
και ℐ[B] η Πληροφορια που ελαβε ο Δεκτης (μεσω του Διαυλου Επικοινωνιας)
Τοτε: ℐ[A ,B] = ℐ[A|B] + ℐ[Β|Α] + ℐ[A ;B] = 𝓭[A,B] + ℐ[A ;B]
ℐ[A,B] = η Πληροφορια του ολου Συστηματος Επικοινωνιας
ℐ[B|Α] = η Πληροφορια που εληφθη εαν ειναι γνωστο ότι εσταλη Πληροφορια ℐ[A]
{δειχνει την επιδραση του Διαυλου Επικοινωνιας}
ℐ[A|B] = η Πληροφορια που εσταλη εαν ειναι γνωστο ότι εληφθη Πληροφορια ℐ[Β]
{δειχνει ποσο ευκολα ανακταται το Μηνυμα που εσταλη
απο το Μηνυμα που εληφθη
λογω της επιδρασης του Διαυλου Επικοινωνιας}
ℐ[A ; B] = η Πληροφορια που εισαγει ο Διαυλος Επικοινωνιας
ως αμοιβαια εξαρτηση Πηγης - Δεκτη
𝓭[A,B] = η Πληροφοριακη Αποσταση (Rokhlin) των ΤΜ Α,Β