4 Πληροφορια και Εντροπια - COMPLEX SYSTEM ANALYSIS

ΣΤΑΤΙΣΤΙΚΗ ΑΝΑΛΥΣΗ ΠΛΗΡΟΦΟΡΙΑΣ
4. ΠΛΗΡΟΦΟΡΙΑ και ΕΝΤΡΟΠΙΑ
Ioannis E. Antoniou
Mathematics Department
Aristotle University
54124,Thessaloniki,Greece
[email protected]
http://users.auth.gr/iantonio
Θερμοδυναμικη Εντροπια
Εντροπια Βοltzmann. Παρατηρηση Moριακης Καταστασης Συστηματος
Εντροπια Shannon. Mεση Πληροφορια Παρατηρησης
Εφαρμογες Eντροπιας
Eντροπια Κατανομων Πιθανοτητας
Κατανομες Μεγιστης Εντροπιας
Εντροπια Μοναδικοτης
Εντροπια και Πιθανοτητα
Οι 3 Ορισμοι της Εντροπιας
Θερμοδυναμικη Εντροπια
Εντροπια Βοltzmann
Παρατηρηση Moριακης Καταστασης Συστηματος
Εντροπια Shannon
Mεση Πληροφορια Παρατηρησης
Θερμοδυναμικη Eντροπια
H Θερμοδυναμικη Eντροπια της Kαταστασης (κ) οριζεται
από τoν τυπο Clausius 1860:
ℐΘ = S = S(κ) =
Q0,1
T0
+
Q1,2
T1
+ ⋯+
Qn−1,n
T𝑛−1
=
Qν,ν+1
n−1
∑ν=0
T
για οποιαδηποτε Αναστρεψιμη Διαδικασια:
ν
κ dQ
= ∫0
T
κ0 → κ1 → κ2 → … → κn−1 → κ ≡ κn
από την κατασταση Αναφορας κ0 προς στην κατασταση κ≡ κn
μεσω n βηματων με ενδιαμεσες καταστασεις: κ1 , κ2 , … , κn−1.
Qα,β η θερμότητα που εισερχεται στο σύστημα απο το περιβάλλον του,
Κατά την μεταβολή α→β
Τα η θερμοκρασία υπό την οποία συμβαίνει η μεταβολή α→β
ΕΜΠΕΙΡΙΚΗ Υποθεση:
1) Κάθε φυσικη κατασταση κ είναι προσβασιμη από την κατασταση αναφορας
“0” μεσω τουλαχιστον μιας Αναστρεψιμης Διαδικασιας,
κατά την οποια
ανταλλασσεται μονο Θερμοτητα μεταξυ Συστηματος - Περιβαλλοντος
2) Οιεσδηποτε φυσικες καταστασεις κ,λ είναι προσβασιμες η μια από την αλλη
μεσω τουλαχιστον μιας Αναστρεψιμης Διαδικασιας κατά την οποια
ανταλλασσεται μονο Θερμοτητα μεταξυ Συστηματος - Περιβαλλοντος
3) Για μια οποιαδηποτε Μη Αναστρεψιμη Διαδικασια: κ → λ:
ΔS = S(λ) – S(κ) ≥ ∑n−1
ν=0
Η Εντροπια αυξανει (2η Αρχη Θερμοδυναμικης)
Qν,ν+1
Tν
≥0
ΑΝΑΦΟΡΕΣ
Pauli W. 1973, Thermodynamics and the Kinetic Theory of Gases,
Vol. 3 of Pauli Lectures on Physics, MIT Press Massachusetts
Kondepudi D., Prigogine I. 1998, Modern Thermodynamics: From Heat Engines to Dissipative Structures,
Wiley, New York
Entropy is the Αverage Information necessary
to reproduce the state-situation from some reference state (equilibrium)
Entropy increases in the Future
2nd Principle of Thermodynamics [Clausious 1850s]
Statistical
Thermodynamic
Equilibrium
Scotch on the Rocks
Order
Inhomogeneity
Far From Equilibrium
Dis-Order
Homogeneity
Equilibrium
Gas Mixing
Order
Inhomogeneity
Far From Equilibrium
Dis-Order
Homogeneity
Equilibrium
Εντροπια Βοltzmann. Παρατηρηση Moριακης Καταστασης Συστηματος
Τι σημαινει η Εντροπια Clausius στο Μοριακο Επιπεδο?
Πως ερμηνευεται η Αυξηση Εντροπιας στο Μελλον?
Ορισμος
Eντροπια Boltzmann της Παρατηρουμενης Μεταβλητης
ℐBOLTZMANN = S = kln𝒲
k=σταθερος αριθμος εξαρτωμενος απο την μοναδα μετρησης
𝒲 = Wahrscheinlichkeit = thermodynamic probability
ο αριθμος των δυνατων μοριακων καταστασεων
που αντιστοιχουν- οδηγουν-είναι συμβατες με
το αποτελεσμα της Παρατηρησης της Μεταβλητης
ο αριθμος των Complexions
The Entropy Formula was proposed by Boltzmann between 1872 to 1875.
Boltzmann L. 1898, Lectures on Gas Theory, Translation of Vorlesungen tiber
Gastheorie , by S. G. Brush. Berkeley: Univ. of California Press, 1964.
Παρατηρηση Αεριου
Πειραματικη Διαταξη
Y = o Δειγματοχωρος
= το συνολο των δυνατων καταστασεων (θεσεις, ορμες) των μοριων του αεριου
ℬ τα Παρατηρησιμα Ενδεχομενα, Γεγονοτα
τα Μετρησιμα Συνολα, οι παρατηρησιμες τιμες των καταστασεων
πχ οι μετρησιμες τιμες ε1 , ε2 , ... , εn της Κινητικης Ενεργειας των μοριων
οριζουν την διαμεριση ξ του Y στα κελλια Ξ1 , Ξ2 , ... , Ξn .
Τα μορια με Κινητικη Ενεργεια εν ανηκουν στο κελλι Ξν , ν=1,2,…,n
{ Ξ1 , Ξ2 , ... , Ξn } αδρη περιγραφη (coarse grained description)
{y} λεπτομερης περιγραφη (fine grained description)
Αποτελεσμα Μετρησης η Θεωρητικης Εκτιμησης
Eπειδη συνηθως δεν ειναι γνωστη η μοριακη κατασταση y,
Εκτιμουμε πιθανολογικα
p κατανομη Πιθανοτητος στα Μετρησιμα Υποσυνολα Ξ1 , Ξ2 , ... , Ξn
Η p προκυπτει απο Στατιστικη Εκτιμηση των Παρατηρησεων
ειτε απο Θεωρητικη Υποθεση
Hypothesis:
Τhe molecules are independently distributed in the cells Ξ1 , Ξ2 , ... , Ξn ,
with corresponding probabilities p1 , p2 , ... , pn
Maxwell – Boltzmann Energy distribution:
pν =
𝜀
− 𝜈
𝑒 𝑘𝑇
𝑍𝑛
, ν=1,2,…,n
𝜀𝜈
∑𝑛𝜈=1 𝑒 − 𝑘𝑇
𝑍𝑛 =
function)
the normalization constant (partition
Maxwell – Boltzmann Speed distribution:
p(υ) =
1
𝛼3
�
2
𝜋
𝜐2
−
𝜐 2 𝑒 2𝛼2
Τhe Boltzmann Entropy of the Ideal Gas of m molecules.
The Observation of the n values ε1 , ε2 , ... , εn of the Kinetic Energy of the m
molecules gives:
m1 molecules with Kinetic Energy ε1
m2 molecules with Kinetic Energy ε2
...
mn molecules with Kinetic Energy εn
m1 , m2 , ... , mn are the numbers of molecules in the cells Ξ1 , Ξ2 , ... , Ξn
m1 + m2 + ... + mn = m
𝒲 [m1 , m2 , ... , mn] =
m!
m1 !m2 !…mn !
Θεωρημα
ℐB (m1 , m2 , ... , mn) ≅ m [−𝒌 ∑𝐧𝐚=𝟏 𝐩𝐚 𝐥𝐧 𝐩𝐚 ] ,
m
With the Hypotheses: pa≅ a and m large
m
Αποδ
ℐB = kln[m1 , m2 , ... , mn] = kln�
= k [ln(m!) − ∑na=1 ln(ma !)]
m!
�=
m1 !m2 !…mn !
, Stirling Formula: lnx!≅xlnx-x ,
x large, error estimation {EΡΓ 0.2}
≅ k [𝑚𝑙𝑛(𝑚) − 𝑚 − ∑na=1 ma ln(ma ) + ∑na=1 ma ]
= k [𝑚𝑙𝑛(𝑚) − ∑na=1 ma ln(ma )]
= k [𝑚𝑙𝑛(𝑚) − ∑na=1(mpa ) ln(mpa ) ]
,
pa≅
ma
m
, m large
= k [𝑚𝑙𝑛𝑚 − ∑na=1(mpa ) ln(pa ) − ∑na=1(mpa ) ln(m) ]
= m [−𝑘 ∑na=1 pa ln pa ]
ℐB (8, 0) = −k8(1ln1+0ln0) = 0
𝟔
𝟔 𝟐
𝟐
𝟓
𝟓 𝟑
𝟑
𝟒
𝟒 𝟒
𝟒
ℐB (6, 2) = −k8( ln + ln ) =−8k(−0.216−0.347) = 8k 0.563
𝟖
𝟖 𝟖
𝟖
ℐB (5, 3) = −k8( ln + ln ) =−8k(−0.293−0.368) = 8k 0.661
𝟖
𝟖 𝟖
𝟖
ℐB (4, 4) = −k8( ln + ln ) = 8k 0.693
𝟖
𝟖 𝟖
𝟖
Υπολογιστε την Eντροπια Boltzmann για 4 καταστασεις αεριου 2Ν Μοριων
1) 2Ν μορια στο κελλι Ξ1 , 0 μορια στο κελλι Ξ2
2) 2Ν-λ μορια στο κελλι Ξ1 , λ μορια στο κελλι Ξ2
3) 2Ν-λ-1 μορια στο κελλι Ξ1 , λ+1 μορια στο κελλι Ξ2
4) Ν μορια στο κελλι Ξ1 , Ν μορια στο κελλι Ξ2
Τι διαπιστωνετε?
Eργασια 0.5
Υπολογιστε την Eντροπια Boltzmann για 4 καταστασεις αεριου
2Ν λευκων Μοριων και 2Ν μαυρων Μοριων
1) 2Ν μαυρα μορια στο κελλι Ξ1 , 0 μαυρα μορια στο κελλι Ξ2
0 λευκα μορια στο κελλι Ξ1 , 2Ν λευκα μορια στο κελλι Ξ2
2) 2Ν-μ μαυρα μορια στο κελλι Ξ1 , μ μαυρα μορια στο κελλι Ξ2
λ λευκα μορια στο κελλι Ξ1 , 2Ν-λ λευκα μορια στο κελλι Ξ2
3) 2Ν-μ-1 μαυρα μορια στο κελλι Ξ1 , μ+1 μαυρα μορια στο κελλι Ξ2
λ+1 λευκα μορια στο κελλι Ξ1 , 2Ν-λ-1 λευκα μορια στο κελλι Ξ2
4) Ν μαυρα μορια στο κελλι Ξ1 , Ν μαυρα μορια στο κελλι Ξ2
Ν λευκα μορια στο κελλι Ξ1 , Ν λευκα μορια στο κελλι Ξ2
Τι διαπιστωνετε?
Eργασια 0.5
Παραδειγμα: Ριψη 2 Ζαριων
Δειγματοχωρος
(𝟏, 𝟏), (𝟏, 𝟐), (𝟏, 𝟑), (𝟏, 𝟒), (𝟏, 𝟓), (𝟏, 𝟔)
⎧(𝟐, 𝟏), (𝟐, 𝟐), (𝟐, 𝟑), (𝟐, 𝟒), (𝟐, 𝟓), (𝟐, 𝟔)⎫
⎪
⎪
(𝟑, 𝟏), (𝟑, 𝟐), (𝟑, 𝟑), (𝟑, 𝟒), (𝟑, 𝟓), (𝟑, 𝟔)
𝜰=
⎨(𝟒, 𝟏), (𝟒, 𝟐), (𝟒, 𝟑), (𝟒, 𝟒), (𝟒, 𝟓), (𝟒, 𝟔)⎬
⎪(𝟓, 𝟏), (𝟓, 𝟐), (𝟓, 𝟑), (𝟓, 𝟒), (𝟓, 𝟓), (𝟓, 𝟔)⎪
⎩(𝟔, 𝟏), (𝟔, 𝟐), (𝟔, 𝟑), (𝟔, 𝟒), (𝟔, 𝟓), (𝟔, 𝟔)⎭
Kαταστασεις y= (κ,λ), κ,λ =1,2,3,…
Μετρηση
Sum RV
2
3
4
5
6
7
8
9
10
11
12
Observable Events
Μετρησιμα Συνολα
Ξ2 ={ (1,1)}
Ξ3 ={ (1,2), (2,1)}
Ξ4 ={ (2,2), (1,3),(3,1)}
Ξ5 ={ (1,4), (2,3),(3,2), (4,1)}
Ξ6 ={ (1,5), (2,4),(3,3), (4,2), (5,1)}
Ξ7 ={ (1,6), (2,5),(3,4), (4,3), (5,2), (6,1)}
Ξ8 ={ (2,6), (3,5),(4,4), (5,3), (6,2)}
Ξ9 ={ (3,6), (4,5),(5,4), (6,3)}
Ξ10 ={ (4,6), (5,5),(6,4)}
Ξ11 ={ (5,6), (6,5)}
Ξ12 ={ (6,6)}
Probability
1/36=3%
2/36=6%
3/36=8%
4/36=11%
5/36=14%
6/36=17%
5/36=14%
4/36=11%
3/36=8%
2/36=6%
1/36=3%
Eντροπια Boltzmann m ριψεων των 2 Ζαριων
η Eντροπια παρατηρησης m Ισονομων και Ανεξαρτητων Tυχαιων Mεταβλητων
Αποτελεσμα: m2 φορες το αθροισμα 2
m3 φορες το αθροισμα 3
…
m12 φορες το αθροισμα 12
ℐB (m1 , m2 , ... , mn) ≅ m �−𝒌 ∑𝟏𝟐
𝐚=𝟐 𝐩𝐚 𝐥𝐧 𝐩𝐚 �
1
2
2
3
3
4
4
5
5
6
6
1
= 𝒎𝒌 �−𝟐 𝒍𝒏 − 𝟐 𝒍𝒏 − 𝟐 𝒍𝒏 − 𝟐 𝒍𝒏 − 𝟐 𝒍𝒏 − 𝒍𝒏 �
36 36
36 36
36 36
36 36 36 36
36 36
1
1
1
5
36 1
1
= 𝒎𝒌 � 𝒍𝒏𝟑𝟔 + 𝒍𝒏𝟏𝟖 + 𝒍𝒏𝟏𝟐 + 𝒍𝒏𝟗 + 𝒍𝒏 + 𝒍𝒏𝟔�
9
6
8
18
5 6
18
= 𝒎𝒌 �
1
1
1
5
1
1
𝟑. 𝟓𝟖𝟑𝟓 + 𝟐. 𝟖𝟗𝟎𝟒 + 𝟐. 𝟒𝟖𝟒𝟗 + 𝟐. 𝟏𝟗𝟕𝟐 + 𝟏. 𝟗𝟕 + 𝟏. 𝟕𝟗𝟏𝟖�
9
6
8
18
6
18
= 𝒎𝒌 (𝟎. 𝟏𝟗𝟗𝟎 + 𝟎. 𝟑𝟐𝟏𝟏 + 𝟎. 𝟒𝟏𝟒𝟏 + 𝟎. 𝟐𝟕𝟒𝟔 + 𝟎. 𝟓𝟒𝟕𝟐 + 𝟎. 𝟐𝟗𝟖𝟔)
𝓘𝐁 (𝐦𝟏 , 𝐦𝟐 , . . . , 𝐦𝐧 ) ≅ 𝒎𝒌 𝟐. 𝟎𝟓𝟒𝟔
Eντροπια Boltzmann ανα Μοριο
𝑱𝑩𝑶𝑳𝑻𝒁𝑴𝑨𝑵𝑵 (𝒎𝟏 ,…,𝒎𝒏 )
𝐦
≅
𝐦 [−𝒌 ∑𝐧
𝐚=𝟏 𝐩𝐚 𝐥𝐧 𝐩𝐚 ]
𝐦
=−𝒌 ∑𝐧𝐚=𝟏 𝐩𝐚 𝐥𝐧 𝐩𝐚
Planck M. 1900, Verh. Deutsch. Phys. Ges., 2, 237
Planck M. 1930, Vorlesungen über Thermodynamik, De Gruyter Berlin, English Translation Dover 1945.
"the logarithmic connection between Entropy and Probability was first stated by L. Boltzmann in
his kinetic theory of gases."
Gibbs Entropy is a generalization of Boltzmann Entropy
Eντροπια Gibbs 1878
ℐG= −𝑘 ∑a pa ln pa , for discrete microstates
ℐG= −k∫V dy p(y) ln p(y) , for continuous microstates
Gibbs J. 1902, Elementary Principles of Statistical Mechanics Yale Univ. Press; Dover Reprint, New York.
(Shannon) Entropy as Average Information of Observation
Εντροπια Shannon από την Εντροπια Boltzmann
Shannon Entropy (Information) of the Message (ψ1, ψ2 , ... , ψm) of size m
prepared from n symbols {σ1, σ2, ... σn}
Each term in the message may be any of the symbols {σ1, σ2, ... σn}
p1 , p2 , ... , pn the probabilities of occurrence of the symbols {σ1, σ2, ... σn} in the Message
ℐSHANNON = − ∑𝒏𝒂=𝟏 𝒑𝒂 𝒍𝒐𝒈𝟐 𝒑𝒂 =
Boltzmann
Molecule
Gas of m Molecules
Cell = ObservableMeasurable state
of each Molecule
of the Gas
𝟏
𝒍𝒏𝟐
𝓘𝑩𝑶𝑳𝑻𝒁𝑴𝑨𝑵𝑵
𝒎
= Boltzmann’s Entropy per Molecule
Shannon
Term in a Message
Message of m Terms
Symbol = ObservableRegistrable state
of each Term
of the Message
Probability Theory
Random Variable
m Random Variables
Cell of the Partition of
The Random Variable
ℐSHANNON = ∑𝒏𝒂=𝟏 𝒑𝒂 [−𝒍𝒐𝒈𝟐 𝒑𝒂 ] = the average of [−𝒍𝒐𝒈𝟐 𝒑𝒂 ]
[−𝒍𝒐𝒈𝟐 𝒑𝒂 ] = 𝓲𝒂 the Information of the Event Ξα
Entropy as Average Information
Εντροπια ως μεση Πληροφορια
Πληροφορια Γεγονοτος Ξ ∈ 𝓑[Y]
Y o Δειγματοχωρος, τα Δυνατα Αποτελεσματα
ℬ = ℬ[Y] μια σ-Αλγεβρα συλλογη υποσυνολων του Υ που αποτελουν
τα Μετρησιμα Συνολα, Ενδεχομενα, Γεγονοτα
p κατανομη Πιθανοτητος στα Μετρησιμα Υποσυνολα
Η p προκυπτει απο Στατιστικη Εκτιμηση των Παρατηρησεων
ειτε απο Θεωρητικη Υποθεση
H Πληροφορια του Γεγονοτος / Μηνυματος Ξ, για καθε μετρησιμο συνολο Ξ ∈ ℬ
ειναι μια εκτιμηση της Αβεβαιοτητας που αιρεται
μετα την προσληψη του μηνυματος / παρατηρησης του Ξ
𝒾[Ξ] εξαρταται απο τον αριθμο των δυνατοτητων που περιοριζονται
μετα την προσληψη του μηνυματος/παρατηρησης του Ξ
𝒾[Ξ] εξαρταται απο τον αριθμο των δυνατων περιπτωσεων που αντιστοιχουν
στο μηνυμα / παρατηρηση του Ξ
Information Axioms
Requirements for the Information Function of Events
𝒾 is a real (set) function of the Events: 𝓲 : 𝔖 ⟶ ℝ: Ξ ⟼ 𝒾[Ξ] :
(1)
(2)
(3)
𝒾[Ξ] = 0, εαν p[Ξ] =1, για καθε Ξ ∈ ℬ
𝒾[Ξ] ≥ 𝒾[Η], εαν p[Ξ] ≤ p[Η] , για καθε Ξ, Η ∈ ℬ
𝒾[Ξ∩H] = 𝒾[Ξ] + 𝒾[Η] , εαν Ξ, Η independent: p[Ξ∩H] = p[Ξ] p[Η]
Θεωρημα
(4)
(5)
𝒾[Ξ] ≥ 0 , για καθε Ξ ∈ 𝔖[Y]
𝒾[Ν] = +∞ , εαν p[Ν] = 0 , Ν ∈ ℬ [Y]
Proof Staightforward from (1), (2)
(4) 𝒾[Ξ] ≥ 𝒾[Y]=0 , για καθε Ξ ∈ ℬ
(5) εαν p[Ν] = 0 , Ν ∈ ℬ, τοτε 𝒾[Ν] ≥ 𝒾[Ξ], για καθε Ξ ∈ 𝔖[Y] με p[Ξ] > 0
Συνεπως πρεπει: 𝒾[Ν] = +∞ , εαν p[Ν] = 0 , Ν ∈ 𝔖[Y]
Απαιτησεις για την Συναρτηση Πληροφοριας των Γεγονοτων
ως συναρτηση της Πιθανοτητος p ∈ [0,1]
(1) 𝒾[1] = 0
(2) 𝒾[p1] ≥ 𝒾[p2], εαν p1 ≤ p2
(3) 𝒾[p] ≥ 0 , για καθε p
(4) 𝒾[0] = +∞
(5) 𝒾[p1 p2] = 𝒾[p1] + 𝒾[p2] Η (Λογαριθμικη) Συναρτησιακη Εξισωση Cauchy
Θεωρημα
Για συνεχεις συναρτησεις 𝒾[p] η Λυση είναι η Λογαριθμικη Συναρτηση:
𝒾[p]=−logbp, b>0, b≠1
Αποδ. Ασκηση 0.1
Ορισμος Shannon για την 𝒾[Ξ]
𝒾[Ξ] ο ελαχιστος αριθμος των ανεξαρτητων ισοπιθανων
Δυαδικων (ΝΑΙ/ΟΧΙ) αποφασεων που απαιτουνται
για να πληροφορηθει (πιστοποιησει) καποιος,
οτι το γεγονος Ξ πραγματοποιηθηκε,
χωρις αλλη εκ των προτερων (a priori) πληροφορια
p[Ξ] =
1 𝒾[Ξ]
� �
2
⟺
1
p[Ξ]
= 2𝒾[Ξ] ⟺
𝒾[Ξ] = −log2 p[Ξ] = −ld p[Ξ]
b=2
log2p = the minimal number of independent equiprobable
(YES/NO) - Decisions necessary to verify the event with probability p
The 20 Questions Game
Del Lungo A. Louchard G.ea 2005 ,
The Guessing Secrets Ρroblem: a Ρrobabilistic Αpproach,
Journal of Algorithms 55, 142–176
ΠΑΡAΔΕΙΓΜΑ:
Ξ = επιλεγω ενα απο n συμβολα,
1) παιζω Κορωνα/Γραμματα n=2
Koρωνα-Γραμματα
1 δυαδικη ισοπιθανη αποφαση
1
p[K]=
2
1 1
=� �
2
⟹ 𝒾[K]=1bit
1
𝒾[Κορωνα] = −log2 = 1
2
2) Τραβαω ενα χαρτι απο την τραπουλα. Αποτελεσμα:
(Κουπα), (Ασσος), (Ασσος Κουπα)
1
𝒾[Κουπα] = −log2 p[Κουπα] = −log2 = 2
𝒾[Ασσος] = −log2 p[Ασσος] = −log2
4
1
13
= 3.70
𝒾[Ασσος Κουπα] = −log2 p[Ασσος Κουπα] = −log2
1
4∙13
= 5.70
𝒾[Ασσος Κουπα] = 𝒾[Κουπα] + 𝒾[Ασσος] = 5.70, διοτι ειναι ανεξαρτητα
Μπορω παντα να συζητω με δυαδικες Αποφασεις? ΝΑΙ
Eαν p[Ξ]
1 ν1 1 ν2
=� � � �
α
β
Τοτε p[Ξ]
…
1 ν1 ldα 1 ν2 ldβ
=� �
� �
…
2
2
Υπομν. α=2ldα
=
1 ν1 ldα+ν2 ldβ+⋯
� �
2
ΛΗΜΜΑ: Computation of Dyadic logarithms
ldx = log 2 x =
ldx = log 2 x =
log10 x
log10 2
log𝑒 x
log𝑒 2
=
=
𝑙𝑔𝑥
𝑙𝑔2
𝑙𝑛𝑥
𝑙𝑛2
=
=
𝑙𝑔𝑥
0.30102995
𝑙𝑛𝑥
0.69314718
ΛΗΜΜΑ: Change logarithm basis Formula
log β x =
log𝛼 x
log𝛼 β
, x, α, β > 0 , α≠1, β ≠1
b=2 Shannon Information units are bits (from ’binary’)
b=3 units are trits (from ’trinary’)
b=e units are nats (from ’natural logarithm’) ln(x) = loge(x)
b=10 units are Hartleys, or bans
Πληροφορια Moναδες Μετρησης
1Byte=1B=23 bits=8bits
1KB=210 B=1024B=8142 bits
1MB=210 KB=1024KB=1048576B=8337408 bits
1GB=210 MB=1024MB=1048576KB=1073741824B ≅ 1.1x109B ≅ 8.8 x109bits
1TB=210 GB=1024GB=1048576MB=1073741824KB ≅ 1.1x1012B ≅ 8.8 x1012bits
Information Amounts
1 Text Character
TV Image
1 chromosome
DΝΑ as 4 Symbol Message
Information in Bacteria
Memory Cells,
E. Coli (2011)
Cells in the Human Body
Brain Neurons
Brain Synaptic Links
Brain Memory
Cyberspace 2007:
Cyberspace 2012:
Cyberspace Indexed
Google 0.004%
Atoms in 12gr C
Universe
Chess
GO
Eternity II
Borges Βabel Library
1 Byte = 8 bits
ld10414720bits =1.4 x 106 bits
(576 lines , 720 columns) = 414720 px and 10 luminosity scales
ld4100000bits = 2 x 105 bits
900000 GB
> 1014
~1011
~1015
2.5 PetaBytes = 1048576 GB ≈ 8.8 x 1018 bits
≈ 300 years of TV and Audio recording !
281 billion GB=281x109GB≅2.5x1021bits
3.6 x 1022 bits
1018 bits 2007
1.4 x 1018 bits 2012
6,022 x 1023
10100 bits
1043 bits
10200 bits ?
10550 bits
2.6 x101834103 Bytes
How much the Information of the Internet Weighs?
As 3 Strawberries!
http://socialtimes.com/how-much-does-the-internet-weigh-video_b82851
Αποθηκευση ως αλλαγη στις Ενεργειακες σταθμες των ηλεκτρονιων των Ατομων
Ορισμος
Εντροπια (Shannon) της Mεταβλητης Α
Η Αναμενομενη (Μεση) Πληροφορια απο την Παρατηρηση της Mεταβλητης Α
Εστω {α1, α2,…, αn} το φασμα τιμων της ΤΜ Α
Ξ1 το Γεγονος Α= α1 με πιθανοτητα p[Ξ1] = p1
Ξ2 το Γεγονος Α= α2 με πιθανοτητα p[Ξ2] = p2
…
Ξn το Γεγονος Α= αn με πιθανοτητα p[Ξn] = pn
ξ = {Ξν, ν=1,2,…,n}, n∈ℕ η Διαμεριση που οριζει η ΤΜ A
A(y)=∑Ν
𝜈=1 𝛼𝜈 1𝛯𝜈 (𝑦)
Καθε κελλι Ξν, ν=1,2,…,n , αντιστοιχει στο συμβολο αν, ν=1,2,…,n
που χρησιμοποιειται για την συνταξη μηνυματων
Η Πιθανοτητα p προκυπτει απο Στατιστικη Εκτιμηση ειτε απο Θεωρητικη Υποθεση
Εντροπια (Shannon) της Μεταβλητης Α ως προς την κατανομη p
ℐ= ℐ[Α,p] = − ∑nν=1 p(𝛢 = αν )ld𝑝[𝛢 = αν ] = − ∑nν=1 pν ldpν
Εντροπια (Shannon) της Διαμερισης ξ ως προς την κατανομη p
ℐ= ℐ[ξ,p] = − ∑nν=1 p(Ξν )ld𝑝[Ξν ] = − ∑nν=1 pν ldpν
ΣΧΟΛΙΑ
1) When Shannon realized the importance of the expression ℐ = − ∑a pa ln pa ,
he consulted John von Neumann about a suitable name for it.
Von Neumann's response (reported by Myron Tribus) was as follows:
“You should call it “Entropy” and for two reasons:
first, the function is already in use in thermodynamics under that name;
second, and more importantly,
most people don't know what entropy really is, and
if you use the word 'entropy' in an argument,
you will win every time!”
2) Η Εντροπια δεν εξαρταται από τις τιμες της μεταβλητης
Οι Μεταβλητες της μορφης A(y)=∑Ν
𝜈=1 𝛼𝜈 1𝛯𝜈 (𝑦) εχουν την αυτή Εντροπια
Η Εντροπια ειναι ιδιοτητα της κλασσης των Μεταβλητων A(y)=∑Ν
𝜈=1 𝛼𝜈 1𝛯𝜈 (𝑦)
που ειναι μετρησιμες ως προς τη διαμεριση ξ = {Ξν}
δηλαδη ανηκουν στoν υποχωρο < 1𝛯1 , … , 1𝛯𝛮 >
3) Η Εντροπια ειναι ενας θετικος αριθμος που εκχωρειται
σε καθε διαμεριση ξ = {Ξ1, Ξ2 ,..., ΞΝ} του Y και
σε καθε κατανομη Πιθανοτητος p του Y
4) Η Εντροπια μπορει να θεωρηθει ως
ιδιοτητα της κατανομης πιθανοτητας p1 ,..., pn
δηλαδη ως απεικονιση
ℐ: 𝒫n →[0,+∞) : (p1 ,..., pn) ↦ ℐ(p1 ,..., pn) = − ∑𝑛ν=1 𝑝𝜈 ld𝑝𝜈
𝒫n = η Αλγεβρα των κατανομων πιθανοτητος {p1 ,..., pΝ} στο Συνολο {1,2,...,n}
5) Η Εντροπια γενικευεται για απειρες (Μετρησιμες) διαμερισεις
Rohlin V. 1967, Lectures on the Entropy Theory of Measure Preserving Transformations,
Russ. Math. Surv. 22, No 5,1-52
Kakihara Y. 1999, Abstract Methods in Information Theory, World Scientific, Singapore
6) Για Συνεχεις Μεταβλητες (Kατανομες Πιθανοτητας) χρησιμοποιειται
η Εντροπια Gibbs
𝓘[A] = 𝓘G [A] =−∫dα ρ(α) lnρ(α)
ρ(α) η κατανομη πιθανοτητος της Μεταβλητης Α
Παραδειγμα: Ριψη 2 Ζαριων
Δειγματοχωρος
Υ={y|y= (1,1), (1,2), (1,3), (1,4), (1,5), (1,6),
(2,1), (2,2), (2,3), (2,4), (2,5), (2,6),
(3,1), (3,2), (3,3), (3,4), (3,5), (3,6),
(4,1), (4,2), (4,3), (4,4), (4,5), (4,6),
(5,1), (5,2), (5,3), (5,4), (5,5), (5,6),
(6,1), (6,2), (6,3), (6,4), (6,5), (6,6) }
Tυχαια Mεταβλητη: Z(y) = y, το Αποτελεσμα της ριψης των 2 ζαριων
𝟑𝟔
𝟏
𝟏
𝓘[𝜡] = − � � 𝒍𝒅 � = 𝒍𝒅𝟑𝟔 ≅ 𝟓. 𝟏𝟕
𝟑𝟔 𝟑𝟔
𝝂=𝟏
Tυχαια Mεταβλητη: Α(y) = το Αθροισμα των Ενδειξεων των 2 Ζαριων
Α(y)=2∙1𝛯2 (y)+ 3∙1𝛯3 (y)+ 4∙1𝛯4 (y)+ 5∙1𝛯5 (y)+ 6∙1𝛯6 (y)+ 7∙1𝛯7 (y)+
+ 8∙1𝛯8 (y)+ 9∙1𝛯9 (y)+ 10∙1𝛯10 (y)+ 11∙1𝛯11 (y)+ 12∙1𝛯12 (y)
Η Διαμεριση της ΤΜ Α: ξ = { Ξ2 , Ξ3 , Ξ4 , Ξ5 , Ξ6 , Ξ7 , Ξ8 , Ξ9 , Ξ10 , Ξ11 , Ξ12 }
Cell
Ξ2 ={ (1,1)}
Ξ3 ={ (1,2), (2,1)}
Ξ4 ={ (2,2), (1,3), (3,1)}
Ξ5 ={ (1,4), (2,3),(3,2), (4,1)}
Ξ6 ={ (1,5), (2,4),(3,3), (4,2), (5,1)}
Ξ7 ={ (1,6), (2,5),(3,4), (4,3), (5,2), (6,1)}
Ξ8 ={ (2,6), (3,5),(4,4), (5,3), (6,2)}
Ξ9 ={ (3,6), (4,5),(5,4), (6,3)}
Ξ10 ={ (4,6), (5,5),(6,4)}
Ξ11 ={ (5,6), (6,5)}
Ξ12 ={ (6,6)}
Probability
1
36
2
36
3
36
4
36
5
36
6
36
5
36
4
36
3
36
2
36
1
36
𝓘[𝑨] = − �𝟐
1
36
𝒍𝒅
36
𝓘[𝑨] = �
𝓘[𝑨] = �
1
1
18
1
18
+𝟐
2
36
𝒍𝒅
𝒍𝒅𝟑𝟔 +
𝟓. 𝟏𝟕 +
1
9
1
9
2
36
+𝟐
𝒍𝒅𝟏𝟖 +
𝟒. 𝟏𝟕 +
3
36
1
6
1
6
𝒍𝒅
3
36
+𝟐
𝒍𝒅𝟏𝟐 +
𝟑. 𝟓𝟖 +
1
8
1
8
4
36
𝒍𝒅
𝒍𝒅𝟗 +
𝟑. 𝟏𝟕 +
4
36
5
18
5
18
+𝟐
𝒍𝒅
36
36
5
5
+
𝟐. 𝟖𝟓 +
𝒍𝒅
1
6
1
6
5
36
+
𝒍𝒅𝟔�
6
36
𝟐. 𝟓𝟖�
𝒍𝒅
6
�
36
𝓘[𝑨] = (𝟎. 𝟐𝟖𝟕 + 𝟎. 𝟒𝟔𝟑 + 𝟎. 𝟓𝟗𝟕 + 𝟎. 𝟒𝟔𝟐 + 𝟎. 𝟕𝟗𝟐 + 𝟎. 𝟒𝟑𝟎)
𝓘[𝑨] = 𝟑. 𝟎𝟑𝟏
Tυχαια Mεταβλητη:
Β(y) = η απολυτη τιμη της Διαφορας των ενδειξεων των 2 Ζαριων
Β(y)=0∙𝟏𝜢𝟎 (y)+ 1∙𝟏𝜢𝟏 (y) )+ 2∙𝟏𝜢𝟐 (y) + 3∙𝟏𝜢𝟑 (y)+ 4∙𝟏𝜢𝟒 (y)+ 5∙𝟏𝜢𝟓 (y)
Η Διαμεριση της ΤΜ Β: η = { Η0 , Η1 , Η2 , Η3 , Η4 , Η5 }
Cell
Η0 ={ (1,1), (2,2),(3,3), (4,4), (5,5),(6,6)}
Η1 ={ (1,2), (2,3), (3,4), (4,5), (5,6), (6,5), (5,4), (4,3),(3,2), (2,1)}
Η2 ={ (1,3), (2,4), (3,5), (4,6), (6,4), (5,3),(4,2), (3,1)}
Η3 ={ (1,4), (2,5), (3,6), (6,3), (5,2),(4,1)}
Η4 ={ (1,5), (2,6), (6,2), (5,1)}
Η5 ={ (1,6), (6,1)}
Probability
6
36
10
36
8
36
6
36
4
36
2
36
𝓘[𝑩] = − �𝟐
6
36
𝒍𝒅
1
𝓘[𝑩] = �
1
𝓘[𝑩] = �
3
3
6
36
+
36
5
𝒍𝒅𝟔 +
𝟐. 𝟓𝟖 +
10
18
5
18
𝓘[𝑩] = (𝟎. 𝟖𝟔
𝒍𝒅
𝒍𝒅
10
36
36
10
+
+
𝟏. 𝟖𝟓 +
8
36
2
9
2
9
𝒍𝒅
𝒍𝒅
𝟗
𝟐
8
36
+
𝟐. 𝟏𝟕 +
+
1
9
1
9
4
36
𝒍𝒅
𝒍𝒅𝟗 +
4
36
1
18
𝟑. 𝟏𝟕 +
+
2
36
𝒍𝒅
𝒍𝒅𝟏𝟖�
1
18
2
�
36
𝟒. 𝟏𝟕�
+ 𝟎. 𝟓𝟏 + 𝟎. 𝟒𝟖 + 𝟎. 𝟑𝟓 + 𝟎. 𝟐𝟑)
𝓘[𝑩] = 𝟐. 𝟒𝟑
𝓘[𝜠𝝂𝜹𝜺𝜾𝝃𝜼 𝜡𝜶𝝆𝜾𝝎𝝂] > 𝓘[𝑨𝜽𝝆𝝄𝜾𝝈𝝁𝜶 𝜡𝜶𝝆𝜾𝝎𝝂] > 𝓘[𝜟𝜾𝜶𝝋𝝄𝝆𝜶 𝜡𝜶𝝆𝜾𝝎𝝂]
Θεωρημα. ΙΔΙΟΤΗΤΕΣ ΕΝΤΡΟΠΙΑΣ
(E1) 0 ≤ ℐ[Α] ≤ ld n
H Πληροφορια ειναι θετικος αριθμος μικροτερος η ισος απο την τιμη ld n
Ορισμος
ld n− ℐ(Α)
Πλεονασμος Redundancy της ΤΜ A =
ld n
the relative difference between ℐ(Α) and its maximum possible value ldn
𝟏
(E2) ℐ(A)=ld n ⇔ pν=p[A=αν] = p[Ξν] = , ∀ ν=1,2,…,n
𝒏
Δηλαδη
η ισοπιθανη διαμεριση εχει την μεγιστη Εντροπια απο ολες τις διαμερισεις n κελλιων
η ισοπιθανη Μεταβλητη εχει την μεγιστη Εντροπια απο τις Μεταβλητες που παιρνουν n-τιμες
η ομοιομορφη κατανομη εχει την μεγιστη Εντροπια απο τις διακριτες κατανομες n-τιμων
(E3) ℐ(A) = 0 ⟺ A is Deterministic RV: A(y)=∑𝒗 𝒂𝒗 𝟏𝜩𝝂 (𝒚), with p(𝜩𝝂 ) = δνλ
Η Παρατηρηση της Βεβαιας Μεταβλητης είναι η τιμη ακ με πιθανοτητα 1
ΣΧΟΛΙΟ
Η Παρατηρηση της Ισοπιθανης Μεταβλητης παρεχει μεγιστη Πληροφορια
Η Παρατηρηση της Βεβαιας Μεταβλητης δε παρεχει Πληροφορια
Uniform RV are the most Random with maximum Entropy
Deterministic RV have no Randomness and no Entropy
Αποδειξη
Τα (E1), (E2) αποδεικνυονται με 2 τροπους με βαση τις Ανισοτητες Jensen και Gibbs
αντιστοιχα.
ΛΗΜΜΑ: Ανισοτητα Jensen
For any strictly Convex, Real function f , λν ≥0 , ∑𝑛𝜈=1 𝜆𝜈 = 1 :
𝑓 (∑n𝜈=1 λν yν ) ≤ ∑n𝜈=1 λν f(yν )
𝑓 (∑n𝜈=1 λν yν ) = ∑n𝜈=1 λν f(yν ) ⟺ y1 = y2 =…= yn
Rudin W. 1970, Real and Complex Analysis. McGraw-Hill, London
Αποδειξη (E1), (E2) με την Ανισοτητα Jensen
H συναρτηση f(x)=xlnx, x>0 είναι αυστηρα κυρτη, διοτι 𝑓
′′ (
𝑥) =
1
𝑥
>0
1
Ανισοτητα Jensen για yν = pν , λν =𝑛
1
1
�∑n𝜈=1 pν � ln �∑n𝜈=1 pν � ≤ ∑n𝜈=1
𝑛
1
𝑛
1
�∑n𝜈=1 pν � ln �∑n𝜈=1 pν � = ∑n𝜈=1
𝑛
1
1
� � ln � � ≤ ∑n𝜈=1
𝑛
1
𝑛
1
� � ln � � = ∑n𝜈=1
𝑛
𝑛
1
1
𝑛
1
𝑛
𝑛
𝑛
1
𝑛
pν lnpν
pν lnpν ⟺ p1 = p2 =…= pn
pν lnpν
pν lnpν ⟺ p1 = p2 =…= pn
ln � � ≤ ∑n𝜈=1 pν lnpν
𝑛
1
1
ln � � = ∑n𝜈=1 pν lnpν ⟺ p1 = p2 =…= pn
𝑛
ΛΗΜΜΑ: Ανισοτητα Gibbs
∀ pν , qν ≥0, ∑n𝜈=1 pν = 1 , ∑n𝜈=1 qν = 1 :
∑𝒏𝝂=𝟏 𝐩𝛎 𝐥𝐧
∑𝐧𝛎=𝟏 𝐩𝛎 𝐥𝐧
𝐩𝛎
𝐪𝛎
𝐩𝛎
𝐪𝛎
≥0
= 𝟎 ⟺ pν = qν
Αποδειξη Ανισοτητας Gibbs από την Λογαριθμικη Ανισοτητα
και
1
1− ≤ lnx ≤ x−1
x
lnx = x−1 ⟺ x=1
Ειναι:
−lnx ≥ 1−x
−lnx = 1−x ⟺ x=1
q
q
Συνεπως: ∑𝑛𝜈=1 pν ln pqν = ∑n𝜈=1 pν �−ln �pν�� ≥ ∑n𝜈=1 pν �1 − pν� = ∑n𝜈=1 pν − ∑n𝜈=1 qν = 0
ν
qν
ν
qν
∑n𝜈=1 pν �−ln � �� = ∑n𝜈=1 pν �1 − � �� ⟺
pν
pν
qν
pν
ν
=1
Αποδειξη Ανισοτητας Gibbs από την Ανισοτητα Jensen
p
Η Ανισοτητα Jensen για λν = qν , yν = 𝑞ν :
ν
�∑n𝜈=1 qν
p
qν
pν
p
� ln �∑n𝜈=1 qν ν �
qν
qν
p
qν
≤ ∑n𝜈=1 qν
�∑n𝜈=1 qν ν� ln �∑n𝜈=1 qν ν � ≤ ∑n𝜈=1 qν
pν
qν
p
∑n𝜈=1 pν ln ν
qν
0 ≤ ∑n𝜈=1 pν ln
Πρεπει
pν
qν
0=
⟺
q1
𝑝1
=
q2
𝑝2
pν pν
ln
qν qν
=…=
qn
𝑝n
p
= 1, ν=1,2,…n, για να είναι: 0 = ∑n𝜈=1 pν ln qν
ν
pν pν
ln
qν qν
⟺
q1
𝑝1
=
q2
𝑝2
=…=
qn
𝑝n
Αποδειξη (E1), (E2) με την Ανισοτητα Gibbs
Η διαφορα ldn − ℐ[ξ] γραφεται:
ldn − ℐ[ξ] = ldn – (− ∑n𝜈=1 pν ldpν ) =(∑n𝜈=1 pν )ldn + ∑n𝜈=1 pν ldpν
=∑n𝜈=1 pν ld(pν n)
= ∑n𝜈=1 pν ld
pν
qν
,
με qν =
1
n
Το αποδεικτεο προκυπτει από την Ανισοτητα Gibbs
και την σχεση: lnx=ln2 ldx
Ονομασια Ορων της Ανισοτητας Gibbs
∑n𝜈=1 pν ld
pν
qν
= ℐ [p: q] the Kullback – Leibler Entropy of p with respect to q
− ∑n𝜈=1 pν ldqν = ℐC [p: q] the Cross Entropy of p with respect to q
Αποδειξη (Ε3)
A deterministic RV ⟹ ℐ(A)= ∑𝒗 𝒑𝒗 𝑙𝑑𝒑𝒗 = ∑𝒗 𝜹𝒗𝝀 𝑙𝑑𝜹𝒗𝝀 = 𝟎
Conversely
ℐ(A) = 0 και A(y) non-deterministic ⟺ p(𝛯𝜈 ) ≠ δνλ
⟹ ∃ value αk on some cell Ξk , with 1> pk >0
⟹ ℐ(A)> − pk ldpk ΑΤΟΠΟΝ
(E4) ℐ(ξ) ≤ ℐ(η) , εαν ξ < η
ξ<η⟺καθε κελλι Ηλ της η περιεχεται σε καποιο κελλι Ξκ της ξ
Δηλαδη:
Λεπτοτερες Διαμερισεις εχουν μεγαλυτερη Πληροφορια
TΜ που λαμβανουν περισσοτερες τιμες περιεχουν περισσοτερη Πληροφορια
διοτι η μετρηση τους παρεχει περισσοτερη Πληροφορια
Μετρησεις μεγαλυτερης ακριβειας παρεχουν περισσοτερη Πληροφορια
Proof
Eστω ξ ≤ η
Ηνκ , ν=1,2,… nk τα κελια της η που εμπεριεχονται στο κελι Ξκ της ξ
𝒏𝒌
𝜢𝝂𝜿 = 𝜩𝜿
Ηνκ ⊆ Ξκ και ⋃𝝂=𝟏
⟹ 0 < ρ(Ηνκ ) ≤ ρ(Ξκ) < 1
⟹ −log2 ρ(Ηνκ ) ≥ −log2ρ(Ξκ) >0 , διοτι −logaρ2 < −logaρ1 , αν 0< ρ1 < ρ2 < 1, a>1
⟹ − ρ(Ηνκ ) log2 ρ(Ηκν ) ≥ − ρ(Ηνκ ) log2ρ(Ξκ) >0
𝒏
𝒌
⟹ −∑𝜈𝜅 𝛒(Ηνκ ) l𝑑 𝛒(Ηνκ ) ≥ −∑𝜅𝜈 𝛒(Ηνκ ) l𝑑 𝛒(Ξκ ) = ∑𝜅 ∑𝜈=1
𝛒(Ηνκ ) l𝑑 𝛒(Ξκ )
⟹ ℐ(η) ≥ − ∑𝜅 𝛒(Ξκ ) l𝑑 𝛒(Ξκ ) = ℐ(ξ) οεδ.
(E5) Πορισμα της (Ε4)
ℐ(φ(Β)) ≤ ℐ(Β)
Proof
Από την ιδιοτητα
ξ ≤ η ⟺ A = φ(B) , φ : Σ� ⟶ 𝚺
οπου: ξ, η οι διαμερισεις των ΤΜ Α, Β
(Ε6) Ιf ξ ≤ η and ℐ(ξ) = ℐ(η) , then ξ = η
Proof
ξ ≤ η και ℐ(ξ) = ℐ(η)
⟹ −∑𝜈𝜅 𝛒(Ηνκ ) l𝑑 𝛒(Ηνκ ) ≥ −∑𝜅𝜈 𝛒(Ηνκ ) l𝑑 𝛒(Ξκ )
⟹ ∑𝜈𝜅 𝛒(Ηνκ )
l𝑑 𝛒(Ηνκ )
l𝑑 𝛒(Ξκ )
=0
⟹ ρ(Ηνκ ) = ρ(Ξκ) , από την Ανισοτητα Gibbs
𝑛𝑘
Είναι ∑𝜈=1
𝜌(𝛨𝜈𝜅 ) = 𝜌(𝛯𝜅 ) , διοτι
⟹ nκρ(Ξκ ) = ρ(Ξκ)
⟹ nκ = 1
𝑛
𝑘
𝛨𝜈𝜅 = 𝛯𝜅
⋃𝜈=1
Δηλαδη οι διαμερισεις η, ξ εχουν τον αυτό αριθμο κελιων και την αυτή κατανομη πιθανοτητας
(E7) The entropy of a partition does not depend on
the order in which the elements of the partition are numbered.
(E8) The entropy of a partition into n cells is
a continuous function of the probabilities of these sets.
(E9) Adding or removing events with probability zero does not contribute to the
entropy:
ℐ(p1 ,..., pn)= ℐ(p1 ,..., pn, pn+1, pn+2 , pn+k) , pn+1= pn+2 =…=pn+k = 0
Εντροπια Εφαρμογες
Information, Variance, Uncertainty
Τhe Entropy of a RV estimates the uncertainty about the outcome of the observation of the RV,
with respect to some probability distribution.
This uncertainty arises because we cannot predict exactly what the actual outcome of the
Observation will be.
The probability distribution is our estimation or Hypothesis about the state of the system and the
means for prediction
There is no assumption about the existence of the value of the RV before Observation
But the statement:
Τhe Entropy of a RV estimates the uncertainty about the value of the RV A.
Implicitly assumes that the value of the RV A exists but we do not know it
Information is a Variance Index for Qualitative Variables
Variance estimates the uncertainty of the outcome of a Numerical RV,
taking into account the distance of the outcome values from the mean value.
Information as Estimation of Disorder, Surprise, Diversity
McDonald G. 2003, Biogeography: Space, Time and Life, Wiley, New York
2 Καλπες με Λευκους,Μαυρους, Κοκκινους βωλους [Y 51]
Η Καλπη Α περιεχει 10 λευκους, 5 μαυρους, 5 κοκκινους Βωλους (20)
Η Καλπη Β περιεχει 8 λευκους, 8 μαυρους, 4 κοκκινους Βωλους (20)
Επιλεγω (τυχαια) ενα Βωλο απο καθε Καλπη
Ποια Επιλογη ειναι πιο Bεβαια για να στοιχηματισω?
Πιο Βεβαια η Επιλογη Μικροτερης Εντροπιας
1
1
1
1
ℐΑ = −pλ,Ald (pλ,A) –pμ,A ld (pμ,A)− pκ,A ld (pκ,A) = − 𝑙𝑑 − 𝑙𝑑 −
1
pλ,A=
2
1
pμ,A=
4
2
1
pκ,A=
4
2
2
2
2
2
4
1
4
1
4
1
4
1
1
1
1
𝑙𝑑 = ∙ 1 + ∙ 2 + ∙ 2 = 1.5 bits
4
2
1
4
4
ℐΒ= −pλ,Β ld(pλ,Β) –pμ,Β ld(pμ,Β)− pκ,Β ld(pκ,Β)= − 5 𝑙𝑑 5− 5 𝑙𝑑 5 − 5 𝑙𝑑 5 ≅ 5 ∙ 1,32 + 5 ∙ 2,32 ≅ 1.52 bits
2
pλ,A=
5
ℐΑ < ℐΒ
2
pμ,A=
5
1
pκ,A=
5
Απαντηστε με Θεωρια Πιθανοτητων Εργασια {1}
Πως θα στοιχηματισω?
Οdds =
p
1−p
The language of odds for intuitively estimated risks is found in the 16th century,
before the invention of mathematical probability.
Shakespeare 1560, Henry IV, Part II, Act I scene 1 lines 181-2:
“Knew that we ventured on such dangerous seas
that if we wrought out life 'was ten to one”
Στρατηγικη Στοιχηματων και θεωρια Πληροφοριας
Kelly, J. L., Jr. 1956 , A New Interpretation of Information Rate,
Bell System Technical Journal 35: 917–926
Εργασια {2}
Δεσμευμενη πληροφορια
Ερμηνεια Πληροφοριας μεσω Στοιχηματων
Συστηματικη Θεωρια Στοιχηματων-Επενδυσεων
Προβλεψη Καιρου
Απο Παρατηρησεις σε ενα τοπο οι στατιστικες εκτιμησεις εδειξαν οτι
την ημερα Α η πιθανοτητα βροχης ειναι 0.4
την ημερα Β η πιθανοτητα βροχης ειναι 0.65
και η πιθανοτητα χιονοπτωσης ειναι 0.15
Ποια Προβλεψη Καιρου ειναι πιο Βεβαιη?
Σε Ποια Περιπτωση ειναι ασφαλεστερο να παρω ομπρελλα? [Y 52]
Πιο Βεβαια η Προβλεψη Μικροτερης Πληροφοριας
Προβλεψη Καιρου
ℐΑ=−pA,βροχηldpA,βροχη−pA,oχι βροχηldpA,οχι βροχη≅−0.4ld0.4−0.6ld0.6 = 0.97bits
ℐB=−pB,βροχη∙ldpB,βροχη−pB,χιονι ∙ldpΒ,χιονι−pB,οχι βροχη, οχι χιονι ∙ldpΒ,οχι βροχη, οχι χιονι =
=−0.65∙ld0.65−0.15∙ld0.15−0.2∙ld0.2 ≅ 1,28bits
ℐΑ < ℐB
Ο καιρος πιο απροβλεπτος την ημερα Β
Προβλεψη Ομπρελλας
Ξ = Βροχη ειτε Χιονι
pA,Ξ = pA,βροχη=0.4
pΒ,Ξ = pΒ,βροχη + pB,χιονι =0.8
Ξc = Oxι Βροχη και Οχι χιονι
𝑝A,𝛯𝑐 = pA,oxι βροχη=0.6
𝑝Β,𝛯𝑐 = 1−pΒ,βροχη −pB,χιονι =0.2
ℐΑ=−pA,ΞldpA,Ξ−𝑝A,𝛯𝑐 ld𝑝A,𝛯𝑐 =−0.4ld0.4−0.6ld0.6≅0.97bits
ℐB=− pΒ,Ξ ld pΒ,Ξ −𝑝Β,𝛯𝑐 ld𝑝Β,𝛯𝑐 =−0.8∙ld0.8−0.2∙ld0.2 ≅ 0,72bits
ℐΑ >ℐB
Α: Η πιθανοτης να χρειαστω ομπρελλα ειναι 0.4 με Αβεβαιοτητα Προβλεψης 0.97 bits
Β: Η πιθανοτης να χρειαστω ομπρελλα ειναι 0.6 με Αβεβαιοτητα Προβλεψης 0.72 bits
Απαντηστε με Θεωρια Πιθανοτητων Εργασια {1}
Oι κατοικοι της πολης Α ειναι παντα ειλικρινεις
Oι κατοικοι της πολης Β ειναι παντα ψευτες
Ενας ξενος που γνωριζει τα ηθη τους βρεθηκε σε μια απο τις 2 πολεις,
αλλα δεν γνωριζει σε ποια απο τις 2
Ποσες ερωτησεις με απαντηση ΝΑΙ/ΟΧΙ πρεπει να ρωτησει εναν περαστικο κατ ελαχιστον
για να μαθει σε ποια πολη ευρισκεται
(Στην πολη μπορει να ευρισκονται δημοτες απο τις αλλες πολεις) [Υ 101]
Π= η πολη στην οποια ευρισκεται ο ξενος , {Α ,Β}
Δ= η πολη στην οποια ειναι δημοτης ο περαστικος , {Α , Β}
Υπαρχουν 4 εκδοχες (Π,Δ)={(Α,Α),(Α,Β),(Β,Α),(Β,Β)}
που μπορουμε να θεωρησουμε ισοπιθανες ελλειψει αλλων δεδομενων
1
1
ℐ(Π,Δ) = 4 �− ∙ 𝑙𝑑 � = ld4 = 2
Παραδειγμα
4
4
1) Η ερωτηση 1+1=2 ? αποφαινεται την Δ
2) Η ερωτηση Ειμαι στην πολη Α? αποφαινεται την Π
Oι κατοικοι της πολης Α ειναι παντα ειλικρινεις
Oι κατοικοι της πολης Β ειναι παντα ψευτες
Oι κατοικοι της πολης Γ ειναι αλλοτε ειλικρινεις, αλλοτε ψευτες
Ενας ξενος που γνωριζει τα ηθη τους βρεθηκε σε μια απο τις 3 πολεις,
αλλα δεν γνωριζει σε ποια απο τις 3
Ποσες ερωτησεις με απαντηση ΝΑΙ/ΟΧΙ πρεπει να ρωτησει εναν περαστικο κατ ελαχιστον
για να μαθει σε ποια πολη ευρισκεται
(Στην πολη μπορει να ευρισκονται δημοτες απο τις αλλες πολεις) [Υa , 101]
Π=η πολη στην οποια ευρισκεται ο ξενος , {Α ,Β,Γ}
Δ= η πολη στην οποια ειναι δημοτης ο περαστικος , {Α , Β,Γ}
Υπαρχουν 9 εκδοχες (Π,Δ)={(Α,Α),(Α,Β),(Α,Γ),(Β,Α), (Β,Β),(Β,Γ), (Γ,Α), (Γ,Β),(Γ,Γ)}
που μπορουμε να θεωρησουμε ισοπιθανες ελλειψει αλλων δεδομενων
1
1
ℐ(Π,Δ) = 9 �− ∙ 𝑙𝑑 � = ld9 ≃ 3.17 ≥ ld8=3
9
3 ≤ ℐ(Π,Δ) ≤ 3+1
9
Πρεπει να κανει τουλαχιστον 4 Ερωτησεις
Παραδειγμα
1) Ειμαι στην πολη Α ειτε στην πολη Β?
2) Ειμαι στην πολη Γ ?
3) Εισαι Δημοτης της πολης Γ ?
4) Ειμαι στην πολη Α?
Εχω n Νομισματα του 1 ευρω. Τα n – 1 εχουν το αυτο βαρος, το 1 εχει διαφορετικο βαρος.
Ποσες ζυγισεις με ζυγο 2 δισκων ειναι αναγκαιες για να βρω το καλπικο νομισμα και να
εξακριβωσω εαν ειναι βαρυτερο η ελαφροτερο? [108]
Εργασια {1}
Eντροπια Κατανομων Πιθανοτητας
ENTΡΟΠΙΑ Διακριτων Κατανομων
N!
Binomial RV: ρ(x) = ( ) px (1 − p)N−x , 0≤ p ≤1
x! N−x !
x=0,1,2,…,N , o αριθμος επιτυχιων σε N =1,2,3,… δοκιμες Bernoulli
H Aπλουστερη περιπτωση: Μια Ριψη Νομισματος: N=1
ρ(1) = p , ρ(0) = 1 − p
H Πληροφορια της Διωνυμικης ΤΜ =
η Πληροφορια που παιρνω οταν μαθω το αποτελεσμα της ριψης
ℐ = −𝑝𝑙𝑑𝑝 − (1 − 𝑝)𝑙𝑑(1 − 𝑝)= ℐ2(p) = Δυαδικη Εντροπια με πιθανοτητα p
1
0.9
0.8
0.7
0.6
0.5
0.4
0.3
0.2
0.1
0
0
0.1
0.2
0.3
0.4
0.5
0.6
0.7
1
0.8
0.9
p
1
Νομισμα Iσοπιθανο: p = , ℐ1/2 =1
2
Η Εντροπια λαμβανει την μεγιστη τιμη ℐ = ℐ1/2 =1 στην ομοιομορφη ΤΜ
Eντροπια Διακριτων Kατανομων
ΤΜ
Τιμες x
Κατανομη ρ(x)
𝟏
Oμοιομορφη 1,2,…, n
𝝆(𝒙) =
𝒏
Bernoulli
0,1
ρ0 = p, ρ1=(1−p)
Binomial
0,1,2,…, n
𝐍!
𝝆(𝒙) = ( ) 𝐩𝐱 (𝟏 − 𝐩)𝐍−𝐱
Γεωμετρικη
0,1,2,…
Poisson
0,1,2,…
GaussKusmin
0,1,2,…
0≤ p ≤1
𝐱! 𝐍−𝐱 !
𝝆(𝒙) = (1−p)px
𝐞−𝐱 𝝀𝒙
, λ ∈[0,+∞)
1
𝝆(𝒙) = 𝑙𝜊𝑔2 �1 −
�
(𝑥 + 1)2
𝝆(𝒙) =
𝐱!
Εντροπια Shannon ℐ[ρ]
ldn
J2(ρ) = −𝒑𝒍𝒅𝒑 − (𝟏 − 𝒑)𝒍𝒅(𝟏 − 𝒑)
𝟏
𝟏−𝐩
J2(ρ) = −
𝒑
𝟏−𝒑
𝒍𝒅𝒑 − 𝒍𝒅(𝟏 − 𝒑)
Knessl C. 1998, Integral Representations and Asymptotic Expansions for Shannon and Renyi Entropies,
Appl. Math. Let. 11, 69-74
Εργασιες
Υπολογιστε την Εντροπια της κατανομης Binomial {0.2}
Υπολογιστε την Εντροπια της κατανομης Poisson
{0.2}
Υπολογιστε την Εντροπια της Γεωμετρικης κατανομης {0.2}
Εντροπια κατανομης Gauss-Kuzmin
𝝆(𝒙) = 𝑙𝜊𝑔2 �1 −
1
(𝑥+1)2
Mean = +∞
Variance meaningless
� , x=1,2,3,…
𝝆(𝒙) is the probability of the integer x to appear in any given place αν
of the Continued Fraction expansion of the real number α
α = [α1 α2 α3…] =
𝛼1 +
1
1
1
𝛼2 +𝛼 +⋯
3
Entropy (GK)= 3,4325275
1) Αποδειξτε το Θεωρημα Continuous Fractions Εργασια {1}
2) Δειξτε τις ιδιοτητες της κατανομης Gauss-Kuzmin Εργασια {1}
3) Υπολογιστε την Εντροπια της κατανομης Gauss-Kuzmin Εργασια {1}
N.Blachman 1984, "The continued fraction as an information source (Corresp.)",
IEEE Transactions on Information Theory, 30, 671 – 674
P. Kornerup, D. Matula 1995, "LCF: A lexicographic binary representation of the rationals". Journal of Universal Computer
Science 1: pp. 484–503.
L. Vepstas 2008, Entropy of Continued Fractions (Gauss-Kuzmin Entropy)
Eντροπια Διακριτων Kατανομων
ΤΜ
Τιμες x
Κατανομη ρ(x)
Maxwell –
Boltzmann 1,2,…
distributions
𝝆(𝒙) =
Εντροπια Shannon ℐ[ρ]
𝑒 − 𝛤𝑥
𝛧𝑛
𝑛
𝛧𝑛 = � 𝑒 − 𝛤𝑥
𝝆(𝒙) =
𝑒 − 𝛤𝑥
𝛧𝑛
2
𝑥=1
𝑛
𝛧𝑛 = � 𝑒 − 𝛤𝑥
𝝆(𝒙) =
𝑥=1
𝑥 2 𝑒 − 𝛤𝑥
𝛧𝑛
2
2
𝑛
𝛧𝑛 = � 𝑥 2 𝑒 − 𝛤𝑥
𝑥=1
2
Υπολογιστε την Εντροπια των κατανομων Maxwell – Boltzmann {0.2 + 0.2 + 0.2}
Eντροπια Συνεχων Kατανομων
ΤΜ X
Κατανομη ρ(x)
Πραγματικη
𝟏
𝟏
(𝐱)
𝜷 − 𝜶 [𝛂,𝛃]
𝟏 −𝐱
𝒆 𝝉 𝟏[𝟎,+∞) (𝐱)
𝝉
Oμοιομορφη στο
[α,β]
Εκθετικη
𝟏
Laplacian
Gauss
Log Normal
Rayleigh
Cauchy
Pareto
ΜaxwellBoltzmann
𝟐𝝉
𝟏
𝝈√𝟐𝝅
𝟏
𝒆
𝐞
𝝈𝒙√𝟐𝝅
−
Εντροπια Shannon
ℐ(ρ)= −∫dx ρ(x) lnρ(x)
ln(β−α)
|𝐱|
𝝉
𝟏 𝐱−𝐦 𝟐
�
𝟐 𝝈
− �
𝐞
𝟏 𝐥𝐧𝐱−𝐦 𝟐
�
𝟐
𝝈
− �
𝟐
𝟏[𝟎,+∞) (𝐱)
𝟐𝜶𝒙 𝒆−𝜶𝒙 𝟏[𝟎,+∞) (𝐱)
𝟏
𝛂
𝝅 𝛂𝟐 + 𝒙𝟐
α𝒙−(𝜶+𝟏) 𝟏[𝟏,+∞) (𝐱)
p(x) =
𝟏
𝜶𝟑
�
𝟐
𝝅
𝒙𝟐
−
𝒙𝟐 𝒆 𝟐𝒂𝟐
Εργασια {0.2} για κάθε Κατανομη (Πληρης Υπολογισμος). Το πολύ 5 Κατανομες
Maximum Entropy Probability Distributions
Definition
Maximum Entropy Probability Distribution (within a class of Probabilities)
a probability distribution whose entropy is not less than the Entropy of the other
members of the class of distributions.
Principle of Maximum Entropy
Select the probability distributions with maximum Entropy among distributions in a
certain class.
Reasons:
1) Maximum Entropy Probability Distributions have minimal prior information
(maximum Uncertainty), given certain constraints
2) Maximum Entropy Probability Distributions are Equilibrium Distributions
for many physical systems
3) Initial Distributions evolve towards Maximum Entropy Probability Distributions
for many physical systems.
⟺ Maximum Entropy Distributions are global asymptotic Attractors
for many physical systems
Significance:
generalization of classical probability Principle of Indifference (equal probabilities)
criterion for probability estimation
Hypothesis for Testing
Jaynes E. 2005, Probability Theory. The Logic of Science, Cambridge University Press
What is the Probability Density associated with Maximum Entropy?
The distributions which maximize entropy under certain natural conditions are simple.
3 basic cases:
1) The RV Χ is supported on the Real Interval [α,β]
Uniform Distribution
2) The RV Χ takes only non-negative values and has finite mean value m
Exponential Distribution
3) The RV Χ takes all real values and has finite variance σ2
Gaussian Distribution with zero mean and variance σ2
The RV Χ takes all real values and has fixed mean m and variance σ2
Gaussian Distribution with mean m and variance σ2
1) The RV Χ is supported on the Real Interval [α,β]
𝛃
ℐ(Χ)=− ∫𝛂 𝒅𝒙𝝆(𝒙)𝒍𝒏𝝆(𝒙)
𝛃
� 𝒅𝒙𝝆(𝒙) = 𝟏
𝛂
ρΜ(x)=
𝟏
𝜷−𝜶
Uniform Distribution
ℐΜ=ln(β−α) the MAX Information
Microcanonical Distribution SM
Γενικευση: 𝓘Μ [A]=
ρΜ(α)=
𝟏
𝐥𝐧𝓿
𝟏
𝓿
, 𝓿= ο ογκος του πεδιου μεταβολης της ΤΜ Α=(Α1, Α2, …, ΑΝ)
2) The RV Χ takes only non-negative values and has finite mean value m
+∞
ℐ(Χ)=− ∫𝟎
+∞
𝒅𝒙𝝆(𝒙)𝒍𝒏𝝆(𝒙)
� 𝒅𝒙𝝆(𝒙) = 𝟏
𝟎
+∞
� 𝒅𝒙 𝒙 ∙ 𝝆(𝒙) = 𝒎
𝟎
ρΜ(x)=
𝟏
𝒎
𝐞
𝐱
𝐦
−
Exponential Distribution
ℐΜ=lnm+1 the MAX Information
Canonical Distribution SM
3) The RV Χ takes all real values and has finite variance σ2
+∞
ℐ(Χ)=− ∫−∞ 𝒅𝒙𝝆(𝒙)𝒍𝒏𝝆(𝒙)
+∞
� 𝒅𝒙𝝆(𝒙) = 𝟏
−∞
+∞
� 𝒅𝒙 𝒙𝟐 ∙ 𝝆(𝒙) = 𝝈𝟐
−∞
𝟏
ρΜ(x)= ρ(x)=
exp
√𝟐𝝅𝝈
ℐΜ=ln√𝟐𝝅𝒆𝝈
�−
𝐱
𝝈√𝟐
𝟐
� Gaussian Distribution
the MAX Information
Grand Canonical Distribution SM
4) The RV Χ takes all real values and has fixed mean m and variance σ2
Entropy is maximised by the Gaussian Distribution
Aποδ.
1) Με Gibbs inequality
2) Functions of Several Real Variables
Μaxima with Constraints
Langrange Multipliers
Table of Maximum Entropy Distributions:
Park S. Y., Bera A. K. 2009, Maximum entropy autoregressive conditional
heteroskedasticity model, Journal of Econometrics 150, 219-230
Εργασια {0.25} για κάθε Αποδειξη
Επιλεξτε το πολύ 4 Maximum Entropy Distributions
Εντροπια Μοναδικοτης
Ειναι ο Τυπος του Shannon Μοναδικος?
Ποιες ιδιοτητες της απεικονισης
ℐ: 𝒫F →[0,+∞) : (p1 ,..., pn) ↦ ℐ(p1 ,..., pn)
oπου
𝒫F = η Γραμμικη Αλγεβρα των πεπερασμενων κατανομων πιθανοτητος {p1 ,..., pn} , n ∈ ℕ
οδηγουν στον τυπο του Shannon?
ℐ(p1 ,..., pn) = − ∑n
ν=1 pν ldpν
Θεωρημα Shannon 1949, Khintchine 1953
Εστω η Απεικονιση ℐ: ⋃n≥2 𝒫n → [0, +∞)
ℐ(p1 ,..., pn) = −κ ∑𝑛
ν=1 𝑝𝜈 ld 𝑝𝜈 , κ>0
(SK1) ℐ Συνεχης
⇔
Ισχυουν οι (SK1) - (SK4)
(SK2) ℐ(1/n, . . . ,1/n ) = max { ℐ(p1 ,..., pn) | (p1 ,..., pn)∈ 𝒫n }.
(SK3) ℐ(p1 ,..., pn,0)= ℐ(p1 ,..., pn) , Ν=2,3,... , (p1 ,..., pΝ)∈ 𝒫N
(SK4) ℐ(p11 ,..., pΝΜ)= ℐ(p1 ,..., pn)+ ∑nk=1 𝑝k ℐ[𝑝1|𝜅 , … . 𝑝𝑁|𝜅 ]
κ=2,3,...n , λ=1,2,...,N (p1 ,..., pΝ)∈ 𝒫N
pκλ= pκ pλ|κ
∑µλ=1 𝑝𝜆|𝜅 = 1
,
0 ≦ pλ|κ ≦1
The Shannon-Khintchine Axioms SK1-SK4 are modifications of Shannon's original axioms by Khinchin
Αποδ
Khinchin A. 1957, Mathematical Foundations of Information Theory, Dover, New York.
Kakihara Y. 1999, Abstract Methods in Information Theory, World Scientific, Singapore
Εργασια {1}
Θεωρημα Faddeev 1956
Εστω η Απεικονιση ℐ: ⋃n≥2 𝒫n → [0, +∞)
ℐ(p1 ,..., pn) = −κ ∑𝑛
ν=1 𝑝𝜈 ld 𝑝𝜈 , κ>0
⇔
Ισχυουν οι (F1) (F2) (F3)
(F1) ℐ(p,1−p)=f(p), f:[0,1]→ℝ συνεχης και f(p)>0 , για p ∈[0,1]
(F2) ℐ(p1 ,..., pΝ)= ℐ(pσ(1) ,..., pσ(n)) , για καθε μεταθεση σ των 1,...,n
(F3) ℐ(p1 ,..., pn-1 , pn−q , q)= ℐ(p1 ,..., pn)+ pn ℐ�
Αποδ
pn −q q
, �
pn pn
Faddeev A. 1956, On the notion of Entropy of a finite probability space. Uspekhi Mat. Nauk 11, 227-231
Tverberg Η. 1958, A new derivation of the information function. Math. Scand.6 ,297-298.
Tverberg introduced a weaker condition than (F1).
Kakihara Y. 1999, Abstract Methods in Information Theory, World Scientific, Singapore
Εργασια {1}
ΛΗΜΜΑ: Εrdos, Fadeev, Renyi
Εστω φ: ℕ→ℝ :
1) φ(nm) = φ(n)+ φ(m) , m,n=1,2,…
2) limn→∞ [φ(n + 1) + φ(n)] = 0
Toτε: φ(n)=kln(n), k πραγματικη σταθερα
Aποδ
Rényi A. 1961, On Measures of Entropy and Information, Proc. 4th Berkeley Symposium on
Mathematics, Statistics and Probability, University of California Press, p 547-561
Εργασια {0.5}
Εντροπια και Πιθανοτητα
Πιθανοθεωρητικη ερμηνεια της Πληροφοριας
Πληροφοριακη ερμηνεια της Πιθανοτητας
Εαν διαθετω μοντελο πιθανοτητος p, τοτε οριζω την Πληροφορια.
Ισχυει το Αντιστροφο? Δηλαδη:
Μπορω να ορισω Πληροφορια χωρις Πιθανοτητα και
να προκυψει η Πιθανοτητα απο την Πληροφορια?
ΝΑΙ! Urbanik K. 1973, On the Definition of Information, Rep. Math. Phys. 4, 289-301 Εργασια {2}
“Information theory must precede probability theory, and not be based on it.
By the very essence of this discipline,
the foundations of information theory have a finite combinatorial character.
The applications of probability theory can be put on a uniform basis.
It is always a matter of consequences of hypotheses about the impossibility of
reducing in one way or another the complexity of the description of the objects in question.
Naturally, this approach to the matter does not prevent the development of probability theory as
a branch of mathematics being a special case of general measure theory.
The concepts of information theory as applied to infinite sequences give rise to very interesting
investigations, which, without being indispensable as a basis of probability theory, can acquire a
certain value in the investigation of the algorithmic side of mathematics as a whole.”
Kolmogorov 1970 talk at Nice published in
Kolmogorov A.N. 1983, Combinatorial Foundations of Information
Theory and the Calculus of Probabilities, Russian Math. Surveys 38:4 , 29-40