On Human Nature

Aspetti della teoria ergodica
Stefano Isola
2
Chapter 1
Introduzione
La cosiddetta Teoria ergodica, lungi dall’essere una teoria sistematica, `e piuttosto un coacervo di risultati particolari, di tecniche specifiche, di problemi in
continua espansione e riformulazione, che trae origine dal programma di Boltzmann di fondare la termodinamica su una base meccanicistica, e si alimenta,
strada facendo, di problemi matematici provenienti da campi apparentemente assai diversi, come la Teoria dei Numeri e la Teoria dell’Informazione. L’aggettivo
ergodico compare, probabilmente per la prima volta, in una sintesi delle idee
di Boltzmann data dagli Ehrenfest [EE], e deriva dal termine ergodo, coniato
dallo stesso Boltzmann per indicare una distribuzione di probabilit`a sullo spazio
delle fasi invariante rispetto all’evoluzione temporale (a cui Boltzmann si riferiva
con il termine monodo; si pensi ad esempio ad un pendolo matematico), ed
avente l’ulteriore propriet`a di indurre una distribuzione uniforme su una superficie di energia costante. L’invenzione lessicale di Boltzmann `e costruita come
un’abbreviazione della parola ergomonodo, la quale a sua volta `e ottenuta dalle
parole greche: ργoν = energia, µoνoς= unico, ιδoς = aspetto (vedi [Gal] e
[Ma]). Ricordiamo infine che l’ipotesi fondamentale, di natura statistica, alla
base della possibilit`a di derivare il secondo principio della termodinamica su basi
meccaniche `e che per un sistema di molecole in uno stato (macroscopicamente)
stazionario, la media temporale dell’energia sia ugualmente distribuita nei vari
gradi di libert`a del sistema (equipartizione dell’energia). A sua volta, la validit`a
di tale propriet`a consegue da quella che gli Ehrenfest hanno chiamato ipotesi
ergodica, e che si esprime con il fatto che le traiettorie del sistema meccanico
che la soddisfa invadono densamente la superficie a energia costante. Proprio
la ricerca delle condizioni che consentano, per ogni dato sistema meccanico, di
verificare o meno la validit`a di tale ipotesi, il pi`u delle volte senza alcun riferi3
4
CHAPTER 1. INTRODUZIONE
mento al problema fondativo originale, ha dato origine alla vera e propria Teoria
Ergodica.
1.1
Preliminari ed esempi
Scopo principale della teoria ergodica `e lo studio matematico del comportamento
medio a lungo termine dei sistemi dinamici, intesi come trasformazioni che conservano una misura. Pi`u precisamente, sia (X, E, µ) uno spazio di misura, ovvero
X `e un insieme di punti x, E una σ-algebra di sottoinsiemi di X e µ una misura
su E, ovvero una funzione d’insieme con le propriet`a:
• µ(A) ∈ [0, ∞] per A ∈ E;
• µ(∅) = 0;
• se A1 , A2 , . . . ,P
`e una sequenza disgiunta in E e se ∪k≥1 Ak ∈ E allora
µ (∪k≥1 Ak ) = k≥1 µ(Ak ).
Talvolta pu`o risultare utile partire da uno spazio metrico compatto (X, d) e
prendere E come la σ-algebra di Borel rispetto alla metrica d. Diremo che
T : X → X `e misurabile se E ∈ E implica T −1 E = {x : T x ∈ E} ∈ E.
Inoltre diremo che T conserva la misura µ, o in modo equivalente che µ `e T invariante, se per ogni E ∈ E si ha µ(T −1 E) = µ(E). Se poi T `e invertibile,
ossia T `e una biiezione, T X = X e E ∈ E implica T E = {T x : x ∈ E} ∈ E,
allora la propriet`a di conservare la misura µ si pu`o esprimere anche con l’identit`a
µ(T E) = µ(E). Osserviamo che se T non `e invertibile ma conserva una misura
µ il suo codominio potr`a a tutti gli effetti essere considerato tutto X, perch`e
T X ⊂ A ∈ E implica T −1 A = X e dunque µ(A) = µ(X).
Se µ(X) < ∞ allora possiamo sempre normalizzarla in modo che µ(X) = 1
e diremo in tal caso che (X, E, µ) `e uno spazio di probabilit`a. Ma vi sono
anche situazioni interessanti in cui µ(X) = ∞ e X pu`o essere decomposto in
un’unione numerabile di sottoinsiemi disgiunti ciascuno avente misura finita. In
tal caso (X, E, µ) si dir`a uno spazio con misura σ-finita, o anche uno spazio di
misura σ-finito1 .
Dato uno spazio di misura (X, E, µ) e una trasformazione T su di esso che conserva µ, chiameremo la quadrupla (X, E, µ, T ) semplicemente sistema dinamico.
1
Per queste ed altre nozioni generali rimandiamo al libro [Bi2].
1.1. PRELIMINARI ED ESEMPI
5
Immaginiamo che (X, E, µ, T ) sia la modellizzazione matematica di un qualche
sistema fisico. La storia del sistema, ossia la sua evoluzione temporale dal passato
al futuro infinitamente lontani, sar`a descritta dall’orbita
O(x) = {T k x : k ∈ Z}
del punto x che rappresenta lo stato del sistema al tempo presente. La σalgebra E pu`o essere pensata come la famiglia di tutti gli eventi osservabili e
la misura T -invariante µ come la collezione delle probabilit`a (stazionarie, cio`e
indipendenti dal tempo) del verificarsi di tali eventi. Una funzione misurabile
f : X → R rappresenta una quantit`a osservabile del sistema e la sequenza
f (x), f (T x), f (T 2 x), . . . pu`o essere pensata come la successione dei valori assunti da tale quantit`a nei successivi istanti di tempo. In svariati contesti, come ad
esempio in meccanica statistica o in teoria dell’informazione, `e di grande interesse
conoscere il comportamento delle medie aritmetiche
n−1
1X
f (T k x)
n k=0
(1.1)
al crescere di n e al variare di x in X. I risultati matematici di questo tipo
prendono il nome di teoremi ergodici. Ne vedremo alcuni in seguito e discuteremo
alcune propriet`a asintotiche che caratterizzano globalmente un sistema dinamico.
Per il momento limitiamoci a la nozione di ergodicit`a.
Definizione 1.1.1 Il sistema dinamico (X, E, µ, T ) si dice ergodico se per ogni
insieme T -invariante, cio`e tale che T −1 E = E, si ha µ(E) = 0 oppure µ(E c ) =
0, con E c = X \ E. In particolare se µ(X) = 1 allora ci`o equivale a dire che
ogni insieme T -invariante ha misura 0 o 1.
Questa propriet`a rende lo spazio (X, E, µ) indecomponibile rispetto all’azione di
T , per cui se prendiamo un punto x ∈ X, a parte casi eccezionali (che formano
un insieme di misura nulla) avremo che la sua orbita si distribuisce su X in
accordo con la misura invariante µ. Detto altrimenti, dato un qualunque insieme
misurabile E ∈ E avremo che
#{k : T k x ∈ E, 0 ≤ k < n}
−→ µ(E),
n
n→∞
(1.2)
o, pi`u in generale, data un’arbitraria f ∈ L1 (X, E, µ), il limite delle medie aritmetiche (1.1) esiste quasi ovunque rispetto alla misura µ (abbreviato in µ-q.o.)
6
CHAPTER 1. INTRODUZIONE
- cio`e l’insieme degli x ∈ X su cui il limite non esiste ha µ-misuraRzero - ed `e
uguale al ‘valore medio’ di f rispetto a tale misura, cio`e al numero X f dµ.
Esempio. Sia X = {a, b, c, d, e, f, g} un insieme finito di simboli, con la σalgebra E composta da tutti i 2|X| = 128 sottoinsiemi di X e µ la misura di
probabilit`a uniforme, µ(A) = |A|/|X|. Consideriamo le permutazioni descritte
nelle seguenti tabelle
x
T (x)
a b c d e
b c d e f
f
g
g
a
x
T (x)
a b c
c d a
f
g
g
b
e
d e
e f
Evidentemente in entrambi casi la misura µ `e invariante per T . Ma nel primo
caso la permutazione `e a un solo ciclo, ovvero ciascun x ∈ X soddisfa T i (x) 6= x,
per 0 < i < 7 e T 7 (x) = x. Pertanto il solo insieme invariante per T `e X stesso
e il sistema `e ergodico.
Nel secondo caso, si vede che {a} e {c} vengono mandati l’uno nell’altro e dunque
fanno parte di un ciclo di periodo 2. Tutti gli altri punti hanno invece periodo 5.
Vi sono dunque due insiemi invarianti: A1 = {a, c}, di misura µ(A1 ) = 2/7, e
A2 = {b, d, e, f, g}, di misura µ(A2 ) = 5/7. Pertanto il sistema non `e ergodico.
In particolare, si vede che la misura µ pu`o essere scritta come combinazione
convessa di due misure invarianti (decomposizione ergodica):
µ=
5
2
µ1 + µ2
7
7
dove µ1 e µ2 sono le probabilit`a condizionate
1/2, se i ∈ A1
µ1 ({i}) = µ({i}|A1 ) =
0,
se i ∈ A2
e
µ2 ({i}) = µ({i}|A2 ) =
1/5, se i ∈ A2
0,
se i ∈ A1
1.1. PRELIMINARI ED ESEMPI
1.1.1
7
Dinamica Hamiltoniana
In meccanica classica lo stato di un sistema fisico di N particelle pu`o essere
specificato dalle tre coordinate di posizione e dalle tre del momento cinetico di
ciascuna particella, cio`e da un punto in R6N , che prende il nome di spazio delle
fasi del sistema. Pi`u in generale, tenendo conto degli eventuali vincoli a cui `e
soggetto il sistema, lo stato del sistema sar`a descritto da un vettore (q, p) =
(q1 , . . . , qn , p1 , . . . , pn ) composto da n posizioni e n momenti generalizzati (dove
6N − 2n `e il numero di vincoli imposti al sistema). A tale sistema `e associata
una funzione H(q, p) su R2n , detta Hamiltoniana, che consente di scrivere le
equazioni del moto nella forma
∂H
dqi
=
,
dt
∂pi
∂H
dpi
=−
,
dt
∂qi
i = 1, . . . , n
Il teorema di esistenza ed unicit`a per le equazioni differenziali ordinarie del primo
ordine assicura che tali equazioni determinano lo stato del sistema T t (q, p) in
ogni istante di tempo t. Risulta cos`ı determinato il flusso di fase {T t : −∞ <
t < ∞}, cio`e un gruppo di trasformazioni ad un parametro su R2n che determina
l’evoluzione del sistema nel tempo. Se E ⊂ R2n `e un insieme misurabile e µ
indica la misura di Lebesgue su R2n allora si ha
Z
t
µ(T E) =
JT t (q, p) dµ(q, p)
E
dove JT t (q, p) `e il Jacobiano della mappa T t nel punto (q, p). D’altra parte,
un semplice calcolo diretto dove si tenga conto che il campo vettoriale associato
alle equazioni di Hamilton
V (q, p) =
∂H
∂H
∂H
∂H
,...,
,−
,...,−
∂p1
∂pn ∂q1
∂qn
soddisfa div V = 0, mostra che
d
µ(T t E) =
dt
∂
JT t (q, p)
∂t
Z
E
= 0 [AA], [Kh1]. Ma allora si ha
∂
[JT t (q, p)] dµ(q, p) = 0
∂t
8
CHAPTER 1. INTRODUZIONE
e dunque la misura di Lebesgue `e T t -invariante2 . Inoltre, dalle equazioni di
= 0 e dunque il sistema non `e libero
Hamilton segue immediatamente che dH
dt
di visitare tutto lo spazio delle fasi: il suo moto sar`a ristretto alle superfici di
energia costante SC = {(q, p) : H(q, p) = C}. Anche il flusso ristretto a
tali superfici ha una misura invariante, data da dµC = dS/kgrad Hk, dove dS
indica l’elemento di volume sulla superficie (vedi [Kh1]). Se poi vi sono altre
costanti del moto, cio`e altre funzioni regolari che assumono valore costante lungo
il flusso di fase, allora il moto sar`a ulteriormente ristretto ad opportune superfici
invarianti di dimensionalit`a pi`u bassa (vedi [AA]). L’ipotesi ergodica, nella sua
accezione pi`u stretta, richiede che la dinamica hamiltoniana che descrive i sistemi
di particelle studiati dalla meccanica statistica sia ergodica su ogni superficie ad
energia costante SC . In particolare ci`o implica che non vi siano altre costanti del
moto oltre alla funzione H e
1
t
Z
t
1E (T s (q, p))ds −→ µC (E),
t→∞
(1.3)
0
per ogni sottoinsieme misurabile E ⊂ SC e per µC -quasi ogni condizione iniziale
(q, p). Questa propriet`a `e stata finora dimostrata solo per classi molto speciali di
sistemi hamiltoniani (biliardo di Sinai e sue generalizzazioni) e sempre al prezzo di
un formidabile sforzo tecnico (vedi [CFS]). D’altra parte, nello sviluppo successivo della teoria ergodica l’oggetto di interesse `e in buona misura mutato rispetto
alla ricerca di una fondazione matematica della meccanica statistica. Insieme ad
alcuni importanti risultati e tecniche generali, la teoria ergodica moderna consiste
pi`u che altro in una collezione sempre pi`u ricca di esempi particolari in cui una
trasformazione T conserva una misura µ, spesso ergodica a priori, di cui si tratta
di studiare propriet`a ulteriori, alcune delle quali verranno discusse in queste note.
Ma prima dobbiamo accennare ad un altro contesto in cui la teoria ergodica
affonda le sue radici: quello del calcolo delle probabilit`a ed in particolare della
teoria dei processi stocastici.
2
Esistono vari modi di passare da un flusso di fase continuo T t a una mappa che agisce in
modo discreto. Uno di questi, introdotto da Poincar`e, consiste nel costruire una trasformazione
che mette in corrispondenza le successive intersezioni di una traiettoria con una opportuna
superficie di codimensione uno, detta appunto sezione di Poincar`e. Tale mappa conserva la
misura indotta da µ su tale superficie. Ne vedremo pi`
u avanti un esempio nel caso del moto
in un biliardo piano.
1.1. PRELIMINARI ED ESEMPI
1.1.2
9
Processi stocastici stazionari
Una variabile aleatoria a valori in uno spazio topologico Y `e un’applicazione
misurabile f da uno spazio di probabilit`a (X, E, µ) a Y . La misura di probabilit`a
µf associata a f `e data da µf (A) = µ(f −1 A). Un processo stocastico (a valori in
Y ) `e una sequenza . . . f−1 , f0 , f1 , f2 . . . di variabili aleatorie fn : (X, E, µ) → Y .
Sia Ω = Y Z = {(. . . ω−1 , ω0 , ω1 , ω2 . . .) : ωi ∈ Y } lo spazio delle sequenze a
valori in Y e definiamo una mappa ϕ : X → Ω data da (ϕx)n = fn (x), ∀n ∈ Z,
e una misura P sui boreliani di Ω data da P(E) = µ(ϕ−1 E).
Definizione 1.1.2 Il processo stocastico . . . f−1 , f0 , f1 , f2 . . . si dice stazionario
se P `e invariante rispetto alla traslazione S : Ω → Ω definita da (Sω)n = ωn+1 .
Ci`o equivale a richiedere che per ogni famiglia finita B1 , . . . , Br con Bi ∈ B(Y ),
e per ogni r-upla di interi n1 , . . . , nr , se poniamo
A0 = {x : fn1 (x) ∈ B1 , . . . , fnr (x) ∈ Br }
e
Ak = {x : fn1 +k (x) ∈ B1 , . . . , fnr +k (x) ∈ Br }
allora si ha µ(A0 ) = µ(Ak ), ∀k ∈ Z. Per mezzo di questa costruzione ogni processo stocastico stazionario ‘proviene’ da una misura invariante per traslazione.
Definizione 1.1.3 Un insieme A ∈ E si dice invariante per la sequenza . . . f−1 , f0 , f1 , f2 . . .
se esiste B ∈ B(Y Z ) tale che per ogni n ∈ Z si ha
A = {x : (fn , fn+1 , . . .) ∈ B}
(1.4)
La collezione degli insiemi invarianti forma una (sotto-)σ-algebra I.
Definizione 1.1.4 Una sequenza stazionaria . . . f−1 , f0 , f1 , f2 . . . si dice ergodica se I `e una σ-algebra banale, cio`e formata unicamente da insiemi di misura 0
o 1.
Viceversa, partendo da una trasformazione invertibile T che conserva una spazio
di probabilit`a (X, E, µ) si possono generare un gran numero di processi stazionari.
In effetti, basta prendere una funzione misurabile f : X → R e definire un
` chiaro che
processo . . . , f−1 , f0 , f1 , f2 . . ., come fk (x) = f (T k x), k ∈ Z. E
ogni fk `e misurabile. Inoltre se poniamo, ad esempio, C0 = {x : fn (x) ∈ B} e
Ck = {x : fn+k (x) ∈ B} allora si ha Ck = T −k C0 e dunque µ(C0 ) = µ(Ck ).
10
CHAPTER 1. INTRODUZIONE
Ci`o mostra la stazionariet`a del processo. Se T non `e invertibile si costruiscono in
` immediato verificare
modo esattamente analogo processi unilateri f0 , f1 , f2 . . .. E
che l’ergodicit`a di (X, E, µ, T ) nel senso della definizione 1.1.1 `e equivalente
all’ergodicit`a della sequenza {fk } nel senso della definizione 1.1.4.
Un caso particolare in cui le due costruzioni sopra descritte si riducono a una
sola `e quello in cui Y `e un insieme numerabile, come ad esempio un alfabeto
finito A = {0, 1, . . . , N − 1}, N ≥ 2, X = Ω = AZ (oppure AN ), T = S `e la
traslazione su Ω e f (ω) = ω0 . Possiamo anche assegnare a Ω la metrica indotta
dalla topologia prodotto e data da
d(ω, ω 0 ) =
X |ωi − ω 0 |
i
i∈Z
N |i|
,
con la somma estesa solo a i ∈ N nel caso Ω = AN . Lo spazio (Ω, d) `e uno spazio
metrico compatto e gli intorni di un suo punto ω sono i cilindri, cio`e insiemi della
forma
C2k+1 (ω) = {ω 0 ∈ Ω : ωi0 = ωi , i = −k, . . . , k}
se Ω = AZ , oppure
Ck (ω) = {ω 0 ∈ Ω : ωi0 = ωi , i = 0, . . . , k − 1}
se Ω = AN . Diverse situazioni si caratterizzano poi specificando la misura di
probabilit`a P.
Esempio. Traslazione di Bernoulli. Assegnamo ad A = {0, 1, . . . , N −
1} una distribuzione
PN −1di probabilit`a, cio`e un vettore p = (p0 , p1 , . . . , pN −1 ) tale
e detta schema finito e, nel
che pi ≥ 0 e
i=0 pi = 1. La coppia (A, p) `
1 1
caso N = 2 e p = ( 2 , 2 ), schema di Bernoulli. Assegnamo allo spazio prodotto
ΩN = AZ la misura P che assegna ad ogni cilindro {ω : ωi1 = a1 , . . . , ωin = an },
i1 , . . . , in ∈ Z, a1 , . . . , an ∈ A, il prodotto
P ({ω : ωi1 = a1 , . . . , ωin = an }) = pa1 · · · pan
(1.5)
Evidentemente P `e invariante rispetto alla traslazione S. Il corrispondente sistema dinamico si indica con B(p0 , . . . , pN −1 ) e rappresenta un processo stocastico a valori finiti con termini indipendenti e identicamente distribuiti (i.i.d.), ad
esempio B( 12 , 12 ) modellizza una sequenza infinita di lanci di una moneta.
N
Esempio. Traslazione di Markov. Sia ora Ω+
N = A lo spazio delle
+
sequenze unilatere a valori in A e S : Ω+
N → ΩN la traslazione su di esso.
1.1. PRELIMINARI ED ESEMPI
11
Definiremo ora una diversa misura S-invariante su AN , per la quale il risultante
processo stocastico (unilatero) `e una catena di Markov invece che una sequenza
con termini i.i.d. A questo scopo sia P = (pij ) una matrice stocastica N × N ,
ovvero una matrice con elementi non negativi e tali che la somma degli elementi
di ciascuna riga `e uguale a 1. Supponiamo inoltre che π = (π0 , . . . πN −1 ) sia
una distribuzione di probabilit`a su A invariante per P , cio`e un vettore riga tale
che π = πP . Per il teorema di Perron-Frobenius un tale vettore esiste sempre
e se una qualche potenza di P ha tutti gli elementi positivi allora π `e unico.
Data una sequenza (ak )k∈N con elementi in A denotiamo la sequenza parziale
(ai , ai+1 , . . . , aj ) con aji per i < j e con a∞
i la sequenza (aj )j≥i . Il cilindro
con indici consecutivi dato da {ω : ωj = aj , j = 0, . . . , n} sar`a indicato con
{ω0n = an0 }. Definiamo allora P come
P ({ω0n = an0 }) = πa0 pa0 a1 · · · pan−1 an .
(1.6)
Di nuovo l’invarianza rispetto a S `e evidente. Si pu`o poi estendere P ad una
misura σ-additiva sull’algebra generata dai cilindri e quindi, usando il teorema
di Carath´eodory3 , al completamento della σ-algebra dei boreliani di AN . Il sistema dinamico risultante (Ω+
N , P, S) modellizza una catena di Markov con spazio
degli stati finito. Interessanti generalizzazioni si ottengono considerando uno
spazio degli stati numerabile: A = N. In altra direzione, si pu`o generalizzare
questa costruzione considerando misure markoviane di ordine finito qualsiasi o,
ancora pi`u in generale, misure con connessioni complete, dette anche misure di
Gibbs (vedi [Bo]). Una misura P su Ω+
N si dice gibbsiana se esiste una funzione
+
H¨olderiana V : ΩN → R e due costanti P e K > 1 tali che
K −1 ≤
P ({ω0n = an0 })
Pn−1
e−nP +
k=0
V (a∞
k )
≤K
dove (a∞
e definita completando la sequenza finita (ank ) in modo arbitrario. La
k ) `
costante P prende il nome di pressione associata alla misura P. Nel caso della
misura markoviana definita sopra la pressione `e uguale a zero e il potenziale V
dipende solo dalle prime due coordinate:
πω 0 p ω 0 ω 1
V (ω) = log
.
πω 1
3
Teorema di Carath´eodory. Sia X uno spazio, A un’algebra di suoi sottoinsiemi e σ(A) la
pi`
u piccola σ-algebra che contiene A. Sia µ0 una misura σ-additiva su (X, A). Allora esiste
un’unica misura µ su (X, σ(A)) che estende µ0 , cio`e tale che µ(A) = µ0 (A) per ogni A ∈ A.
12
1.2
CHAPTER 1. INTRODUZIONE
Costruzioni speciali
Vediamo alcune classiche costruzioni che consentono di modificare o combinare
sistemi dinamici per ottenerne di nuovi. Dato un sistema dinamico (X, E, µ, T ),
un esempio di tale costruzione `e la trasformazione indotta TE : E → E su un
insieme misurabile E ⊂ X di misura positiva, che verr`a definita e discussa nella
Sezione 3.1. Vediamo dunque altri esempi.
1.2.1
Fattori
Dati due sistemi dinamici (X, E, µ, T ) e (Y, G, ν, S), una mappa φ : X → Y
tale che φ−1 G ⊂ E, φ ◦ T = S ◦ φ, µ-q.o., e µ(φ−1 A) = ν(A) per ogni A ∈ G,
si chiama mappa fattore (o anche omomorfismo (mod 0)). Se una tale mappa
esiste allora S si dice fattore di T , e T si dice estensione di S.
Esempio. Pi`u avanti studieremo la trasformazione del fornaio T : T2 → T2 ,
dove T2 = R2 /Z2 `e il toro bidimensionale, data da
(2x, y/2)
se 0 ≤ x < 1/2;
T (x, y) =
(2x − 1, (y + 1)/2) se 1/2 ≤ x ≤ 1.
La proiezione φ : T2 → T1 determina una mappa fattore S : T1 → T1 , ce non `e
altro che la moltiplicazione per due: S(x) = 2x (mod 1). Osserviamo che mentre
T `e invertibile, S non lo `e.
1.2.2
Prodotti
Dati due sistemi dinamici (X, E, µ, T ) e (Y, G, ν, S), il loro prodotto `e definito
sullo spazio prodotto X × Y munito della σ-algebra prodotto di E e G e della
misura prodotto µ × ν dalla trasformazione
(x, y) → (T (x), S(y))
1.2.3
Prodotti inclinati (skew)
Sia (X, E, µ, T ) un sistema dinamico e supponiamo che {Sx : x ∈ X} sia
una famiglia di trasformazioni che conservano la misura di un (altro) spazio di
probabilit`a (Y, G, ν). Se Sx (y) `e una mappa X × Y → Y congiuntamente
misurabile allora la mappa
(x, y) → (T (x), Sx (y))
1.2. COSTRUZIONI SPECIALI
13
definisce un sistema dinamico (che conserva la misura) sullo spazio prodotto
X ×Y.
Esempio. La trasformazione di T2 data da
(x, y) → (x + α, y + x) (mod 1)
(1.7)
`e un prodotto inclinato, di cui la rotazione x → x + α (mod 1) `e un fattore.
1.2.4
Flussi sospesi
Dato un sistema dinamico (X, E, µ, T ) e una funzione misurabile f : X → (0, ∞)
(funzione di ritorno), possiamo costruire un flusso ad un parametro φt nella
regione
Γ = {(x, t) : 0 ≤ t < f (x)}
sotto il grafico di f . Ciascuno punto si muove verticalmente con velocit`a unitaria,
e si identificano di volta in volta i punti (x, f (x)) e (T (x), 0). Tale flusso preserva
il prodotto di µ con la misura di Lebesgue. Sotto opportune condizioni, ogni
flusso pu`o essere rappresentato in tal maniera.
Esempio. Sia φt : R3 → R3 `e il flusso verticale dato da φt (x, y, z) = (x, y, z+t),
il quale induce un flusso φt : N → N sulla variet`a compatta tridimensionale
N ottenuta quozientando R3 rispetto all’azione del gruppo generato dalle tre
mappe che mandano (x, y, z) in (x + 1, y, z), (x, y + 1, z) e (x + y, x + 2y, z − 1)
rispettivamente. Tale flusso `e ottenuto dalla sospesione, con funzionedi ritorno
1 1
2
2
costante f ≡ 1, della mappa A : T → T indotta dalla matrice
.
1 2
Si tratta dunque del flusso nella direzione del secondo fattore su N = T2 ×
[0, 1]/(x, y, 1) ∼ (x + y, x + 2y, 0). Le orbite di φt : N → N si possono studiare
studiando le loro intersezioni successive con T2 × {0}, le quali formano un’orbita
della mappa A : T2 → T2 , ovvero A(x, y) = (x + y, x + 2y) (mod 1).
1.2.5
Limiti inversi
Sia (Xi , Ei , µi , Ti ), i = 0, 1, 2, . . . una famiglia di sistemi dinamici e supponiamo
che per ogni i ≥ j vi sia un omomorfismo φij : Xi → Xj tale che φii =Q
identit`a
e φij φjk = φik se i ≥ j ≥ k. Formiamo il sottoinsieme X del prodotto ∞
i=0 Xi
definito da
X = {x = {xi } : φij xi = xj , ∀i ≥ j }
14
CHAPTER 1. INTRODUZIONE
Se πi : X → Xi `e la proiezione πi x = xi , allora si ha φij πi = πj su X. Sia F
la pi`u piccola σ-algebra su X che contiene tutte le πi−1 Ei . La misura µ definita
sull’algebra ∪i≥0 πi−1 Ei da µ(πi−1 A) = µi (A) se A ∈ Ei si estende a tutta F (che
a sua volta pu`o essere completata rispetto a µ). Definiamo ora T : X → X
come
T (x) = {Ti (xi )}
Il sistema (X, E, µ, T ) `e detto limite inverso della famiglia diretta {(Xi , Ei , µi , Ti ) :
i = 0, 1, 2, . . .}
1.2.6
Estensioni naturali
Sia (X, E, µ) uno spazio di misura e T : X → X una mappa misurabile (T −1 E ⊂
E), che conserva la misura(µT −1 = µ) ma non necessariamente invertibile. Un
ˆ E,
ˆµ
sistema dinamico (X,
ˆ, Tˆ) con Tˆ invertibile si chiama estensione naturale
ˆ E,
ˆµ
di (X, E, µ, T ) se esiste un omomorfismo ψ : (X,
ˆ, Tˆ) → (X, E, µ, T ) t.c.
−1
ˆ
ψ E = E a meno di insiemi di misura nulla.
Un’estensione naturale si pu`o ottenere prendendo come spazio il limite inverso
di (Xi , Ei , µi , Ti ) dove (Xi , Ei , µi ) = (X, T −i E, µ), Ti = identit`a per ogni i,
φij = T i−j , e come trasformazione Tˆ la traslazione (verso sinistra). In altre
parole
Tˆ(x1 , x2 , x3 , . . .) = (T (x1 ), x1 , x2 , . . .)
la cui inversa `e
Tˆ−1 (x1 , x2 , x3 , . . .) = (x2 , x3 , . . .)
Chapter 2
Alcuni teoremi ergodici
Il risultato che in un certo senso ha iniziato la teoria ergodica `e il seguente
`) Sia (X, E, µ, T )
Teorema 2.0.1 (Teorema del ritorno di Poincare
un sistema dinamico con µ(X) < ∞ e E ∈ E. Allora quasi ogni punto x ∈ E
torna in E infinite volte, cio`e si pu`o trovare una sequenza di interi 0 ≤ ni =
ni (x, E) ↑ ∞ tale che T ni x ∈ E ∀i.
Dimostrazione. Per ogni intero N ≥ 1 consideriamo l’insieme (misurabile) dei
punti di E che dall’iterata N -esima in poi non tornano pi`u in E:
EN := {x ∈ E : {T n (x)}n≥N ⊂ X \ E} = E ∩ ∩n≥N T −n (X \ E)
` chiaro che T −n (EN ) ∩ EN = ∅ per ogni n ≥ N , ovvero gli insiemi
E
EN , T −N EN , T −N −1 EN , . . .
sono tutti disgiunti. Ma per la T -invarianza di µ ciascuno di essi ha misura
µ(EN ) e dunque
X
X
µ(X) ≥ µ ∪n≥N T −n (EN ) =
µ(T −n (EN )) =
µ(EN ) ⇒ µ(EN ) = 0
n≥N
n≥N
Essendo ci`o vero per ogni N ≥ 1 si vede che µ-quasi ogni x ∈ E torna in E
infinite volte. Potremmo allora chiederci se un dato x ∈ E che torna in E infinite volte lo fa
con una frequenza asintotica ben definita, cio`e se la quantit`a
n−1
#{k : T k x ∈ E, 0 ≤ k < n}
1X
=
1E (T k x)
n
n k=0
15
16
CHAPTER 2. ALCUNI TEOREMI ERGODICI
ammette un limite quando n → ∞. La risposta a questa domanda `e contenuta
nel teorema ergodico puntuale, dovuto a G. D. Birkhoff, risultato fondamentale
della teoria ergodica, il quale afferma la convergenza quasi ovunque delle medie
ergodiche (1.1) per funzioni integrabili.
Teorema 2.0.2 (Il teorema ergodico di Birkhoff) Sia (X, E, µ) uno
spazio di probabilit`a, T : X → X una trasformazione che conserva la misura e
f ∈ L1 (X, E, µ). Allora,
P
k
1. il limite limn→∞ n1 n−1
k=0 f (T x) esiste µ-q.o.
2. se f ∈ Lp (X, E, µ), 1 ≤ p < ∞, il suddetto limite definisce una funzione
f ∈ Lp (X, E, µ) che soddisfa
• f (T x) = f (x), µ − q.o.,
n−1
1X
• lim k
f ◦ T k − f kp = 0.
n→∞ n
k=0
3. Se A ∈ E soddisfa T −1 A = A allora
R
R
anche X f dµ = X f dµ).
R
f dµ =
A
R
A
f dµ (e pertanto si ha
Dimostrazione. Mostriamo la convergenza quasi ovunque secondo uno schema
dovuto a A. M. Garsia (1970). Poniamo
n−1
1X
f (T k x)
f (x) = lim sup
n k=0
n
∗
e
(2.1)
n−1
1X
f∗ (x) = lim inf
f (T k x).
n
n k=0
(2.2)
` chiaro che f ∗ (T x) = f ∗ (x) e f∗ (T x) = f∗ (x) e dunque gli insiemi di E definiti
E
da Dab = {x : f∗ (x) < a < b < f ∗ (x)} sono T -invarianti. Dimostrare la
convergenza quasi ovunque equivale a mostrare che µ(Dab ) = 0 per ogni scelta
di a < b.
Supponiamo ora di poter mostrare che
Z
Z
(f (x) − b)dµ ≥ 0 e
(a − f (x))dµ ≥ 0.
Dab
Dab
17
Sommando queste due disuguaglianze otteniamo (a − b)µ(Dab ) ≥ 0 e dunque
µ(Dab ) = 0 visto che per ipotesi a < b.
Mostriamo la prima delle due, la seconda segue in modo analogo. A questo scopo
poniamo g(x) = f (x) − b e osserviamo che se x ∈ Dab allora esister`a un intero
N tale che
n−1
1X
g(T k x) ≤ 0 per n = 1, . . . , N − 1 e
n k=0
N −1
1 X
g(T k x) > 0.
N k=0
Se indichiamo con DN l’insieme degli x per cui valgono tali relazioni avremo che
Dab = ∪∞
N =1 DN ,
R
e se verifichiamo che ∪L DN gdµ ≥ 0 per ogni intero positivo L allora l’asserto
N =1
R
(cio`e Dab gdµ ≥ 0) seguir`a dal teorema di convergenza dominata1 applicato alla
sequenza g · 1∪LN =1 DN .
Ora, per L = 1 non c’`e nulla da mostrare. Per L > 1 l’idea `e di suddividere
∪LN =1 DN in parti disgiunte su ciascuna delle quali l’integrale di g sia non negativo
in modo evidente. Tali parti saranno rappresentate come torri del tipo Ck =
Dk0 ∪ T Dk0 ∪ · · · ∪ T k−1 Dk0 .
Ad esempio, per L = 2, osserviamo che D2 consiste di punti x tali che T x ∈ D1
(perch`e deve essere g(T x) > −g(x) ≥ 0) e dunque possiamo scrivere D1 ∪D2 =
C1 ∪ C2 con C2 = D2 ∪ T D2 e C1 = D1 \ C2 (per cui D10 = D1 \ (D2 ∪ T D2 )
e D20 = D2 ), cosicch`e (usando l’invarianza della misura µ),
Z
Z
Z
Z
gdµ =
gdµ =
gdµ +
gdµ
D1 ∪D2
C1 ∪C2
D1 \T D2
D2 ∪T D2
1
Teorema di convergenza dominata. Per una sequenza fn di funzioni integrabili su X
dominata da g ∈ L1 (X, E, µ), si ha
Z
Z
lim inf fn dµ ≤ lim inf
fn dµ
X
e
X
Z
Z
lim sup fn dµ ≥ lim sup
X
fn dµ
X
In particolare, se fn converge µ-q.o., si ha
Z
Z
lim fn dµ = lim
fn dµ
X n→∞
n→∞
X
18
CHAPTER 2. ALCUNI TEOREMI ERGODICI
Z
Z
(g + g ◦ T )dµ ≥ 0
gdµ +
=
D1 \T D2
D2
` facile a questo punto generalizzare l’esempio appena discusso per mezzo delle
E
seguenti osservazioni:
• T k Dn ⊂ ∪n−k
N =1 DN per k = 1, 2, . . . , n − 1;
• gli insiemi Dn , T Dn , . . . , T n−1 Dn sono mutuamente disgiunti;
n−1 k
0
• se poniamo Dn0 = Dn e Cn = ∪k=0
T Dn , Dn−1
= Dn−1 \ Cn e Cn−1 =
n−2 k 0
n
0
∪k=0 T Dn−1 , . . . . . ., D1 = D1 \ ∪k=2 Ck e C1 = D10 , allora le torri
C1 , C2 , . . . , Cn sono mutuamente disgiunte, cos`ı come i livelli Dk0 , T Dk0 , . . . , T k−1 Dk0
all’interno di ciascuna torre.
Possiamo quindi scrivere
Z
gdµ =
∪L
N =1 DN
=
L Z
X
N =1 CN
L Z
X
N =1
gdµ =
L Z
X
N =1
gdµ
N −1 k 0
∪k=0
T DN
(g + g ◦ T + · · · + g ◦ T N −1 )dµ ≥ 0
0
DN
0
perch`e g+g◦T +· · ·+g◦T N −1 > 0 su DN
⊂ DN . Ci`o completa la dimostrazione
della convergenza quasi ovunque.
19
Per il secondo asserto osserviamo che l’invarianza quasi ovunque `e immediata
mentre il fatto che f ∈ Lp (X, E, µ) si vede come segue. Limitiamoci per semplicit`a al caso p = 1. Essendo |f | ≤ |f | possiamo applicare il lemma di Fatou2
ed ottenere, usando ancora la T -invarianza della misura µ,
Z
Z
|f |dµ ≤
Z
|f |dµ ≤ lim inf
n−1
1X
|f ◦ T k |dµ =
n k=0
Z
|f |dµ < ∞
Per completare la dimostrazione del secondo asserto osserviamo che se f ∈ L∞
allora la convergenza in L1 segue dalla convergenza µ-q.o. per il teorema di
convergenza dominata. Nel caso generale baster`a osservare che L∞ `e denso in
L1 e approssimare f con funzioni limitate. Consideriamo per semplicit`a il caso
f ≥ 0 (altrimenti possiamo sempre porre f = f + − f − , con f + , f − ≥ 0 e
trattare le due parti separatamente). Se g ∈ L∞ e 0 ≤ g ≤ f allora
n−1
n−1
n−1
1X
1X
1X
f ◦T k −f k1 ≤ k
(f ◦T k −g ◦T k )k1 +k
g ◦T k −gk1 +kf −gk1
k
n k=0
n k=0
n k=0
Il secondo termine a destra tende a zero per quanto gi`a visto, mentre il primo e
il terzo possono essere resi piccoli a piacere con una scelta appropriata di g (ma
qui `e essenziale che µ(X) < ∞).
L’ultimo asserto segue osservando che se A = T −1 A allora
! Z
Z
Z
n−1
X
1
k
f dµ −
f ◦ T − f dµ
f dµ = A n
A
A
k=0
Z X
n−1
n−1
1X
1
k
f ◦ T − f dµ = k
f ◦ T k − f kL1 (A) → 0
≤
n
n
A
k=0
k=0
per la gi`a dimostrata convergenza in L1 . 2
Lemma di Fatou. Per una sequenza fn di funzioni positive e integrabili su (X, E, µ) vale
Z
Z
lim inf fn dµ ≤ lim inf
X
fn dµ
X
20
CHAPTER 2. ALCUNI TEOREMI ERGODICI
2.0.7
Aspettazione condizionata
Sia (X, E, µ) uno spazio di probabilit`a, f ∈ L1 (X, E, µ) e G ⊂ E una sotto-σalgebra. Allora
Z
f dµ con A ∈ G
ν(A) =
A
definisce una misura finita e assolutamente continua rispetto alla restrizione di µ
a G. Per il teorema di Radon-Nikodym esiste una funzione g ∈ L1 (X, G, µ) tale
che
Z
ν(A) =
gdµ per ogni A ∈ G
A
La funzione g si chiama aspettazione condizionata di f rispetto a G e si indica
con E(f |G). La funzione E(f |G)(x) rappresenta il valore medio di f una volta
che si sia stabilito per ogni A ∈ G se x ∈ A oppure no.
Esempio. Supponiamo che B1 , B2 , . . . sia una partizione (finita o numerabile)
di X cheR genera G. Allora g assumer`a un valore costante su Bi , diciamo ai , e
avremo Bi gdµ = ai µ(Bi ). Pertanto
1
g(x) =
µ(Bi )
Z
f dµ ,
x ∈ Bi ,
µ(Bi ) > 0.
Bi
Come elemento di L1 , E(f |G) `e completamente caratterizzata dalle due propriet`a
seguenti:
• E(f |G) `e G-misurabile;
R
R
• A E(f |G)dµ = A f dµ per ogni A ∈ G.
L’ultimo asserto del teorema ergodico pu`o ora essere reinterpretato in questo
modo: se I `e la sotto-σ-algebra di E costituita da tutti gli insiemi T -invarianti,
allora f = E(f |I), µ-q.o. Se poi (X, E, µ, T ) `e ergodico allora I `e unaR σ-algebra
banale, in questo caso la funzione f `e costante µ-q.o. ed `e uguale a X f dµ.
2.0.8
Trasformazioni che conservano una misura infinita
Nel caso in cui µ(X) = ∞ le cose possono andare abbastanza diversamente.
Una generalizzazione del teorema ergodico che comprende questa possibilit`a `e
dovuta a Hopf e Stepanov. Premettiamo alcune definizioni.
21
Sia (X, E, µ) uno spazio di misura σ-finito e T : X → X una trasformazione
che conserva la misura µ. Un insieme W ∈ E si dice insieme errante per T se
` evidente che se
gli insiemi W, T −1 W, T −2 W, . . . sono mutuamente disgiunti. E
−1
W `e errante anche T W lo `e, in altre parole la propriet`a di essere errante `e
T -invariante. Si pu`o mostrare l’esistenza di una collezione numerabile di insiemi
erranti D(T ) ∈ E tale che ogni insieme errante W ∈ E `e contenuto in D(T )
(mod 0) (cio`e µ(W \ D(T )) = 0). D(T ) si chiama parte dissipativa di T e il suo
complementare C(T ) = X \ D(T ) parte conservativa di T . La decomposizione
X = C(T ) ∪ D(T ) si dice decomposizione di Hopf di T . Diremo infine che T `e
` evidente che se µ `e T -invariante e finita
conservativa se C(T ) = X (mod 0). E
allora (X, µ, T ) `e conservativo.
Esempio. Consideriamo la trasformazione T : [0, 1] → [0, 1] definita da
T (x) =
2x,
se 0 ≤ x < 1/2 ,
3/2 − x, se 1/2 ≤ x ≤ 1 .
` immediato verificare che l’intervallo A = [1/2, 1] `e T -invariante mentre B0 =
E
[1/4, 1/2) `e errante, con T −k B0 = [1/2k+2 , 1/2k+1 ) =: Bk . Pertanto si ha
C(T ) = A e D(T ) = ∪k≥0 Bk . Inoltre la misura dµ(x) = 1[1/2,1] (x)dx `e T invariante e T `e conservativa (ed ergodica) su ([0, 1], E, µ) con E la σ-algebra
dei boreliani di [0, 1].
` chiaro che sugli insiemi erranti il comportamento delle iterate di T ha un
E
carattere transiente, ossia non ricorrente. In generale diremo che T `e ricorrente
su (X, E, µ) se
lim inf |f ◦ T n − f | = 0 µ − q.o.,
n→∞
∀f : X → R misurabile
(2.3)
Per una semplice estensione del teorema di ricorrenza di Halmos [Hal] T `e conservativa se e solo se
∞
X
f (T k x) = ∞ µ − q.o.,
∀f ∈ L1 ,
f > 0.
k=0
Usando questo risultato si pu`o mostrare che T `e ricorrente se e solo se `e conservativa.
La generalizzazione del teorema ergodico puntuale che consente di trattare sistemi con misura infinita `e data dal seguente
22
CHAPTER 2. ALCUNI TEOREMI ERGODICI
Teorema 2.0.3 (Teorema ergodico di Hopf-Stepanov [Ste]) Sia T
una trasformazione conservativa su (X, E, µ) con µ T -invariante. Allora
Pn−1
k
f
k=0 f (T x)
lim Pn−1
= Eh
| I (x) µ − q.o., ∀f, h ∈ L1 , h > 0,
k
n→∞
h
k=0 h(T x)
dove Eh ( · | I) indica l’aspettazione condizionata (rispetto a I) presa con la
misura h dµ.
R
f dµ
Osserviamo che se (X, E, µ, T ) `e ergodico allora Eh fh | I (x) = RX hdµ . Perci`o,
X
per un dato
sistema conservativo ed ergodico, sar`a naturale chiedersi con quale
Pn−1
velocit`a k=0 f (T k x) → ∞
per f ∈ L1 . Se T Rconserva una misura di probabilit`a
Pn−1
f (T k x) ∼ n X f dµ quasi ovunque. Se invece
µ allora per quanto visto k=0
T conserva una misura infinitaR allora, per ogni fissato K ≥ 1, possiamo scegliere
0 < h ≤ 1 tale che h ∈ L1 e X hdµ ≥ K. Usando il teorema di Hopf-Stepanov
si ha
R
R
Pn−1
n−1
k
f
dµ
f dµ
f
(T
x)
1X
lim
= RX
≤ X
f (T k x) ≤ lim Pk=0
, µ − q.o.
n−1
k
n→∞ n
n→∞
K
hdµ
X
k=0 h(T x)
k=0
ePl’ultima quantit`a che pu`o essere resa piccola a piacere. Da ci`o segue che
n−1
k
e possibile in
k=0 f (T x) = o(n) quasi ovunque. Nasce allora il problema: `
questo caso determinare
R una sequenza an % ∞ tale che per quasi ogni x si abbia
P
n−1
k
f
(T
x)
∼
a
n X f dµ ? Il risultato seguente, dovuto a Jon Aaronson,
k=0
esclude questa possibilit`a.
Teorema 2.0.4 [Aa] Sia T una trasformazione conservativa di (X, E, µ) con µ
T -invariante, ergodica e infinita. Data una successione positiva an vi sono le
seguenti alternative:
n−1
1 X
lim inf
f (T k x) = 0 µ − q.o.,
n→∞ an
k=0
∀f ∈ L1 , f > 0,
oppure
∃ni % ∞ tale che
ni −1
1 X
f (T k x) → ∞ µ − q.o.,
ani k=0
∀f ∈ L1 , f > 0.
Tuttavia in taluni casi e per opportune osservabili f si pu`o mostrare l’esistenza
di una sequenza
an tale che le medie ergodiche riscalate con an convergono in
R
misura a X f dµ (il che corrisponde a una ‘legge debole dei grandi numeri’) e
dunque convergono quasi ovunque per opportune sottosuccessioni [Aa], [CI] (vedi
anche [Is2]).
Chapter 3
Ergodicit`
a e mescolamento
Abbiamo gi`a dato la definizione di ergodicit`a per un sistema dinamico (X, E, µ, T ).
` facile verificare (usando un argomento di approssimazione) che una condizione
E
equivalente `e la seguente: ogni funzione misurabile f : X → R e invariante
rispetto a T , cio`e tale che f (T x) = f (x) µ-q.o., `e costante quasi ovunque. In
particolare ci`o sar`a vero per il limite delle medie aritmetiche
(1.1). Come abbiamo
R
visto, se µ(X) = 1 tale limite `e uguale al numero X f dµ, se invece µ(X) = ∞
il limite `e sempre uguale a zero (assumiamo T conservativa). Un altro modo di
caratterizzare l’ergodicit`a `e dato dalla seguente
Proposizione 3.0.5 Il sistema dinamico (X, E, µ, T ) con µ(X) = 1 `e ergodico
se e solo se per ogni E, F ∈ E si ha
n−1
1X
µ(E ∩ T −k F ) = µ(E)µ(F ).
lim
n→∞ n
k=0
(3.1)
Se invece µ(X) = ∞ allora l’ergodicit`a di µ implica che per ogni E, F ∈ E con
µ(E)µ(F ) < ∞ si ha
n−1
X
µ(E ∩ T −k F ) = o(n).
k=0
Dimostrazione.
Consideriamo
dapprima il caso µ(X) = 1. L’ergodicit`a implica
R
P
k
che n1 n−1
f
(T
x)
→
f
dµ,
µ-q.o. Se integriamo questa relazione su E
k=0
X
con f = 1F si ottiene la (3.1), osservando che f ◦ T k = 1T −k F . Viceversa,
supponiamo che F = T −1 F e poniamo E = F c . Allora la (3.1) d`a subito
µ(F )µ(F c ) = 0, ossia l’ergodicit`a. In modo analogo si tratta il caso infinito. 23
` E MESCOLAMENTO
CHAPTER 3. ERGODICITA
24
Alla luce del teorema di ricorrenza di Poincar`e possiamo interpretare la quantit`a
µ(E ∩ T −k F )/µ(E), con µ(E) > 0, come la probabilit`a di entrare in F (per
la prima volta o no) condizionata dall’essere partiti in E k iterate pi`u indietro.
L’ergodicit`a si interpreta allora dicendo che tale probabilit`a tende in media alla
semplice probabilit`a µ(F ) di trovarsi in F , indipendentemente dall’insieme E
` bene sottolineare che tale comportamento medio non
da dove siamo partiti. E
−k
impedisce che µ(E ∩ T F )/µ(E) possa essere sempre, cio`e per ogni valore di
k, significativamente diversa da µ(F ).
Esempio. Consideriamo le trasformazioni T1 e T2 dell’intervallo unitario date da

2x,
se 0 ≤ x ≤ 1/4 ,



1 − 2x,
se 1/4 ≤ x ≤ 1/2 ,
T1 (x) =
2x − 1/2, se 1/2 < x ≤ 3/4 ,



5/2 − 2x, se 3/4 ≤ x ≤ 1 ,
e

2x + 1/2,



3/2 − 2x,
T2 (x) =
2x − 1,



2 − 2x,
se
se
se
se
0 ≤ x ≤ 1/4 ,
1/4 ≤ x ≤ 1/2 ,
1/2 < x ≤ 3/4 ,
3/4 ≤ x ≤ 1 .
` immediato verificare che la misura di Lebesgue dx `e invariante per entrambe
E
le mappe. La diversit`a nel comportamento di T1 e T2 come sistemi dinamici si
pu`o facilmente comprendere osservando la loro azione sugli insiemi P0 = [0, 1/2)
e P1 = [1/2, 1). Si ha infatti che T1 Pi = Pi for i = 0, 1, cio`e ciascun intervallo
`e invariante per T1 , mentre T2 P0 = P1 e T2 P1 = P0 , cio`e T2 li scambia tra loro.
` evidente che |P0 ∩ T1−k P1 | = 0 per ogni k e la (3.1) non pu`o valere per T1 .
E
D’altra parte si ha
1/2, se k `e dispari ,
−k
|P0 ∩ T2 P1 | =
0,
se k `e pari.
e dunque
n−1
1
1 X |P0 ∩ T2−k P1 |
= = |P1 |.
n→∞ n
|P0 |
2
k=0
lim
Vediamo cos`ı che la sequenza |P0 ∩ T2−k P1 |/|P0 |, pur non convergendo ad alcun
limite per k → ∞, converge in media, cio`e secondo Ces`aro, al limite richiesto
dall’ergodicit`a.
25
La condizione in cui la sequenza µ(E ∩T −n F ) converge a µ(E)µ(F ) rappresenta
una propriet`a pi`u forte dell’ergodicit`a, detta mescolamento.
Definizione 3.0.6 Il sistema dinamico (X, E, µ, T ) con µ(X) = 1 si dice (fortemente) mescolante se per ogni E, F ∈ E si ha
lim µ(E ∩ T −n F ) = µ(E)µ(F ).
n→∞
(3.2)
Se invece µ(X) = ∞ allora per ogni E, F ∈ E con µ(E)µ(F ) < ∞ si deve
avere
µ(E ∩ T −n F ) = o(1).
` e mescolamento per la traslazione di Bernoulli.
Ergodicita
` immediato verificare che dati due cilindri E = {ω : ωi1 = e1 , . . . , ωir = ek }
E
e F = {ω : ωl1 = f1 , . . . , ωls = fs } se S : ΩN → ΩN `e la traslazione si ha
S −n F = {ω : ωl1 +n = f1 , . . . , ωls +n = fs } e dunque
P S −n F ∩ E = P(E) P(F )
purch`e n sia grande abbastanza. Da ci`o si deduce facilmente che la traslazione
di Bernoulli B(p0 , . . . , pN −1 ) `e mescolante e quindi ergodica. Questo risultato si
estende immediatamente al caso di un alfabeto infinito: A = N. In particolare,
(i)
se indichiamo con fn (ω) la frequenza con cui la lettera i ∈ A compare tra primi
n simboli di ω, allora il teorema ergodico e l’ergodicit`a di (ΩN , S, P) implicano
che
lim fn(i) (ω) = pi ,
P − q.o.
(3.3)
n→∞
Corollario. Quanto visto si estende senza difficolt`a al caso unilatero, in
N
cui Ω+
o conseguono facilmente l’ergodicit`a e il mescolamento del
N = A . Da ci`
sistema dinamico (S 1 , B, µ, T ) dove µ `e la misura di Lebesgue sulla sigma-algebra
dei boreliani di S 1 e T : S 1 → S 1 `e la moltiplicazione per N :
T (x) = N x (mod 1) ,
N ∈ N,
N >1
(3.4)
via la biiezione (mod 0) φ : S 1 → ΩN data dallo sviluppo in base N :
x = ω1 · N −1 + ω2 · N −2 + · · ·
(3.5)
Osserviamo che la misura di Lebesgue µ corrisponde alla misura P costruita a partire dalla distribuzione uniforme su A, cosicch´e P ({ω : ωi1 = a1 , . . . , ωin = an }) =
` E MESCOLAMENTO
CHAPTER 3. ERGODICITA
26
N −n . Distribuzioni diverse da quella uniforme corrispondono a misure T -invarianti
singolari rispetto a Lebesgue. Alcune possibilit`a saranno discusse nel seguito.
` e mescolamento per la traslazione di Markov.
Ergodicita
Sia (Ω+
N , P, S) una traslazione markoviana (detta altrimenti catena di Markov)
sull’alfabeto A = {0, 1, . . . , N −1} determinata da una matrice N ×N stocastica
P con distribuzione invariante π (vedi (1.6)). Supponiamo innanzitutto che P sia
irriducibile, sia cio`e tale che per ogni coppia i, j ∈ A esiste un k per cui pkij > 0
(ovvero lo stato j si pu`o raggiungere partendo dallo stato i in k passi). Consideriamo innanzitutto i cilindri unidimensionali Cj = {ω ∈ Ω+
0 = j}. Il teoN : ω
P
k
rema ergodico assicura l’esistenza q.o. dei limiti limn→∞ (1/n) n−1
k=0 1Cj (S ω)
e dunque anche di
qij
1
=
πi
Z
!
n−1
1X
lim
1Cj (S k ω)1Ci (ω) P(dω)
n→∞ n
k=0
n−1
=
n−1
1
1X
1X k
lim
P(S −k Cj ∩ Ci ) = lim
pij
n→∞ n
πi n→∞ n k=0
k=0
Pn−1 k
P `e stocastica e
La matrice Q = (qij ) definita da Q = limn→∞ (1/n) k=0
2
soddisfa Q = QP = P Q e Q = Q. Facciamo ora vedere che se P `e irriducibile,
allora Q ha P
tutti gli elementi positivi e qij = πj . Innanzitutto da Q = QP
si ha qij = k qik pnkj ≥ qik pnkj per ogni k e n. Dal fatto che almeno un qik
deve essere positivo e dall’irriducibilit`a di P si evince facilmente che qij > 0
per ogni coppia i, j. Per vedere che le righe di Q sono tutte uguali scegliamo
j0 e poniamo q = maxi qij0 .PSe esistesse un
P i0 tale che qi0 j0 < q allora da
Q2 = Q si avrebbe qij0 =
q
q
<
q
o `e
k ik kj0
k qik = q per ogni i, ma ci`
impossibile. Infine `e evidente che πQ = π e quindi essendo qij indipendente dal
primo indice, deve essere qij = πj . Per mostrare l’ergodicit`a consideriamo due
cilindri E = {ω : ωi = e0 , . . . , ωi+r = er } e F = {ω : ωl = f0 , . . . , ωl+s = fs } e
prendiamo k cos`ı grande che
{i, i + 1, . . . , i + r} ∩ ({l, l + 1, . . . , l + s} + k) = ∅
Allora si ha
P(E ∩ S −k F ) = πe0 pe0 e1 · · · per−1 er pk−r
er f0 pf0 f1 · · · pfs−1 fs
(3.6)
27
ma abbiamo appena visto che se P `e irriducibile allora
quando n → ∞. Da ci`o concludiamo che
1
n
Pn−1
k=0
pk−s
er f0 tende a πf0
n−1
1X
lim
P(S −k E ∩ F ) = P(E) P(F ),
n→∞ n
k=0
cio`e l’ergodicit`a di (Ω+
a non `e per`o suffiN , P, S). La condizione di irriducibilit`
ciente in generale per avere anche la propriet`a di mescolamento. Per questo `e
necessaria anche un’altra propriet`a. Dato uno stato j ∈ A, chiameremo periodo
di j il numero
tj = m.c.d {n ≥ 1 : pnjj > 0}.
Ora, se P `e irriducibile allora per ogni coppia di stati i e j esistono due interi n1
e n2 tali che pnij1 > 0 e pnji2 > 0, e inoltre si ha
1 +n2
pn+n
≥ pnij1 pnjj pnji2 .
ii
Siano ora ti e tj i periodi di i e j. Prendendo n = 0 la disuguaglianza scritta sopra
mostra che ti divide n1 +n2 ; d’altra parte, sempre da questa disuguaglianza segue
che se pnjj > 0 allora ti divide anche n + n1 + n2 , e quindi divide n. Dunque
ti divide ogni intero dell’insieme {n ≥ 1 : pnjj > 0} e dunque si ha ti ≤ tj .
Scambiando i e j otteniamo che se P `e irriducibile i e j hanno lo stesso periodo.
Possiamo dunque in questo caso parlare di periodo della catena stessa. Se tale
periodo `e 1 P si dice aperiodica. Non `e difficile rendersi conto che P `e irriducibile
e aperiodica se e solo se esiste un intero n0 tale che per ogni i e j, pnij > 0 purch`e
n > n0 . Inoltre, in questo caso le quantit`a pnij formano sequenze convergenti alle
componenti πj del vettore invariante (non solo secondo Ces`aro):
Proposizione 3.0.7 Se P `e irriducibile e aperiodica allora si possono trovare
due costanti C > 0 e 0 ≤ θ < 1 tali che
|pnij − πj | ≤ Cθn ,
∀i, j ∈ A.
Dimostrazione. Poniamo αjn = mini pnij e βj = maxi pnij . Allora si ha
αjn+1 = min
X
i
βjn+1
= maxi
pil pnlj ≥ αjn
X
l
pil = αjn
l
X
l
pil pnlj
≤
βjn
X
l
pil = βjn
` E MESCOLAMENTO
CHAPTER 3. ERGODICITA
28
da cui otteniamo
0 ≤ αj1 ≤ αj2 ≤ · · · βj2 ≤ βj1 ≤ 1.
Supponiamo inizialmente che min
a essere
ij = δ > 0. Evidentemente dovr`
P ij pP
−
δ ≤ N −1 . Indichiamo poi con +
(
)
la
somma
rispetto
agli
indici
k per i
k
k
cui i termini sono positivi (negativi). Allora si ha
βjn+1 − αjn+1 ≤ pn+1
− pn+1
ij
lj
X
=
(pik − plk ) pnkj
k
≤
X
=
X
+
(pik − plk ) βjn +
k
X
−
(pik − plk ) αjn
k
+
(pik −
plk ) (βjn
− αjn )
k
≤ (1 − N δ)(βjn − αjn )
P+
P−
p
+
dove nell’ultima
disuguaglianza
abbiamo
usato
il
fatto
che
ik
k plk ≥
k
P+
P−
P+
N δ e dunque k (pik −plk ) = 1− k pik − k plk ≤ 1−N δ. Da ci`o segue che
βjn − αjn ≤ (1 − N δ)n . Pertanto βjn e αjn ammettono un limite comune πj e si ha
|pnij − πj | ≤ (1 − N δ)n . Ovviamente si ha πj ≥ inf αjn = αj1 > δ. L’asserto segue
P
prendendo C = 1, θ = 1−N δ e passando al limite in pn+1
= k pik pnkj . Nel caso
ij
generale abbiamo minij p`ij = δ > 0 per ` > n0 . Ripetendo l’argomento usato pi`u
sopra otteniamo che, se n = m`+k con 0 ≤ k < `, allora βjn −αjn ≤ (1−N δ)m ,
per cui baster`a scegliere C = (1 − N δ)−1 e θ = (1 − N δ)1/` .
` facile infine rendersi conto che la distribuzione π `e necessariamente unica.
E
P
Se infatti vi fosse un’altra
distribuzione invariante π 0 , allora πj0 = i πi0 pnij , ma
P
pnij → πj e quindi πj0 = i πi0 πj = πj . Esempio. Sia
P =
p00
p10
p01
p11
Si trova facilmente che
2
P =
p200 + p01 p10 p01 (p00 + p11 )
p10 (p00 + p11 ) p211 + p01 p10
.
Assumendo tr P = p00 +p11 < 2 e procedendo per induzione otteniamo l’espressione
generale
1 1 − p11 1 − p00
(1 − ρ)n
1 − p00 −1 + p00
n
P =
+
,
−1 + p11 1 − p11
ρ 1 − p11 1 − p00
ρ
29
dove ρ = 2 − tr P. Perci`o si vede che se 0 < ρ < 2 allora quando n → ∞,
1 1 − p11 1 − p00
n
P →
ρ 1 − p11 1 − p00
e, in particolare, se poniamo π0 = (1 − p11 )/ρ e π1 = (1 − p00 )/ρ, si ha
(n)
limn pij = πj . Quindi, se 0 < ρ < 2, si ha un comportamento asintoticamente
regolare, nel senso che l’influenza dello stato di partenza sulla probabilit`a di
trovarsi in uno stato o nell’altro diviene trascurabile (con velocit`a esponenziale),
tendendo a un limite che dipende solo dallo stato di arrivo. Osserviamo che
nelle ipotesi fatte si ha πi ≥ 0, i = 0, 1, e π0 + π1 = 1, ovvero i πi formano
una distribuzione di probabilit`a. Infine, il vettore π = (π0 , π1 ) soddisfa π = P π,
come `e immediato verificare. Infine, l’ipotesi di irriducibilit`a equivale alla richiesta
pii 6= 1, i = 0, 1, che implica ρ > 0, mentre l’aperiodicit`a corrisponde a ρ < 2.
Se le assumiamo entrambe allora si ha πi > 0, i = 0, 1.
La Proposizione (3.0.7) ha due conseguenze importanti.
(i)
(ij)
1. Siano fn (ω) e fn (ω) le variabili aleatorie che forniscono la frequenza
relativa dei 0 ≤ k < n per cui ωk = i, e di quelli per cui ωk = i e
ωk+1 = j, rispettivamente. Poniamo, con ovvio significato dei simboli,
n−1
fn(i)
1X
1i ◦ S k ,
=
n k=0
n−1
fn(ij)
1X
=
1ij ◦ S k ,
n k=0
e osserviamo che, se µ `e una distribuzione
su A, allora per la
PN iniziale
(k)
k
Proposizione (3.0.7) si ha E(1i ◦ S ) = l=1 µl pli → πi e E(1ij ◦ S k ) =
PN
(k−1)
(i)
pij → πi pij quando k → ∞. Di conseguenza Efn → πi e
l=1 µl pli
(ij)
Efn → πi pij . Il teorema ergodico e l’ergodicit`a di (Ω+
N , P, S) implicano
dunque che
lim fn(i) (ω) = πi ,
n→∞
lim fn(ij) (ω) = πi pij ,
n→∞
P − q.o.
(3.7)
2. Se riprendiamo l’espressione (3.6) vediamo che se P `e irriducibile e aperiodica allora (Ω+
e mescolante, cio`e
N , P, S) `
lim P(S −n E ∩ F ) = P(E) P(F )
n→∞
e il limite viene raggiunto con velocit`a esponenziale. Questo risultato non si
estende banalmente al caso A = N, dove si possono avere comportamenti
anche molto diversi [Fe], [Is3].
` E MESCOLAMENTO
CHAPTER 3. ERGODICITA
30
Esempio. Consideriamo la mappa a tetto T : [0, 1] → [0, 1] definita da
r + 2(1 − r)x se 0 ≤ x < 1/2
T (x) =
2(1 − x)
se 1/2 ≤ x ≤ 1
√
La scelta r = (3 − 3)/4 fa si’ che il ‘punto critico’ x = 1/2 faccia parte di
un’orbita periodica di periodo 5. Si tratta di una mappa
uniformemente espan√
dente con costante di espansione ρ = 2(1 − r) = ( 3 + 1)/2 > 1.
I0
I1
I2
I3
Come `e immediato verificare, i quattro intervalli delimitati dall’orbita del ‘punto
critico’ che ordinati da sinistra a destra indichiamo con Ii , i = 0, 1, 2, 3 formano
una partizione (markoviana) di [0, 1] con le seguenti transizioni:
T (I0 ) = I1 ∪ I2 ,
T (I1 ) = I3 ,
T (I2 ) = I2 ∪ I3 ,
T (I3 ) = I0 ∪ I1
Si ha inoltre
1
1
− r, |I2 | = |I3 | =
2
4
La densit`a h della misura T -invariante e assolutamente continua1 µ(dx) =
h(x)dx soddisfa l’equazione di Perron-Frobenius
|I0 | = r,
|I1 | =
h(x) =
X
y : T (y)=x
1
h(y)
·
|T 0 (y)|
La cui esistenza (e unicit`a) `e garantita dalla propriet`a di markovianit`a, vedi pi`
u avanti,
Sezione 5.2.
31
In questo caso un calcoloPdiretto mostra P
che h `e costante su ciascun intervallo Ii
3
e, posto hi ≡ h|Ii , vale i=0 hi · |Ii | = 3i=0 µ(Ii ) = 1. Ora, la biiezione (mod
0) φ : [0, 1] → Ω+
4 data da
φ(x) = ω0 ω1 ω2 . . .
⇐⇒
T i (x) ∈ Iωi
stabilisce un isomorfismo tra ([0, 1], B, µ, T ), e la traslazione markoviana (Ω+
4 , P, S),
dove P `e definita come in (1.6), con la distribuzione stazionaria π di componenti
πi = µ(Ii ), i = 0, 1, 2, 3 e con le probabilit`a di transizione pij , ovvero gli elementi
della matrice stocastica P , dati da
pij =
µ(Ij ∩ T −1 (Ii ))
·
µ(Ii )
Osserviamo che pij 6= 0 se e solo se aij = 1. Un’ispezione diretta mostra che
pni,j > 0 per ogni coppia (i, j) purch´e n > 2. In altre parole la matrice P `e
irriducibile e aperiodica e pertanto (Ω+
4 , P, S) e ([0, 1], B, µ, T ) sono entrambi
(esponenzialmente) mescolanti.
Interpretazione e sviluppi. Una rappresentazione figurata della propriet`a
di mescolamento si pu`o ottenere immaginando di preparare una tintura mettendo
in un recipiente il 90% di bianco e il 10% di blu. Se il processo di rimestamento
`e solo ergodico allora dopo un certo tempo ogni porzione del recipiente conterr`a
in media (rispetto al numero dei rimestaggi) circa il 10% di blu. Ma ci`o non impedisce che il blu possa essere distribuito ‘a macchie’ che entrano ed escono dalla
porzione considerata soggiornandovi in media il 10% del tempo. Se invece il processo `e mescolante allora la percentuale di blu in ogni data porzione diverr`a dopo
un po’ di tempo molto vicina al 10% e tale rimarr`a nel tempo a venire. Essendo
la porzione di forma e dimensioni arbitrarie, ci`o significa che la tintura tende
a diventare uniformemente azzurra. Ora, potrebbe accadere che per qualche
causa accidentale (ad esempio il realizzarsi di un insieme di configurazioni molto
improbabili) la percentuale di blu in una assegnata porzione del recipiente resti
vicina al 10% ad eccezione di rare occasioni. Pi`u precisamente diremo che J ⊂ N
ha densit`a zero se |Jn |/n → 0 quando n → ∞, dove Jn = J ∩ {0, 1, . . . , n − 1}.
Ad esempio, per k ∈ N fissato, la successione J = (k m )m≥0 ha densit`a zero
perch`e |Jn | logk n.
Definizione 3.0.8 Il sistema dinamico (X, E, µ, T ) con µ(X) = 1 si dice debolmente mescolante se per ogni E, F ∈ E si ha
lim
n→∞, n∈J
/
µ(E ∩ T −n F ) = µ(E)µ(F )
(3.8)
` E MESCOLAMENTO
CHAPTER 3. ERGODICITA
32
dove J ha densit`a zero e pu`o dipendere da E ed F .
La seguente caratterizzazione mostra che il mescolamento debole `e una propriet`a
intermedia tra ergodicit`a e mescolamento.
Proposizione 3.0.9 Il sistema dinamico (X, E, µ, T ) con µ(X) = 1 `e debolmente mescolante se e solo se per ogni E, F ∈ E si ha
n−1
1X
|µ(E ∩ T −k F ) − µ(E)µ(F )| = 0.
n→∞ n
k=0
lim
(3.9)
Dimostrazione. Mostriamo che per una sequenza limitata an si ha
n−1
lim
n→∞, n∈J
/
1X
|ak − a| = 0
n→∞ n
k=0
an = a ⇐⇒ lim
Supponiamo innanzitutto che valga il limite a sinistra. Essendo |an | < b per ogni
n si ha
n−1
1X
1
|ak − a| ≤
n k=0
n
n−1
X
|ak − a| + (b + |a|)
k=0, k∈J
/
|Jn |
→ 0,
n
n → ∞.
Viceversa, osserviamo che limn→∞, n∈J
/ an = a se e solo se J() = {n : |a−an | ≥
} ha densit`a zero per ogni > 0. Infatti, in tal caso si pu`o trovare una sequenza
crescente nl di interi tale che n ≥ nl implica |Jn (1/l)| < n/l. Posto
J = ∪∞
l=1 [J(1/l) ∩ [nl , ∞)]
si ha, per ogni l, che n ≥ nl e n ∈
/ J implicano |an − a| < 1/l, e inoltre J ha
densit`a zero perch`e se nl ≤ n < nl+1 allora
|Jn | ≤ | ∪lm=1 Jn (1/m)| = |Jn (1/l)| < n/l.
Supponiamo ora che limn→∞, n∈J
an 6= a. Allora esistono 1 > 0 e 2 > 0 tali
/
che |Jn (1 )| ≥ n2 per ogni n, da cui
n−1
1
1X
|ak − a| ≥
n k=0
n
n−1
X
k=0, k∈J(1 )
|ak − a| ≥ 1
|Jn (1 )|
≥ 1 2 .
n
Esercizio. Data una sequenza (an )n≥1 di numeri reali non-negativi, provare
che
3.1. PROCESSI DI RINNOVAMENTO GENERALIZZATI
33
Pn−1
1. Se limk→∞ ak = a allora limn→∞ n1 k=0
|ak − a| = 0. Concludere che il
mescolamento implica il mescolamento debole.
P
Pn−1
1
2. Se limn→∞ n1 n−1
k=0 |ak −a| = 0 allora limn→∞ n
k=0 an = a. Concludere
che il mescolamento debole implica l’ergodicit`a.
P
Esercizio.Trovare una sequenza bn tale che limn→∞ n1 n−1
k=0 |bk | = 0 ma
limn→∞ bn 6= 0. Concludere che il mescolamento debole non implica il mescolamento.
3.1
Processi di rinnovamento generalizzati
Sia (X, µ, T ) un sistema dinamico ergodico e E ⊂ X un sottoinsieme misurabile
tale che µ(E) > 0. La partizione P = {P0 , P1 } con P0 = X \ E e P1 = E
definisce il processo binario ωn = 1E (T n x), che chiameremo processo di rinnovamento generalizzato. Chiamamo tempo di primo passaggio in E la variabile
aleatoria τE : X → N ∪ {∞} definita da
τE (x) = inf{n ≥ 0 : ωn = 1}
(3.10)
con la convenzione che inf ∅ = ∞. Si chiama invece tempo di ricorrenza in E la
variabile aleatoria rE : X → N ∪ {∞} definita da
rE (x) = inf{n > τE : ωn = 1}.
(3.11)
Per il teorema di ricorrenza di Poincar`e si ha che se µ(X) < ∞ allora rE (x) < ∞,
µ − q.o. Osserviamo che E stesso diviene uno spazio di probabilit`a con la misura
di probabilit`a condizionata µE (A) = µ(A ∩ E)/µ(E). Possiamo anche definire
la trasformazione indotta TE : E → E data da
TE (x) = T rE (x) (x)
(3.12)
per µ−q.o. x ∈ E. Le funzioni rE e TE sono entrambe misurabili ed `e immediato
verificare che TE conserva la misura µE e che (E, µE , TE ) `e ergodico. Indichiamo
con En = {x ∈ E : rE (x) = n} l’n-esimo insieme di livello di rE e l’azione di T
su X pu`o essere rappresentata attraverso il seguente diagramma: consideriamo
gli insiemi Q1 = E, Q2 = T E \ E, Q3 = T 2 E \ (E ∪ T E) e, in generale,
k
n−1
Qn = T n−1 (E) \ ∪n−2
∪k≥n Ek .
k=0 T (E) = T
` E MESCOLAMENTO
CHAPTER 3. ERGODICITA
34
Il grattacielo di Kakutani
Osserviamo che
µ(Qn ) =
X
µ(Ek )
k≥n
da cui ricaviamo
1 = µ(X) =
X
µ(Qn ) =
X
k µ(Ek ) = µE (rE ) µ(E).
Abbiamo cos`ı dimostrato il seguente risultato:
Teorema 3.1.1 [Kac] Sia (X, µ, T ) un sistema dinamico ergodico e E ⊂ X un
sottoinsieme misurabile tale che µ(E) > 0. Allora si ha
µE (rE ) =
1
µ(E)
Dimostrazione alternativa. Per x ∈ E sia
Sn (x) := rE (x) + rE (TE x) + · · · + rE (TEn−1 x)
(3.13)
il numero di iterate di T necessarie ad osservare n ritorni in E. Essendo (E, µE , TE )
ergodico, si ha
Sn (x)
= µE (rE ) , µE − q.o
lim
n→∞
n
D’altra
n `e il numero di ritorni in E dell’orbita T x, T 2 x, . . . , T Sn (x) x, cio`e
PSparte,
n (x)−1
n = k=0
1E (T k x) per x ∈ E, e dunque l’ergodicit`a di T implica, µE -q.o.,
Z
n
lim
= 1E dµ = µ(E).
n→∞ Sn (x)
3.1. PROCESSI DI RINNOVAMENTO GENERALIZZATI
35
Osservazione 3.1.2 Osserviamo che il risultato Teorema 3.1.1 pu`o essere facilmente generalizzato ad un qualunque sistema dinamico (X, µ, T ) per cui si ha
µE (rE ) =
µ(IE )
µ(E)
dove IE `e il pi`u piccolo insieme T -invariante contenente E. A questo scopo
basta osservare che la famiglia {Qn } costruita sopra `e in generale proprio una
partizione di IE (che coincide con XPa meno di insiemi di misura nulla se (X, µ, T )
`e ergodico e µ(E) > 0) e dunque
µ(Qn ) = µ(IE ).
Un utile esercizio potr`a consentire di ottenere quest’ultimo risultato usando la
dimostrazione alternativa insieme alla nozione di aspettazione condizionata (cf.
sezione 2.0.7).
Possiamo ora definire ricorsivamente la successione dei tempi di entrata
τ0 = τE ,
τi = inf{n > τi−1 : ωn = 1},
i > 0,
(3.14)
e la successione dei tempi di ricorrenza
ri = τi − τi−1 ,
i ≥ 1.
(3.15)
Osserviamo che r1 = rE − τE e ri = rE ◦ TEi−1 per i > 1. In particolare su E
si ha r1 = rE e dunque il processo r1 , r2 , . . . definito sullo spazio di probabilit`a
(E, µE ) `e stazionario ed ergodico. Consideriamo ora la quantit`a
en =
µ(E ∩ T −n E)
= µE (T −n E),
µ(E)
(3.16)
cio`e la probabilit`a di osservare un ritorno in E dopo n iterazioni di T (per la prima
volta o no). Nel linguaggio della teoria del rinnovamento [Se] en `e la probabilit`a
di osservare un rinnovamento al tempo n. Se poniamo pk ≡ µE (Ek ) possiamo
scrivere en nella forma
n
X
en =
pk µE T −n E | Ek
(3.17)
k=1
Supponiamo per un momento che il processo ωo , ω1 , . . . sia tale da ‘ripartire da
capo’ ogni volta che ωk = 1, ovvero
µE T −n E | Ek
≡ µE (T n x ∈ E | rE (x) = k )
= µE T n x ∈ E | T k x ∈ E
= µE T n−k x ∈ E | x ∈ E
= µE T −n+k E = en−k
` E MESCOLAMENTO
CHAPTER 3. ERGODICITA
36
e quindi la sequenza e0 , e1 , . . . soddisfa la relazione di ricorrenza:
e0 = 1,
en = pn + e1 pn−1 · · · + en−1 p1 ,
n ≥ 1.
(3.18)
In altre parole, e0 , e1 , . . . `e la sequenza di rinnovamento associata alla distribuzione
di probabilit`a p1 , p2 , . . . [Ki] e il processo ω0 , ω1 , . . . `e un processo di rinnovamento
in senso stretto, e pu`o essere rappresentato con una catena di Markov con spazio
degli stati numerabile, come in figura (dove I0 = E e Ij = T (Ej+1 ), j ≥ 1).
La sequenza en si dice periodica di periodo d > 1 se en = 0 a meno che n sia
multiplo di d e d il pi`u piccolo intero con questa propriet`a. In tal caso la sequenza
end `e aperiodica. In particolare en si dice aperiodica se d = 1. Poniamo inoltre
per semplicit`a di notazione
X
k pk .
ρ ≡ µE (rE ) =
k≥1
Allora vale il seguente teorema del rinnovamento di Erd¨os-Feller-Pollard:
Teorema 3.1.3 [EFP] Se en `e aperiodica si ha
1
en → ,
ρ
n → ∞,
se invece il periodo `e d > 1 allora
d
end → ,
ρ
n → ∞.
Dimostrazione. Diamo soltanto la traccia
P della dimostrazione nel caso d = 1.
Sia (qn ) la sequenza definita da qn := k>n pk , che soddisfa
X
X
0 < qn ≤ q0 = 1 ,
qn =
k pk = ρ
n≥0
n≥1
3.1. PROCESSI DI RINNOVAMENTO GENERALIZZATI
Introducendo le funzioni generatrici
X
X
P (z) =
pn z n , Q(z) =
qn z n
n≥1
,
E(z) =
n≥0
37
X
en z n
n≥0
osserviamo che la relazione (3.18) si traduce in
E(z) =
1
1
=
1 − P (z)
(1 − z)Q(z)
La funzione Q(z) non ha zeri per |z| ≤ 1. Infatti, per |z| < 1 ci`o segue
dall’identit`a scritta sopra essendo pn > 0 e dunque |P (z)| < 1 per |z| < 1.
Se poi supponiamo che Q(eiφ ) = 0 con 0 < φ < 2π allora anche P (eiφ ) = 1,
ovvero cos(nφ) = 0, ∀n ≥ 1, il che `e impossibile. Dunque la funzione 1/Q(z)
non
a nel disco unitario e possiamo
svilupparla in serie: 1/Q(z) =
P ha singolarit`
P
n
h
z
.
Osserviamo
che
h
=
1
e
h
=
1/ρ. L’asserto segue ora dal
0
n≥0 n
n≥0 n
Pn
fatto che en = i=0 hi . Nel caso generale, in cui en non soddisfa necessariamente (3.18), possiamo fare
le
osservazioni: innanzitutto,
per x ∈ E la somma (3.13) diviene Sk =
Pn
Pseguenti
k
j
1
(T
(x)) il numero di ritorni in E fino all’nr
.
Sia
poi
N
(x)
=
n
j=1 E
i=1 i
esima iterata di T . Le variabile aleatorie Sk e Nn soddisfano la relazione di
dualit`a:
Sk (x) ≤ n ⇐⇒ Nn (x) ≥ k
e dunque
µE (Sk ≤ n) =
n
X
µE (Nn = i)
i=k
Inoltre si ha µE (Sn = n) = µE (Sn ≤ n) e
µE (Sk = n) = µE (Sk ≤ n) − µE (Sk ≤ n − 1) per k < n
Pertanto
en =
=
n
X
µE (Sk = n) =
k=1
n X
n
X
n
X
µE (Sk ≤ n) −
k=1
µE (Nn = i) −
k=1 i=k
= µE (Nn ) − µE (Nn−1 )
n−1
X
µE (Sk ≤ n − 1)
k=1
n−1 X
n−1
X
k=1 i=k
µE (Nn−1 = i)
` E MESCOLAMENTO
CHAPTER 3. ERGODICITA
38
dove µE (Nn ) indica il valor medio della variabile aleatoria Nn (con N0 = 0). Cos`ı,
en pu`o essere riguardata come il numero medio di ritorni in E per iterazione di
T (dopo n iterazioni), ovvero come una densit`a media di ritorni.
La validit`a del teorema del rinnovamento (aperiodico) per la sequenza en `e
dunque equivalente alla propriet`a di mescolamento per l’insieme E, ossia en →
µ(E). Propriet`a pi`u deboli come il mescolamento debole e l’ergodicit`a corrispondono rispettivamente a
n−1
1X
| ek − µ(E) | → 0 e
n k=0
3.1.1
n−1
1X
ek → µ(E)
n k=0
(3.19)
Il punto di vista spettrale
Sia (X, µ, T ) un sistema dinamico, dove assumiamo per semplicit`a T invertibile,
e F (x) : X → C una funzione in L2 (µ). Definiamo una misura spettrale σF (cio`e
una misura su [0, 2π)) associata ad F , detta tipo spettrale di F . Tale misura si
costruisce caratterizzando i prodotti interni rispetto ad essa delle funzioni continue. Innanzitutto, data una funzione continua e 2π-periodica f : R → C,
n ∈ Z e k ∈ [−n, n], poniamo
Z 2π
1
|k|
n
f (θ) eikθ dθ.
(3.20)
ck (f ) = 1 −
n + 1 2π 0
Date f, g ∈ L2 (µ) funzioni 2π-periodiche definiamo una serie di forme bilineari
!
!
Z
n
n
X
X
hf, gin =
cnl (f ) F ◦ T l (x)
cnj (g) F ◦ T j (x) µ(dx) (3.21)
X
l=−n
j=−n
2
Dal teorema
√ √ di Bochner-Herglotz si ha che data f come sopra gli operatori
f → h f , f in sono di fatto integrali rispetto a misure boreliane finite e positive
νn su [0, 2π), ciascuna delle quali ha massa totale νn ([0, 2π)) = h1, 1in = a0,0 .
Abbiamo posto
al,k = heilθ , eikθ iσF := lim heilθ , eikθ in .
n→∞
2
(3.22)
Teorema diPBochner-Herglotz (vedi [CFS]) Ogni sequenza definita positiva {bn }n∈Z ∈ CZ
(cio`e tale che 1≤i,j≤n zi z j bi−j ≥ 0 per ogni sequenza complessa {zi }i≥1 ) `e la trasformata
R 2π
di Fourier di una misura boreliana finita e positiva ν su [0, 2π), ovvero bn = 0 einθ ν(dθ),
∀n ∈ Z.
3.1. PROCESSI DI RINNOVAMENTO GENERALIZZATI
39
Usando le (3.21), (3.22) e la T -invarianza di µ si ha
Z
2π
i(l−k)θ
al,k = a−l,−k =
e
Z
σF (dθ) =
0
F (T (k−l) (x)) F (x) µ(dx)
(3.23)
X
Cos`ı, i coefficienti di Fourier al,k sono le funzioni di auto-correlazione al tempo
k − l di F ∈ L2 (µ); e la (3.23) ci dice che i valori di θ per i quali la derivata di
Radon-Nicodym dσF (θ)/dθ (posto che esista, magari in senso generalizzato) `e
diversa da zero per funzioni F ‘generiche’, caratterizzano le frequenze ‘tipiche’
della dinamica.
Consideriamo ora la funzione F = 1E − µ(E), con E ∈ E. Si ha
a0,0 = σF ([0, 2π)) = µ(E) µ(E c )
(3.24)
Calcoliamo la massa di σF in {0}. A questo scopo consideriamo la sequenza di
funzioni
n
X
1
eikθ ,
fn (θ) =
2n + 1 k=−n
al,k = a−l,−k = µ(E) (ek−l − µ(E)),
che converge puntualmente alla funzione caratteristica di {0} ed `e uniformemente
limitata da 1. Si ha
Z
σF ({0}) = lim
fn (θ) σF (dθ)
n→∞
n
X
1
a0,k
n→∞ 2n + 1
k=−n
n Z
X
1
F (T k (x)) F (x) µ(dx).
= lim
n→∞ 2n + 1
k=−n X
=
lim
Vediamo dunque che se T `e ergodica allora
Z
σF ({0}) =
2
F (x) µ(dx) = 0
(3.25)
X
R
perch`e F dµ = 0. Viceversa, se σF ({0}) = 0 per ogni F ortogonale alle
funzioni costanti in L2 (µ) allora T `e ergodica. Vediamo ora una condizione
necessaria e sufficiente perla validit`a della condizione di mescolamento debole,
cio`e la prima delle (3.19).
` E MESCOLAMENTO
CHAPTER 3. ERGODICITA
40
Lemma 3.1.4
n
1X
( ek − µ(E) )2 → 0
n k=0
se e solo se σF , con F = 1E − µ(E), non ha atomi.
Osservazione. Per una sequenza limitata di numeri an le condizioni
n−1
1X
lim
|ak | = 0 e
n→∞ n
k=0
n−1
1X 2
lim
ak = 0
n→∞ n
k=0
(3.26)
sono equivalenti.
Dimostrazione del Lemma 3.1.4. Per identificare gli atomi di σF guardiamo
[0, 2π) × [0, 2π) con misura ρ = σF × σF ed osserviamo che
ρ({(θ, θ) : θ ∈ [0, 2π)}) = (σF (atomi))2
Ragioniamo come sopra con la sequenza di funzioni
n
X
1
eik(x−y)
fn (x, y) =
2n + 1 k=−n
che converge puntualmente alla funzione caratteristica della diagonale. Si ha
Z
ρ({(θ, θ) : θ ∈ [0, 2π)}) = lim
fn (x, y) dρ(x, y)
n→∞
Usando (3.24) otteniamo
Z
n Z
X
1
eikx e−iky dρ(x, y)
fn (x, y) dρ(x, y) =
2n + 1 k=−n
n
X
1
a0,k a0,−k
=
2n + 1 k=−n
n
2(µ(E))2 X
2(µ(E))2 µ(E c )
=
(ek − µ(E))2 −
2n + 1 k=0
2n + 1
n
(2n + 2)
1 X
2(µ(E))2 µ(E c )
=
(µ(E))2
(ek − µ(E))2 −
2n + 1
n + 1 k=0
2n + 1
3.2. CENNI DI TEORIA SPETTRALE DEI SISTEMI DINAMICI
41
da cui segue l’asserto. Infine, per quanto visto, la propriet`a di mescolamento forte espressa dal teorema
del rinnovamento aperiodico corrisponde al fatto che σF , con F = 1E −µ(E), appartiene all’insieme delle misure spettrali i cui coefficienti di Fourier al,k tendono
a zero quando |l − k| → ∞.
3.2
Cenni di teoria spettrale dei sistemi dinamici
In un sistema dinamico (X, E, µ, T ) la mappa T : X → X induce una trasformazione U sulle funzioni (reali o complesse) su X, definita da
U f (x) = f (T x)
(3.27)
R
R
Se f `e integrabile anche U f (x) lo `e e X U f dµ = X f dµ, come si vede subito
per funzioni semplici e usando un argomento di approssimazione per funzioni
integrabili arbitrarie. Essendo U |f | = |U f | `e inoltre chiaro che U mappa Lp in
se stesso e kU f kp = kf kp per ogni 1 ≤ p ≤ ∞ (cio`e U agisce come un’isometria
su Lp ). In particolare se T `e invertibile allora U `e unitario su L2 (µ). Un numero
complesso λ `e un autovalore per T se esiste una corrispondente autofunzione f
tale che U f = λf . In tal caso `e chiaro che |λ| = 1. Le funzioni costanti (quasi
ovunque) sono autofunzioni per λ = 1.
Proposizione 3.2.1 T `e ergodica se e solo se le costanti sono le sole autofunzioni associate all’autovalore 1, che quindi risulta un autovalore semplice. In
aggiunta, se T `e ergodica allora ogni autovalore `e semplice e ogni autofunzione
ha modulo costante.
Dimostrazione. La prima affermazione segue da quanto visto pi`u sopra. In
particolare osserviamo che se E `e un insieme invariante misurabile (non banale)
allora 1E `e un’autofunzione (non costante) per l’autovalore 1. Se poi U f = λf
allora U |f | = |λ||f | = |f |. Inoltre se f1 e f2 sono autofunzioni per λ allora |f2 |
`e una costante (non nulla) e f1 /f2 `e autofunzione per 1 e dunque una costante.
Sia ΦF : {polinomi trigonometrici} → L2 (µ) la mappa definita da
!
N
N
X
X
ΦF
bk eikθ =
bk F (T k (x))
k=−N
k=−N
(3.28)
42
` E MESCOLAMENTO
CHAPTER 3. ERGODICITA
In particolare ΦF (1) = F (x) e ΦF (eiθ P (θ)) = ΦF (P (θ)) ◦ T , per ogni polinomio
trigonometrico P . Pi`u in generale (vedi [Rud]), ΦF si estende ad un’isometria da
L2 (σF ) a L2 (µ), e la propriet`a su menzionata resta valida qualora si sostituisca
P con un’arbitraria f ∈ L2 (σF ).
Lemma 3.2.2 Se T `e ergodica ma non debolmente mescolante allora, oltre
all’autovalore semplice 1, c’`e un autovalore λ per T , con |λ| = 1, λ 6= 1, e la
corrispondente autofunzione f ∈ L2 (µ) pu`o essere scelta in modo che |f | = 1.
Dimostrazione. Se T non `e debolmente mescolante allora in accordo con il
Lemma 3.1.4 esiste un insieme misurabile (non banale) E ⊂ X e F (x) = 1E (x)−
µ(E) tale che σF ha un atomo in S 1 \ {0}. Sia θ0 tale punto e poniamo
iθ0
Rλ = e . La funzione δθ0 (θ) (uguale a 1 se θ = θ0 e 0 altrimenti) `e in L2 (σF ) e
δθ0 dσF > 0. Pertanto f = ΦF (δθ0 ) non `e identicamente nulla. D’altra parte
si ha
f (T (x)) = ΦF (eiθ0 δθ0 ) = ΦF (λ δθ0 ) = λ f (x),
µ − q.o.
Il resto della tesi segue dalla discussione precedente. L’autofunzione f costruita sopra pu`o essere riguardata come una mappa da X a
S 1 che manda l’azione di T in una rotazione di un angolo θ0 . Se θ0 `e irrazionale
(la rotazione `e unicamente ergodica e) f manda µ nella misura di Lebesgue su
S 1 . Se invece θ0 `e razionale allora f mappa su una componente ergodica della
misura invariante (vedi [CFS], p.454).
Definizione 3.2.3 Si dice tipo spettrale massimale di U la misura spettrale
σm tale che σm >> σF per ogni F ∈ L2 (µ).
Da un teorema generale di decomposizione spettrale per operatori unitari (vedi
[CFS], p. 455) segue che, a meno di equivalenze, la misura σm `e unica ed `e
caratterizzata dal fatto che se σ `e una misura su [0, 2π) tale che 0 ≤ σ << σm
allora σ = σF per qualche F ∈ L2 (µ). In particolare vi sar`a F0 ∈ L2 (µ) tale che
σm = σF0 .
Inoltre, avremo che λ = eiθ0 `e un autovalore per T se e solo se σm ({θ0 }) 6= 0.
Abbiamo poi visto che la condizione di mescolamento debole (3.19) corrisponde
al fatto che il tipo spettrale σF di F = 1E − µ(E) non ha atomi, mentre
la condizione di mescolamento forte corrisponde al fatto che la trasformata di
Fourier di σF tende a zero all’infinito. Possiamo allora riformulare le condizioni
mescolamento in termini puramente spettrali. Indichiamo con 1I⊥ il sottospazio
di L2 (µ) ortogonale alle costanti.
3.2. CENNI DI TEORIA SPETTRALE DEI SISTEMI DINAMICI
43
Proposizione 3.2.4 T `e debolmente mescolante se e solo se il tipo spettrale
massimale di U |1I⊥ non ha atomi. T `e fortemente mescolante se e solo se la
trasformata di Fourier del tipo spettrale massimale di U |1I⊥ si annulla all’infinito.
La condizione spettrale per il mescolamento debole si esprime anche dicendo
che U ha spettro continuo. Pi`u in generale diremo che U ha spettro discreto continuo - singolare continuo - assolutamente continuo - o spettro di Lebesgue se
la misura σm `e discreta - continua - singolare continua - assolutamente continua
(rispetto a Lebesgue) o equivalente alla misura di Lebesgue, rispettivamente.
Diremo poi che U ha spettro misto se il suo spettro ha componenti continue e
discrete.
Se indichiamo con h·, ·i il prodotto scalare in L2 (µ) allora `e chiaro che per un
sistema ergodico si ha
n−1
1X k
hU F, Gi = hF, 1ih1, Gi ,
lim
n→∞ n
k=0
∀F, G ∈ L2 (µ)
che nel caso di funzioni indicatrici d’intervalli coincide con la (3.1). In particolare,
se F, G ∈ 1I⊥ allora
n−1
1X k
lim
hU F, Gi = 0
n→∞ n
k=0
Avremo poi che il sistema `e fortemente mescolante se e solo se
lim hU n F, Gi = hF, 1ih1, Gi ,
n→∞
∀F, G ∈ L2 (µ)
La propriet`a di avere spettro di Lebesgue si pu`o formulare anche con l’esistenza
di una famiglia {fi }i∈I di funzioni tale che la famiglia di funzioni3 {U n fi : n ∈
Z, i ∈ I} forma una base ortonormale di 1I⊥ in L2 (µ). La cardinalit`a di I si
chiama molteplicit`a dello spettro.
Osservazione 3.2.5 E` semplice verificare che ogni sistema con spettro di Lebesgue
`e fortemente mescolante: basta prendere per F, G ∈ L2 (µ) due elementi della
base ortonormale di 1I⊥ e il caso generale segue per continuit`a e linearit`a. Se
allora F = fi,j ≡ U i fj e G = fk,l ≡ U k fl si ha
hU n F, Gi = hfi+n,j , fk,l i
3
Se T non `e invertibile si dovr`a prendere n ∈ N.
44
` E MESCOLAMENTO
CHAPTER 3. ERGODICITA
che `e certamente nullo per ogni n grande abbastanza. D’altra parte, la validit`a di
questa propriet`a, che `e appunto una propriet`a puramente spettrale, non d`a alcuna
indicazione sulla velocit`a con cui avviene la decorrelazione. Per ottenere questo
tipo d’informazione `e necessario restringersi a sottospazi di funzioni particolari.
Ad esempio per la trasformazione x → m x (mod 1) con m ∈ N, m ≥ 2, sar`a
sufficiente restringersi allo spazio delle funzioni lipschitziane.
Esempio. Sia X = T2 e consideriamo la trasformazione (1.7). Sia V0 il sottospazio di L2 (µ) formato dalle funzioni che dipendono solo da x, e V0 ⊥ il
suo complemento ortogonale. Questi due sottospazi sono chiusi in L2 (µ) e T invarianti. Si pu`o dunque restringere T a questi due sottospazi e studiarne lo
spettro. Vediamo che,
• su V0 , T ha spettro discreto. Infatti se poniamo hk (x) = e2πikx , k ∈ Z, si
ha U hk = e2πikα hk , dunque gli autovalori di T ristretto a V0 sono tutti e
soli i numeri della forma e2πikα , k ∈ Z;
• su V0 ⊥ , T ha spettro di Lebesgue. Infatti, poniamo φp,q (x, y) = e2πi(px+qy) .
La famiglia {φp,q : p, q ∈ Z, q 6= 0} forma una base di V0 ⊥ . Si ha
U φp,q (x, y) = e2πiα e2πi((p+q)x+qy) e dunque, per q 6= 0 si ha U ψp,q ⊥
ψp,q . Sia I l’insieme degli indici I = {(0, q), (1, q), . . . , (q − 1, q), q =
±1, ±2, . . .}. La famiglia di funzioni {φp,q : (p, q) ∈ I} ha la propriet`a
che le immagini {U n φp,q : n ∈ Z, (p, q) ∈ I} sono due a due ortogonali e
formano una base ortonormale di V0 ⊥ .
Esempio. Consideriamo la traslazione di Bernoulli B(p0 , . . . , pN −1 ), di cui abbiamo gi`a mostrato la propriet`a di mescolamento. Mostriamo ora l’esistenza di
uno spettro di Lebesgue numerabile. Sia V0 lo spazio ortogonale in L2 (ΩN , C, P)
(C essendo la σ-algebra generata dai cilindri) del sottospazio L2 (ΩN , S −1 C, P),
formato dalle funzioni della forma F = G ◦ S, G ∈ L2 (ΩN , C, P), dove S `e
la traslazione. Indichiamo con {fj }j∈J una base ortonormale di V0 (con J un
insieme opportuno di indici).
La sequenza di sottospazi L2 (ΩN , S −m C, P) `e decrescente e, per l’ergodicit`a, la
loro intersezione si riduce alle costanti. Si verifica che le funzioni {fj ◦ S n : j ∈
J, 0 ≤ n ≤ m} formano una base ortonormale dell’ortogonale in L2 (ΩN , C, P)
del sottospazio L2 (ΩN , S −m C, P). Ne risulta che la famiglia di funzioni {fj ◦S n :
j ∈ J, 0 ≤ n < ∞} forma una base ortonormale di 1I⊥ . Si pu`o inoltre mostrare
che l’insieme J ha cardinalit`a numerabile, indipendentemente dal vettore di probabilit`a p che definisce lo schema.
3.3. SISTEMI ESATTI
45
Ci`o mostra, tra l’altro, che tutti gli schemi di Bernoulli hanno lo stesso tipo
spettrale massimale, e dunque i loro operatori di evoluzione U sono coniugati
tra loro (per maggiori dettagli vedi ad esempio [AA]). Pertanto
gli “invarianti
spettrali” non consentono di mostrare che, ad esempio, B 12 , 12 e B 31 , 13 , 31 non
sono isomorfi. Per mostrare questo fatto occorre introdurre un altro invariante,
l’entropia.
3.3
Sistemi esatti
Dato un sistema dinamico (X, E, µ, T ) la sequenza {T −n E}n≥0 `e una successione decrescente di sotto-σ-algebre, che `e strettamente decrescente se T non
`e invertibile. Possiamo chiederci allora quale sia la struttura della “σ-algebra
all’infinito” E∞ := ∩n≥0 T −n E, formata da tutti gli eventi che dipendono solo
dal futuro infinitamente lontano. Mostriamo innanzitutto che ogni insieme T invariante appartiene necessariamente a E∞ . Infatti, se A ∈ E `e T -invariante
allora A = T −n A ∈ ∩0≤k<n T −k E per ogni n e dunque A ∈ E∞ . Tuttavia in E∞
ci sono anche insiemi che non sono T -invarianti (ad es. l’insieme degli x tali che
T n (x) appartiene ad un dato sottoinsieme di X per infiniti n), e dunque in linea
di principio E∞ pu`o contenere un insieme A con 0 < µ(A) < 1, anche se T `e
ergodica.
Definizione 3.3.1 Il sistema dinamico (X, E, µ, T ) si dice esatto se la σ-algebra
all’infinito E∞ `e banale.
Questa propriet`a `e equivalente a
lim E(F |T −n E) = µ(F ) ,
∀F ∈ L2 (µ)
n→∞
(3.29)
Indichiamo ora con P l’operatore aggiunto di U in L2 (µ), cio`e l’inverso sinistro
di U : P U = Id. Pi`u in generale, vale la propriet`a
P n (F U n G) = P n (F )G ,
∀n ∈ N, ∀F ∈ L2 (µ), ∀G ∈ L∞ (µ)
che si verifica osservando che
n
n
n
n
hP (F U G), Hi = hF U G, U Hi =
Z
n
F U (GH)dµ =
Z
P n (F )GHdµ
Le funzioni della forma U n F , F ∈ L2 (µ), sono le funzioni di L2 (µ) che sono
T −n E-misurabili. Per ogni n ≥ 1, l’operatore positivo e idempotente U n P n ,
` E MESCOLAMENTO
CHAPTER 3. ERGODICITA
46
proiezione ortogonale sul sottospazio Vn di L2 (µ) dato da tutte le funzioni misurabili rispetto a T −n E, `e l’aspettazione condizionata rispetto a tale sotto-σalgebra, ovvero
U n P n F = E(F |T −n E)
(3.30)
L’esattezza si pu`o dunque esprimere in termini dell’operatore aggiunto P , e corrisponde alla convergenza in norma:
lim kU n P n F k2 = lim kP n F k2 = 0 ,
n→∞
n→∞
∀F ∈ L2 (µ) t.c. µ(F ) = 0 (3.31)
Si tratta dunque di una propriet`a pi`u forte del mescolamento il quale, come
abbiamo, visto corrisponde a limn→∞ hU n F, Gi = 0, cio`e alla convergenza debole
verso 0 della sequenza U n F .
Esempio. La trasformazione x → 2x (mod 1) su R/Z conserva la misura di
Lebesgue. L’operatore P agisce come
x 1
x
1
+F
+
F
P : F (x) →
2
2
2 2
e, pi`u in generale,
2n −1
x
k
1 X
F
+
P : F (x) → n
2 k=0
2n 2n
n
da cui `e immediato verificare la propriet`a di esattezza (e dunque l’ergodicit`a e
il mescolamento). Osserviamo inoltre che U n P n proietta ortogonalmente sul
sottospazio delle
funzioni invarianti per il ngruppo diadico di ordine n, ovvero tali
k
che F x + 2n = F (x), ∀k = 0, 1, . . . , 2 − 1. Osserviamo
anche che il nucleo
di P contiene tutte le funzioni che verificano F x + 21 = −F (x).
Chapter 4
Partizioni, dinamica simbolica,
entropia
Un sistema dinamico simbolico (Ω, P, S), dove Ω `e uno spazio prodotto i punti
del quale sono sequenze infinite composte di simboli presi da un alfabeto finito
o numerabile, S la traslazione su tali sequenze e P una misura di probabilit`a Sinvariante, `e spesso ottenibile per mezzo di un opportuno codice a partire da un
sistema dinamico arbitrario (X, E, µ, T ). Assumiamo T invertibile, lasciando per
esercizio la discussione del caso in cui T non `e invertibile. Sia P una partizione
dello spazio X, cio`e una famiglia di sottoinsiemi disgiunti e misurabili la cui
unione ricopre tutto X. Assumeremo che P sia finita o numerabile:
P = {P0 , P1 , . . . , PN −1 },
2 ≤ N ≤ ∞,
Pk ∈ F
per 0 ≤ k < N
Poniamo allora A = {0, 1, . . . , N − 1} e Ω = AZ . Consideriamo la mappa, il
codice appunto, φ : X → Ω definita da
(φx)n = ωn = k ⇐⇒ T n x ∈ Pk .
La mappa φ associa ad ogni punto x una sequenza simbolica ω detta P-storia di
x costituita dalla successione degli indici degli elementi di P visitati dall’orbita
di x1 . Tale mappa `e misurabile e trasforma la misura µ su X nella misura P
su Ω definita da P(A) = µ(φ−1 A), mentre l’azione di T su X corrisponde alla
traslazione S su Ω. Infine, dalla T -invarianza della misura µ segue che (Ω, P, S)
`e un sistema dinamico equivalente a un processo stocastico stazionario.
1
Ci`
o corrisponde appunto a utilizzare l’alfabeto numerico A = {0, 1, . . . , N − 1}. Niente
impedisce tuttavia di lavorare con un alfabeto di lettere A = {a1 , . . . , aN } per mezzo di una
semplice ricodifica.
47
48
CHAPTER 4. PARTIZIONI, DINAMICA SIMBOLICA, ENTROPIA
4.0.1
Partizioni generatrici
Diremo poi che la partizione P `e una partizione generatrice per il sistema dinamico (X, E, µ, T ) se la mappa φ determina un isomorfismo (mod 0) tra gli
spazi X e Ω. Ci`o significa che `e possibile eliminare un sottoinsieme Y ⊂ X con
µ(Y ) = 0 in modo tale che ogni punto x ∈ X \ Y sia completamente determinato dalla successione delle inclusioni T n x ∈ Pωn , n ∈ Z, e quindi dalla sua
sequenza simbolica φx = (ωn )n∈Z . In questo caso, la trasformazione T si dice
metricamente isomorfa alla traslazione S.
Esercizi. Mostrare che
1. la trasformazione T : x → 2x(mod 1) sul cerchio unitario R/Z, `e metricamente isomorfa alla traslazione S su {0, 1}N , via la partizione P = {P0 , P1 }
con Pk = [k/2, (k+1)/2), k = 0, 1, ovvero via la mappa φ che ad x associa
il suo sviluppo binario.
2. La trasformazione di Gauss T : x → {1/x} su [0, 1] (con T (0) = 0) `e
metricamente isomorfa alla traslazione S su NN , via la partizione numerabile P = {Pk }k≥1 con Pk = [1/(k + 1), 1/k], k ≥ 1, ovvero via la mappa
φ che ad x associa il suo sviluppo in frazione continua.
Un altro modo di caratterizzare una partizione generatrice `e il seguente. Innanzitutto alcune notazioni. Data una partizione A = {A1 , . . . , Ar } e k ∈ Z indichiamo con T k A la partizione {T k A1 , . . . , T k Ar }. Se inoltre B = {B1 , . . . , Bs } `e
un’altra partizione indichiamo con A∨B la partizione {Ai ∩Bj : i = 1, . . . , r; j =
1, . . . , s}. Se poi ogni elemento B ∈ B `e un sottoinsieme di qualche elemento
A ∈ A: µ(B \ (B ∩ A)) = 0, allora diciamo che B `e un raffinamento di A e
si indica B ≥ A (mod 0). In questo caso si ha A ∨ B = B. Poniamo infine
Anm = ∨nk=m T k A. Allora la partizione P = {P0 , P1 , . . . , PN −1 } `e generatrice
∞
(rispetto a T ) se P−∞
= E (mod 0), cio`e a meno di insiemi di misura nulla. Ad
n+j
n
esempio ci`o avviene quando Pm+i
`e un raffinamento di Pm
per ogni m ≤ 0 ≤ n
e per ogni j ≤ 0 ≤ i.
4.0.2
Entropia di una partizione
Sia ψ(x) la funzione definita su [0, 1] da
n
−x log x
ψ(x) =
0
se 0 < x ≤ 1;
se x = 0.
49
ψ `e non negativa, continua e strettamente concava su [0, 1]. Sia poi (X, E, µ)
uno spazio di probabilit`a e P = {P0 , P1 , . . . , PN −1 } una partizione di X. Si
chiama entropia di P (rispetto alla misura µ) il numero
H(P) =
N
−1
X
ψ(µ(Pi )).
(4.1)
i=0
Per un’interpretazione di questa quantit`a osserviamo che la teoria dell’informazione,
ispirata dalla meccanica statistica, associa ad un evento di probabilit`a p una
quantit`a, l’informazione apportata dal verificarsi di tale evento, pari a − log p.
Come si vede, l’informazione cresce quando l’evento diviene pi`u improbabile, ossia
quando p decresce. Ora, una partizione finita P rappresenta un sistema completo
di eventi (ciascuno specificato dal trovarsi in un particolare elemento Pi ∈ P).
La (4.1) rappresenta allora l’informazione media che si pu`o ottenere specificando
` chiaro che l’entropia massima,
in quale elemento della partizione ci troviamo. E
uguale a log N , si ottiene quando gli elementi della partizione hanno tutti la
stessa probabilit`a: µ(Pi ) = 1/N (distribuzione uniforme). Infatti ψ essendo
concava soddisfa la disuguaglianza
!
N
N
1 X
1 X
ai ≥
ψ(ai )
ψ
N i=1
N i=1
con a1 , . . . , aN non negativi. Se ai = µ(Pi ) otteniamo
!
N −1
N −1
1
1
1 X
1 X
1
− log
=ψ
µ(Pi ) ≥ −
µ(Pi ) log µ(Pi ) = H(P)
N
N
N i=0
N i=0
N
da cui segue H(P) ≤ log N . Date due partizioni P e Q l’entropia della partizione
P ∨ Q `e data da
X
µ(Pi ∩ Qj ) log (µ(Pi ∩ Qj ))
H(P ∨ Q) = −
i,j
µ(Pi ∩ Qj )
µ(Pi ∩ Qj )
= −
µ(Pi )
log µ(Pi ) + log
µ(Pi )
µ(Pi )
i,j
X
X
X
X
= −
µ(Pi ) log µ(Pi )
µ(Qj |Pi ) −
µ(Pi )
µ(Qj |Pi ) log µ(Qj |Pi )
X
i
= −
X
i
j
µ(Pi ) log µ(Pi ) −
i
X
i
µ(Pi )
X
j
j
µ(Qj |Pi ) log µ(Qj |Pi ).
50
CHAPTER 4. PARTIZIONI, DINAMICA SIMBOLICA, ENTROPIA
Pertanto si ha
H(P ∨ Q) = H(P) + H(Q|P).
(4.2)
Qui abbiamo introdotto l’entropia condizionata H(Q|P) della partizione Q rispetto
alla partizione P data da
X
X
H(Q|P) =
µ(Pi )
ψ(µ(Qj |Pi )).
(4.3)
i
j
Lasciamo per esercizio la verifica delle seguenti propriet`a:
1. 0 ≤ H(Q|P) ≤ H(Q), con H(Q|P) = 0 se e solo se P ≥ Q (mod 0),
e H(Q|P) = H(Q) se P e Q sono indipendenti, cio`e µ(Pi ∩ Qj ) =
µ(Pi ) · µ(Qj ), ∀i, j.
2. se Z `e una terza partizione si ha che
P ≥ Q (mod 0) =⇒ H(P|Z) ≥ H(Q|Z),
3. e inoltre
P ≥ Q (mod 0) =⇒ H(Z|P) ≤ H(Z|Q).
Supponiamo ancora che T sia invertibile e consideriamo l’entropia H(P0n−1 )
della partizione P0n−1 ottenuta ‘raffinando in avanti’ P con la trasformazione
T . Quest’ultima rappresenta l’informazione media ottenuta specificando il tratto
di lunghezza n della P-storia (passata) di x. Nel caso - estremo - di una distribuzione iniziale uniforme e di un ‘raffinamento completo’, cio`e tale che passando da P0n−1 a P0n il numero di elementi distinti cresce esattamente di N , si
trova H(P0n−1
N . Pi`u in generale, per quanto visto sopra, avremo
P) = n · log
k
H(P0n−1 ) ≤ n−1
H(T
P).
Poniamo per semplificare la notazione
k=0
Hn = H(P0n−1 ) e Dn = Hn+1 − Hn
Dalla seconda delle propriet`a sopra elencate (con Z = {X}) si vede subito che
Dn ≥ 0. Inoltre, essendo P0n = P0n−1 ∨ T n P si ha
Dn = H(T n P|P0n−1 )
e quindi Dn+1 = H(T n+1 P|P0n ). D’altra parte usando la T -invarianza di µ
n−1
si vede facilmente che H(T n+1 P|P0n ) = H(T n P|P−1
). Ora `e chiaro che
n−1
n−1
P−1 ≥ P0
e dunque usando la terza propriet`a troviamo H(T n+1 P|P0n ) ≤
51
H(T n P|P0n−1 ) e quindi Dn ≥ Dn+1 . Pertanto la sequenza Dn ammette un
limite D e lo stesso limite sar`a raggiunto nel senso di Ces`aro, cio`e dalla sequenza
Hn /n.
` dunque ben definita l’entropia di P relativa a T , data dal limite
E
H(P0n−1 )
·
n→∞
n
hµ (T, P) = lim
(4.4)
Se assegnamo all’insieme delle partizioni di X la metrica di Rokhlin dR data da
dR (P, Q) = H(P|Q) + H(Q|P),
(4.5)
si pu`o mostrare (vedi [AA]) che hµ (T, P) `e continua su tale insieme, pi`u precisamente
|hµ (T, P) − hµ (T, Q)| ≤ dR (P, Q)
(4.6)
Se poi prendiamo l’estremo superiore sulle partizioni otteniamo l’entropia metrica
del sistema dinamico (X, E, µ, T ):
hµ (T ) = sup hµ (T, P).
(4.7)
P
Ora, la propriet`a generante di una partizione P pu`o essere espressa anche dicendo
che la famiglia di partizioni P0n−1 `e densa nell’insieme di tutte le partizioni rispetto
alla metrica di Rokhlin. Da ci`o segue l’importante risultato di Kolmogorov e Sinai,
Teorema 4.0.2 ([Ko], [Si]) Se P `e generatrice allora hµ (T, P) = hµ (T ).
In direzione opposta si ha che ogni sistema ergodico con entropia finita ammette una descrizione simbolica che lo rende isomorfo ad un processo stocastico
stazionario:
Teorema 4.0.3 ([Kr]) Se (X, F, µ, T ) `e ergodico e hµ (T ) < ∞ allora esiste
sempre una partizione generatrice, quindi tale che hµ (T ) = hµ (T, P).
Uno degli obiettivi fondamentali in teoria ergodica consiste nella descrizione della
classe di processi stazionari che corrispondono ad un sistema dinamico assegnato,
nel senso sopra descritto, ed eventualmente calcolarne l’entropia.
Esempio. Mostriamo che l’entropia dello schema di Bernoulli B(p0 , . . . , pN −1 )
`e data da
N
−1
X
−
pi log pi
i=0
52
CHAPTER 4. PARTIZIONI, DINAMICA SIMBOLICA, ENTROPIA
Sia infatti P la partizione di ΩN in cilindri della
Pi0 = {ω : ω0 = i},
PN forma
−1
(i = 0, . . . , N − 1). Evidentemente H(P) = − i=0
pi log pi . Ora, gli elementi
n−1
−1
0
n−1 −(n−1)
di P0 hanno la forma Pi0 ∩SPi1 ∩· · · S Pin−1 , la cui misura `e pi0 · · · pin−1 .
Dunque
X
pi0 · · · pin−1 log (pi0 · · · pin−1 )
H(P0n−1 ) = −
i0 ,...,in−1
= −
N
−1
X
pi log pi + H(P0n−2 ) = · · · = n −
i=0
N
−1
X
!
pi log pi
i=0
dove per ottenere la seconda uguaglianza si `e sommato su l’indice i0 tenendo
conto che
X
pi1 · · · pin−1 = 1
i1 ,...,in−1
P −1
Troviamo pertanto hµ (T, P) = − N
i=0 pi log pi (con µ ≡ P e T ≡ S). A
∞
questo punto basta osservare che P `e una partizione generatrice, ovvero P−∞
=
C (mod 0) (dove C `e la σ-algebra generata dai cilindri), e applicare il Teorema
4.0.2.
Esempio. Sia ora (Ω+
N , P, S) una traslazione di Markov irriducibile e aperiodica.
Mostriamo che la sua entropia `e data da
−
N
−1 N
−1
X
X
πi pij log pij
i=0 j=0
0
Infatti, se P `e la partizione nei cilindri Pi0 , come sopra, gli elementi di P−n+1
hanno la forma Pi00 ∩S −1 Pi11 ∩· · · S −(n−1) Pin−1
la cui misura `e πi0 pi0 i1 . . . pin−2 in−1 .
n−1
Pertanto
X
0
H(P−n+1
) = −
πi0 pi0 i1 . . . pin−2 in−1 log (πi0 pi0 i1 . . . pin−2 in−1 )
i0 ,...,in−1
= −
X
πi log πi −
i
= −
X
X
πi0 pi0 i1 . . . pin−2 in−1 log (pi0 i1 . . . pin−2 in−1 )
i0 ,...,in−1
πi log πi −
i
X
πi pij log pij −
i,j
−
X
i1 ,...,in−1
πi1 pi1 i2 . . . pin−2 in−1 log (pi1 i2 . . . pin−2 in−1 )
53
..
.
!
= −
X
πi log πi + n −
i
X
πi pij log pij
i,j
P
P
dove si sono usate ripetutamente le propriet`a j pij = 1 e i πi pij = πj . A
questo punto si procede come per la traslazione di Bernoulli.
Esempio. La trasformazione del fornaio. Sia X = T2 = R2 /Z2 il toro
bidimensionale e T : X → X data da
(2x, y/2)
se 0 ≤ x < 1/2;
T (x, y) =
(2x − 1, (y + 1)/2) se 1/2 ≤ x ≤ 1.
La misura di Lebesgue dxdy `e T -invariante. L’azione di T `e equivalente ad uno
stiramento del quadrato unitario tale da renderlo doppiamente pi`u lungo lungo
la direzione 0x e doppiamente pi`u corto lungo la direzione 0y. Quindi la met`a
destra viene tagliata e sovrapposta a quella di sinistra, riproducendo il quadrato
unitario.
Dato un insieme misurabile A ⊂ X l’insieme T n A tende ad un insieme composto
da un ‘gran numero’ di segmenti orizzontali (verticali) quando n → ∞ (n →
−∞). Notiamo che T n (x, y) = (2n x (mod 1), y/2n + 1/2k ) dove k ≤ n `e il
numero di volte che 2i x (mod 1) ∈ [1/2, 1) con 0 ≤ i ≤ n. Da ci`o segue
facilmente che i punti periodici, cio`e i punti (x, y) ∈ X tali che T n (x, y) = (x, y)
per qualche n ≥ 1, sono densi in X.
Indichiamo con B la σ-algebra dei boreliani di X e mostriamo che (X, B, µ, T ) `e
isomorfo (mod 0) allo schema di Bernoulli B( 21 , 21 ). Sia φ : X → {0, 1}Z definita
da φ(x, y) = ω = . . . ω−1 ω0 ω1 . . . con
∞
X
ωk
x=
,
2k+1
k=0
y=
∞
X
ω−k
k=1
2k
54
CHAPTER 4. PARTIZIONI, DINAMICA SIMBOLICA, ENTROPIA
La mappa φ `e una biiezione su tutto X ad eccezione dei punti (x, y) ∈ X per
cui x o y `e una frazione diadica (cio`e tale che la serie sopra si arresta). Ma tali
punti formano un insieme di misura nulla e diremo dunque che φ `e una biiezione
(mod 0). Verifichiamo che φ conserva la misura dei cilindri Cij = {ω : ωi =
j}, ci`o sar`a sufficiente essendo tali insiemi generatori dell’algebra su {0, 1}Z .
Consideriamo l’insieme
!
)
( ∞
∞
X ωk X
ω
−k
j
: ωi = j .
,
φ−1 (Ci ) =
2k+1 k=1 2k
k=0
Se i ≥ 0 tale insieme `e composto da 2i rettangoli ‘verticali’ i cui lati misurano 1
e 1/2i+1 , rispettivamente. Se invece i < 0 allora `e composto da 2i−1 rettangoli
‘orizzontali’ i cui lati misurano 1/2|i| e 1. Pertanto, se indichiamo con µ la misura
su B( 21 , 21 ) si ha
Z
1
dxdy = = µ(Cij ).
2
Cij
Siano ora x e y come sopra. Allora
φ(x, y) = . . . ω−1 , ω0 , ω1 . . .
0
Sφ(x, y) = . . . ω−1
, ω00 , ω10 . . .
con ωk0 = ωk+1 , e dunque
φ−1 Sφ(x, y) =
∞
∞
X
ωk X ω−k
,
2k k=0 2k+1
k=1
!
che `e lo stesso di
−1
φ Sφ(x, y) =
(2x, y/2)
se ω0 = 0, ossia 0 ≤ x < 1/2;
(2x − 1, (y + 1)/2) se ω0 = 1, ossia 1/2 ≤ x ≤ 1.
ovvero φ−1 Sφ = T . In questa costruzione non `e stata usata esplicitamente una
partizione generatrice. Tuttavia non `e difficile rendersi conto che la partizione P
implicitamente coinvolta `e quella costituita dai semi-rettangoli
P0 = {(x, y) : 0 ≤ x < 1/2},
P1 = {(x, y) : 1/2 ≤ x < 1}
n
Ci si accorge facilmente che ad esempio P−n+1
= ∨nk=−n+1 T k P `e costituita dalla
2n
∞
‘schacchiera’ regolare di 2 quadratini e dunque, evidentemente, P−∞
= B
(mod 0).
55
Allo stesso modo si mostra che la moltiplicazione per due x → 2x (mod 1), con
la misura di Lebesgue su R/Z, `e isomorfa allo schema di Bernoulli unilatero, cio`e
definito su {0, 1}N . Per entrambi questi sistemi un’immediata applicazione di
quanto visto sopra e del Teorema 4.0.2 mostra che vale la propriet`a di mescolamento forte e l’entropia (rispetto alla misura di Lebesgue) `e log 2.
Concludiamo questa sezione osservando che la trasformazione del fornaio `e l’estensione
naturale della moltiplicazione per due. In effetti, `e facile mostrare che la mappa
ψ : [0, 1)2 → [0, 1) data da ψ(x, y) = x soddisfa le propriet`a richieste.
56
CHAPTER 4. PARTIZIONI, DINAMICA SIMBOLICA, ENTROPIA
Chapter 5
Teoria ergodica dei numeri
Dato un numero reale x ∈ [0, 1] consideriamo il suo sviluppo in base N :
x = ω1 · N −1 + ω2 · N −2 + · · ·
(5.1)
dove ad esempio N = 2 o N = 10. La (5.1) stabilisce una corrispondenza
+
φ : [0, 1] → Ω+
N tra i punti di [0, 1] e lo spazio ΩN delle sequenze semi-infinite
ω = ω1 ω2 . . . , ωi ∈ A = {0, 1, . . . N − 1}. Tale corrispondenza non `e biunivoca:
vi sono numeri, i razionali N -adici, della forma r/N s con r, s interi, che possono
essere rappresentati da due sequenze. Ad esempio se N = 10 e x = 1/10
allora se ω (1) = 1000 . . . e ω (2) = 0999 . . . si ha φ−1 (ω (1) ) = φ−1 (ω (2) ) = x.
Possiamo tuttavia definire φ anche su tale insieme scegliendo sempre, ad esempio,
la sequenza che non termina (cos`ı φ(1/10) = 0999 . . .). Fissiamo ora n simboli
(cifre) a1 , . . . , an , ai ∈ A e consideriamo tutti i numeri x ∈ [0, 1] con la propriet`a
di avere i primi n simboli nello sviluppo (5.1) coincidenti con gli ai :
Ia1 ,...,an = {x ∈ [0, 1] : φ(x) = ω, ωi = ai , 1 ≤ i ≤ n}
(5.2)
Se x ∈ Ia1 ,...,an allora i casi estremi si hanno quando ωi = 0 oppure ωi = N − 1,
i > n. Il primo caso lo scartiamo, in accordo con la convenzione stabilita sopra,
e dunque
n
∞
n
n
X
X
X
ai
N − 1 X ai
1
ai
<
x
≤
+
=
+
Ni
N i i=n+1 N i
Ni Nn
i=1
i=1
i=1
ovvero
Ia1 ,...,an =
n
n
X
ai X ai
1
,
+ n
i
i
N
N
N
i=1
i=1
57
#
.
58
CHAPTER 5. TEORIA ERGODICA DEI NUMERI
` chiaro che φ(Ia1 ,...,an ) `e un usuale insieme cilindrico di Ω+ , con indici consecuE
N
..., n
tivi, che indichiamo con Ca11,,...,a
.
Consideriamo
ora
lo
shift
di Bernoulli unilatero
n
+
(ΩN , S, P). Se ad A `e assegnata la distribuzione p = (p0 , p1 , . . . , pN −1 ) allora si
ha
..., n
P(Ca11,,...,a
) = pa1 · · · pan .
(5.3)
n
In particolare, se p `e la distribuzione uniforme, cio`e p = ( N1 , . . . , N1 ), allora
..., n
P(Ca11,,...,a
) = N −n = |Ia1 ,...,an |.
n
(5.4)
In altre parole la misura µ definita da µ(φ−1 A) = P(A) altro non `e in questo caso
` anche immediato verificare che la mappa
che la misura di Lebesgue su [0, 1]. E
φ, sempre in questo caso particolare, stabilisce un isomorfismo tra (Ω+
N , P, S) e
([0, 1], T, µ) dove T : [0, 1] → [0, 1] `e la mappa T x = N · x (mod 1). Pi`u in generale, al variare del vettore p = (p0 , . . . , pN −1 ) nell’insieme (convesso) delle distribuzioni di probabilit`a su A, le misure su [0, 1] indotte da P via l’isomorfismo φ
formano un insieme (non numerabile) di misure di probabilit`a T -invarianti
P e mutuamente singolari. L’entropia di tali misure rispetto alla mappa T `e − i pi log pi .
Vediamo quindi che la misura di Lebesgue `e quella con entropia massima, uguale
a log N .
(i)
Sia ora fn (ω) la frequenza di apparizione della cifra i tra i primi n simboli di ω,
allora la (3.3) `e equivalente a
P {ω : lim fn(i) (ω) = pi } = 1
(5.5)
n
Se quindi poniamo
M (p0 , p1 , . . . , pN −1 ) = {x ∈ (0, 1] : φ(x) = ω, lim fn(i) (ω) = pi , i = 0, . . . , N −1}
n
allora si ha
1
1
,...,
= 1 ma
µ M
N
N
µ(M (p0 , p1 , . . . , pN −1 )) = 0 se (p0 , p1 , . . . , pN −1 ) 6=
1
1
,...,
N
N
(5.6)
I numeri x ∈ M N1 , . . . , N1 si dicono numeri normali in base N , nel senso di
Borel. Mentre chiameremo semplicemente normali i numeri normali in ogni base
N ≥ 2. Dunque la (5.6) equivale al seguente teorema, dimostrato dallo stesso
Borel in [Bor]:
5.1. ENTROPIA E DIMENSIONE
59
Teorema 5.0.4 (Borel, 1909) Quasi ogni numero in [0, 1] `e normale.
Osservazione. In base a quanto visto sopra, un numero x ∈ [0, 1] `e normale in
base N se e solo se la sequenza {N k x}k≥0 `e uniformemente distribuita (mod 1).
5.1
Entropia e dimensione
Dati p 6= p0 6= (1/N, . . . , 1/N ), una domanda naturale `e: in che modo confrontare i due insiemi M (p0 , . . . , pN −1 ) e M (p00 , . . . , p0N −1 ), entrambi di misura
di Lebesgue uguale a zero, per vedere ‘quale `e pi`u grande’ ? Per rispondervi
possiamo procedere come segue. Supponiamo di ricoprire il nostro insieme con
un certo numero di palle di raggio ρ e consideriamo il limite ρ → 0. Il numero
minimo N (ρ) di palle necessarie a ricoprire l’insieme avr`a un andamento del tipo
N (ρ) ' ρ−D dove D pu`o essere intero o non intero. Pi`u precisamente, dato
un insieme non vuoto M , su cui `e definita una metrica, sia N (ρ, M ) il minimo
numero di palle aperte di raggio ρ necessarie a ricoprire M . Allora la capacit`a o
dimensione di Kolmogorov di M `e definita da:
dimK (M ) = lim sup
ρ→0
log N (ρ, M )
.
log (1/ρ)
(5.7)
Esercizio. Sia M ≡ M ( 21 , 0, 12 ) l’insieme di Cantor M dei terzi di mezzo, ovvero
l’insieme dei punti x ∈ [0, 1] tali che nel loro sviluppo in base 3, la cifra 1 ha
probabilit`a zero, mentre le cifre 0 e 2 compaiono con eguale probabilit`a 1/2.
Mostrare che dimK (M ) = log 2/ log 3 < 1.
Un’altra caratterizzazione ‘dimensionale’ di un insieme `e data dalla dimensione
di Hausdorff, introdotta nel 1919. Sia σ un ricoprimento di M con una famiglia
numerabile di palle aperte Bi di diametro ≤ ρ. Dato un numero reale α > 0
definiamo la misura di Hausdorff in dimensione α di M come il limite
mα (M ) = lim mαρ (M ),
ρ→0
(5.8)
dove
mαρ (M ) = inf
σ
X
(diam Bi )α .
(5.9)
i
` evidente che il limite (5.8) esiste, finito o infinito. Infatti, quando ρ → 0,
E
l’estremo inferiore che definisce mαρ (M ) viene preso su ricoprimenti sempre pi`u
60
CHAPTER 5. TEORIA ERGODICA DEI NUMERI
fini e dunque mαρ (M ) cresce, o almeno non decresce. Osserviamo inoltre che
mα (M ), come funzione di M , `e una misura esterna1 .
La dimensione di Hausdorff di un insieme M si definisce considerando il comportamento di mα (M ) non in funzione di M , ma in funzione di α. Supponiamo che
{Bi } sia un ρ-ricoprimento di M t.c.
X
(diam Bi )α ≤ mαρ (M ) + 1 ≤ mα (M ) + 1 = K < ∞
i
Allora se α0 > α si ha
X
X
0
0
0
0
(diam Bi )α < ρα −α K
(diam Bi )α ≤ ρα −α
mαρ (M ) ≤
i
i
che tende a zero quando ρ → 0. Dunque, se mα (M ) `e finita per qualche valore
di α allora `e nulla per tutti gli α pi`u grandi. Esiste dunque un unico valore α0 ,
tale che mα (M ) = +∞ per α < α0 e mα (M ) = 0 per α > α0 . Il valore di
mα (M ) in α = α0 pu`o essere 0, positivo e finito, o ∞. Questo numero `e la
dimensione di Hausdorff di M , che dunque risulta definita da
dimH (M ) = sup {α : mα (M ) = +∞} = inf {α : mα (M ) = 0}
(5.10)
Esercizio. Mostrare che per ogni insieme compatto M vale la relazione
dimH (M ) ≤ dimK (M ).
Osservazione. Se M ⊂ [0, 1] allora ovviamente m1 (M ) ≤ 1. Dunque dimH (M )
sta tra 0 e 1. Ad esempio, nel caso di una famiglia di intervalli si ha m1 (M ) > 0
e quindi dimH (M ) = 1. Al contrario, ogni insieme finito o numerabile di
punti ha dimensione di Hausdorff uguale a zero. Tra i due troviamo, ad esempio, l’insieme di Cantor dei terzi di mezzo, per il quale si trova il valore
dimH (M ) = dimK (M ) = log 2/ log 3.
Mostriamo ora che la dimensione di Hausdorff ha interessanti connessioni con
l’entropia. A questo scopo, osserviamo che se M ⊆ [0, 1], allora le palle Bi sono
intervalli e il loro diametro `e la loro lunghezza. Consideriamo in particolare gli
intervalli N -adici (o insiemi cilindrici) della forma
h h+1
I=
,
,
n ≥ 1, h = 0, 1, . . . , N n − 1,
(5.11)
n
n
N
N
Una misura esterna `e una funzione m∗ definita su tutti i sottoinsiemi di uno spazio Ω,
∗
con le propriet`a: (i) m∗ (C) ∈ [0, ∞]
Pper ∗ogni C ⊂ Ω; (ii) m (∅) = 0; (iii) A ⊂ B implica
∗
∗
∗
m (A) ≤ m (B); (iv) m (∪i Ci ) ≤ i m (Ci ).
1
5.1. ENTROPIA E DIMENSIONE
61
Se ora poniamo
`αρ (M ) = inf
X
|Ii |α ,
(5.12)
i
dove l’estremo inferiore `e ristretto ai ricoprimenti di M con intervalli della forma
(5.11) di lunghezza ≤ ρ, allora non `e difficile verificare che mαρ (M ) ≤ `αρ (M ) ≤
2N mαρ (M ) e dunque possiamo effettuare il calcolo della dimensione di M usando
la (5.12) al posto della (5.9).
Generalizziamo ulteriormente la definizione data sopra ponendo, per ogni misura
di probabilit`a ν su B,
X
ν(Ii )α ,
(5.13)
νρα (M ) = inf
i
dove l’estremo inferiore `e ristretto ai ricoprimenti di M con intervalli Ii della
forma (5.11) e tali che ν(Ii ) ≤ ρ. Di nuovo, quando ρ → 0, νρα (M ) tende
monotonamente a un limite ν α (M ), che come funzione di M `e una misura
esterna, e per M fissato esiste α0 t.c. ν α (M ) = ∞ se α < α0 mentre ν α (M ) = 0
se α > α0 . Definiamo allora α0 come la dimensione di M rispetto alla misura ν,
e indichiamolo con dimν (M ). Evidentemente dimµ (M ) = dimH (M ). Ora, se
In (x) denota il cilindro n-dimensionale che contiene x, allora si ha il
Lemma 5.1.1
1
θ
M ⊂ x : lim − log ν(In (x)) = θ =⇒ dimH (M ) =
dimν (M )
n→∞
n
log N
Pseudo-dimostrazione. (Per una dimostrazione completa si veda [Bi1]) Supponiamo che log ν(In (x)) = −nθ per ogni n. Se {Ii } `e un ricoprimento di M con
cilindri della forma (5.11), ciascuno dei quali interseca M , allora ogni Ii ha la
forma Ii = In (x) per qualche P
n e x ∈ M, P
dunque ν(Ii ) = e−nθ = |Ii |θ/ log N ,
perch`e |Ii | = N −n . Pertanto i ν(Ii )α = i |Ii |θα/ log N e dunque ν α (M ) =
0
µα (M ) con α0 = θα/ log N , che implica l’asserto. Corollario 5.1.2 Se M soddisfa le ipotesi del Lemma 5.1.1 e ν(M ) = ν 1 (M ) >
0 allora dimν (M ) = 1 e dunque dimH (M ) = logθ N .
Sia ora νp la misura su B corrispondente alla (5.3) via la mappa φ (in particolare
ν `e la misura di Lebesgue, se e solo se p `e la distribuzione uniforme). Allora si
ha
N
−1
X
1
− log νp (In (x)) = −
fn(i) (ω) log pi
n
i=0
62
CHAPTER 5. TEORIA ERGODICA DEI NUMERI
D’altra parte `e chiaroP
che M = M (p0 , . . . , pN −1 ) soddisfa l’ipotesi del Lemma
5.1.1 con θ = h = − pi log pi . Ora dalla (5.5) si ha che M (p0 , . . . , pN −1 ) ha
νp -misura uguale a 1 e dunque, usando il Corollario 5.1.2, abbiamo mostrato la
seguente relazione tra entropia e dimensione:
Teorema 5.1.3 (Eggleston, 1949)
N −1
1 X
dimH (M (p0 , . . . , pN −1 )) = −
pi log pi .
log N i=0
Dunque la dimensione di Hausdorff di M (p0 , . . . , pN −1 ) `e uguale a uno se e solo
se pi = 1/N , ∀i, altrimenti `e < 1 (osserviamo che nel caso uniforme questa
affermazione `e pi`u debole del teorema di Borel).
Un’altra applicazione del Lemma 5.1.1 `e la seguente. Prendiamo N = 3, p =
( 21 , 0, 12 ) e νp come sopra. Ora − n1 log νp (In (x)) `e uguale a log 2 se le prime n
cifre dello sviluppo 3-adico di x sono 0 o 2. Perci`o
1
M ⊂ x : lim − log ν(In (x)) = log 2
n→∞
n
se M `e l’insieme di Cantor (dei terzi di mezzo). Di nuovo, νp (M ) = 1 e il
Corollario 5.1.2 implicano dimH (M ) = log 2/ log 3 (come gi`a visto pi`u sopra).
Concludiamo con una interessante generalizzazione. Con riferimento alle (3.7)
poniamo
M (Q) = {x ∈ [0, 1] : lim fn(ij) (ω) = qij },
n
i, j = 1, . . . , N,
dove P
Q = (qij ) `e P
una matrice NP× N di elementi non-negativi e tali che se
πi = j qij allora i qij = πj e i πi = 1. Sia pij = qij /πi ; allora P = (pij )
`e una matrice stocastica con distribuzione stazionaria (πi ). Supponiamo per
semplicit`a che tutti i pij siano positivi e consideriamo la misura di probabilit`a
markoviana P definita in (1.6). Sia µP la misura di probabilit`a su ([0, 1], B)
che corrisponde alla misura di Markov definita sopra. Se In (x) `e il cilindro ndimensionale che contiene x si ha
X
1
− log µP (In (x)) = −(1/n) log πω0 −
fn(ij) (ω) log pij
n
ij
5.2. MAPPE MARKOVIANE DELL’INTERVALLO UNITARIO
63
e dunque, per ogni x ∈ M (Q),
X
1
lim − log µP (In (x)) = −
πi pij log pij .
n→∞
n
ij
(5.14)
D’altra parte, per l’ergodicit`a µP (M (Q)) = 1 e dunque il Corollario 5.1.2 d`a
dimH (M (Q)) = −
5.2
1 X
πi pij log pij .
log N ij
(5.15)
Mappe markoviane dell’intervallo unitario
Sia X = [0, 1]. In un senso abbastanza generale diremo che una trasformazione
T : [0, 1] → [0, 1] si dice markoviana se esiste una partizione finita o numerabile
{Ij } di X in intervalli aperti e disgiunti tali che ∪Ij = X, con le seguenti
propriet`a2 :
1. propriet`a markoviana: se T Ii ∩ Ij 6= ∅ allora T Ii ⊃ Ij ;
2. regolarit`a: per ogni x ∈ ∪Ij , la derivata T 0 (x) esiste ed ha modulo strettamente positivo;
3. espansione uniforme: si possono trovare una costante ρ > 1 e un intero
m > 0 t.c. |(T m )0 (x)| ≥ ρ per ogni x ∈ ∪Ij ;
4. distorsione uniforme: esistono due costanti C > 0 e γ > 0 tali che
0
T (x)
γ
T 0 (y) − 1 ≤ C|x − y| ;
5. trasitivit`a topologica: esiste no > 0 t.c. |Ii ∩ T −n0 Ij | =
6 0 per ogni scelta
di i, j.
Come `e stato mostrato da Renyi nel 1957 [Re] una mappa T con le propriet`a elencate sopra ammette un’unica misura invariante µ(dx) = h(x)dx con h continua
e strettamente positiva (cio`e µ `e assolutamente continua rispetto a Lebesgue).
Per ottenere h si procede come segue: La retro-immagine f −1 (I) di un intervallo
2
Una partizione {Ij } con le propriet`a qui elencate `e un esempio di partizione di Markov e,
in particolare, `e anche generatrice.
64
CHAPTER 5. TEORIA ERGODICA DEI NUMERI
I della partizione `e l’unione di un numero finito di intervalli Ji , ciascuno dei
quali viene mappato monotonamente su tutto I. La formula del cambiamento
di variabili d`a, per ogni funzione f ,
Z
Z
f (y)dy =
f (T (x))|T 0 (x)|dx
I
Ji
e, ponendo f (y) = h0 (x)/|T 0 (x)| con y = T (x) otteniamo
Z
Z
1
h0 (x) 0
dy =
h0 (x)dx = µ(Ji )
|T (x)|
I
Ji
(5.16)
Se ora indichiamo con h1 la densit`a della misura evoluta T∗ µ allora si ha
Z
Z
−1
µ(T (I)) =
h0 (x)dx = h1 (y)dy = (T∗ µ)(I)
(5.17)
T −1 (I)
Per cui, notando che µ(T −1 (I)) =
che
I
P
h1 (y) =
i
µ(Ji ) e sommando la (5.16) su i vediamo
X
T (xi )=y
h0 (xi )
|T 0 (xi )|
(5.18)
Dunque, la trasformazione T induce su L1 un operatore lineare L : h0 → h1 ,
detto operatore di Perron-Frobenius, definito da
X
f (y)
Lf (x) =
.
(5.19)
0 (y)|
|T
−1
y∈T
(x)
Osserviamo che L manda funzioni positive in funzioni positive. Inoltre per le sue
iterate vale l’espressione
X
f (y)
Ln f (x) =
.
(5.20)
|(T n )0 (y)|
−n
y∈T
(x)
Infine, come si pu`o facilmente verificare con un cambiamento di variabili, vale la
seguente relazione di dualit`a rispetto all’azione di T :
Z 1
Z 1
g ◦ T (x)f (x)dx =
g(x)Lf (x)dx
(5.21)
0
0
Da quest’ultima propriet`a segue che una funzione h `e la densit`a di una misura
µ assolutamente continua e T -invariante se e solo se `e un punto fisso di tale
operatore: Lh = h.
5.2. MAPPE MARKOVIANE DELL’INTERVALLO UNITARIO
65
Osservazione 5.2.1 Osserviamo che l’operatore P aggiunto dell’operatore di
composizione U introdotto nella Sezione 3.3 verifica la stessa relazione di dualit`a
rispetto alla misura invariante:
Z 1
Z 1
g ◦ T (x)f (x)µ(dx) =
g(x)Lf (x)µ(dx)
(5.22)
0
0
ed `e legato a L dalla relazione
P (F ) =
1
L(F h)
h
(5.23)
Sotto ipotesi leggermente pi`u restrittive possiamo ricavare l’esistenza di tale funzione per mezzo di un semplice argomento (dovuto a Sinai): supponiamo che la
partizione sia composta dai due soli intervalli I0 = (0, 1/2) e I1 = (1/2, 1), e
che sulla chiusura di ciascuno dei due intervalli T sia C 2 e monotonamente crescente da 0 a 1. Ogni punto x ∈ [0, 1] ha quindi esattamente due retroimmagini,
T −1 (x) = {x0 ∈ I 0 , x1 ∈ I 1 }, e si ha
h(x0 )
h(x1 )
+
T 0 (x0 ) T 0 (x1 )
Lh(x) =
Indichiamo con Ca il sottoinsieme convesso delle funzioni continue e positive su
[0, 1] tali che
h(x)
e−a d(x,y) ≤
≤ ea d(x,y)
h(y)
` chiaro che essendo a/b < (a + a0 )/(b + b0 ) < a0 /b0
per qualche costante a > 0. E
si ha
Lh(x)
h(x0 ) T 0 (y0 ) h(x1 ) T 0 (y1 )
≤ max
·
,
·
.
Lh(y)
h(y0 ) T 0 (x0 ) h(y1 ) T 0 (x1 )
e, per h ∈ Ca ,
h(xi ) T 0 (yi )
0
0
· 0
≤ ea d(xi ,yi )+log T (yi )−log T (xi ) .
h(yi ) T (xi )
Poniamo
00
T (zi ) · d(xi , yi )
| log T (yi ) − log T (xi )| ≤ 0
T (zi ) 0
0
con zi ∈ [xi , yi ]. La propriet`a di distorsione uniforme si traduce in
00 T (z) maxz∈[0,1] 0 = c < ∞,
T (z)
66
CHAPTER 5. TEORIA ERGODICA DEI NUMERI
mentre la propriet`a di espansione uniforme d`a
d(xi , yi ) ≤ ρ−1 d(x, y)
Mettendo insieme queste relazioni otteniamo
(a+c)
Lh(x)
≤ e ρ d(x,y)
Lh(y)
Se ora scegliamo a > c/(ρ − 1) cosicch`e (a + c)/ρ < a allora L Ca ⊂ Ca e
il teorema di Shauder-Tychonoff ([DS], p.456) implica l’esistenza di un punto
fisso h = Lh ∈ Ca . Osserviamo infine che se il punto fisso h `e unico, ossia
se l’autovalore 1 `e un autovalore semplice per L, allora il sistema dinamico
([0, 1], T, µ) con dµ = hdx `e ergodico (per maggiori dettagli vedi [Co]). Infine
l’entropia di ([0, 1], T, µ) `e data da
Z 1
log |T 0 (x)|h(x)dx.
(5.24)
hµ (T ) =
0
Esempio. Le mappe di Farey e di Gauss. Consideriano innanzitutto la
mappa di Farey definita da
x/(1 − x), se 0 ≤ x ≤ 1/2 ,
F (x) =
(5.25)
(1 − x)/x, se 1/2 < x ≤ 1 .
Osserviamo che
0
F (x) =
1/(1 − x)2 , se 0 ≤ x ≤ 1/2 ,
−1/x2 ,
se 1/2 < x ≤ 1
(5.26)
e dunque F `e espandente ovunque ad eccezione del punto 1 e del punto (fisso)
0 dove il modulo la derivata vale uno. Si vede anche subito che
00 F (z) F 00 (1/2)
= 4.
maxz∈[0,1] 0 = 0
F (z)
F (1/2)
Dunque la sola propriet`a tra quelle elencate pi`u sopra ad essere violata `e l’uniforme
espansione. In particolare diremo che l’origine `e un punto fisso indifferente per F .
Vediamo brevemente quali conseguenze ci`o comporta per le propriet`a ergodiche
di F . L’operatore di Perron-Frobenius L per F si scrive
2 1
x
1
LF f (x) = (L0 + L1 )f (x) =
f
+f
. (5.27)
x+1
x+1
x+1
5.2. MAPPE MARKOVIANE DELL’INTERVALLO UNITARIO
67
Si vede subito che la funzione 1/x `e un punto fisso di LF e dunque rappresenta
la densit`a di una misura invariante assolutamente continua per ([0, 1], F ). Ma di
che misura si tratta? Poniamo (il significato della costante log1 2 apparir`a chiaro
tra poco):
dx
1
·
(5.28)
ν(dx) ≡ e(x) dx =
log 2 x
` chiaro che e ∈
E
/ L1 ([0, 1]) e ν([0, 1]) = ∞. Sia poi A = {An }n≥1 la partizione numerabile di [0, 1] data da An = [1/(n + 1), 1/n]. Posto A0 = [0, 1]
si vede che F (An ) = An−1 per ogni n ≥ 1. Osserviamo inoltre che ν(An ) =
(log 2)−1 log (1 + n1 ), in particolare ν(A1 ) = 1.
−k
Si vede inoltre facilmente che la parte dissipativa di F `e data D(F ) = ∪∞
{0} =
k=0 F
Q ∩ [0, 1]. Dunque il sistema dinamico ([0, 1], F, ν) `e conservativo.
La misura ν `e dunque un esempio di misura invariante σ-finita. In questa situazione vi `e la coesistenza di due misure invarianti che giocano un ruolo importante
nelle
propriet`a statistiche delle orbite di (F, [0, 1]): oltre a ν, le medie ergodiche
Pn−1
1
o si pu`o
i=0 δF i (x) convergono debolmente alla delta di Dirac delta in 0. Ci`
n
comprendere anche come segue.
Sia X l’insieme residuale di punti in [0, 1] che non sono preimmagini di 1, cio`e
X = (0, 1] \ {1/n}n≥1 . Il tempo di primo passaggio τA1 : X → N nell’intervallo
A1 `e definito da
1
n
,
(5.29)
τA1 (x) = 1 + min{n ≥ 0 : F (x) ∈ A1 } =
x
dove [a] indica la parte intera di a. Vediamo che An `e la chiusura di {x ∈ X :
τA1 (x) = n}. D’altra parte, il tempo di ricorrenza rA1 : A1 → N ∪ {∞} in A1 `e
dato da
rA1 (x) = min{n ≥ 1 : F n (x) ∈ A1 } = τA1 ◦ F (x).
(5.30)
An . Facciamo
Sia Bn = {x ∈ A1 : rP
A1 (x) = n}. Usando (5.30) si ha F (Bn ) =P
vedere che ν(An ) = k≥n ν(Bk ). In effetti, per n = 1 si ha k≥1 ν(Bk ) =
ν(A1 ) = 1. Inoltre, essendo ν F -invariante, ν(An ) = ν(F −1 (An )) = ν(An+1 ) +
ν(Bn+1 ), e l’asserto segue per induzione. Pertanto:
Z
X
X
νA1 (rA1 ) =
r(x) ν(dx) =
n ν(Bn ) =
ν(An ) = ν([0, 1]) = ∞,
A1
n≥1
n≥1
(5.31)
dove νE `e la misura di probabilit`a condizionata definita da νE (C) = ν(C ∩
E)/ν(E). Osserviamo che la (5.31) altro non `e che una particolare versione
68
CHAPTER 5. TEORIA ERGODICA DEI NUMERI
del teorema di Kac (cf. Teorema 3.1.1). In modo analogo, se poniamo EN =
N
∪N
n=1 An allora il tempo di ricorrenza rEN in EN vale 1 su B1 e su ∪n=2 An ,
mentre vale n − N + 1 su Bn con n > N . Dunque
"
#
X
1
−1
N
ν ∪N
(n − N + 1)ν(Bn )
νEN (rEN ) =
n=1 Bn + ν ∪n=2 An +
ν(EN )
n≥N
"
#
X
1
−1
N
=
ν ∪N
ν(An )
n=1 Bn + ν ∪n=2 An +
ν(EN )
n≥N
R∞
Ma l’ultima somma si comporta come N log(1 + 1/x)dx che diverge per ogni
fissato N . Dunque vediamo che il tempo di soggiorno in un intorno arbitrariamente piccolo del punto fisso indifferente (il complementare di EN ) ha media
infinita rispetto alla misura ν. In questo caso, come gi`a visto, non ha senso parlare di ergodicit`a e mescolamento nel senso usuale. In particolare, in accordo con
la Definizione 3.0.6, si ha ν(E ∩ f −n E) = o(1) per ogni insieme E di ν-misura
finita. Per ogni insieme di questo tipo possiamo allora introdurre un tasso di
riscalamento (scaling rate) σn (E) dato da
ν(E ∩ f −n E)
·
σn (E) =
(ν(E))2
Se poi definiamo
B+ := ∪ {E ∈ B : m(E) > 0, E ⊆ [0, 1] \ (0, ) },
allora si mostra [Is1] che σn (E) ∼ σn (F ) per ogni coppia E, F ∈ B+ . Definendo quindi il tasso di riscalamento σn del sistema dinamico ([0, 1], F, ν) come
il decadimento asintotico delle sequenze {σn (E)}, E ∈ B+ , si trova in questo
caso (vedi [Is2])
1
.
σn =
log n
Consideriamo ora la mappa G : [0, 1] → [0, 1] ottenuta estendendo a tutto [0, 1]
la mappa F τA1 (definita su X). Ora, se 1/(n + 1) < x < 1/n allora τA1 (x) = n
e F n si ottiene componendo il ramo sinistro F0 (x) = x/(1 − x) di F iterato
n − 1 volte, cio`e la funzione F0n−1 (x) = x/(1 − (n − 1)x), con il ramo destro
F1 (x) = (1 − x)/x, ovvero
G(x) = F1 ◦ F0n−1 (x) =
1
− n,
x
1
1
<x<
n+1
n
(5.32)
5.2. MAPPE MARKOVIANE DELL’INTERVALLO UNITARIO
Abbiamo cos`ı ottenuto la mappa di Gauss
(n o
1
x , se x 6= 0 ,
G(x) =
0,
se x = 0 ,
69
(5.33)
dove {a} indica la parte frazionaria a. Siano
x
1 1 1−x
Ψ0 (x) ≡
=
= −
,
1+x
2 2 1+x
1
1 1 1−x
−1
Ψ1 (x) ≡ F1 (x) =
= +
1+x
2 2 1+x
F0−1 (x)
(5.34)
i due rami di F −1 . Studiamo la misura di probabilit`a ρ ottenuta iterando ν con
il ramo destro F1 , cio`e
ρ(E) = ((F1 )∗ ν)(E) = (ν ◦ Ψ1 )(E).
(5.35)
La relazione inversa `e
ν(E) =
X
(ρ ◦ Ψn0 )(E).
(5.36)
n≥0
In particolare si ha ν(An ) =
allora
P
ρ(E) = (ν ◦ Ψ1 )(E) =
l≥n
X
ρ(Al ) e ρ(An ) = ρ(F1 (Bn )) = ν(Bn ). Ma
(ρ ◦ Ψn0 ◦ Ψ1 )(E) = ρ(G−1 E),
(5.37)
n≥0
cio`e ρ `e G-invariante. Se poniamo h(x) = ρ(dx)/dx otteniamo
h=
|Ψ01 |
· e ◦ Ψ1 ,
e=
∞
X
(Ψk0 )0 · h ◦ Ψk0 ,
(5.38)
k=0
ovvero
1
dx
·
·
(5.39)
log 2 (1 + x)
La seconda delle (5.38) afferma che h `e il punto fisso dell’operatore di PerronFrobenius per la mappa di Gauss dato da
2 ∞ X
1
1
LG f (x) =
f
.
(5.40)
x+n
x+n
n=1
h(x) =
` noto che il sistema dinamico ([0, 1], G, ρ) `e esatto, e dunque ergodico e
E
mescolante (vedi ad es. [Bi1]). Mostriamo ora la seguente identit`a
70
CHAPTER 5. TEORIA ERGODICA DEI NUMERI
Lemma 5.2.2
Z 1
Z
0
hρ (G) =
log |G (x)| ρ(dx) =
0
1
log |F 0 (x)| ν(dx) =
0
Dimostrazione. Usando (5.38) otteniamo
Z 1
Z 1
0
log |F (x)| ν(dx) =
log |F 0 (x)| e(x) dx
0
Z0 1
∞
∞ Z
X
X
0
k
k 0
log |F (x)|
=
h(Φ0 (x)) · (Φ0 ) (x) dx =
0
=
k=0
∞ Z
X
k=1
1
Z
=
k−1
Y
log |F 0 (F0j (x))| h(x) dx =
Ak j=0
log |G0 (x)| h(x) dx =
0
1/k
log |F 0 (F0k (x))| h(x) dx
log |G0k (x)| h(x) dx
Ak
k=1
Z
(5.41)
0
k=0
∞ Z
X
π2
·
6(log 2)2
1
log |G0 (x)| ρ(dx).
0
Il valore numerico dell’ultimo integrale si ricava immediatamente. Combinando (5.29), (5.30), (5.31) e (5.35) otteniamo
ρ(τA1 ) = ((F1 )∗ ν)(τA1 ) = ν(τA1 ◦ F1 ) = ν(rA1 ) = ∞.
(5.42)
D’altra parte si ha il seguente risultato,
Lemma 5.2.3 La funzione log τA1 appartiene a L1 (ρ) e soddisfa
n−1
1X
log τA1 (Gj (x)) = ρ(log τA1 ) = K,
lim
n→∞ n
j=0
dove la costante positiva K `e data da
∞ Y
K
e =
1+
k=1
1
k(k + 2)
ρ − q.o.,
k
log
log 2
.
(5.44)
Dimostrazione. Si ha
ρ(log τA1 ) =
=
∞
X
k=1
∞
X
k=1
=
∞
X
ρ(Ak ) · log k =
(qk−1 − qk ) · log k
k=1
log k
· log
log 2
∞
X
log k
k=1
log 2
1
1+
k
· log 1 +
(5.43)
1+
1
k(k + 2)
1
k+1
−1 !
= K < ∞.
5.2. MAPPE MARKOVIANE DELL’INTERVALLO UNITARIO
71
Questo calcolo mostra allo stesso tempo che log τA1 ∈ L1 (ρ) e l’ultima identit`a
in (5.43). La prima (5.43) segue dal teorema ergodico (vedi pi`u avanti). La costante K `e nota in teoria dei numeri come costante di Khinchin. Non si
tratta di una coincidenza.
La somma di Farey di due razionali
a
b
e
a0
b0
`e l’operazione definita da
a00
a + a0
=
·
b00
b + b0
(5.45)
` facile vedere che a0000 `e contenuto nell’intervallo ( a , a00 ). Fissato n ≥ 0, sia En la
E
b
b b
sequenza crescentedi frazioni irriducibili tra 0 e 1 ottenuta induttivamente come
segue. Poniamo E1 = ( 01 , 11 ). Allora En si ottiene da En−1 inserendo tra ciascuna
0
00
coppia di razionali consecutivi ab e ab0 in En−1 il loro mediante ab00 ottenuto come
sopra. Dunque E2 = ( 01 , 12 , 11 ), E3 = ( 10 , 13 , 12 , 23 , 11 ), E4 = ( 01 , 41 , 31 , 25 , 12 , 35 , 23 , 34 , 11 )
e cos`ı di seguito. Gli elementi di En si chiamano frazioni di Farey. Il nome della
mappa F si pu`o ricondurre all’osservazione di facile verifica che l’insieme delle
pre-immagini ∪nk=0 F −k {0} coincide con En per ogni n ≥ 1. In particolare, ci`o
−k
implica che ∪∞
{0} = Q ∩ [0, 1] (e lo stesso vale per la mappa indotta:
k=0 F
∞
−k
∪k=0 G {0} = Q ∩ [0, 1]).
Ricordiamo che ogni numero reale 0 < x < 1 ammette uno sviluppo in frazione
continua del tipo [Kh2]
1
x=
1
k1 +
k2 +
= [k1 , k2 , k3 , . . .] ,
(5.46)
1
k3 + · · ·
con ki ∈ N. Applicando l’algoritmo di Euclide si vede che lo sviluppo si arresta
se e solo se x `e razionale. C’`e un’intima connessione tra i quozienti parziali
k1 , k2 , · · · e le mappe di Farey F e di Gauss G. In effetti, dato x come sopra
possiamo scrivere
x=
1
1
x
1
1
1
= h i n o=
=
1
1
1
k1 + G(x)
k1 +
x + x
1
G(x)
1
1
=
=
= · · · (5.47)
1
1
k1 +
k1 +
1
1
k2 + G2 (x)
+
G(x)
G(x)
72
CHAPTER 5. TEORIA ERGODICA DEI NUMERI
Pertanto, k1 = [1/x], k2 = [1/G(x)], k3 = [1/G2 (x)] e cos`ı via. Detto altrimenti,
se x = [k1 , k2 , k3 , . . .] allora G(x) = [k2 , k3 , . . .] .
(5.48)
Anche le frazioni di Farey sono strettamente legate alle frazioni continue. Diciamo
che una frazione di Farey `e di rango n se appartiene a En+1 \ En . Dato n ≥ 1
vi sono 2n−1 frazioni di Farey di rango n (esse formano l’insieme F −n {0}) e si
verifica facilmente che la somma degli interi ki che formano i loro sviluppi (finiti)
in frazione continua `e uguale a n + 1. Quindi la mappa F agisce sulle frazioni
di Farey riducendo il loro rango di un’unit`a. Come per G, possiamo ottenere
un’espressione esplicita per l’azione di F sugli sviluppi in frazione continua: se
1/2 < x ≤ 1 allora k1 = 1 e F (x) = x1 − k1 = G(x). Se invece 0 < x ≤ 1/2
allora k1 > 1 e F (x) = 1/( x1 − 1). Pertanto,
se x = [k1 , k2 , k3 , . . .] allora F (x) = [k1 − 1, k2 , k3 , . . .] ,
(5.49)
con [0, k2 , k3 , . . .] ≡ [k2 , k3 , . . .]. Ora, `e ben noto che per quasi ogni x ∈ (0, 1)
la medie aritmetica dei quozienti parziali `e infinita (vedi [Kh2]), cio`e
k1 + · · · + kn
= ∞,
n→∞
n
lim
(q.o.)
(5.50)
Dalla discussione fatta sopra e (5.29) otteniamo kl = [1/Gl−1 (x)] = τA1 (Gl−1 (x)),
che per l > 1 `e il tempo tra l’(l − 1)-esimo l’l-esimo passaggio in A1 dell’orbita
di x con F . Quindi, il numero totale Sn di iterate di F necessarie ad osservare
n passaggi in A1 , cio`e la funzione
Sn (x) = τA1 (x) + τA1 (G(x)) · · · + τA1 (Gn−1 (x)),
(5.51)
soddisfa
Sn (x)
=∞
(q.o.)
(5.52)
n
Ma possiamo dire di pi`u. Come conseguenza di un teorema di Khinchin ([Kh2],
Teorema 30) si ha che per quasi ogni x ∈ (0, 1) la disuguaglianza
lim
n→∞
Sn (x) ≥ n log n
(5.53)
`e verificata per un infinit`a di valori di n. D’altra parte il Lemma 5.2.3 pu`o essere
riformulato dicendo che la media geometrica dei quozienti parziali `e finita (q.o.).
Ma questo, a sua volta, `e un corollario di un altro risultato di Khinchine ([Kh2],
5.2. MAPPE MARKOVIANE DELL’INTERVALLO UNITARIO
73
Teorema 35), secondo il quale per ogni funzione f (k) definita sugli interi positivi
e tale che f (k) = O(k p ) con 0 ≤ p < 1/2 si ha, per quasi ogni x ∈ (0, 1),
n
∞
1 X
X
1
f
(k)
· log 1 +
(5.54)
f (kj ) −
≤ (n)
n
log 2
k(k + 2) j=i
k=1
dove la funzione errore
(n) `e una arbitraria funzione che tende a zero per n → ∞
P −2
in modo tale che
n · −2 (n) < ∞. Il Lemma 5.2.3 corrisponde dunque alla
scelta f (k) = log k.
74
CHAPTER 5. TEORIA ERGODICA DEI NUMERI
Chapter 6
Trasformazioni localmente
isometriche
Sia X = [0, 1) e T : X → X una trasformazione che agisce localmente come una
` evidente che la misura di Lebesgue dx `e T -invariante.
traslazione x → x + c. E
Ne vedremo ora alcuni esempi importanti. Tali esempi fanno parte di una classe
pi`u generale di sistemi dinamici, particolarmente adatti alla costruzione di esempi
e controesempi in teoria ergodica, i sistemi di rango finito, che discuteremo in
dettaglio pi`u avanti.
6.0.1
Rotazioni
Sia Tα : X → X la traslazione (mod1) di un numero 0 < α < 1, cio`e
Tα (x) = x + α (mod 1)
La trasformazione Tα si comporta in modo differente a seconda che α sia razionale
o meno. Se α = pq con p, q interi, allora Tαq (x) = x + p α (mod 1) = x +
p (mod 1) = x, e dunque tutti i punti su X sono periodici di periodo q per Tα .
` ed ergodicita
` per α ∈ R \ Q. Se α `e irrazionale allora vale
Minimalita
il seguente risultato (ricordiamo che un insieme A `e denso nell’insieme B se in
ogni intorno arbitrariamente piccolo di ogni punto di B si pu`o trovare un punto
di A):
Proposizione 6.0.4 Sia α ∈ R \ Q. Allora ogni orbita di Tα `e densa in X.
75
76
CHAPTER 6. TRASFORMAZIONI LOCALMENTE ISOMETRICHE
Dimostrazione. Innanzitutto notiamo che i punti dell’orbita di un qualunque 0 <
x < 1 sono tutti distinti. Infatti se fosse Tαn (x) = Tαm (x) allora si avrebbe (n −
m)α = k con k intero e dunque n = m (perch`e abbiamo supposto α irrazionale).
Ora, ogni insieme infinito sul cerchio deve avere un punto di accumulazione.
Quindi, dato ε > 0, devono esistere due interi n e m tali che |Tαn (x)−Tαm (x)| < ε.
Poniamo k = n − m. Allora |Tαk (x) − x| < ε. D’altra parte, Tα conserva le
lunghezze in X. Dunque Tαk trasforma l’arco che connette x a Tαk (x) nell’arco
che connette Tαk (x) a Tα2k (x), anch’esso di lughezza pi`u piccola di ε. In altre
parole, i punti x, Tαk (x), Tα2k (x), . . . formano una partizione di X in intervalli di
lunghezza minore di ε. Ci`o `e sufficiente a provare l’asserto per l’arbitrariet`a di ε.
Nel linguaggio della dinamica topologica1 la propriet`a appena mostrata si pu`o
esprimere dicendo che una rotazione irrazionale `e un sistema minimale. Ci`o ha
in questo caso una conseguenza importante, gi`a osservata da H. Weyl nel 1916:
Proposizione 6.0.5 se f ∈ L1 ([0, 1), B, dx) allora per ogni x ∈ [0, 1) si ha
n−1
1X
lim
f (Tαk x) =
n→∞ n
k=0
Z
1
f (x)dx
(6.1)
0
Dimostrazione. Essendo f integrabile secondo Riemann si possono trovare due
polinomi trigonometrici
p1 (x) =
r1
X
cr e2πirx ,
p2 (x) =
r=−r1
n−1
1
dr e2πirx
r=−r2
tali che p1 < f < p2 per ogni x ∈ [0, 1) con
a piacere. Ora, se r 6= 0,
1 X 2πir(x+kα) e2πirx
e
=
n k=0
n
r2
X
R1
(p2 − f )dx e
0
1 − e2πirnα
1 − e2πirα
R1
0
(f − p1 )dx piccoli
→ 0,
n→∞
In senso generale, la dinamica topologica riguarda lo studio dell’azione di gruppi su spazi
topologici per mezzo di mappe continue. In queste note ci limiteremo a discutere alcune
propriet`a (rilevanti per la teoria ergodica) dell’azione di un omeomorfismo T : X → X su uno
spazio metrico compatto X, nel qual caso il gruppo {T n : n ∈ Z} pu`o essere identificato con
Z stesso.
77
uniformemente in x ∈ [0, 1). Pertanto
Z 1
r1
n−1
n−1
X
1X
1 X 2πir(x+kα)
k
cr
p1 (Tα x) =
e
→ c0 =
p1 (x)dx.
n k=0
n
0
r=−r
k=0
1
P
k
o essere reso arbitrariamente vicino a
Da ci`o si evince che n1 n−1
k=0 f (Tα x) pu`
R1
f (x)dx per n abbastanza grande. 0
Un’ulteriore conseguenza di quanto visto `e che per una rotazione irrazionale Tα la
misura di Lebesgue `e la sola misura Tα -invariante, che si esprime anche dicendo
che il sistema dinamico topologico ([0, 1), Tα ) `e unicamente ergodico, e dunque
il sistema dinamico ([0, 1), Tα , dx) `e ergodico.
Osservazione 1. Non `e difficile verificare che per un sistema dinamico topologico
(X, T ) l’ergodicit`
a unica `e equivalente al fatto che per ogni f ∈ C(X) le medie
P
k
temporali (1/n) n−1
k=0 f ◦ T convergano uniformemente su X a una costante.
Osservazione 2. Il fatto che la misura di Lebesgue sia la sola misura invariante
per Tα quando α `e irrazionale pu`o essere visto per mezzo del seguente argomento
astratto. Lo spazio X = [0, 1) pu`o essere riguardato come l’esempio pi`u semplice
di gruppo abeliano compatto. Con ci`o si intende uno spazio topologico G su cui
ˆ `e il
`e definita un’operazione di gruppo che indicheremo con +. Il gruppo duale G
1
gruppo dei caratteri, cio`e degli omeomorfismi γ : G → S . La misura di Haar λ su
G `e l’unica misura boreliana di probabilit`a invariante per l’operazione g → g +g0 ,
∀g0 , g ∈ G, e la trasformata di Fourier fˆ di una funzione f ∈ L1 (G, λ) `e la
funzione
Z
ˆ
f (g)γ(g)dλ
f (γ) =
G
Nel caso G = [0, 1), l’operazione + `e l’addizione (mod 1), la misura di Haar la
ˆ `e il gruppo discreto generato dai caratteri γn (x) = e2πinx ,
misura di Lebesgue, e G
n ∈ Z. Ora, se µ `e una misura Tα -invariante allora
Z 1
Z 1
µ
ˆ(n) :=
γn (x)µ(dx) =
γn (Tαk x)µ(dx) = γn (kα)ˆ
µ(n)
0
0
e dunque se µ
ˆ(n) 6= 0 allora γn (kα) = 1 per ogni k ∈ Z, da cui essendo
α ∈ R \ Q discende che γn ≡ 1. Allora si ha che µ
ˆ `e nulla sui caratteri che non
sono identicamente uguali a 1 e quindi non pu`o essere che la misura di Haar λ.
Osservazione 3. La rotazione irrazionale Tα (x) = x + α (mod 1) su [0, 1) `e
ergodica ma non mescolante. Infatti sia E ⊂ [0, 1/2] e {nj } tale che nj α → 1
78
CHAPTER 6. TRASFORMAZIONI LOCALMENTE ISOMETRICHE
cosicch`e µ(E ∩ T −nj E) ≥ µ(E) − . Per abbastanza piccolo `e impossibile
che µ(E ∩ T −nj E) → µ(E)2 > µ(E) − . Questo fatto si pu`o anche vedere in
termini spettrali osservando che ogni carattere γn (x) = e2πinx `e un’autofunzione
in L2 ([0, 1), dx) con autovalore e2πinα . Pertanto Tα ha spettro discreto e dunque
non `e neppure debolmente mescolante.
Dinamica simbolica e il teorema delle cinque distanze. Lo studio
di questo sistema pu`o essere ricondotto allo studio di un sistema dinamico simbolico per mezzo della partizione P = (P0 , P1 ) di [0, 1) nei due semi-intervalli
P0 = [0, β) and P1 = [β, 1) con 0 < β < 1. La minimalit`a della rotazione irrazionale implica che P `e una partizione generatrice per ogni scelta di β. Inoltre la
partizione P0n−1 `e costituita da esattamente 2n semi-intervalli. Ci`o si pu`o vedere
facilmente per induzione: passando da P0n−1 a P0n , agli estremi degli intervalli
che costituiscono P0n−1 si devono aggiungere i due nuovi punti Tαn (0) and Tαn (β).
Pertanto, il codice φβ : [0, 1) → {0, 1}N definito da (φβ x)n = χP1 (Tαn (x)) deN
termina un isomorfismo tra ([0, 1), Tα , dx) e (Ω, S, P) dove Ω ⊂ {0,
R 1} `e dato
dalla la chiusura di φβ ([0, 1)), S `e la traslazione su Ω e P(A) = φ−1 A dx. Per
β
quanto visto, il numero p(n) di parole distinte di lunghezza n che possono essere
ottenute codificando tratti di orbita {Tαk x}n−1
e ≤ 2n. La
k=0 con la mappa φβ `
funzione p(n) `e detta talvolta funzione di complessit`a. Da quanto visto si evince
subito che l’entropia (rispetto alla misura di Lebesgue) `e nulla:
log(2n)
= 0.
n→∞
n
0 ≤ h(Tα , P) ≤ lim
Una parola finita u = ω1 . . . ωn con ωi ∈ {0, 1} comparir`a nella sequenza φβ x, e
in tal caso si dice che u `e un fattore di φβ x, se esiste un intero k tale che
n−1 −i
Tα (Pωi+1 )
x + kα ∈ Pω1 ···ωn = ∩i=0
Per la minimalit`a una condizione necessaria e sufficiente perch`e ci`o avvenga `e
che Pω1 ···ωn 6= ∅. Le componenti connesse di questi insiemi sono limitate dai
0
punti di P−n+1
. Si pu`o mostrare che tali insiemi sono connessi se n `e abbastanza
grande. Per quanto visto, la frequenza del fattore u nella sequenza φβ x, cio`e il
limite limL→∞ N (u, L)/L, dove N (u, L) indica il numero di occorenze di u nel
tratto iniziale di lunghezza L di φβ x, esiste ed `e uguale alla densit`a dell’insieme
{k : x + kα ∈ Pω1 ···ωn }, che a sua volta, per l’equidistribuzione della sequenza
` dunque
{x+kα}k∈N (cfr. Proposizione 6.1), `e uguale alla lunghezza di Pω1 ···ωn . E
naturale indagare le possibili lunghezze degli intervalli Pω1 ···ωn . Innanzitutto, ci
si rende facilmente conto che se β ∈
/ Z + αZ (cio`e se β non `e multiplo di α)
79
allora per n abbastanza grande (affinch`e gli insiemi Pω1 ···ωn siano connessi) il
numero p(n) di fattori di lunghezza n `e esattamente uguale a 2n e in particolare,
p(n + 1) − p(n) = 2. Ci`o implica che vi sono esattamente due fattori u1 e
u2 di lunghezza n con la propriet`a che se ui = ω1 . . . ωn `e uno di essi allora
anche ω2 . . . ωn 0 e ω2 . . . ωn 1 sono fattori. Non `e troppo difficile mostrare che
0
i due intervalli corrispondenti a u1 e u2 sono gli intervalli di P−n+1
contenenti
−n
−n
2
rispettivamente i punti Tα (0) o Tα (β) .
Introduciamo ora uno strumento che consente un’agile analisi combinatoria: il
grafo di Rauzy Γn sui fattori di lunghezza n di una data sequenza scritta con i
simboli di un alfabeto finito. Si tratta di un grafo orientato con p(n) nodi, che
rappresentano i fattori di lunghezza n, e p(n + 1) archi, che rappresentano le
possibili concatenazioni tra i fattori. Pi`u precisamente vi sar`a un arco orientato
tra il nodo u e il nodo v se esiste una parola w e due simboli a e b in modo che
u = a w, v = w b e a w b sia un fattore (di lunghezza n + 1). Inoltre, dato un
nodo u sul grafo Γn indichiamo con u+ il numero di archi che originano da u, e
con u− il numero di archi che arrivano in u. Osserviamo che
X
X
p(n + 1) − p(n) =
(u+ − 1) =
(u− − 1),
u∈V (Γn )
u∈V (Γn )
dove V (Γn ) `e l’insieme dei vertici di Γn . Un ramo del grafo Γn `e un cammino
massimale su Γn in cui i vertici consecutivi u1 , . . . , um , con m ≥ 1, soddisfano
−
u+
i = 1 per i < m e ui = 1 per i > 1, in altre parole un cammino semplice che pu`o iniziare con un ‘ingresso multiplo’ e pu`o terminare con un’‘uscita
multipla’. L’utilit`a di questo dispositivo risiede nel fatto che i nodi di un ramo
rappresentano fattori aventi la stessa frequenza, cosicch`e il numero delle possibili
frequenze dei fattori di una data lunghezza `e limitato dal numero di rami del
grafo corrispondente.
Nel nostro caso, per quanto visto sopra, ogni possibile ramo o inizia con un nodo
con una doppia entrata, e di nodi siffatti ve ne sono al pi`u due, oppure termina
con un nodo a doppia uscita (al pi`u due possibilit`a), oppure con entrambi (ancora
al pi`u due possibilit`a): in totale si hanno non pi`u di sei possibili rami del grafo
Γn e dunque non pi`u di sei possibili frequenze dei fattori di lunghezza n. Con
2
0
Dimostrazione. Sia I l’intervallo di P−n+1
corrispondente al fattore ui . Allora x + kα ∈ I
per qualche k e dunque x + (k + 1)α ∈ Tα I. La propriet`a di ui `e equivalente al fatto che Tα I
0
0
0
, il punto di P−n+1
che si
interseca due intervalli di P−n+1
. Dal momento che Tα I ∈ P−n+2
−n+1
−n+1
trova contenuto in Tα I dovr`a necessariamente essere Tα
(0) oppure Tα
(β). L’asserto
segue mappando tale punto in I con Tα−1 .
80
CHAPTER 6. TRASFORMAZIONI LOCALMENTE ISOMETRICHE
un po’ di lavoro ulteriore si mostra che tra i sei possibili rami ve ne sono almeno
due a cui corrispondono intervalli della stessa lunghezza (vedi [AB], p.127):
Teorema 6.0.6 (Teorema delle cinque distanze) Sia α ∈ R \ Q e β ∈
/
n−1
Z + αZ. Per n `e abbastanza grande la partizione P0 divide il cerchio unitario
in 2n semi-intervalli le cui lunghezze assumono al pi`u cinque valori.
Osservazione 2. Sia sn la simmetria del cerchio definita da sn : x → β −
0
e dunque
Tαn−1 (x). Tale simmetria lascia invariato l’insieme dei punti di P−n+1
induce una permutazione sugli elementi di tale partizione. Si verifica facilmente
che sn (Tα−i (Pj )) = Tα−n+1+i (Pj ) con j = 0, 1. Pertanto
n−1 −n+1+i
−i
sn (Pω1 ···ωn ) = ∩n−1
(Pωi+1 )) = Pωn ···ω1
i=0 sn (Tα (Pωi+1 )) = ∩i=0 Tα
e quindi Pωn ···ω1 e Pω1 ···ωn hanno la stessa lunghezza.
Sequenze Sturmiane. Se β ∈ Z + αZ si ottengono risultati un po’ diversi. Ad
esempio se β = 1−α si ottengono particolari sequenze dette sequenze sturmiane,
molto studiate in letteratura (vedi [AB] e referenze ivi riportate), per le quali il
numero p(n) di fattori di lunghezza n vale esattamente n + 1. In questo caso le
frequenze di tali fattori assumono
√ al pi`u tre valori (invece di cinque). Un esempio
concreto si ottiene con α = ( 5 − 1)/2 e x = α, per cui si ottiene la cosiddetta
sequenza di Fibonacci che `e il punto fisso della sostituzione σ(1) = 10, σ(0) = 1
(vedi pi`u avanti).
6.0.2
Scambio d’intervalli
Supponiamo che ξ = {I1 , . . . , Ir }, r ≥ 2, sia una partizione di X in semiintervalli disgiunti, numerati da sinistra a destra e sia σ = (σ1 , . . . , σr ) una
permutazione dei numeri (1, 2, . . . , r). Definiamo una trasformazione T come
segue: su ciascun semi-intervallo Ii la mappa T agisce come una traslazione
Tαi x = x + αi in modo tale che gli intervalli vengano ‘scambiati’ in accordo
con la permutazione σ. In altre parole i nuovi intervalli T Ii = Tαi Ii = Ii0 si
succedono da sinistra a destra nell’ordine Iσ0 1 , . . . , Iσ0 r . La trasformazione T `e
invertibile e prende il nome di scambio di intervalli corrispondente alla partizione
ξ e alla permutazione σ.
Osservazione 3. Con la naturale identificazione del semintervallo [0, 1) con il
cerchio S 1 lo scambio di due intervalli corrisponde ad una rotazione ordinaria.
81
Osservazione 4. I numeri α1 , . . . , αr risultano definiti univocamente dalla coppia (ξ, σ). Pi`u precisamente si ha
X
X
αi =
|Iσk | −
|Ik |
k<σ −1 (i)
k<i
Siano ad esempio a, b due numeri reali tali che 0 < a < b < 1 e si consideri la
partizione di [0, 1) nei tre semi-intervalli I1 = [0, a), I2 = [a, b) e I3 = [b, 1),
unitamente alla permutazione σ = (3, 2, 1). Allora si ha Iσ0 1 = I30 = [0, 1 − b),
Iσ0 2 = I20 = [1 − b, 1 − a) e Iσ0 3 = I10 = [1 − a, 1). Pertanto la trasformazione `e
definita da
(
x+1−a
se x ∈ I1 ,
T x = x + 1 − (a + b) se x ∈ I2 ,
(6.2)
x−b
se x ∈ I3 .
Osserviamo che T `e continua ad eccezione dei due soli punti a e b.
Osservazione 5. Data una trasformazione T che scambia gli intervalli Ii , la
sua inversa T −1 `e ancora dello stesso tipo sugli intervalli T Ii = Ii0 . Inoltre le
iterate T n con n ≥ 2 sono ancora scambi di intervalli ma su intervalli della forma
Ii0 ∩ T −1 Ii1 ∩ · · · ∩ T −n+1 Iin−1 . Se indichiamo con S(T ) l’insieme degli estremi
n−1 −k
sinistri dei semi-intervalli riarrangiati da T allora S(T n ) = ∪k=0
T S(T ).
Uno scambio d’intervalli T `e una trasformazione semi-continua da destra in ogni
punto x ∈ [0, 1). Pertanto, se x0 `e un punto fisso di T , cio`e T x0 = x0 allora
esister`a un intorno destro di x0 tutto composto da punti fissi di T e dunque tutto
il semi-intervallo Ii che contiene x0 `e costituito da punti fissi. Analogamente
si pu`o ragionare per T n , n 6= 0, i cui punti fissi sono punti periodici per T .
Si hanno quindi le alternative: o T non ha punti periodici, oppure esiste un
intervallo interamente costituito da punti fissi di qualche iterata T n . Uno scambio
d’intervalli che soddisfa la prima alternativa si dice aperiodico. Non `e difficile
verificare che le due condizioni:
• maxi0 ,i1 ,...,in−1 |Ii0 ∩ T −1 Ii1 ∩ · · · ∩ T −n+1 Iin−1 | → 0 quando n → ∞;
k
• l’insieme S ∞ (T ) = ∪∞
e denso in [0, 1);
k=0 T S(T ) `
sono equivalenti all’aperiodicit`a. In aggiunta diremo che (X, T ) `e minimale
se l’orbita O(x) di un punto arbitrario x ∈ X `e densa in X, e che `e unicamente ergodico se la misura di Lebesgue `e la sola misura di probabilit`a T invariante. Sebbene si possano costruire esempi di trasformazioni che scambiano
intervalli con la propriet`a di essere minimali ma non unicamente ergodiche ([CFS],
82
CHAPTER 6. TRASFORMAZIONI LOCALMENTE ISOMETRICHE
p.134), esiste una condizione puramente topologica che garantisce la minimalit`a
e l’ergodicit`a unica [Ke]: se indichiamo con di gli estremi sinistri degli intervalli Ii , ovvero i punti in cui T pu`o avere una dicontinuit`a, allora le orbite O(di ),
i = 1, . . . , r devono formare insiemi infiniti e mutuamente disgiunti. Infine, come
ha mostrato Katok (vedi [CFS]), uno scambio d’intervalli non pu`o essere fortemente mescolante, anche se pu`o esserlo debolmente (vedi ad esempio [FHZ]).
Come accennato in precedenza, gli scambi d’intervalli ergodici (e in particolare
le rotazioni irrazionali) sono esempi di sistemi di rango finito.
6.1
Sistemi di rango finito
Descriveremo ora un metodo per costruire una classe speciale di sistemi dinamici
misurabili, detti sistemi di rango finito, particolarmente versatile per modellizzare
situazioni con caratteristiche spettrali assegnate.
Consideriamo in primo luogo sistemi di rango 1. Una sistema di questo tipo `e
una mappa T che agisce su un intervallo [0, c) ⊂ R+ definita come limite di
una procedura induttiva. Al passo n si ottiene con una mappa Tn definita su un
intervallo [0, cn ), con 1 = c0 ≤ cn ≤ c, sul quale agisce come segue: viene assegnata una partizione di [0, cn ) in semi-intervalli disgiunti I(1, n), · · · , I(1, hn ),
tutti della stessa lunghezza cn /hn e ordinati in modo opportuno, e Tn mappa
I(j, n) su I(j + 1, n) linearmente per 1 ≤ j < hn . Pertanto Tn `e definita
ovunque eccetto che in In,hn e Tn−1 `e definita ovunque eccetto che in In,1 .
Possiamo riguardare questa situazione come una torre di intervalli (con I(1, n) e
I(hn , n) come primo ed ultimo livello, rispettivamente) e Tn come una traslazione
verticale ascendente lungo la torre. In partenza poniamo: h0 = 1 e I(1, 0) =
[0, 1). La costruzione di Tn+1 avviene in due fasi: si seleziona un parametro qn
e si suddivide ciascun I(j, n) in qn sotto-intervalli di ampiezza cn /(hn qn ), come
se ritagliassimo la torre in qn fette
verticali. Selezioniamo poi dei parametri an,i ,
Pqn −1
i = 1, . . . , qn −1, e ritagliamo i=1 an,i nuovi intervalli della stessa lunghezza di
quelli precedenti, ma presi dall’intervallo [cn , cn+1 ). Tale intervallo avr`a dunque
lunghezza
Pqn −1
an,i
cn .
cn+1 − cn = i=1
hn qn
Al passo n + 1 si hanno quindi in totale
qn −1
hn+1 = hn qn +
X
i=1
ai,n
6.1. SISTEMI DI RANGO FINITO
83
intervalli. Evidentemente la condizione c < ∞ implica
∞
X
hn+1 − qn hn
n=0
hn+1
=
∞
X
cn+1 − cn
n=0
cn+1
< ∞.
Poniamo quindi le sottocolonne della torre precedente una sopra l’altra inserendo
an,i nuovi intervalli tra la colonna i-esima e la successiva. Chiaramente Tn+1 = Tn
laddove sono entrambe definite e ogni mappa parziale Tn conserva la misura di
Lebesgue m, cosicch´e la mappa limite T conserva la misura di probabilit`a µ =
m/c ed `e 1 − 1 da [0, c) → (0, c). Omettendo l’orbita {Tn (0)}n≥0 otteniamo una
trasformazione invertibile che conserva la misura µ, caratterizzata dai parametri
qn , n ∈ N, e an,i , n ∈ N, 1 ≤ i ≤ qn − 1, detta appunto sistema di rango 1.
Vediamo due esempi.
Rotazione diadica. Sia X = [0, 1] con la misura di Lebesgue dx. Definiamo
la famiglia di semi-intervalli diadici
1
1
Dn = 1 − n , 1 − n+1 , n = 0, 1, 2, . . .
2
2
Sia T : X → X la mappa di Van der Corput, definita da T (1) = 0 e
T (x) = x − 1 +
1
1
+ n+1 ,
n
2
2
x ∈ Dn .
(6.3)
84
CHAPTER 6. TRASFORMAZIONI LOCALMENTE ISOMETRICHE
1 1
˜ n = n+1
Se poniamo D
, 2n , il grafico di T sul quadrato unitario si ottiene
2
˜ n, n =
tracciando la diagonale con pendenza positiva di ogni quadrato Dn × D
0, 1, 2 . . . Osserviamo che
˜ n,
T (Dn ) = D
∀n ≥ 0,
e dunque T conserva la misura di Lebesgue su tutto [0, 1]. Poniamo Y = {0, 1}N
e sia φ P
: X → Y definita da φ(x) = ω0 ω1 . . . se lo sviluppo diadico di x
∞
k+1
`e x =
(il codice `e invertibile ovunque al di fuori dell’insieme
k=0 ωk /2
numerabile dei razionali diadici, cio`e razionali della forma p · 2−k con p, k ∈ Z).
` chiaro che
E
φ(Dn ) = {ω ∈ Y : ωk = 1, 0 ≤ k < n, ωn = 0}
e
˜ n ) = {ω ∈ Y : ωk = 0, 0 ≤ k < n, ωn = 1}.
φ(D
Q
1
La misura di Lebesgue viene mandata nella misura µ = δ0 +δ
. Infine la mappa
2
−1
R = φT φ agisce su Y come un’addizione di 1000 . . . in base due:
R( |1 .{z
. . 1} 0 ωn+1 ωn+2 . . .) = 0| .{z
. . 0} 1 ωn+1 ωn+2 . . .
n−1
(6.4)
n−1
e R(111 . . .) = 000 . . .. Per questo motivo il sistema dinamico (Y, R, µ) viene
talvolta detto macchina additiva diadica. L’insieme Y con l’addizione in base due
`e un gruppo compatto. Contiene una copia di N con le identificazioni g(1) =
1000 . . ., g(2) = 01000 . . . = g(1) + g(1), etc. Contiene anche una copia di Z
come si vede osservando che 1000 . . . + 111 . . . = 000 . . ., per cui si pu`o definire
g(−1) = 111 . . ., e risulta che gli interi sono densi in Y rispetto alla topologia
usuale. La coppia (Y, +) prende il nome gruppo degli interi diadici e l’azione
` anche chiaro
di R su tale gruppo altro non `e cha la rotazione y → y + 1. E
che (X, T, dx) e (Y, R, µ) sono isomorfi (mod 0) e dunque li tratteremo come
lo stesso sistema, denominato rotazione diadica. Ragionando in modo identico a
quanto fatto per la rotazione ordinaria (vedi Osservazione 1) si mostra che che
(Y, R) `e unicamente ergodico e dunque (Y, R, µ) `e ergodico.
Proposizione 6.1.1 Il sistema (Y, R) `e di rango 1, con qn = 2 e an,i = 0, per
ogni i, n.
6.1. SISTEMI DI RANGO FINITO
85
Dimostrazione. L’azione di R sulle espansioni binarie dei punti di [0, 1] `e data
dalla (6.4). Poniamo I(1, 0) = [0, 1) e I(1, n) = [0, 1/2n ). Allora R manda
I(i, n) := Ri−1 I(1, n) su I(i + 1, n) linearmente per i = 1, . . . , 2n , come `e
facile verificare. Qui hn = 2n . L’ordinamento di tali intervalli non sar`a quello
lessicografico ma quello indotto dalla mappa R: ad es. per n = 3 si ha 000 →
100 → 010 → 110 → 001 → 101 → 011 → 111. Ora, possiamo immaginare
di porre questi 2n intervalli (ordinati come sopra) uno sopra l’altro a formare
una torre e l’azione di R, e ci`o definisce Rn , corrisponde alla scalata livello per
livello di tale torre, fino all’ultimo, dove per`o non `e definita. Al passo n + 1, cio`e
osservando l’azione delle iterate di R su I(1, n + 1), la torre corrispondente si
otterr`a tagliando la torre del passo n-esimo in due fette verticali e ponendo la
met`a destra sopra la met`a sinistra. Tale operazione consente di definire l’azione
di R su una suddivisione pi`u fine dello spazio, e al tendere di n all’∞, consente
di determinarla su tutto lo spazio a disposizione (in questo caso dunque si ha
1 = c0 = cn , ∀n) Proposizione 6.1.2 Il sistema (Y, R) ha spettro discreto. I suoi autovalori sono
tutti i numeri e2πiα con α razionale diadico, cio`e della forma α = p · 2−k , per
k, p ∈ Z.
Dimostrazione. Abbiamo gi`a osservato che Y forma un gruppo compatto con
misura di Haar λ. Se γ `e un carattere di Y allora γ(Ry) = γ(1)γ(y). Pertanto tutti i caratteri sono autofunzioni. Generando questi ultimi un sottospazio
denso in L2 (Y, λ) si ha che gli autovalori sono tutti i γ(1). Dunque dobbiamo
determinare i caratteri di Y . Per quanto visto questi ultimi dovranno essere
anche i caratteri di Z, e dunque γ(n) = e2πinα con α ∈ [0, 1]. D’altra parte
un tale γ si dovr`a estendere in modo
a Y restando un carattere. In
Pk continuo
i
altre parole, se poniamo nk (ω) = i=0 ωi 2 allora dobbiamo trovare tutti gli α
tali che,
ω ∈ {0, 1}N , e2πink (ω)α converga quando k → ∞. Poniamo
P∞per ogni
α = k=0 αk 2−k−1 . Se gli αk sono eventualmente tutti uguali a 1 l’espansione
`e impropria; diversamente, gli αk sono o eventualmente tutti uguali a 0, oppure
per infiniti k si ha αk = 1 e αk+1 = 0. Scegliamo dunque ω tale che ωk = 1 per
k
tutti questi valori di k. In tal caso si ha γ(nk (ω)) = γ(nk−1 (ω)) e2πi2 α e inoltre
2k α = m + 1/2 + 1/8 + · · · con m intero, e dunque 2k α(mod1) appartiene
all’intervallo (1/2, 3/4) e la sequenza γ(nk (ω)) non pu`o convergere. Dunque
deve essere αk = 0 per ogni k abbastanza grande, ovvero α deve essere un
razionale diadico. ` una mappa T definita da qn = 3, an,1 =
´ n. E
Trasformazione di Chaco
86
CHAPTER 6. TRASFORMAZIONI LOCALMENTE ISOMETRICHE
an,3 = 0 e an,2 = 1. Notiamo che ci`o implica cn+1 = cn + 1/3n+1 e dunque
T agisce sull’intervallo [0, 3/2). Vediamo pi`u in dettaglio. Al primo passo suddividiamo l’intervallo [0, 1) in tre semi-intervalli di lunghezza 1/3 e definiamo
T1 come una traslazione del primo semi-intervallo I(1, 1) = [0, 1/3) sul secondo I(2, 1) = [1/3, 2/3), del secondo sul semintervallo I(3, 1) = [1, 4/3) di
uguale lunghezza e coincidente con [c0 , c1 ), e infine di quest’ultimo sul terzo
semi-intervallo con cui era stato suddiviso [0, 1), ovvero I(4, 1) = [2/3, 1). In
tal modo abbiamo h1 = 4. Al passo (n + 1)-esimo tagliamo la torre del passo
n-esimo in tre sottocolonne di uguale larghezza 1/3n+1 e definiamo Tn+1 come
la traslazione che manda l’ultimo livello della prima sottocolonna nel primo della
seconda, l’ultimo livello della seconda in un semi-intervallo di ampiezza 1/3n+1 ,
coincidente con [cn , cn+1 ), e infine quest’ultimo nel primo livello della terza sottocolonna. I livelli inseriti tra la seconda e la terza sottocolonna vengono chiamati
spaziatori. Cos`ı abbiamo hn+1 = 3hn + 1 e dunque hn = (3n+1 − 1)/2.
Non `e difficile mostrare che ([0, 3/2), T ) `e unicamente ergodico e dunque ([0, 3/2), T, µ)
con µ(A) = 2m(A)/3 `e ergodico. Ci`o si pu`o vedere costruendone una rappresentazione simbolica come segue. Definiamo una sequenza di parole
u0 = 0,
u1 = 0010,
u2 = 0010 0010 1 0010 . . .
` chiaro che un ha lunghezza hn . Sia ora u un punto di {0, 1}Z il cui tratto
E
iniziale di lunghezza hn coincide con un per ogni n, e sia Xu la chiusura di
{S n u, n = 0, 1, . . .}, dove S `e la traslazione usuale. Sia poi ν la sola misura di
probabilit`a S-invariante su Xu tale che
ν([un ]) =
2 1
3 3n
dove [un ] indica l’insieme cilindrico di tutti i punti di Xu che hanno un come tratto
` facile rendersi conto allora che possiamo costruire un
iniziale di lunghezza hn . E
isomorfismo tra ([0, 3/2), T, µ) e (Xu , S, ν) assegnando una corrispondenza tra
il cilindro [0] e l’intervallo [0, 1) e tra il cilindro [1] e l’intervallo [1, 3/2).
L’ergodicit`a unica si ottiene applicando il seguente risultato di interesse pi`u generale, la cui dimostrazione lasciamo per esercizio.
Lemma 6.1.3 Il sistema dinamico topologico (Xu , S) `e unicamente ergodico
se e solo se per ogni fattore w (cio`e ogni parola finita osservabile in u), la sua
frequenza di apparizione nel tratto di u compreso tra gli indici k e k + n tende
ad un limite fw per n → ∞ uniformemente in k.
6.1. SISTEMI DI RANGO FINITO
87
Ora, dalla costruzione di u segue facilmente che ogni fattore w di lunghezza
hn+m compare in u o in un+m un+m o in un+m 1un+m e inoltre w contiene un
numero di apparizioni di um compreso tra 3n e 3n − 3. Pertanto la frequenza di
apparizione di um in w `e asintoticamente equivalente a 3n /hn+m → 32 31n quando
n → ∞. Ci`o `e sufficiente per l’ergodicit`a unica (esercizio).
Questo esempio `e il prototipo di una mappa ergodica con spettro continuo, e
dunque debolmente mescolante, che tuttavia non `e fortemente mescolante (vedi
[Fr], [Pe], [Rud]). Per avere un’idea intuitiva di come ci`o accada consideriamo
un esempio ancora pi`u semplice. Sia T una mappa che agisce su una torre L
di largezza 1 e altezza 2, (composta cio`e da tre intervalli I1 , I2 , I3 di lunghezza
unitaria posti uno sopra l’altro con spaziatura unitaria) nel modo seguente: si
suddivide L in tre sottocolonne di uguale larghezza 1/3 e si inserisce un intervallo
aggiuntivo (ancora di larghezza 1/3) sopra l’ultimo livello della sottocolonna centrale. Procedendo da sinistra verso destra poniamo le sottocolonne cos`ı ottenute
una sopra l’altra, in modo da ottenere una nuova torre di larghezza 1/3 ed altezza 9. Facciamo ora agire T come una semplice traslazione verticale lungo la
torre.
Prendiamo un punto x posto nel terzo a sinistra dell’intervallo I2 (o, il che `e lo
stesso, nel secondo livello della nuova torre). Allora T 3 (x) = y si trover`a nel
terzo di mezzo di I2 (o nel quinto livello della nuova torre), e T 4 (y) = z sul terzo
a destra di I2 (o il nono livello della nuova torre). Supponiamo che T abbia un
autovalore λ con autofunzione f . Assumiamo per semplicit`a che f sia uguale ad
una costante c su I2 . Allora c = f (y) = f (T 3 (x)) = λ3 f (x) = λ3 c ed anche
c = f (z) = f (T 4 (y)) = λ4 f (y) = λ4 c. Quindi λ3 c = λ4 c, ossia λ = 1. La
ragione per l’inserimento di un nuovo livello sopra la colonna centrale `e dunque
chiara e la prova dello spettro continuo `e un raffinamento di questo semplice
88
CHAPTER 6. TRASFORMAZIONI LOCALMENTE ISOMETRICHE
argomento.
Proposizione 6.1.4 La trasformazione di Chac´on `e debolmente ma non fortemente mescolante.
Dimostrazione. Dati n e 1 ≤ j < hn , si ha T (I(j, n)) = I(j + 1, n) e, in accordo
con la costruzione vista sopra,
1
µ(I(j, n)).
3
Poniamo A = [0, 1/3). Tale intervallo compare come primo livello nella prima
torre e µ(A) = 2/9. Per ogni n ≥ 1, A `e l’unione disgiunta di insiemi della
forma I(j, n) per qualche 1 ≤ j ≤ hn . Dunque
µ(T hn I(j, n) ∩ I(j, n)) ≥ µ(I(j, n + 1)) =
µ(T hn A ∩ A) ≥
1
µ(A) > (µ(A))2
3
cio`e T non `e fortemente mescolante.
Per mostrare che T ha spettro continuo, supponiamo che esista f e λ tali che
U f = λf . Ma U `e un’isometria su L2 (µ) e dunque |λ| = 1 e |U f | = |f |;
pertanto |f | `e invariante per T . Essendo poi T ergodica |f | deve essere costante,
che possiamo assumere uguale a 1. Cos`ı si ha λ = eiθ0 e f (x) = eiφ(x) , con
φ(x) misurabile. Per il teorema di Lusin esiste un insieme chiuso U di misura
arbitrariamente vicina a 1 tale che φ `e uniformemente continua su U . Perci`o,
dato η > 0 esiste δ > 0 t.c. x, y ∈ U e |x − y| < δ implicano |φ(x) − φ(y)| < η.
Scegliamo un punto p ∈ U che sia un punto di densit`a per U 3 . Sia > 0.
Possiamo scegliere n cos`ı grande che 1/3n < δ e vi sar`a un intervallo I(j, n) con
p ∈ I(j, n) e µ(I(j, n) ∩ U ) > (1 − )µ(U ). Se `e abbastanza piccolo, devono
esistere x, y, z ∈ I(j, n) ∩ U , che si comportano come nell’esempio semplificato
discusso sopra. Si ha quindi
eiφ(y) = f (y) = ei3θ0 eiφ(x)
eiφ(z) = f (z) = ei4θ0 eiφ(y)
3
Un punto p ∈ R si dice di densit`a per U ⊆ R se
lim inf
y&x
∗
m∗ (U ∩ (x, y))
m∗ (U ∩ (x, y))
= lim inf
= 1,
y%x
y−x
x−y
dove m (A) indica la misura esterna di Lebesgue di A, cio`e la funzione m∗ definita su tutti
∗
i sottoinsiemi di R, con le propriet`a: (i) m∗ (A) ∈ [0, ∞]
Pper ∗ogni A ⊆ R; (ii) m (∅) = 0;
∗
∗
∗
(iii) A ⊂ B implica m (A) ≤ m (B); (iv) m (∪i Ci ) ≤ i m (Ci ). Il teorema di densit`a di
Lebesgue afferma che quasi ogni punto di una arbitrario insieme U ⊆ R `e un punto di densit`a
per U .
6.2. MOTO IN UN BILIARDO TRIANGOLARE
89
e dunque
φ(y) = 3θ0 + φ(x)
φ(z) = 4θ0 + φ(y)
Ora, essendo |x − y| < δ e |z − y| < δ, prendendo la differenza delle due
ultime uguaglianze otteniamo |θ0 + φ(y) − φ(x)| = |φ(z) − φ(y)| < η, ovvero
|θ0 | < η + |φ(y) − φ(x)| < 2η. Dall’arbitrariet`a di η deduciamo θ0 = 0, e per
l’ergodicit`a di T solo le funzioni costanti possono avere autovalore 1. Rango superiore a uno. Se, ad ogni passo n di approssimazione, invece di
una sola torre se ne hanno due, tre o r, allora diremo che il sistema ha rango r.
Un esempio importante `e fornito dagli scambi d’intervalli ergodici. In tal caso `e
stato dimostrato in [Rau] che `e possibile costruire una sequenza telescopica di
Dn di intervalli la cui lunghezza tende a zero, su ciascuno dei quali la mappa
indotta `e ancora uno scambio di r intervalli. Se D `e uno di questi intervalli,
esso potr`a allora essere decomposto in r sottointervalli Ik sui quali il tempo di
ritorno `e una costante hk . Pertanto gli intervalli T i Ik , 1 ≤ k ≤ r, 0 ≤ i < hk ,
formano r torri che riempiono tutto la spazio a disposizione. Questo argomento
applicato ad ogni Dn d`a una sequenza di r torri, tali che ogni livello al passo
n + 1 `e l’unione di livelli delle torri al passo n. Ci`o conduce al seguente risultato,
Teorema 6.1.5 ([Fer]) Uno scambio di r intervalli ergodico ha rango al pi`u r
(senza spaziatori).
Altri esempi interessanti di sistemi con rango finito superiore ad uno provengono
dalle sostituzioni (vedi [Py]).
6.2
Moto in un biliardo triangolare
Un biliardo piano `e un particolare sistema dinamico in cui si considera moto
di una palla con velocit`a unitaria in un dominio ∆ ⊂ R2 che rimbalza elasticamente sul bordo ∂∆. Lo spazio delle fasi M = M (∆) consiste nell’insieme
dei vettori unitari con piede in ∆ ed orientati verso l’interno di ∆. Si tratta
dunque di un particolare sistema hamiltoniano, in cui la funzione H `e data unicamente dall’energia cinetica. Osserviamo che la velocit`a della palla `e continua
dappertutto eccetto che in ∂∆ dove cambia direzione in modo discontinuo.
Invece di studiare il moto in ogni istante di tempo risulta spesso conveniente
ridursi ad una mappa discreta costruendo una sezione di Poincar`e opportuna. A
90
CHAPTER 6. TRASFORMAZIONI LOCALMENTE ISOMETRICHE
questo scopo consideriamo il sottoinsieme Ω ⊂ M dei vettori con piede su ∂∆
parametrizzato dalle coordinate 0 ≤ ξ ≤ L e −π/2 ≤ θ ≤ π/2, dove L = |∂∆|
`e la lunghezza del bordo. Il vettore unitario (ξ, θ) ha piede in ξ ∈ ∂∆ e forma un
angolo θ con la normale interna a ∂∆. La coordinata θ `e ben definita ovunque
con l’eccezione dei punti ξi in cui il bordo ha uno spigolo. Al di fuori di quesi
punti l’insieme Ω `e isomorfo al cilindro [0, L) × [−π/2, π/2] dal quale si siano
tolti gli intervalli ξi × [−π/2, π/2].
La mappa di Poincar`e-Birkhoff T : Ω → Ω `e allora definita come segue. Dati
(ξ, θ) ∈ Ω lanciamo la palla dalla posizione ξ con direzione θ e la lasciamo correre
fino a che non rimbalza su ∂∆ nel punto (ξ 0 , θ0 ) = T (ξ, θ). La mappa T lascia
invariante la misura cos θ dξ dθ, come `e facile verificare. Osserviamo che
Z L Z π/2
Vol(Ω) =
dx
cos θdθ = 2L
(6.5)
0
−π/2
e dunque possiamo ottenere una misura di probabilit`a T -invariante ponendo
µ(E) = Vol(E)/2L per ogni sottoinsieme misurabile E ⊂ Ω. Osserviamo inoltre
che laddove `e continua T `e anche invertibile e T −1 `e data da
T −1 (ξ, θ) = R ◦ T ◦ R (ξ, θ) con R(ξ, θ) = (ξ, −θ).
(6.6)
Vediamo ora un esempio particolare in cui il dominio ∆ ⊂ R2 in cui avviene il
moto `e un triangolo rettangolo.
Siano α e β i due angoli diversi da π/2. Assumiamo che π/2 > α ≥ β > 0
e supponiamo per semplicit`a che l’ipotenusa (indicata con `0 ) abbia lunghezza
unitaria. In questo modo, il triangolo risulta specificato da un solo parametro, ad
esempio l’angolo α. Le lunghezze dei tre lati sono |`0 | = 1, |`1 | = sin α e |`2 | =
cos α rispettivamente, e dunque L ≡ |∂∆| = |`0 | + |`1 | + |`2 | = 1 + sin α + cos α.
Poniamo l’ipotenusa sull’asse x in modo che i due vertici corrispondenti agli angoli
α e β si trovino in (0, 0) e (1, 0) rispettivamente, mentre il vertice retto si trova
in (cos2 α, cos α sin α).
6.2. MOTO IN UN BILIARDO TRIANGOLARE
91
Il dominio ∆ sar`a dunque definito da:
∆ = {(x, y) ∈ R2 : (0 < x ≤ cos2 α, y ≤ x tan α)∪(cos2 α < x < 1, y ≤ (1−x) cot α)}
Vediamo subito che la coordinata θ (cio`e l’angolo formato dal vettore con piede
in ξ ∈ `i con la normale interna a `i per qualche i = 0, 1, 2) non `e definita nei
tre punti ξ0 = 0, ξ1 = 1 e ξ2 = 1 + sin α (in questi punti θ pu`o essere misurato
rispetto a due diverse normali). L’insieme Ω pu`o essere dunque rappresentato
come il cilindro della figura seguente.
Lo spazio delle fasi ridotto Ω
Per la costruzione della mappa di Poincar`e-Birkhoff T : Ω → Ω, vale osservare
che in questo caso una volta fissato un lato `i = [ξi , ξi+1 ], i punti (ξ, θ), ξ ∈ `i ,
tali che la palla colpisce il vertice opposto ξi+2 (con ξi+2 ≡ ξi−1 per i = 1, 2)
formano una curva in Ω su cui T non `e continua. Ogni rettangolo di Ω `e
cos`ı suddiviso da tali curve in domini di continuit`a di T . D’altra parte, invece
di studiare la mappa T pu`o risultare conveniente introdurre la mappa indotta
sull’ipotenusa `0 , definita come segue. Sia Ω0 ⊂ Ω il sottoinsieme dei vettori con
piede su `0 parametrizzato dalle coordinate (x, θ) dove 0 ≤ x ≤ 1 `e la restrizione
di ξ a `0 e θ `e come sopra. La funzione tempo di ritorno R : Ω0 → N data da
R(x, θ) = inf{n > 0 : T n (x, θ) ∈ Ω0 }
(6.7)
92
CHAPTER 6. TRASFORMAZIONI LOCALMENTE ISOMETRICHE
`e ben definita per 0 < x < 1 e −π/2 < θ < π/2, e semplici considerazioni
geometriche portano a concludere che pu`o assumere soltanto due valori: R = 2
e R = 3. Definiamo quindi la mappa indotta T0 : Ω0 → Ω0 come la mappa
T0 (x, θ) = T R(x,θ) (x, θ) per (x, θ) ∈ Ω0 . T0 lascia invariante la misura di probabilit`a condizionata µ0 data da:
µ0 (E) =
µ(Ω0 ∩ E)
µ(Ω0 ∩ E)
=
µ(Ω0 )
2
(6.8)
dove dµ = (2L)−1 cos θ dξ dθ. Procediamo ora al calcolo esplicito di T0 . Calcoliamo innazitutto le curve lungo le quali T0 `e discontinua. Dato 0 < x < 1
queste ultime sono determinate dalle tre situazioni illustrate in figura
Orbite singolari che partono in x
Lemma 6.2.1 Per −π/2 < θ < π/2 poniamo f (θ) = 2 cos2 α − sin 2α tan θ.
Al variare di x su [0, 1], le orbite singolari indicate con a, b e c in Figura 3
descrivono tre curve analitiche in Ω0 le cui equazioni sono x = f (θ), x = f (θ)/2
e x = f (θ) − 1, rispettivamente.
Dimostrazione. Consideriamo ad esempio la curva corrispondente alla situazione
a in figura
6.2. MOTO IN UN BILIARDO TRIANGOLARE
93
Orbite singolari che partono in x
Applicando ripetutamente il teorema dei seni si ottiene
r
1−x
=
sin β
sin γ
e
r
x
=
·
sin δ
sin 2γ
(6.9)
Eliminando r, e usando le relazioni β = π/2−α, δ = π/2+θ−2β = θ+2α−π/2
e γ = π/2 + θ − β = δ + β = θ + α, otteniamo
x =
1+
=
1+
=
1+
sin δ sin γ
sin β sin 2γ
−1
sin δ
2 sin β cos γ
−1
−1
sin γ cos β − sin β cos γ
2 sin β cos γ
−1
= 2 1 + tan(θ + α) tan α
−1
tan θ + tan α
= 2 1−
= f (θ).
tan θ − cot α
Le altre formule si ottengono in modo analogo. Lo spazio√delle fasi indotto Ω0 con le curve singolari corrispondenti alla scelta
α = π/ 10 `e mostrato in Figura 5. Le situazioni a, b e c di Fig. 3 sono
rappresentate dalle tre curve visibili qui sotto quando si proceda da destra verso
sinistra.
94
CHAPTER 6. TRASFORMAZIONI LOCALMENTE ISOMETRICHE
Curve singolari in Ω0
Notiamo che con il cambiamento di coordinate (x, θ) → (x, u) con u = tan θ
si trova f (u) = 2 cos2 α − u sin 2α. Pertanto T0 diviene proiettiva a tratti e le
curve singolari divengono delle rette. Una porzione finita dello spazio delle fasi
proiettivo `e riportata in figura.
Curve singolari rettificate
Le curve singolari determinano una partizione di Ω0 in quattro regioni. Procedendo da sinistra verso destra in Fig. 5 (o Fig. 6) denotiamo tali regioni Di
6.2. MOTO IN UN BILIARDO TRIANGOLARE
95
con i = 1, 2, 3, 4. In particolare si ha R|Di = 2 per i = 1, 4 e R|Di = 3 per
i = 2, 3. Possiamo ad esempio etichettare queste regioni per mezzo della sequenza simbolica ottenuta dagli indici dei lati su cui la palla rimbalza partendo
da (x, θ) ∈ Di ed iterando la mappa di Poincar`e-Birkhoff R(x, θ) volte. Cos`ı, si
hanno le corrispondenze: D1 ↔ 010, D2 ↔ 0210, D3 ↔ 0120 e D4 ↔ 020.
Un calcolo diretto lungo le stesse linee di quello che ha portato al lemma precedente d`a il seguente risultato.
Lemma 6.2.2 La mappa T0 `e analitica a tratti ed `e data da
x
, θ + 2α ,
(x, θ) ∈ D1 ,
T0 (x, θ) =
f (θ) − 1
T0 (x, θ) = (f (θ) − x, − θ) ,
(x, θ) ∈ D2 ∪ D3 ,
x − f (θ)
, θ + 2α − π ,
(x, θ) ∈ D4 ,
T0 (x, θ) =
1 − f (θ)
con f (θ) definita nel Lemma 6.2.1.
La difficolt`a principale nello studio del sistema dinamico (Ω0 , T0 , µ0 ) consiste nella
presenza delle curve singolari. Nel caso in cui α/π sia razionale (e dunque anche
β/π) si vede facilmente che (Ω0 , T0 , µ0 ) non `e ergodico (vedi [Gu]). La caratterizzazione delle propriet`a di (Ω0 , T0 , µ0 ) (ergodicit`a, ergodicit`a unica, mescolamento
debole, etc.) quando α/π `e irrazionale costituisce a tutt’oggi un interessante
problema aperto.
96
CHAPTER 6. TRASFORMAZIONI LOCALMENTE ISOMETRICHE
Bibliography
[Aa]
J Aaronson, An Introduction to Infinite Ergodic Theory, Math.
surveys and monographs 50, AMS, Providence RI, 1997.
[AA]
V I Arnold, A Avez, Ergodic Problems of Classical Mechanics, Math. Phys. Monograph Series, W A Benjamin, Inc., New York,
Amsterdam, 1968.
[AB]
`, Three distances theorem and combinaP Alessandri, V Berthe
torics on words, L’Enseignement Math´ematique, t.44 (1998), 103-132.
[Bi1]
P Billingsley, Ergodic Theory and Information, Wiley 1965.
[Bi2]
P Billingsley, Probability and Measure, Wiley 1995.
[Bor]
E Borel, Les probabilit´es d´enombrables et leurs applications
atihm´etiques, Supplemento rend. circ. mat. Palermo 27 (1909), 247271 , Bull. AMS 55 (1949), 201-204.
[Bo]
R Bowen, Equilibrium States and the Ergodic Theory of Anosov
Diffeomorphisms, Lecture Notes in Math. 479, Springer-Verlag 1975.
[CI]
M Campanino, S Isola, Infinite invariant measures for nonuniformly expanding trasformations of [0, 1]: weak law of large numbers with anomalous scaling, Forum Mathem. 8 (1996), 71-92.
[Co]
P Collet, Some ergodic properties of maps of the interval, in Dynamical Systems, proceedings of the first UNESCO CIMPA school
of Dynamics and disordered systems (Temuco, Chile, 1991), Herman
(1996).
[CoRa]
J-P Conze, A Raugi, Martingales, chaˆines de Markov, syst`emes
dynamiques, Lecture notes, Universit´e de Rennes I.
97
98
BIBLIOGRAPHY
[CFS]
I P Cornfeld, S V Fomin and Ya G Sinai, Ergodic Theory,
Springer Verlag, 1982.
[DS]
N Dunford and J T Schwartz, Linear Operators, Part I: General
Theory, John Wiley & Sons (1988).
[EE]
P Ehrenfest, T Ehrenfest, The conceptual foundations of the
statistical approach in Mechanics, Dover Publ., Inc., New York 1990.
[EFP]
¨ s, W Feller, H Pollard, A property of power series
P Erdo
with positive coefficients, Bull. AMS 55 (1949), 201-204.
[Fe]
W Feller, Fluctuation theory of recurrent events, TAMS 67 (1949),
99-119.
[Fer]
S Ferenczi, Systems of finite rank, Colloquium Mathematicum 73
(1997), 35-65.
[FHZ]
S Ferenczi, C Holton, L Zamboni, Structure of three-interval
exchange transformations III: ergodic and spectral properties, Ann.
Inst. Fourier (Grenoble) 51 (2001), 861-901.
[Fr]
N A Friedman, Replication and Stacking in Ergodic Theory, Amer.
Math. Monthly 99 (1992), pp. 31-41.
[Eg]
H G Eggleston, The fractional dimension of a set defined by
decimal properties, Quart. J. Math. 20, 31-36, 1949.
[Gal]
G Gallavotti, Aspetti della teoria ergodica, qualitativa e statistica
del moto, Quaderni dell’UMI 21, Pitagora Editrice, Bologna, 1981.
[Gar]
A M Garsia, Topics in Almost Everywhere Convergence, Markam
Pub. Co., Chicago, 1970.
[Gu]
E Gutkin, Billiards in polygons, Physica 19D (1986), 311-333.
[Hal]
P Halmos, Lectures on ergodic theory, Chelsea 1956.
[Is1]
S Isola, Renewal sequences and intermittency, J. Stat. Phys. 97
(1999), 263-280.
[Is2]
S Isola, From infinite ergodic theory to number theory (and possibly
back), Chaos, Solitons & Fractals 44 (2011), 467-479.
BIBLIOGRAPHY
99
[Is3]
S Isola, On the rate of convergence to equilibrium for countable
ergodic Markov chains, Markov Processes Relat. Fields 9 (2003), 487512.
[Kac]
M Kac, On the notion of recurrence in discrete stochastic processes,
Bull. AMS 53 (1947), 1002-1010.
[Kak]
S Kakutani, Examples of ergodic measure preserving transformations which are weakly mixing but not strongly mixing, Springer LNM
318 (1973), 143-149.
[Ke]
M S Keane, Interval exchange transformations, Math. Zeitsch. 141
(1975), 25-31.
[Kh1]
A Khinchine, Mathematical Foundation of Statistical Mechanics,
Dover Publ., New York, 1949.
[Kh2]
A Khinchine, Continued Fractions, University of Chicago Press,
1964.
[Ki]
J F C Kingman, Regenerative phenomena, John Wiley, 1972.
[Kn]
O Knill, Singular continuous spectrum in ergodic theory, Preprint
1995.
[Ko]
A N Kolmogorov, A new metric invariant of transitive systems and
automorphisms of Lebesgue spaces, Dokl. Akad. Nauk. 119 (1958),
861-864 (Math. Review 21 No. 2035a)
[Kr]
W Krieger, On entropy and generators of measure-preserving transformations, TAMS 149 (1970) 453-464.
[Ma]
M Mathieu, On the origin of the notion ‘Ergodic Theory’, Expo.
Math. 6 (1988) 373-377.
[Pe]
K Petersen, Ergodic Theory, Cambridge University Press, 1983.
[Py]
N Pytheas Fogg, Substitutions in Dynamics, Arithmetics and
Combinatorics, Lecture Notes in Math. 1794, Springer, 2002.
[Q]
´lec, Substitution Dynamical Systems - Spectral Analysis,
M Queffe
Lecture Notes in Math. 1294, Springer, 1987.
100
BIBLIOGRAPHY
[Rau]
G Rauzy, Echanges d’intervalles et transformations induites, Acta
Arith. 34 (1979), 315-328.
[Re]
A Renyi, Representation of real numbers and their ergodic properties, Acta Math. Akad. Sc. Hungar. 8 (1957), 477-493.
[Rud]
D J Rudolph, Fundamentals of Measurable Dynamics, Clarendon
Press - Oxford, 1990.
[Se]
B A Sevast’yanov, Renewal theory, J. Soviet Math. 4 (1975), n.3.
[Si]
Ya Sinai, On the concept of entropy of a dynamical system, Dokl.
Akad. Nauk. 147 (1959), 768-771 (Math. Review 21 No. 2036a)
[Ste]
V V Stepanov, Sur une extension du th`eoreme ergodique, Compositio Math. 3 (1936), 239-253.
[Ta]
S Tabachnikov, Billiards, Panoramas et Synth´eses, Soc. Math. Fr.,
N. 1, 1995