Algoritmi Avanzati

` di
Alma Mater Studiorum · Universita
Bologna
` DI SCIENZE MATEMATICHE, FISICHE E NATURALI
FACOLTA
Corso di Laurea Magistrale in Informatica
Algoritmi Avanzati
Jacopo Baldassarri
Anno Accademico 2011/2012
Indice
Introduzione
ii
0.1
Memoria Comune . . . . . . . . . . . . . . . . . . . . . . . . .
ii
0.2
Memoria Locale . . . . . . . . . . . . . . . . . . . . . . . . . .
iii
0.3
Master Theorem
iv
. . . . . . . . . . . . . . . . . . . . . . . . .
1 Algoritmi PRAM
1
1.1
Sommatoria . . . . . . . . . . . . . . . . . . . . . . . . . . . .
3
1.2
Somme Prefisse . . . . . . . . . . . . . . . . . . . . . . . . . .
5
1.3
Ordinamento . . . . . . . . . . . . . . . . . . . . . . . . . . .
7
1.4
Elaborazione di Puntatori . . . . . . . . . . . . . . . . . . . .
8
1.5
Valutazione di Polinomi . . . . . . . . . . . . . . . . . . . . . 11
1.6
Punto Interno ad un Poligono . . . . . . . . . . . . . . . . . . 11
1.7
AND di valori . . . . . . . . . . . . . . . . . . . . . . . . . . . 12
1.8
La Tesi della Computazione Parallela . . . . . . . . . . . . . . 13
2 Algoritmi per Reti a Grado Limitato
2.1
2.2
15
Reti di interconnessione . . . . . . . . . . . . . . . . . . . . . 16
2.1.1
Mesh . . . . . . . . . . . . . . . . . . . . . . . . . . . . 16
2.1.2
Shuffle . . . . . . . . . . . . . . . . . . . . . . . . . . . 16
2.1.3
Butterfly . . . . . . . . . . . . . . . . . . . . . . . . . . 17
2.1.4
Ipercubo . . . . . . . . . . . . . . . . . . . . . . . . . . 18
Sommatoria . . . . . . . . . . . . . . . . . . . . . . . . . . . . 19
2.2.1
Ipercubo . . . . . . . . . . . . . . . . . . . . . . . . . . 19
2.2.2
Shuffle . . . . . . . . . . . . . . . . . . . . . . . . . . . 20
1
INDICE
2.2.3
i
Mesh . . . . . . . . . . . . . . . . . . . . . . . . . . . . 21
2.3
Mergesort Bitonico . . . . . . . . . . . . . . . . . . . . . . . . 23
2.4
Moltiplicazione di matrici . . . . . . . . . . . . . . . . . . . . 26
2.5
2.4.1
Mesh . . . . . . . . . . . . . . . . . . . . . . . . . . . . 26
2.4.2
Ipercubo . . . . . . . . . . . . . . . . . . . . . . . . . . 28
Trasformata di Fourier . . . . . . . . . . . . . . . . . . . . . . 31
Bibliografia
33
Introduzione
Parleremo di algoritmi paralleli che possono essere distindi in diverse
categoria, come spiegato in figura.
Figura 1: Algoritmi Paralleli
0.1
Memoria Comune
In questo tipo di architettura abbiamo dei problemi di accesso (concorrenza).
In presenza di processori sincroni abbiamo un ”ente globale” che coordina
tutti i processori, può essere vista come una macchina di Von Neumann
parallela. Il modello PRAM è un modello teorico perchè al livello attuale
ii
INTRODUZIONE
iii
Figura 2: Memoria Comune
della tecnologia non è realizzabile in concreto in modo efficiente. Ci serve
per capire se un problema è inerentemente sequenziale e quindi non abbiamo grossi vantaggi in parallelo. In presenza del modello CONCORRENTE,
avremo bisogno di primitive di sincronizzazione per evitare l’inconsistenza
dei dati.
0.2
Memoria Locale
Nella memoria di un processore può scrivere solo il suo processore, ma
possono leggere anche altri processori, con una organizzazione ad albero.
INTRODUZIONE
iv
Figura 3: Memoria Locale
Figura 4: Albero
0.3
Master Theorem
T (n) = aT (n/b) + cnβ
β≥0
In cui abbiamo che:
n è la dimensione del problema
a è il numero di chiamate ricorsive
b è il numero di parti in cui si divide il problema
a≥1
b≥2
INTRODUZIONE
v
nβ rappresenta il tempo per dividere in sotto problemi e per poi ricom-
porlo
A questo punto confrontiamo α e β per capire la complessità del nostro
problema:
α=
Se abbiamo che:
α > β soluzione O(nα )
α = β soluzione O(nα log n)
β > α soluzione O(nβ )
log a
log b
Capitolo 1
Algoritmi PRAM
Vogliamo calcolare la sommatori di n numeri a1 , a2 , ..., an contenuti in un
vettore a[1...n]:
function SOMMATORIA (a[1. . .n], n): integer
var i, b: integer;
begin
b := a[1];
for i := 1 to n do
b := b + a[i];
return b;
end;
La computazione avviene nel modo seguete:
((...((a[1] + a[2]) + a[3]) + ...) + a[n − 1]) + a[n]
però sappiamo che per la proprietà associativa della somma potrebbe anche
procedere in modo diverso, assumendo n pari:
(a[1] + a[2]) + (a[3] + a[4]) + ... + (a[n − 1] + a[n])
Se avessimo n/2 processori, potremmo eseguire simultaneamente ciascuna
somma a[i] + a[i + 1], per ogni i dispari, potrebbe essere eseguita in tempo
costante contemporaneamente alle altre. Iterando quindi il procedimento e
1
2
dimezzando sempre pi`
u la dimensione del problema, potremmo calcolare la
sommatoria in un tempo totale O(log n) che sarebbe un netto miglioramento
rispetto al tempo O(n) che è necessario per calcolare la stessa somma della
funzione sopra citata.
Il modello pi`
u semplice di computazione parallela è detto PRAM (”Parallel
Random Access Machine”) in cui abbiamo pi`
u processori sincroni, cioè che
condividono lo stesso ciclo di clock e una memoria globale condivisa fra tutti
i processori. Il modello ha le seguenti caratteristiche principali:
Ogni processore esegue la stessa istruzione ma su dati diversi.
Possiamo far lavorare un sottoinsieme di processori mentre alcuni restano
inattivi.
Ogni processore attivo è sincronizzato, l’istruzione successiva non può
iniziare finchè tutti non hanno concluso l’istruzione corrente.
La memoria è utilizzata dai processori per scambiarsi dati in O(1)
tempo.
Utilizzeremo il seguente costrutto per esprimere l’esecuzione in parallelo di
istruzioni:
for all i where inf ≤ i ≤ sup do in parallel operazionei
si esegue contemporaneamente operazionei per ogni i compreso fra i due estremi inf e sup. Esistono diverse varianti del modello PRAM, in base alla
possibilità, da parte dei processori, di leggere/scrivere la memoria contemporaneamente:
EREW (”Exclusive Read Exclusive Write”) non è consentito ne la
scrittura ne la lettura contemporanea.
CREW (”Concurrent Read Exclusive Write”) è possibile leggere con-
temporaneamente ma non scrivere.
CRCW (”Concurrent Read Concurrent Write”) è possibile sia leggere
che scrivere contemporaneamente.
1.1 Sommatoria
1.1
3
Sommatoria
Vogliamo quindi calcolare la sommatoria utilizzando un algoritmo parallelo; assumiamo per semplicità che la dimensione dell’input n sia una potenza
di 2 (è comunque sempre possibile renderlo tale, aggiungendo degli 0 all’input) e che i numeri siano elencati an , an+1 , ..., a2n−1 . Possiamo immaginarci
che ogni numero ai sia memorizzato in una foglia di un albero binario completo di 2n − 1 nodi, indicizzati come uno heap, in cui la radice ha indice 1 e i
figli di un nodo i hanno rispettivamente indice 2i per il figlio sinistro e 2i + 1
per il figlio destro. Partendo dal penultimo livello a salire, considerando tutti
i nodi di uno stesso livello, possiamo calcolare in ai la somma dei suoi figli
a2i e a2i+1 che corrisponde alla sommatoria dei numeri che si trovano nelle
foglie del sotto albero radicato nel nodo i, per 1 ≤ i ≤ n − 1.Abbiamo quindi
la nostra funzione che diventa nel modo seguente:
Figura 1.1: Albero Sommatoria
1.1 Sommatoria
4
function SOMMATORIA (a[n..2n − 1], n): integer
begin
for k := logn − 1 downto 0 do
for all i where 2k ≤ i ≤ 2k+1 − 1 do in parallel
a[i] := a[2i] + a[2i + 1];
SOMMATORIA:=a[1]
end;
Possiamo vedere che il for esterno viene ripetuto O(log n) volte, mentre il for
all interno richiede tempo O(1), abbiamo quindi una complessità della funzione SOMMATORIA pari a O(log n) con un numero di processori utilizzati
pari a O(n). Possiamo a questo punto però notare che ogni algoritmo parallelo, impiega un ammontare di lavoro L, che rappresenta il tempo richiesto se
lo stesso algoritmo fosse eseguito in maniera sequenziale usando un singolo
processore, dato dal prodotto di P (numero di processori) per T (tempo).
Nel caso dell’algoritmo sopra, il nostro lavoro è quindi O(n log n) che è peggiore di quello del migliore algoritmo sequenziale che è O(n). Dobbiamo
quindi modificare il nostro algoritmo parallelo in modo da avere un lavoro
pari almeno a O(n). Possiamo ridurre il numero di processori dividendo il
nostro input in O(n/ log n) parti di dimensione O(log n) elementi e facendo
sommare ad ogni processore in modo sequenziale i numeri di ogni parte. In
questo modo il nostro problema originario è stato ridotto in tempo O(log n)
ed usando O(n/ log n) processori ad un problema pi`
u piccolo di dimensione
O(n/ log n). Al problema cos`ı modificato possiamo quindi applicare la funzione SOMMATORIA che a questo punto richiede O(log(n/ log n)) tempo
usando O(n/ log n) processori, ottenendo un lavoro ottimo pari a O(n). Gli
elementi da sommare sono indicati con an , an+1 , ..., a2n−1 . Viene eseguita
una prima fase dove ogni processore somma sequenzialmente gli elementi di
un gruppo di log n elementi. Poi viene fatta la sommatoria parallela degli
n/ log n elementi che contengono i risultati della prima fase. Si usa un vettore
a[1...2n − 1] dove gli elementi da sommare sono memorizzati in a[n...2n − 1]
1.2 Somme Prefisse
5
Figura 1.2: Sommatoria Ottima
ed il risultato in a[1]. Ottenendo cos`ı un lavoro ottimo pari a O(n).
procedure SOMMATORIA (a[n..2n − 1], n): integer
begin
for all j where 1 ≤ j ≤ n/ log n do in parallel begin
a[n/ log n + j − 1] := a[n + (j − 1) log n];
for i := 1 to log n − 1 do
a[n/ log n + j − 1] := a[n/ log n + j − 1] + a[n + (j − 1) log n + i];
end;
for k := log(n/ log n) − 1 downto 0 do
for all j where 2k ≤ j ≤ 2k+1 − 1do in parallel
a[j] := a[2j] + a[2j + 1];
end;
1.2
Somme Prefisse
Prendiamo ora in considerazione un problema simile al precedente della
sommatoria di n numeri. Dati n numeri interi a1 , a2 , ..., an calcolare tutte
Pi
per i = 1, 2, ..., n. Utilizzeremo come in
le somme parziali bi =
j=1 aj
precedenza un input che possiamo sempre considerare di dimensioni potenza
di due e che i numeri siano indicati con an , an+1 , ..., a2n−1 sempre memorizzati
nelle foglie di un albero binario completo di 2n − 1 nodi realizzato con un
vettore a[2n − 1]. Viene prima fatta una fase ascendente in cui si esegue la
stessa computazione della funzione SOMMATORIA, mettendo il risultato in
b1 . Poi viene fatta una fase discendente in cui si calcola il valore bi di ogni
1.2 Somme Prefisse
6
altro nodo nel seguente modo: il bi di un figlio destro è uguale a quello del
padre, mentre il bi di un figlio sinistro è uguale a quello del padre meno il
valore ai+1 del fratello per 2 ≤ i ≤ 2n − 1. Otterremo in questo modo che
il valore bi di un nodo sarà sempre uguale alla somma degli aj dei nodi che
sono allo stesso livello di bi e che hanno come indice j minore o uguale ad i.
Quindi bn+1 = an + an+1 + ... + an+i come volevamo ottenere.
Figura 1.3: Albero Somme Prefisse
procedure SOMMEPREFISSE(a[n...2n − 1], b[n...2n − 1]): integer
begin
b[1] := SOM M AT ORIA(a[n...2n − 1], n);
for k := 1 to log n do
for all i where 2k ≤ i ≤ 2k+1 − 1 do in parallel
if odd(i)
then b[i] := b[(j − 1)/2]
else b[i] := b[i/2] − a[i + 1];
end;
Possiamo vedere che la complessità della procedura è O(log n) e vengono utilizzati O(n) processori che possono però essere ridotti ad O(n/ log n) usando
il metodo visto in precedenza per la sommatoria, ottenendo cos`ı un lavoro
ottimo pari a O(n).
1.3 Ordinamento
1.3
7
Ordinamento
Veniamo quindi ad uno dei pi`
u classici dei problemi, il problema dell’ordinamento di n numeri distinti a1 , a2 , ..., an . Possiamo progettare un algoritmo
detto ”torneo” per risolvere il problema. Confrontiamo ogni numero ai con
tutti gli altri numeri e andiamo a contare quante volte esso risulta essere
”perdente” (minore o uguale ai incluso) oppure ”vincente” (maggiore). Il
numero di volte che l’elemento risulta essere perdente ci dice in che posizione
deve stare.
procedure TORNEO(a[1...n], n): integer
begin
for all i, j where 1 ≤ i, j ≤ n do in parallel
if a[i] ≤ a[j] then V [i, j] := 1 else v[i, j] := 0;
for all j where 1 ≤ j ≤ n do in parallel
P [j] := SOM M AT ORIA(j − esima colonna di V, n);
for all j where 1 ≤ j ≤ n do in parallel
a[P [j]] := a[j];
end;
La procedura ha complessità O(log n) utilizzando però n2 processori in un
modello CREW. Se volessimo utilizzare un modello EREW dovremmo evitare
che si verifichino conflitti in lettura sulla stessa cella di memoria, il generico
elemento a[i], per ciascun 1 ≤ i ≤ n, è coinvolto in n istruzioni diverse di
confronto allo stesso momento dentro al primo for dove viene confrontato
con a[j], lo stesso tipo di problema ovviamente si verifica anche per a[j]
stesso. Possiamo risolvere il problema facendo n copie di ciascun a[i] ed n
copie di ciascun a[j] in tempo O(log n), in modo che gli n2 processori possano
accedere in lettura in tempo O(1) ad un unica coppia di valori a[i] e a[j].
Possiamo quindi vedere una procedura che risolve questo problema, effettua
n copie di un dato d mettendole negli n elementi di un vettore copia[1...n]:
1.4 Elaborazione di Puntatori
8
procedure REPLICA(copia[1...n], d, n):integer
begin
copia[1] := d;
for k := 0 to log n − 1 do
for all i where 1 ≤ i ≤ 2k do in parallel
copia[i + 2k ] := copia[i];
end;
La procedura REPLICA richiede tempo O(log n) ed O(n) processori. Possiamo quindi richiamarla in parallelo 2n volte ed effettuare n copie di ciascun
a[i] e di ciascun a[j] in tempo O(log n) usando O(n2 ) processori. Infine la procedura TORNEO può essere eseguita con il modello EREW sempre in tempo
O(log n) ma usando solo O(n2 / log n) processori. Il lavoro della nuova versione della procedura TORNEO risulta pertanto essere O(n2 ) che è comunque
peggiore del lavoro ottimo O(n log n) del miglior algoritmo sequenziale.
1.4
Elaborazione di Puntatori
Riconsideriamo il problema delle SOMMEPREFISSE dove gli n dati sono
memorizzati questa volta in una lista e l’ordine col quale calcolarne le somme
prefisse è determinato da come tali dati sono tra loro concatenati nella lista
tramite i puntatori. Indichiamo con a[i] il valore della lista gestito dal processore i-esimo e con succ[i] il cursore all’elemento successivo della lista, dove
inizialmente succ[i] = 0 se e solo se a[i] è l’ultimo valore della lista.
procedure SOMMEPREFISSE (a[1...n], b[1...n], succ[1...n], n):integer
begin
for all i where 1 ≤ i ≤ n do in parallel
b[i] := a[i];
for k := 1 to dlog ne do
for all i where 1 ≤ i ≤ n do in parallel
if succ[i] 6= 0 then begin
b[succ[i]] := b[i] + b[succ[i]];
1.4 Elaborazione di Puntatori
9
succ[i] := succ[succ[i]]
end
end
La tecnica utilizzata nel for all interno è detta ”pointer jumping”. Si osservi
che non si verificano mai dei conflitti da parte di pi`
u processori per accedere
alla stessa locazione di memoria. Infatti per i 6= j abbiamo sempre che
succ[i] 6= succ[j] oppure succ[i] = succ[j] = 0 che viene mantenuto per tutta
l’esecuzione della procedura. Possiamo quindi usare un modello EREW e
la procedura richiede tempo O(log n) usando n processori. Il lavoro della
Figura 1.4: Salto Puntatori
procedura è O(n log n) che non è ottimo, ma questo può essere abbassato
ad un lavoro ottimo di O(n) con un algoritmo piuttosto complicato che non
verrà riportato qua.
Vediamo un altro esempio di utilizzo della tecnica del ”pointer jumping”
per calcolare il livello dei nodi di un albero binario realizzato con puntatori.
Combineremo tale tecnica con la tecnica del ”ciclo Euleriano”. Ricordiamo
che un ”ciclo Euleriano” di un grafo orientato G è un ciclo che include ogni
arco una ed una sola volta e che G contiene un ciclo Euleriano se e solo se è
connesso e per ciascun nodo il numero di archi entranti è uguale al numero
di archi uscenti. Per calcolare la profondità di un albero binario B di n
nodi, si considera un ciclo Euleriano del grafo orientato B 0 ottenuto da B,
dove tale ciclo è rappresentato con una lista mono direzionale di 3n elementi
sulla quale viene applicata la tecnica del salto dei puntatori. Ogni nodo u
1.4 Elaborazione di Puntatori
di B è sostituito con tre elementi di una lista, che individuiamo con x, y, z
in modo che i risultanti 3n elementi siano gestiti ciascuno da uno ed un solo
processore.
l’elemento x del nodo u vale +1 e punta all’elemento x del figlio sinistro
di u, se esiste, oppure all’elemento y di u stesso, altrimenti;
l’elemento y del nodo u vale 0 e punta all’elemento x del figlio destro
di u, se esiste, oppure all’elemento z di u stesso, altrimenti;
l’elemento z del nodo u vale -1 e punta all’elemento y del padre di u,
se u è un figlio sinistro, oppure all’elemento z del padre di u, se u è un
figlio destro, oppure a 0, se u è la radice.
La lista inizia con l’elemento x della radice e termina con l’elemento z della
radice. La lista può essere costruita in tempo costante O(1), eseguendo la
procedura SOMMEPREFISSE su tale lista, è facile vedere che l valore b di
ciascun elemento z rappresenta il livello del corrispondente nodo u. Quindi i
livelli dei nodi di B possono essere calcolati in tempo O(log n) usando O(n)
processori.
Figura 1.5: Ciclo Euleriano
10
1.5 Valutazione di Polinomi
1.5
11
Valutazione di Polinomi
Dato un polinomio nella forma p(x) = an−1 xn−1 +an−2 xn−2 +...+a1 x+a0
vogliamo valutarlo in un punto preciso q, cioè vogliamo calcolare p(q) nel
modello EREW.
Procediamo calcolando inizialmente le potenze q 0 , ..., q n−2 , q n−1 di q, dato che
il generico q i = qq i−1 con 1 ≤ i ≤ n − 1, si considerano i prodotti prefissi b
del vettore x contenente un 1 seguito da n − 1 copie di q. Infine si calcolano
i prodotti ai q i per 0 ≤ i ≤ n − 1 nel vettore r in cui poi verrà effettuata la
sommatoria.
function VALUTAPOLINOMIO (a[1...n], x[1...n], q):real
begin
COPIA (q, n, x);
x[1] := 1;
PRODOTTIPREFISSI(x, n);
for all j where 0 ≤ j ≤ n/ log n − 1 do in parallel
for i := 0 to log n − 1 do
r[n + j ∗ n/ log n + i] := a[j ∗ n/ log n + i] ∗ b[n + j ∗ n/ log n + i];
SOMMATORIA (r, n);
VALUTAPOLINOMIO := r[1];
end;
1.6
Punto Interno ad un Poligono
Dato un generico poligono vogliamo sapere se questo è convesso oppure
no. Forniamo una rappresentazione del poligono elencando i suoi vertici in ordine orario/antiorario e specificando le coordinate di ogni vertice:
Vi = (xi , yi ). Consideriamo ora un generico punto del poligono e per vedere
se questo è convesso, tracciamo la perpendicolare al punto e considerando
solo la parte superiore andiamo a contare le volte che la perpendicolare interseca i lati del poligono. Se la perpendicolare interseca i lati del poligono
un numero pari di volte allora il punto è esterno al poligono e quindi esso
1.7 AND di valori
12
Figura 1.6: Poligoni
non è convesso, altrimenti se la perpendicolare interseca i lati del poligono
un numero dispari di volte, il punto è interno e il poligono è convesso.
La procedura andrà a considerare in parallelo tutti i lati del poligono e se
questi sono nella parte superiore alla perpendicolare, andrà a vedere se intersecano la retta perpendicolare. Usiamo un vettore di n elementi, pari ai lati
del poligono, di valori booleani e se interseca la perpendicolare lo imposto
ad 1 altrimenti lo lascio a 0; una volta considerati tutti i lati vado a fare la
somma dei valori booleani del vettore per vedere se ho ottenuto un numero
di intersezioni pari oppure dispari.
1.7
AND di valori
Vogliamo calcolare l’AND di n valori booleani di un vettore.
Consideriamo un modello CRCW, assumendo che se pi`
u processori vogliono
scrivere la stessa locazione di memoria, uno solo riuscirà effettivamente a
farlo.
procedure AND−CRCW (b[1...n]):boolean;
begin
x := true;
for all j where q ≤ j ≤ n do in parallel
if not b[j] then x := f alse;
1.8 La Tesi della Computazione Parallela
13
AND−CRCW:= x;
end;
Il primo processore che riuscirà a scrivere effettivamente f alse nella locazione
di memoria x farà in modo che la procedura restituisca appunto f alse dato
che basta che uno degli n valori sia f alse per fare si che tutto l’AND restituisca f alse.
Otteniamo cos`ı un tempo T = O(1), un numero di processori pari a P = O(n)
per un lavoro ottimo L = O(n), anche se allo stato attuale delle tecnologia
è impossibile realizzare un modello che permette la scrittura in memoria in
tempo O(1).
1.8
La Tesi della Computazione Parallela
Abbiamo visto come l’introduzione di pi`
u processori che lavorano in parallelo possa abbassare radicalmente la complessità in tempo di alcuni problemi.
Una legittima aspirazione sarebbe quella di di risolvere in tempo polinomiale
con algoritmi paralleli problemi che sono intrattabili con algoritmi sequenziali.
La Tesi della Computazione Parallela asserisce che ogni problema risolvibile
in tempo polinomiale con un algoritmo parallelo può essere risolto in spazio
polinomiale con un algoritmo sequenziale. Come si ignora se P=NP oppure
no, cos`ı neanche si conosce se P-SPAZIO=P, dove P-SPAZIO è la classe dei
problemi intrinsecamente superpolinomiale. Abbiamo quindi questo problema, anche se è opinione comune che P-SPAZIO contenga problemi di complessità intrinsecamente superpolinomiale e che quindi problemi intrattabili
sequenzialmente restino tali anche in parallelo.
La classe dei problemi che si ritiene trattabili è detta NC e, come conseguenza
della Tesi della Computazione Parallela, si ha che NC coincide con la classe di
problemi P che sono risolubili con una quantità di memoria che è O(logk n)
con k costante. I problemi che abbiamo visto nella parte precedente sono
tutti problemi in NC.
1.8 La Tesi della Computazione Parallela
Come si ignora se P=NP, cos`ı non si conosce se P=NC. Se si trovasse un algoritmo parallelo con complessità temporale polilogaritmica che utilizzi una
quantità di processori polinomiale per un solo problema Log-Spazio-completo
(un problema in P è detto Log-Spazio-completo se ogni altro problema in P è
riducibile ad esso con una trasformazione che richiede spazio polilogaritmico),
allora se ne potrebbero trovare per tutti i problemi in P e quindi risulterebbe
P=NC.
Figura 1.7: Relazioni di Contenimento di Problemi
14
Capitolo 2
Algoritmi per Reti a Grado
Limitato
Abbiamo appena visto il modello PRAM che però resta un modello teorico, data l’impossibilità di realizzazione con le tecnologie attuali. In pratica
perchè un modello parallelo sincrono sia effettivamente realizzabile occorre
che la memoria no sia affatto globale e che i processori comunichino fra loro
soltanto attraverso una prefissata rete di interconnessione. Tale rete è rappresentata con un grafo non orientato, i cui nodi corrispondono ai processori e
i cui archi sono le interconnessioni fra i processori. I processori possono cos`ı
comunicare in tempo O(1) se e solo se c’è un arco che li collega. Dobbiamo
dire però che una rete affinchè sia effettivamente costruibile non può essere un
grafo completo! In pratica abbiamo che, detto g il grafo massimo di dei nodi,
cioè il numero massimo di archi incidenti in un nodo, dobbiamo avere che g
sia ”piccolo”, possibilmente limitato da una costante. Dati due processori la
loro distanza è rappresentata dal numero minimo di archi tra tutte le catene
che li uniscono, ed il diametro d della rete è uguale alla distanza massima
tra tutte le coppie di processori. Vedremo di seguito alcune architetture di
reti, mesh, shuffle, butterfly ed ipercubi e analizzeremo poi alcuni problemi
utilizzando tali reti, mostrando come questi problemi possano essere risolti
in tempo ottimo come nel modello PRAM.
15
2.1 Reti di interconnessione
2.1
Reti di interconnessione
Considereremo quattro diverse architetture di reti di interconnessione che
sono la mash, la shuffle, la butterfly e l’ipercubo. Vediamole ora in dettaglio.
2.1.1
Mesh
Una mesh quadrata gli n processori, con n = p2 per p intero positivo,
√
√
sono organizzati in una matrice quadrata di dimensione n × n in cui un
√
generico processore Pi,j , con 1 ≤ i, j ≤ n, è connesso con i processori Pi,j±1
e Pi±1,j . Il grado massimo di ogni nodo g è 4 mentre il diametro d della mesh
√
è pari a n. Esistono anche delle versioni alternative alla classica mesh: la
Figura 2.1: Mesh con n = 16 processori
mesh ciclica, dove sono connessi ta loro anche il primo e l’ultimo processore
di ogni riga/colonna e la mesh toroidale, in cui l’ultimo processore di ogni
riga/colonna è connesso con il primo processore della riga/colonna successiva.
2.1.2
Shuffle
In una shuffle gli n processori, con n = 2p per p intero positivo, sono
numerati da 0 a 2p − 1 e vi sono due tipi di connessioni fra i processori. Le
connessioni di scambio non orientate sono tra i processori Pi e Pi+1 per ogni
16
2.1 Reti di interconnessione
i pari, mentre le connessioni di mescolamento orientate escono dal processore
Pi per o ≤ i ≤ n − 2 ed entrano nel processore Pj , dove j = 2i mod (n − 1),
con un ulteriore connessione da Pn−1 a se stesso.
Possiamo vedere come percorrendo le connessioni di mescolamento p = log n
volte a partire da Pi per 1 ≤ i ≤ n − 2 si ritorna al processore Pi stesso.
Usando anche le connessioni di scambio è anche possibile raggiungere un
qualsiasi altro processore in O(log n) passi. Abbiamo qui un grado massimo
g pari a 3 ed un diametro d pari a O(log n).
Figura 2.2: Shuffle con n = 8 processori
2.1.3
Butterfly
In una butterfly di grado k, gli n processori, con n = (k +1)2k per k intero
positivo, sono disposti in k + 1 righe e 2k colonne, in cui il generico elemento
Pi,j , con 1 ≤ i ≤ k, 0 ≤ j ≤ 2k − 1, è connesso con i processori Pi−1,j e Pi−1,m ,
dove m è l’intero ottenuto complementando l’i-esimo bit pi`
u significativo della
rappresentazione binaria di j. Abbiamo in questo caso un grado massimo g
di ogni nodo pari a 4 ed un diametro d pari a O(k) = O(log n). Possiamo
anche notare che i processori della riga 0 (o della riga k) possono essere visti
come le foglie comuni a 2k alberi binari completi le cui radici sono i processori
della riga k (o della riga 0).
17
2.1 Reti di interconnessione
Figura 2.3: Butterfly con rango k = 3 e n = (k + 1)2k = 32 processori
2.1.4
Ipercubo
In un ipercubo di dimensione k (k intero positivo), abbiamo che gli n = 2k
processori sono numerati da 0 a 2k − 1 ed il generico processore Pi è connesso
con tutti i processori Pj tali che le rappresentazioni binarie di i e j differiscono
per il valore di un singolo bit. Otteniamo qui un grado di ogni dono g ed un
diametro d pari entrambi a k = log n.
Figura 2.4: Ipercubo con dimensione k = 4 e n = 24 = 16 processori
18
2.2 Sommatoria
2.2
19
Sommatoria
Andiamo ora a vedere come risolvere il problema della sommatoria con
le varie reti di interconnessione sopracitate, vedremo prima la procedura
SOMMATORIA-IPERCUBO, la procedura SOMMATORIA-SHUFFLE ed
infine la procedura SOMMATORIA-MESH.
2.2.1
Ipercubo
Siano ao , a1 , ..., an−1 gli n numeri da sommare, con n = 2k e si consideri
un ipercubo di dimensione k, tale che il dato ai sia contenuto inizialmente nel
processore Pi , per 0 ≤ i ≤ n − 1. Consideriamo dapprima gli n/2 processori
con indici minori (con il bit pi`
u significativo a 0), i quali individuano un
ipercubo di dimensione k − 1, ed ognuno di essi somma in parallelo il suo
dato con quello contenuto nel corrispondente processore dell’altro ipercubo
di dimensione k − 1 formato dagli n/2 processori con indici maggiori (con il
bit pi`
u significativo ad 1). Il procedimento viene poi iterato considerando gli
n/4, n/8, ..., n/n processori con indici minori, che corrispondono ad ipercubi
di dimensione k − 2, k − 3, ..., 0, considerando cioè gli indici con anche il
secondo, terzo,..., ultimo bit pi`
u significativo a 0. Dopo k = log n iterazione,
il risultato sarà ottenuto nel processore P0 . Otteniamo la seguente procedura
che richiede tempo O(log n) utilizzando n processori.
procedure SOMMATORIA−IPERCUBO a[0...n − 1]);
begin
for i = log n downto 0 do begin
h := 2i
for all j where 0 ≤ j ≤ h − 1 do in parallel
begin b[j] ← a[j + h]; a[j] := a[j] + b[j]; end;
end;
end;
2.2 Sommatoria
Figura 2.5: Sommatoria eseguita su ipercubo con k = 4 e n = 2k = 16
processori
Il lavoro della procedura è O(n log n) che può comunque essere reso ottimo
considerando una sequenza di O(n log n) elementi da sommare.
2.2.2
Shuffle
Consideriamo ora sempre lo stesso problema prendendo una shuffle di
n = 2k processori, assumendo ancora che ai sia contenuto inizialmente nel
processore Pi , per 0 ≤ i ≤ n − 1. Consideriamo due procedure ausiliarie
SCAMBIA e MESCOLA. La procedura SCAMBIA(ai ) ha come effetto quello
di scambiare in tempo O(1) gli ai dei processori di indice pari con quelli dei
processori di indice dispari, mentre la procedura MESCOLA(ai ) ha l’effetto
di spostare in tempo O(1) gli ai tra i processori in accordo alle connessioni
di mescolamento.
La procedura risulta essere molto semplice e consiste in log n chiamate di
MESCOLA e SCAMBIA alternate, che utilizzano una sequenza di appoggio
b0 , b1 , ..., bn−1 . Otteniamo cos`ı un tempo di esecuzione O(log n) utilizzando
20
2.2 Sommatoria
n processori.
21
procedure SOMMATORIA−SHUFFLE(a[0...n − 1]);
begin
for i to log n do
for all j where o ≤ j ≤ n − 1 do in parallel
MESCOLA(a[j]);
b[j] := a[j];
SCAMBIA(b[j]);
a[j] := a[j] + b[j]
end
end;
Figura 2.6: Sommatoria eseguita su shuffle
2.2.3
Mesh
Risolviamo infine il problema della sommatoria usando una rete di interconnessione a mesh quadrata. Siano a1,1 , ..., a1,p , a2,1 , ..., a2,p , ..., ap,1 , ..., ap,p
gli n = p2 elementi da sommare, tali che ai,j sia contenuto inizialmente nel
√
processore Pi,j , per 1 ≤ i, j ≤ n. Partiamo sommando gli elementi dell’ultima riga agli elementi della penultima riga, poi andremo a sommare gli
elementi della penultima a quelli della terzultima riga, risalendo cos`ı fino alla
2.2 Sommatoria
22
prima riga, dove verranno poi sommati i risultati parziali da destra verso
sinistra, ottenendo cos`ı il risultato nel processore P1,1 .
procedure SOMMATORIA−MESH(a[1, 1], a[1, 2], ...a[p, p]);
begin
for i := p − 1 downto 1 do
for all i, j where 1 ≤ j ≤ p do in parallel
begin b[i, j] ← a[i + 1, j]; a[i, j] := a[i, j] + b[i, j] end;
for i := p − 1 downto 1 do
for all i, j where i = 1 do in parallel
begin b[i, j] ← a[i, j + 1]; a[i, j] := a[i, j] + b[i, j] end
end;
√
Il tempo della procedura cos`ı realizzata è O( n utilizzando n processori,
√
ottenendo un lavoro pari a O(n n che possiamo rendere ottimo utilizzando
√
una sequenza di elementi da ordinare pari a O(n n.
Figura 2.7: Sommatoria eseguita su una mesh
2.3 Mergesort Bitonico
2.3
23
Mergesort Bitonico
Consideriamo ora un algoritmo per risolvere il problema della sommatoria, ideato da Batcher negli anni ’60.
Presa una sequenza a0 , a1 , ..., an−1 si dice unimodale se esiste un indice i,
0 ≤ i ≤ n − 1, tale che a0 ≤ a1 ≤ ... ≤ ai e ai ≥ ai+1 ≥ ... ≥ an−1 .Diremo
inoltre che una sequenza è bitonica se questa è unimodale oppure se è ottenibile con una traslazione ciclica da una sequenza unimodale.
La sequenza 2, 6, 7, 8, 10, 3, 1, 0 è unimodale e quindi anche bitonica. Consideriamo ora una proprietà importante delle sequenza bitoniche.
Presa una sequenza bitonica A = a0 , a1 , ..., a2m−1 , allora le due sequenze:
AMIN = min{a0 , am }, min{a1 , am+1 }, ..., min{am−1 , a2m−1 }
AMAX = max{a0 , am }, max{a1 , am+1 }, ..., max{am−1 , a2m−1 }
sono esse stesse bitoniche.
Questa proprietà ci suggerisce un algoritmo parallelo di tipo ”divide & impera” per ordinare una sequenza di n elementi con n potenza di 2. L’algoritmo
consiste, se n > 1, nel dividere A in AMIN e AMAX e riapplicare ricorsivamente la
procedura alle due sequenze bitoniche AMIN e AMAX . Le relazioni di ricorrenza
risultano pertanto:
T (n) = d,
per n = 1,
T (n) = T (n/2) + c,
per n > 1,
dove c e d sono due costanti, e quindi T (n) è O(log n), usando O(n) processori. Una sequenza qualsiasi A di lunghezza n = 2i può essere vista come n/2
sequenza bitoniche di lunghezza 2. Una volta che si è ordinato in parallelo
queste n/2 sequenze bitoniche, in modo che siano alternate una sequenza
crescente ad una sequenza decrescente, si utilizza il fatto che la concatenazione di una sequenza crescente con una decrescente forma una sequenza
bitonica. In questo modo, si considerano n/4 sequenze bitoniche lunghe 4,
che vengono ordinate con l’algoritmo per le sequenze bitoniche, poi n/8 sequenze lunghe 8 e cos`ı via, finchè si arriva ad ordinare una singola sequenza
2.3 Mergesort Bitonico
bitonica lunga n.
Osserviamo che la costruzione di sequenze bitoniche lunghe 2i+1 richiede l’ordinamento di sequenza bitoniche lunghe 2i , che costa O(log 2i ) = O(i) temP
po. Otteniamo quindi un tempo complessivo di O( ki=1 i), che cresce come
O(log2 n). Poichè il numero massimo di confronti che vengono eseguiti contemporaneamente è n/2, il numero di processori richiesto è O(n), otteniamo
quindi un lavoro pari a O(n log2 n), che risulta essere decisamente migliore
dell’algoritmo TORNEO visto in precedenza.
Torna molto utile visualizzare lo screma di computazione dell’algoritmo,
come illustrato dalla figura 2.8 per n = 16. Le linee orizzontali rappre-
Figura 2.8: Computazione dell’ algoritmo Mergesort Bitonico
sentano i ”canali” sui quali transitano da sinistra verso destra gli elementi da
ordinare. Le frecce verticali rappresentano confronti tra coppie di elementi,
che entrano da sinistra ed escono da destra, in modo che l’elemento maggiore esca sul canale indicato dalla freccia ed il minore sul canale indicato
dal pallino. Vediamo che l’algoritmo ”mergesort bitonico” ha k iterazioni (4
nella figura 2.8) e che ogni iterazione i, per 1 ≤ i ≤ k, richiede proprio i passi
per ordinare n/2i sequenze bitoniche lunghe 2i .
Riportiamo la procedura dell’algoritmo mergesort bitonico eseguita su di un
ipercubo, dove j individua il ”passo” e l’indice i individua l”’iterazione”,
24
2.3 Mergesort Bitonico
25
come indicato anche nella figura 2.8. Useremo inoltre per comodità una
numerazione per l’indice i compresa fra 0 e k − 1 anzichè fra 1 e k.
procedure BITONIC−MERGESORT−IPERCUBO (a0 , a1 , ..., an−1 );
begin
for i := 0 to k − 1 do
for j := i downto 0 do begin
d := 2j
for all h where 0 ≤ h ≤ n − 1 do in parallel begin
if h mod 2d < d then begin
th ← ah+d ;
if h mod 2i+2 < 2i+2 then begin
bh := max{ah , th };
ah := min{ah , th };
end else begin
bh := min{ah , th };
ah := max{ah , th };
end
end;
if h mod 2d ≥ d then
ah ← bh−d
end
end
end;
Possiamo vere come il costo del ”for all” della procedura resta costante, nella
variabile temporanea th viene copiato il dato del suo vicino a distanza d. Gli
elementi che vado a confrontare differiscono nel loro indice sempre per un solo bit. L”’if” finale fa lavorare i processori che non hanno lavorato, facendo
si che vadano a copiarsi il valore che devono memorizzare.
Vediamo di seguito nella figura 2.9 l’esecuzione dell’algoritmo su di un ipercubo di dimensione k = 3 per ordinare la sequenza di n = 8 elementi
5,6,3,13,7,10,9,2.
2.4 Moltiplicazione di matrici
Figura 2.9: Esecuzione ”Mergesort Bitonico” su ipercubo con n = 2k con
k = 3 elementi
2.4
Moltiplicazione di matrici
Riconsideriamo ora il problema della moltiplicazione di due matrici A =
[aij ] e B = [bij ] di dimensioni n×m, dove la matrice prodotto C = [cij ] = AB
P
è tale che cij = nk=1 aik bkj , per 1 ≤ i, j ≤ n.
2.4.1
Mesh
Consideriamo una mesh ciclica di dimensioni n × n e si assuma che le due
matrici A e B siano memorizzate nell amesh in modo che il processore Pij
contenga inizialmente gli elementi aij e bij ed al termine della computazione
contenga cij . Abbiamo una prima fase preparatoria in cui gli elementi della
riga i-esima di A sono traslati ciclicamente a sinistra di i−1 posizioni, 1 ≤ i ≤
n, mentre gli elementi della colonna j-esima di B sono traslati ciclicamente
verso l’alto di j − 1 posizioni, 1 ≤ j ≤ n. Tali traslazioni hanno il compito di
fare in modo che nel processore Pij si incontri la coppia di elementi aik e bkj
26
2.4 Moltiplicazione di matrici
27
che servono per il calcolo dell’elemento risultato cij . Nella seconda fase, che
dura n iterazioni, sono eseguiti n2 prodotti per ciascuna iterazione, ed ogni
elemento di A e B è coinvolto in un solo prodotto per iterazione.
procedure MOLTMATRICI−MESH(A, B, n);
begin
for p := 1 to n − 1 do
for all i, j where 1 ≤ i, j ≤ n do in parallel begin
if i > p then ai,j ← ai,j+1 ;
if j > p then bi,j ← bi+1,j
end;
for all i, j where 1 ≤ i, j ≤ n do in parallel ci,j := 0;
for q := 1 to n do
for all i, j where 1 ≤ i, j ≤ n do in parallel begin
ci,j := ai,j ∗ bi,j + ci,j ;
ai,j ← ai,j+1 ;
bi,j ← bi+1,j
end
end;
La procedura richiede O(n) tempo ed n2 processori per moltiplicare due matrici n × n, otteniamo quindi un lavoro pari a O(n3 ) che risulta essere lo
stesso dell’usuale algoritmo sequenziale.
Vediamo ora nella figura 2.10, l’esecuzione dell’algoritmo di moltiplicazione
di matrici su una mesh ciclica 3 x 3. Vediamo come nella seconda e nella
terza immagine viene fotografata la situazione della mesh all’uscita dal primo ”for” sequenziale, per i valori di p uguali a 1 e 2; nella terza e quarta
immagine invece vediamo la configurazione della matrice nella seconda fase,
all’uscita dal secondo ”for” sequenziale, per i valori di q uguali a 1 e 2 (3 non
è mostrato).
2.4 Moltiplicazione di matrici
Figura 2.10: Moltiplicazione matrici su mesh ciclica 3 x 3
2.4.2
Ipercubo
Vediamo ora sempre la procedura di moltiplicazione su matrici eseguita
su di un ipercubo di n3 processori, e si assuma che n = 2h . Avremo quindi che
gli indici dei processori dell’ipercubo hanno valori compreso tra 0 e 23h − 1, e
la loro rappresentazione in binario consta di 3h bit, che possono essere visti
come formati da 3 blocchi di h bit, possiamo cos`ı vedere ogni blocco come la
rappresentazioni di 3 diversi indici del processore, che a questo punto possiamo individuare univocamente con una terna di indici (k, i, j).
28
2.4 Moltiplicazione di matrici
29
Ciascun processore Pm ha cinque variabili locali Am , Bm , Cm , Dm ed Em , assumiamo che le due matrici abbiano indici di riga e colonna compresi tra 0
e n − 1 anzichè 1 ed n e che siano memorizzate nell’ipercubo in modo che il
processore Pm = P2h i+j = P0,i,j contenga inizialmente gli elementi aij e bij
nelle variabili Am e Bm , ed al termine della computazione contenga cij nella
variabile Cm , per 0 ≤ i, j ≤ n − 1.
Abbiamo 3 fasi di esecuzione; nella prima fase i dati vengono distribuiti in
tempo O(log n) a tutti i processori dell’ipercubo per mezzo di tre cicli ”for”
effettuati su tutti i bit di ciascuno dei tre ”blocchi”. Gli elementi aij e bij sono
distribuiti a tutti gli Am e Bm dei processori Pm = P22h k+2h j+j = Pk,i,j tali che
0 ≤ k ≤ n − 1. Allo stesso modo aik è distribuito a tutti gli Am dei processori
Pm = P22h k+2h i+j = Pk,i,j tali che 0 ≤ j ≤ n − 1, mentre bkj è distribuito a
tutti i Bm dei Pm = P22h k+2h i+j = Pk,i,j tali che 0 ≤ i ≤ n − 1. In questo modo ciascuno degli n3 processori contiene una una coppia distinta di elementi
della matrici A e B da moltiplicare e per l’esattezza Pm = P22h k+2h i+j = Pk,i,j
contiene aik e bkj . Nella seconda fase poi, sono effettuati in tempo O(1) tutti i prodotti. Infine nella terza fase sono sommati i prodotti sui processori
Pk,i,j tali che 0 ≤ k ≤ n − 1, ottenendo i risultati cij in tempo O(log n) nei
processori P0,i,j .
Nella procedura seguente useremo due funzioni ausiliarie, BIT(m, p), che
restituisce il (p + 1)-esimo bit meno significativo della rappresentazione binaria di m, per p ≥ 0, e la funzione COMPLEMENTA(m, p), che restituisce
l’intero ottenuto complementando il (p + 1)-esimo bit meno significativo della rappresentazione binaria di m. Sia m = 5, che in binario è 101, allora
BIT(5,0)=1, BIT(5,1)=0 e BIT(5,3)=0, invece COMPLEMENTA(5,0)=4,
COMPLEMENTA(5,1)=7.
procedure MOLTMATRICI−IPERCUBO(A, B, n);
begin
for p := 3h − 1 downto 2h do
for all m where BIT(m, p) = 1 do in parallel
begin
2.4 Moltiplicazione di matrici
30
Dm :=COMPLEMENTA(m, p);
Am ← ADm ;
Bm ← BDm
end;
for p := h − 1 downto 0 do
for all m where BIT(m, p) 6= BIT(m, 2h + p) do in parallel
begin
Dm :=COMPLEMENTA(m, p);
Am ← ADm
end;
for p := 2h − 1 downto h do
for all m where BIT(m, p) 6= BIT(m, h + p) do in parallel
begin
Dm :=COMPLEMENTA(m, p);
Bm ← BDm
end;
for all m where 0 ≤ m ≤ 23h − 1 do in parallel
Cm := Am ∗ Bm ;
for p := 2h to 3h − 1 do
for all m where 0 ≤ m ≤ 23h − 1 do in parallel
begin
Em :=COMPLEMENTA(m, p);
Dm ← CEm ;
Cm := Cm + Dm ;
end;
end;
La procedura ha tempo pari a O(log n), utilizzando n3 processori, otteniamo
quindi un lavoro O(n3 log n).
Vediamo ora l’esecuzione della procedura su di un ipercubo di 23 = 8 processori per la moltiplciazione delle seguenti matrici 2 x 2.
#
"
#"
# "
9 10
1 2
−5 −6
=
13 14
3 4
7
8
2.5 Trasformata di Fourier
31
L’esecuzione per il calcolo è illustrata nella figura 2.11.
Inserire qui figura moltiplicazione matrici ipercubo.
2.5
Trasformata di Fourier
Vediamo ora un algoritmo per il calcolo della trasformata discrate di
Fourier di un vettore reale a = (a0 , a1 , ..., an ), tale trasformata è data dal
vettore complesso b = (b0 , b1 , ..., bn−1 ) tale che:
bh =
n−1
X
ak (ω h )k ,
per 0 ≤ h ≤ n − 1
k=0
dove ω è la radice primitiva n-esima dell’unità. Consideriamo di prendere
n potenza di 2 e vediamo l’algoritmo sequenziale ”divite & impera”, dove il
problema è stato diviso in due sottoproblemi, come mostrato nella figura 2.12,
che includono rispettivamente gli elementi di posto pari e di posto dispari:
X
a (x) =
X
n/2−1
n/2−1
P
k
a2k x ,
d
a (x) =
a2k+1 xk ,
k=0
k=0
cos`ı che
a(x) = aP (x) + aD (x)
Vediamo di seguito lo pseudocodice per l’algoritmo FFT in sequenziale:
Figura 2.11: Partizionamento dei dati per FFT
2.5 Trasformata di Fourier
32
procedure FFT(a:polinomio−reale; n:integer; var b:polinomio−complesso);
var aP , aD :polinomio−reale; bP , bD :polinomio−complesso;
begin
if n = 1 then b0 := a0
else begin
dividi il vettore a aP = (a0 , a2 , ..., an−2 ) e aD = (a1 , a3 , ..., an−1 );
FFT(aP , n div 2, bP ); FFT(aD , n div 2, bD );
ricava b ricombinando bP e bD
end
end;
Osserviamo inoltre la ricombinazione dei risultati per l’algoritmo sequenziale,
come illustrato nella figura 2.13 di seguito:
Figura 2.12: Ricombinazione per il calcolo di b1 con FFT
Bibliografia
[1] Alan Bertossi ”Algoritmi e Strutture Dati ”, UTET Libreria.
33

Download Report