COSTRUZIONE DI RETI PER SISTEMI
BIPARTITI TRAMITE PROCEDURE
STATISTICHE
Tirabassi Giulio
introduzione
In questa presentazione introdurremo un metodo di costruzione di reti proiettate da reti bipartite che: ●
●
●
●
Costruisce reti proiettate in modo da tener conto dell'eterogeneità degli elementi.
Applicabile sistemi complessi molto differenti:
Genomi & Geni,
Azioni & Giorni di scambio,
Film & Attori.
In grado di indentificare relazioni preferenziali e classificazione dei link.
Evidenzia in maniera naturale cluster e comunità di elementi.
introduzione
●
Introduzione al problema
●
Introduzione al metodo
●
Applicazioni:
–
Genomi→rimozione eterogeneità
–
Azioni→Multilink
–
Film→Insieme vasto con eterogeneità non eliminabile
●
Ricerca di comunità
●
Piccolo esempio homemade
le reti bipartite
●
In una rete bipartita i nodi si dividono in due gruppi ben distinti di elementi non connessi tra loro:
Generi Alimentari
Italia
Materie Prime
Francia
Germania
Prodotti Tecnologici
USA
Valuta
A
B
●
Si può ridurre una rete bipartita ad una singola rete di elementi di un solo gruppo, utilizzando, come ponte tra gli stessi, gli elementi del secondo gruppo.
Italia
Italia
Generi
Alimentari
USA
USA
Italia
USA
RIDUZIONE
Germania
Francia
problemi
●
●
●
Molta informazione riguardante il sistema è definitivamente persa!
Quanti link sono espressione di proprietà significative del sistema? E quanti sono dovuti all'elevato grado di eterogeneità?
Vogliamo allora introdurre un metodo per individuare quali link della rete proiettata siano validi e quanti vadano invece rimossi.
il metodo della convalida
statistica dei link
Il Metodo è basato sulla valutazione di quanto un link si casuale e quanto invece sia da attribuirsi a proprietà intrinseche della rete. Questa stima è basata sul valore della distribuzione ipergeometrica,
P  X =
  
 
Na N−Na
X N b− X
N
Nb
il cui valore corrisponde alla probabilità di avere X estrazioni uguali in due insiemi di Na e Nb estrazioni da un insieme di elementi di cardinalità N.
reti biologiche
Consideriamo la rete bipartita formata da 66 genomi di vari organismi (insieme A) e da 4873 cluster di geni ortologhi, detti COGs (insieme B) e la rete proiettata dei genomi.
Riduzione dell'eterogeneità: Dividiamo l'insieme B in sottoinsiemi COGk di COGs presenti in k=3,...,66 organismi.
La cardinalità di COGk è Nk.
Possiamo allora procedere alla convalida statistica di due genomi, a e b, collegati da un certo numero Nab di COGs appartenenti all'insieme COGk. Definiamo Na e Nb come il numero di COGs di COGk connessi rispettivamente ai genomi a e b. La probabilità di avere X matches casuali sarà allora data dalla distribuzione ipergeometrica: P  X =
 
N a N k −N a
X N b− X
 
Nk
Nb

da cui:
N ab −1
P  N ab =1− ∑ P  X 
X =0
che stima la probabilità che il link tra a e b sia di natura casuale, dovuta all'eterogeneità del sistema. A questo punto si contano il numero di sottoinsiemi W COGk in cui il valore di P(Nab) è al di sotto di una certa probabilità di soglia e lo si usa come peso del link. Dal valore scelto per questa soglia dipenderà il tipo di rete costruita. ●
●
Rete di Bonferroni: p b≃7.3×10−8 [No Falsi Positivi]
False Discovery Rate (FDR): variabile, in ogni caso, però, si ha p FDR ≫ p b
risultati: bonferroni
fdr
risultati: fdr
reti finanziarie
●
●
Consideriamo la rete bipartita formata da 500 azioni da un lato e 748 giorni di scambi finanziari dall'altro. Ogni azione è connessa ad un giorno da tre tipi di link, up, down e null, a seconda se l'azione abbia ecceduto o meno il proprio valore medio calcolato sui 20 giorni precedenti.
Lo scopo è studiare la correlazione di stati up e down tra coppie di azioni.
Definiamo Na come il numero di giorni in cui una certa azione i ha assunto lo stato a (up o down) e Nb il numero di giorni in cui un'azione j ha assunto lo stato b. Sia poi Nab il numero di giorni in cui si è osservato lo stato a per l'azione i e lo stato b per l'azione j.
La probabilità di osservare X volte lo stato (ia , jb) nei T giorni di osservazione sarà
P  X =
  
 
N a T−Na
X N b− X
T
Nb
Procedendo in maniera analoga a quanto visto per il caso biologico, possiamo studiare le quattro combinazioni:
(iu , ju), (iu , jd), (id , ju), (id , jd).
In questo modo costruiamo 5 differenti tipi di link tra le azioni:
DOPPIA
CORRELAZIONE
●
L1 : entrambi i casi (iu , ju) e (id , jd). ●
L2 : solamente il caso (id , jd). ●
L3 : solamente il caso (iu , ju). CORRELAZIONE
●
ANTICORRELAZIONE
●
L4 : o il caso (iu , jd) o il caso equivalente (id , ju). L5 : entrambi i casi (iu , jd) e (id , ju).
risultati: bonferroni
reti sociali
Consideriamo la rete bipartita composta da 89605 film e 412 143 attori, e la rete proiettata dei soli film. Problema: l'elevato grado di eterogeneità dell'insieme degli attori non è eliminabile in nessun modo!
La rete risultante sarà solo una stima.
Il metodo seguito è del tutto analogo a quello degli esempi precedenti e anche in questo caso sarà possibile costruire una rete Bonferroni e una FDR.
risultati
Bonferroni: solo il 16% dei nodi e l'1% dei link convalidati
FDR: convalidati il 47% dei nodi e il 7% dei link.
NUM. FILM
NUM. LINK
NUM. COMP.
CONN.
COMP. CONN.
PIÙ GRANDE
RETE PROIETTATA
78 686
2 902 060
647
77 193
FDR
37 429
205 553
2 443
30 937
BONFERRONI
12 850
29 281
2 456
1 627
Un risultato interessante si ottiene dal plot tra il grado dei nodi della rete proiettata e della rete FDR: ricerca di comunità
La profonda differenza tra reti proiettate, Bonferroni e FDR fa sì che in esse compaiano delle strutture di cluster e comunità dalle proprietà molto differenti.
In questa sezione ci occuperemo della rilevazione di comunità nei casi precedentemente esposti per studiare queste differenze.
Allo scopo utilizzeremo l'algoritmo Infomap (Rosvall & Bergstrom).
la caratterizzazione dei
cluster
Una volta isolati i cluster emerge il problema della loro interpretazione. Consideriamo allora un sistema di N elementi e un cluster C di NC elementi che vogliamo caratterizzare.
Ogni elemento del sistema avrà un certo numero di attributi che lo definiscono. Il numero totale di attributi degli elementi del sistema sia allora NA.
È da notare come questi attributi siano assegnati tramite una classificazione a priori degli elementi del sistema.
La probabilità che X elementi scelti a caso nel cluster abbiano lo stesso attributo Q è dato dalla distribuzione ipergeometrica
P  X =
  
 
N C N −N C
X N Q− X
N
NQ
Dove NQ è il numero totale di elementi con attributo Q.
Da cui abbiamo la probabilità di avere nel cluster NCQ elementi di attributo Q.
N CQ −1
P  N CQ =1−
∑
PX
X =0
Se questa probabilità è minore di una certa soglia l'attributo Q caratterizzerà il cluster.
il caso della rete di
azioni
La presenza in queste reti di diversi tipi di link rende la clssificazione non facile.
●
Approccio minimalista: separazione di correlazioni e anticorrelazioni.
●
L4 e L5 (anticorrelazioni)
Peso: 0
●
L2 e L3 (correlazioni uu o dd)
Peso: 1
●
L1 Peso: 2
(doppia correlazione)
A questo punto si procede con la ricerca di comunità
Una volta deterimati cluster tramite Infomap si può passare alla loro classificazione. Per questo sistema si azioni si possono identificare 12 settori economici.
Bonferroni
●
●
●
●
349 elementi non isolati
37 cluster
81 differenti sottosettori economici
1.32 sottosettori per cluster
FDR
●
●
494 elementi non isolati
96 differenti sottosettori economici
Cluster individuati nella rete Bonferroni
I 10 cluster più gradi individuati nella rete Bonferroni
up
down
Si hanno correzioni, all'interno di ogni cluster, per tutto il periodo monitorato.
Cluster anticorrelati (tecnologia e settore immobiliare)
il caso della rete di film
●
●
●
Rete proiettata: 77193 elementi nella componente connessa più grande.
2451 cluster di taglia da 13608 a 2 film
FDR: 30934 elementi nella componente connessa più grande
3967 cluster di taglia variabile tra 1478 e 2 film
Bonferroni: 2456 componenti connesse e nessuna dominante
2782 cluster di taglia variabile tra 577 e 2 film
Per realizzare la ricerca di comunità all'interno della rete di film è necessario pesare i link della rete per tenere conto dell'eterogeneità dell'insieme degli attori.
Q
w ab =∑
i=1
1
N i −1
Dove Q è il numero totale di attori presenti sia nel film a che nel b e Ni è il numero totale di film interpretati dall'attore i.
Applicando nuovamente Infomap alle tre reti pesate in questo modo otteniamo una partizione più rifinita, soprattutto per quanto riguarda la rete proiettata.
L'influenza dei link pesati nelle propietà delle reti
POWER LAW
Per la caratterizzazione dei cluster sono stati considerati separatamente 4 diversi classi di attributi:
●
Paese di produzione
●
Lingua
●
Genere
●
Location
Per tutte queste classi si nota una decrescita del numero di attributi per cluster passando dalla rete proiettata alla FDR alla Bonferroni, indice questo di maggiore specificità.
Il cluster più grande della rete proiettata e i relativi cluster nella rete FDR.
Un cluster di film indiani nella rete proiettata e i relativi cluster nelle reti FDR e Bonferroni.
Comunità più piccole ma più omogenee
conclusioni
●
●
●
Consente la costuzione di reti con link a convalida statistica dotati di un numero limitato di falsi positivi, identificando così le relazioni preferenziali tra gli elementi del sistema.
Evidenzia le componenti connesse e le comunità in manera molto naturale.
È generalizzabile a sistemi molto complessi e a casi di reti a link multipli.
la rete fiori-impollinatori
L'insieme degli impollinatori:
la rete proiettata
DISASSORTATIVA!
Le reti Bonferroni & FDR
Apoidea
Megachilidae
Apidae
Altre Api
Farfalle
Mosche
Insetti colibrì
API
L'insieme dei fiori:
la rete proiettata
DISASSORTATIVA!
Le reti Bonferroni & FDR
Ranunculaes
Caryophyllidae
Liliaes
Brassicales
Saxifragales