ALGEBRA: LEZIONI DAL 13 OTTOBRE AL 3 NOVEMBRE 1. D IPENDENZA E INDIPENDENZA LINEARE Se ho alcuni vettori v1 , v2 , ..., vn in uno spazio vettoriale V , il sottospazio1 W = hv1 , ..., vn i di V da loro generato è l’insieme di tutte le combinazioni lineari, ovvero dei vettori della forma α1 v1 + ... + αn vn , al variare di α1 , ..., αn tra i numeri reali. Non è detto che tutti i vettori siano necessari per generare W : se ad esempio uno di essi — diciamo v1 — si esprime come combinazione lineare degli altri, bastano v2 , ..., vn a generare W . Se nessuno dei vettori si esprime come combinazione lineare dei rimanenti, tutti sono necessari a generare W : in tal caso i vettori si dicono linearmente indipendenti. Una proprietà equivalente, che è quella utilizzata in classe per definire la lineare indipendenza, è che l’unica combinazione lineare dei vettori v1 , ..., vn a dare il vettore nullo è quella con tutti coefficienti nulli. In altri termini α1 v1 + ... + αn vn = 0 =⇒ α1 = α2 = ... = αn = 02. Ovviamente, se ho dei vettori che non sono linearmente indipendenti, dirò che sono linearmente dipendenti! Alcune banalità sulla dipendenza lineare: • Se uno tra v1 , ..., vn è il vettore nullo, allora i vettori non sono linearmente indipendenti. • Se ho dei vettori linearmente dipendenti, anche aggiungendone degli altri rimangono linearmente dipendenti. • Un vettore preso da solo è sempre linearmente indipendente, a patto che non sia il vettore nullo. • Se anche solo un vettore v si esprime come combinazione lineare di v1 , ..., vn in più maniere diverse, allora v1 , ..., vn sono linearmente dipendenti. • Se anche solo un vettore v si esprime in maniera unica come combinazione lineare di v1 , ..., vn , allora essi sono linearmente indipendenti. Le ultime due proprietà dipendono dal fatto che se le combinazioni lineari α1 v1 + ... + αn vn e β1 v1 + ... + βn vn sono entrambe uguali a v, allora la differenza (α1 − β1 )v1 + ... + (αn − βn )vn è il vettore nullo, e viceversa. 2. B ASI Si definisce il concetto di base per poter trovare degli elementi che giochino, in spazi vettoriali che non siano i nostri bravi Rn , il ruolo degli elementi (1, 0, 0, . . . , 0), (0, 1, 0, . . . , 0), . . . , (0, . . . , 0, 1). Per replicare la proprietà essenziale di questa n-upla di vettori, e cioè che ogni vettore di Rn si esprime in modo unico come loro combinazione lineare, definiamo una base dello spazio vettoriale V come un insieme di vettori di V con la proprietà che ogni altro elemento di V si scriva, e si scriva in maniera unica, come loro combinazione lineare. In altre parole, i vettori sono linearmente indipendenti, e il sottospazio vettoriale che generano è tutto V . Costruire basi è facile: si sceglie un vettore (non nullo) a caso in V . Se i suoi multipli esauriscono V , ovvero se tutti gli elementi di V sono multipli del vettore che abbiamo scelto, abbiamo terminato; altrimenti scegliamo un altro vettore di V al di fuori di questa retta. Se con le combinazioni lineari dei primi due vettori raggiungiamo tutti gli elementi di V abbiamo terminato, altrimenti scegliamo un altro vettore al di fuori, e continuiamo così fin quando non riusciamo a generare tutto V . A quel punto3 avremo ottenuto una base di V . Alla stessa maniera, se ho dei vettori di V linearmente indipendenti, posso sempre scegliere altri vettori come appena descritto in modo che tutti insieme formino una base di V . Si dice che ho completato i vettori ad una base di V . Le basi sono inestimabili per lo studio degli spazi vettoriali, come vedremo in seguito. A lezione ho fatto vedere alcuni fatti importanti, che richiamo qui. 2.1. Un’applicazione lineare Rm → Rn non può essere iniettiva se n > m. Questa osservazione è abbastanza ingenua, ma ha fortissime conseguenze. L’iniettività dell’applicazione lineare si misura calcolando il suo nucleo, il che porta a dover risolvere un sistema lineare omogeneo di n equazioni in m incognite. Procedendo con l’eliminazione di Gauss, e ricordando che il numero delle equazioni è inferiore a quello delle incognite, si vede facilmente che il numero dei pivot sarà inferiore a quello delle incognite, e quindi che vi dovranno essere soluzioni diverse da quella nulla. 2.2. Un’applicazione lineare Rm → Rn non può essere invertibile se n 6= m. Se T : Rm → Rn è lineare ed invertibile, sia T che T −1 sono lineari ed invettive. Per il punto precedente, n ≤ m e m ≤ n, e quindi m = n. Attenzione! Non sto dicendo che un’applicazione lineare Rm → Rn è invertibile non appena m = n — questo è assolutamente falso — ma che se m 6= n non c’è nessuna possibilità che l’applicazione sia invertibile. 2.3. Due basi diverse dello stesso spazio vettoriale hanno la stessa cardinalità. Se v1 , . . . , vk sono elementi di V , possiamo costruire un’applicazione Rk 3 (α1 , . . . , αk ) 7→ α1 v1 + . . . , αk vk ∈ V, che è sempre lineare. Vi ho dato da mostrare la linearità per esercizio, ma in effetti è cosa molto facile. Se chiamiamo C l’applicazione di sopra, dobbiamo mostrare che C(λα1 , . . . , λαk ) = λC(α1 , . . . , αk ); C(α1 + β1 , . . . , αk + βk ) = C(α1 , . . . , αk ) + C(β1 , . . . , βk ). Il primo fatto si traduce in λα1 v1 + · · · + λαk vk = λ(α1 v1 + · · · + αk vk ), 1Il fatto che questo sottoinsieme sia un sottospazio vettoriale è facile da mostrare. E’ quindi anche il minimo sottospazio vettoriale di V contenente i vettori dati. 2Per mostrare che è equivalente all’altra proprietà basta osservare che se una combinazione lineare a coefficienti non tutti uguali a zero dà il vettore nullo, ognuno dei vettori che vi compaiono si scrive come combinazione lineare dei rimanenti. 3C’è la possibilità che quel punto non arrivi mai. Se questo accade, di dice che lo spazio vettoriale V ha dimensione infinita. Nonostante ci siano altre maniere di costruire una base di V in questo caso, faremo finta di ignorare questa eventualità e per la maggior parte del corso considereremo soltanto spazi vettoriali di dimensione finita. 1 2 ALGEBRA mentre il secondo in (α1 + β1 )v1 + · · · + (αk + βk )vk = (α1 v1 + · · · + αk vk ) + (β1 v1 + · · · + βk vk ), ed entrambe queste identità sono evidenti, e si mostrano raggruppando e raccogliendo a fattor comune. Ci siamo convinti a lezione che C è iniettiva se e solo se v1 , . . . , vk sono linearmente indipendenti, ed è suriettiva se e solo se v1 , . . . , vk generano V . In particolare, C è invertibile (cioè un isomorfismo) esattamente quando v1 , . . . , vk sono una base di V . Supponiamo adesso di avere due basi v1 , . . . , vm e w1 , . . . , wn dello stesso spazio vettoriale V . Alla prima base corrisponde un’applicazione lineare invertibile C : Rm → V , e alla seconda un’applicazione lineare invertibile D : Rn → V . Ma allora la composizione D−1 ◦ C : Rm → Rn è lineare e invertibile, e quindi m = n per il punto precedente. Se V è uno spazio vettoriale, e v1 , . . . , vn è una sua base, si dice che V ha dimensione n, e si scrive dim V = n. La dimensione di V non dipende dalla scelta della base perché tutte le basi hanno la stessa cardinalità. Dire dim V = n è lo stesso che dichiarare l’esistenza di un’applicazione lineare invertibile Rn → V . Un’osservazione importante: esistono spazi vettoriali di dimensione infinita, e la maggior parte delle affermazioni che seguono richiede spazi vettoriali di dimensione finita. 2.4. Se dim V = n, i vettori v1 , . . . , vm sono necessariamente linearmente dipendenti non appena m > n. Poiché dim V = n, esiste un’applicazione lineare invertibile D : Rn → V . Per mezzo degli elementi v1 , . . . , vm possiamo d’altronde costruire un’applicazione lineare C : Rm → V . La composizione D−1 ◦ C : Rm → Rn non può essere iniettiva, poiché m ≥ n. Tuttavia, se C fosse iniettiva, D−1 ◦ C sarebbe composizione di applicazioni invettive, e quindi iniettiva. Questo mostra che C non è iniettiva, e quindi che v1 , . . . , vm sono linearmente dipendenti. Nuovamente: non sto dicendo che se m ≤ n, allora v1 , . . . , vm sono automaticamente linearmente indipendenti — questo è falso in generale — ma che se sono troppi, cioè se m > n, allora devono per forza essere linearmente dipendenti. 2.5. Ogni insieme linearmente indipendente può essere completato ad una base. Abbiamo visto a lezione che se v1 , . . . , vk sono linearmente indipendenti, e v ∈ / hv1 , . . . , vk i, allora v1 , . . . , vk , v sono ancora linearmente indipendenti. Questo dipende dal fatto che se λ1 v1 + · · · + λk vk + λv = 0, allora: • se λ = 0, la relazione si riduce a λ1 v1 + · · · + λk vk = 0, la cui unica soluzione è λ1 = · · · = λk = 0; • se λ 6= 0, possiamo esprimere v come combinazione lineare di v1 , . . . , vk , cosa che avevamo escluso poiché v ∈ / hv1 , . . . , vk i. Se abbiamo dei vettori linearmente indipendenti che non generano V , possiamo allora aggiungere un vettore e ottenere un nuovo insieme di vettori linearmente indipendenti. Se continuano a non generare V , possiamo iterare questa costruzione più volte. Supponiamo ora che dim V = n. Continuando ad iterare la costruzione, una volta che i vettori siano più di n, saranno necessariamente diventati linearmente dipendenti, per il punto precedente. Questo vuol dire che dopo un numero finito di iterazioni i vettori saranno linearmente indipendenti e dovranno anche generare V ; in altre parole, saranno una base di V . Riassumendo: ad ogni insieme linearmente indipendente possiamo aggiungere un numero finito di altri vettori in modo da ottenere una base. Un’osservazione importante che potete però ignorare: il fatto che ogni insieme linearmente indipendente si completi ad una base è vero in generale, ma la dimostrazione che abbiamo dato ha richiesto che V avesse dimensione finita n. 2.6. Da ogni insieme di generatori si può estrarre una base. Supponiamo che v1 , . . . , vk siano generatori di V . Se sono anche linearmente indipendenti, allora sono per definizione una base di V . Supponiamo invece che siano linearmente dipendenti. Questo vuol dire che uno dei vettori — diciamo vi — si esprime come combinazione lineare degli altri: vi = α1 v1 + αi−1 vi−1 + αi+1 vi+1 + · · · + αk vk . Poiché v1 , . . . , vk generano V , ogni elemento v ∈ V si scrive come loro combinazione lineare: v = λ1 v1 + · · · + λk vk . Sostituendo al posto di vi l’espressione precedente, si ottiene v = λ1 v1 + · · · + λi−1 vi−1 + λi (α1 v1 + αi−1 vi−1 + αi+1 vi+1 + · · · + αk vk ) + λi+1 vi+1 + · · · + λk vk , cioè v = (λ1 + λi α1 ) v1 + · · · + (λi−1 + λi αi−1 ) vi−1 + (λi+1 + λi αi+1 ) vi+1 + . . . (λk + λi αk ) vk . In conclusione, ogni v ∈ V si può scrivere come combinazione lineare anche soltanto di v1 , . . . , vi−1 , vi+1 , . . . , vk . Ricapitolando, da un insieme di generatori linearmente dipendenti possiamo rimuovere un elemento, e i vettori residui continuano ad essere generatori. Se sono ancora linearmente dipendenti, possiamo iterare il procedimento e togliere un altro vettore. Dopo al più k iterazioni dovremo giungere ad un insieme linearmente indipendente di vettori, che continueranno a generare V ; avremo quindi ottenuto una base di V . Concludo con la solita osservazione: la dimostrazione che abbiamo fatto funziona per spazi vettoriali di dimensione finita — ho supposto che V avesse un numero finito di generatori, e questo è equivalente a richiedere dimensione finita — ma l’affermazione è vera in generale. 2.7. Se v1 , . . . , vm generano uno spazio vettoriale di dimensione n, allora m ≥ n. A questo punto è facile: da v1 , . . . , vm posso estrarre una base di V , che possiede n elementi. Pertanto m ≥ n. 2.8. Sia dim V = n. Se v1 , . . . , vn sono elementi di V , allora sono linearmente indipendenti se e solo se sono generatori se e solo se sono una base. Supponiamo che v1 , . . . , vn siano linearmente indipendenti. Posso allora completarli ad una base, che avrà ancora n elementi. Questo vuol dire che non ho aggiunto alcun vettore, e che erano già una base. Se invece v1 . . . , vn sono dei generatori di V , posso estrarre da essi una base di V , che avrà ancora n elementi. Questo vuol dire che non ho tolto nessun vettore, e che v1 , . . . , vn erano già una base. 2.9. Sia dim V = n. Se U ⊂ V è un sottospazio, allora dim U ≤ n. Se u1 , . . . , uk è una base di U , i vettori u1 , . . . , uk sono linearmente indipendenti, e sono sicuramente elementi di V , in quanto U ⊂ V . Ma abbiamo visto che il numero di vettori linearmente indipendenti in uno spazio vettoriale non può eccedere la dimensione, e quindi k ≤ n. Poiché k = dim U , otteniamo dim U ≤ n. 2.10. Sia dim V = n. Se U ⊂ V è un sottospazio, e dim U = dim V , allora U = V . Se dim U = dim V una base di U è un insieme di n elementi linearmente indipendenti che giacciono in U , e quindi in V . Per quanto detto sopra, tali n elementi devono essere anche una base di V . Pertanto U contiene tutta una base di V ; essendo un sottospazio, deve contenere ogni elemento di V . ALGEBRA 3 3. D ETERMINANTI Il determinante — di matrici quadrate n × n — è una funzione f : Matn×n (R) → R, se ne esiste una, che possiede le seguenti proprietà: • Scambiare tra loro due righe moltiplica il determinante per −1. (Additività) • Moltiplicare una riga per λ moltiplica il determinante per λ. (Separata linearità 1) • Se A, B, C sono tre matrici quadrate uguali in tutto tranne che in una riga, e questa riga della matrice C è la somma delle corrispondenti righe di A e B, allora f (A) + f (B) = f (C). (Separata linearità 2) • f (id) = 1. (Normalizzazione) Osservazione 3.1. Abbiamo accennato, a lezione, al fatto che la proprietà di alternanza può essere verificata per i soli scambi di due righe adiacenti. In effetti, lo scambio dell’i-esima riga con la j-esima si può effettuare portando l’i-esima riga vicina alla j-esima con j − i + 1 scambi di righe adiacenti; scambiando poi le due righe; riportando infine la riga scambiata al posto della i-esima con altri j − i + 1 scambi di righe adiacenti. In totale il numero di scambi di righe adiacenti sarà stato 2(j − i + 1) + 1, che è un numero dispari. In conclusione, se una funzione definita sulle matrici quadrate cambia segno ogni volta che si scambino due righe adiacenti, cambierà segno anche se si scambiano due righe lontane, perché il suo valore viene moltiplicato per −1 un numero dispari di volte. Se una funzione possiede queste proprietà, allora • f vale 0 su una matrice M che ha una riga interamente nulla: se si moltiplica tale riga per uno scalare λ si ottiene nuovamente M , e allora f (M ) = λf (M ), da cui f (M ) = 0 non appena λ 6= 1. • f vale 0 su una matrice M che ha due righe uguali: in effetti scambiando tali righe si riottiene M , e allora f (M ) = −f (M ), da cui f (M ) = 0. Per linearità, f vale 0 anche su una matrice che ha una riga multipla di un’altra. • Sommare ad una riga (diciamo l’i-esima) di una matrice A un multiplo di un’altra riga (diciamo λ volte la j-esima) non cambia il valore di f . In effetti sia B la matrice che si ottiene sostituendo alla i-esima riga di A la j-esima moltiplicata per λ, e C quella che si ottiene sommando alla i-esima riga di A la j-esima riga moltiplicata per λ. Allora A, B, C coincidono ovunque tranne che nella i-esima riga, e la i-esima riga di C è la somma della i-esima riga di A con l’i-esima riga di B; per quanto detto sopra, f (A) + f (B) = f (C), e f (B) = 0 in quanto l’i-esima riga di B è multipla della sua j-esima riga. In conclusione, f (A) = f (C). Le due operazioni di scambiare due righe e sommare ad una riga un multiplo di un’altra permettono di eseguire un procedimento di eliminazione di Gauss su ogni matrice — quadrata n × n, in questo caso — e di portarla in una forma a gradoni senza cambiare il valore assunto dalla funzione f . La forma a gradoni ha esattamente n pivot, oppure almeno una riga nulla. Nel secondo caso, abbiamo già visto che f deve valere 0; nel primo caso, invece, tutti i termini sopra i pivot sono nulli, e la matrice è pertanto diagonale. Il valore di f sulle matrici diagonali si calcola immediatamente sfruttando la separata linearità nelle righe: 1 0 0 ... 0 α1 0 0 ... 0 0 1 0 . . . 0 α2 0 ... 0 0 . . . . = α1 α2 . . . α n , = α1 α2 . . . α n · f . . . . f . . . . 0 0 0 0 ... 0 1 0 ... 0 αn−1 0 0 ... 0 0 1 0 ... 0 0 αn e quindi il valore di una funzione f che soddisfi tutte le proprietà richieste è univocamente determinato su ogni matrice. Mostrare che una funzione con queste proprietà esista può essere complicato, e noi lo abbiamo fatto esibendone una esplicitamente: a11 a12 . . . a1n a21 a22 . . . a2n X sgn(σ)a1σ1 a2σ2 . . . anσn . det . = . . .. .. .. σ∈Sn an1 an2 . . . ann Questa sommatoria va spiegata: Sn è l’insieme di tutte le permutazioni degli elementi {1, 2, . . . , n}, mentre sgn(σ) è il segno della permutazione σ. Per calcolare il segno di una permutazione, esprimetela come composizione di trasposizioni — una trasposizione è lo scambio di due soli elementi — e contate il numero di queste trasposizioni: se è pari, il segno è +1; se invece è dispari, il segno è −1. A lezione è stato un po’ complicato mostrare che il numero di trasposizioni da comporre per ottenere una data permutazione è sempre pari o sempre dispari, ma lo abbiamo fatto. Abbiamo anche visto che ci sono n! permutazioni in Sn , e che si dividono a metà tra i due segni. Non è difficile mostrare che la funzione det definita dalla sommatoria è separatamente lineare nelle righe e vale 1 sulla matrice identità. L’alternanza è facile da dimostrare per trasposizioni di righe adiacenti, e abbiamo già visto sopra che questo basta. Questa espressione per la funzione determinante ha delle conseguenze importanti: • Il determinante di una matrice A triangolare superiore è il prodotto degli elementi sulla diagonale. In effetti, l’unico prodotto a1σ1 a2σ2 . . . anσn non nullo, nel caso di una matrice triangolare superiore, si ottiene quando σ è la permutazione identica, e fornisce a11 a22 . . . ann . • Il determinante di una matrice coincide col determinante della sua trasposta, cioè della matrice che si ottiene scambiando le righe con le colonne. Questo fatto dipende dal fatto che X X sgn(σ)a1σ1 . . . anσn = sgn(σ)aσ−1 1 . . . aσ−1 n . σ∈Sn σ∈Sn 1 n Ora possiamo cambiare l’indice di sommatoria in τ = σ −1 e osservare che sgn(σ −1 ) = sgn(σ) per ottenere X sgn(τ )aτ1 1 . . . aτn n τ ∈Sn che è precisamente l’espressione per il determinante della matrice trasposta di A. 4 ALGEBRA • Per quanto riguarda il determinante, tutto ciò che è vero per le righe è vero anche per le colonne. Le righe della matrice trasposta di A sono le colonne della matrice A, e quindi la funzione determinante è separatamente lineare e alternante anche nelle colonne della matrice argomento, e non solo nelle sue righe. • Il valore del determinante di una matrice n×n è non nullo se e solo se la matrice argomento ha n pivot; pertanto, det A 6= 0 se e solo se le righe (equivalentemente, le colonne) di A sono linearmente indipendenti. Il determinante di matrici 2 × 2 e 3 × 3 si calcola rapidamente: a b det = ad − bc, c d a b c det d e f = aei + bf g + cdh − (gec + hf a + idb), g h i mentre per matrici più grandi può essere comodo lo sviluppo di Laplace: a11 a12 . . . a1n n n a21 a22 . . . a2n X X det . (−1)i+j aij Mij = (−1)i+j aij Mij , = . . .. .. .. j=1 i=1 an1 an2 . . . ann dove Mij è il determinante della matrice che si ottiene togliendo da A la sua i-esima riga e la sua j-esima colonna. Utilizzate lo sviluppo di Laplace solamente quando una riga o una colonna della vostra matrice contiene molti zeri. 4. R ANGO DI UN ’ APPLICAZIONE LINEARE Prendiamo un’applicazione lineare T : V → W . Abbiamo già visto che l’immagine di T è un sottospazio vettoriale di W . La dimensione di questo sottospazio vettoriale è il rango di T , e si indica rg T . Chiaramente, rg T ≤ dim W , dal momento che la dimensione di un sottospazio vettoriale è minore o uguale alla dimensione dello spazio vettoriale che lo contiene. Inoltre rg T = dim W solo quando T è suriettiva, cioè quando l’immagine di T coincide con tutto W . 4.1. La dimensione del sottospazio vettoriale generato dalle colonne di una matrice è uguale al numero dei pivot di una riduzione a gradoni. Se T va da Rm a Rn , e conosciamo la matrice associata a T , sappiamo che l’immagine di T è il sottospazio di W generato dalle colonne della matrice; in generale però le colonne non sono linearmente indipendenti, e quindi non rappresentano una base di Im T . Ho spiegato a lezione come scegliere alcune delle colonne in modo che formino una base dell’immagine: prendo tutte le colonne della matrice che non sono combinazione lineare delle precedenti. In pratica prendo la prima se non è il vettore nullo, la seconda se non è un multiplo della prima, la terza se non si scrive come combinazione lineare delle prime due e così via. I vettori così ottenuti sono linearmente indipendenti per costruzione! Infatti, se c1 , ..., cr sono le colonne selezionate, non posso avere una loro combinazione a coefficienti non tutti nulli che dia il vettore nullo. Se così fosse, avrei α1 c1 + α2 c2 + ... + αr cr = 0, con gli αi non tutti nulli. Ma allora se porto a secondo membro l’ultimo dei termini che compaiono nella combinazione lineare, e divido per il suo coefficiente, riesco ad esprimere questa colonna della matrice come combinazione lineare di colonne precedenti, mentre l’ho scelta proprio perché questo non succedeva! Una maniera meccanica di effettuare queste scelte è eseguire un procedimento di eliminazione di Gauss e vedere in quali colonne compaiono i pivot: le colonne corrispondenti della matrice iniziale sono allora linearmente indipendenti, mentre le altre sono loro combinazioni lineari. Il rango è allora uguale al numero dei pivot al termine del procedimento di eliminazione. 4.2. Il rango di una matrice è la dimensione del sottospazio vettoriale generato dalle sue righe. Abbiamo interpretato il procedimento di eliminazione di Gauss anche in un’altra maniera: se associamo ad una matrice il sottospazio vettoriale generato dalle sue righe, le manipolazioni dell’eliminazione di Gauss non modificano tale sottospazio! Ricordiamo che al termine del procedimento di eliminazione la matrice è in una forma a gradoni, e che i coefficienti sulla colonna di un pivot sono tutti nulli — ad eccezione dei pivot, ovviamente! Di conseguenza, le righe (non nulle) di una matrice a gradoni sono linearmente indipendenti: se prendete una combinazione lineare di tali righe, i coefficienti della combinazione lineare compariranno nella posizione dei pivot e pertanto la combinazione lineare è nulla se e solo se i suoi coefficienti sono nulli. In conclusione, il numero delle righe non nulle, e quindi dei pivot, è uguale alla dimensione del sottospazio vettoriale generato dalle righe della matrice. Il fatto che la dimensione dei sottospazi generati dalle righe e dalle colonne, rispettivamente, di una matrice abbiano la stessa dimensione — e cioè il numero dei pivot che si ottengono applicando il procedimento di eliminazione di Gauss — è più profondo di quel che sembri e ha mille conseguenze! 5. S ISTEMI LINEARI E DIPENDENZA LINEARE Un sistema di equazioni lineari si dice omogeneo se i termini noti sono tutti nulli, e non omogeneo altrimenti. Sappiamo già che le soluzioni di un sistema omogeneo sono un sottospazio vettoriale, perché rappresentano il nucleo dell’applicazione lineare individuata dai primi membri del sistema di equazioni4. Se sto risolvendo invece un sistema non omogeneo, le sue soluzioni non formano un sottospazio vettoriale. In ogni caso, la differenza di due qualsiasi soluzioni è una soluzione del sistema omogeneo corrispondente (stessi primi membri, termini noti tutti nulli); nella stessa maniera la somma di una soluzione di un sistema non omogeneo e di una del sistema omogeneo associato è ancora soluzione dello STESSO sistema non omogeneo. Questo ci ha permesso di concludere che, una volta nota una soluzione particolare5 di un sistema non omogeneo, le altre soluzioni sono tutte e sole quelle che si scrivono come somma della soluzione particolare e di una qualche soluzione del sistema omogeneo associato. Geometricamente, questo vuol dire che le soluzioni di un sistema non omogeneo si ottengono traslando le soluzioni del sistema omogeneo associato (che è un sottospazio vettoriale) di una traslazione pari ad una soluzione particolare. 4Ovviamente suppongo di mettere nel primo membro di ciascuna equazione le incognite, e nel secondo membro i termini noti. 5Che posso scegliere come mi pare. ALGEBRA 5 Questo ci permette di concludere che gli insiemi di soluzioni hanno la stessa struttura. Se la soluzione del sistema omogeneo associato è unica, un sistema non omogeneo non può avere più di una soluzione6. Se le soluzioni del sistema omogeneo associato formano una retta, un sistema non omogeneo ha per insieme delle soluzioni quella stessa retta traslata, e così via. Lo studio della molteplicità delle soluzioni di un sistema si riduce quindi allo studio delle soluzioni del sistema omogeneo associato. Dobbiamo rispondere a due domande fondamentali: quante soluzioni ha un dato sistema lineare omogeneo? Come faccio a capire se un sistema non omogeneo ha soluzioni? 5.1. Relazione tra rango e dimensione del nucleo. A lezione ho risposto alla prima domanda mostrando che la dimensione del nucleo di una applicazione lineare T : V → W (leggi: la dimensione dello spazio delle soluzioni di un sistema lineare omogeneo) è pari a dim V − rg T (leggi: il numero di incognite meno il rango della matrice dei coefficienti). Ho fatto vedere questo fatto risolvendo esplicitamente il sistema di equazioni, ed ottenendo una base dello spazio delle soluzioni composta esattamente di dim V − rg T vettori. Qui do una dimostrazione alternativa un po’ più astratta, ma che ha il pregio di funzionare per spazi vettoriali qualsiasi, mentre quella data a lezione funziona solo se V e W sono Rm ed Rn . Prendiamo un’applicazione lineare T : V → W . Il nucleo di T è un sottospazio vettoriale di V . Posso sceglierne una base {v1 , ..., vn } del nucleo di T (sarà formata da vettori di T linearmente indipendenti) e completarla ad una base {v1 , ..., vn , w1 , ..., wr } di V . Siccome ogni vettore di V si scrive come combinazione lineare di questi n + r vettori, ogni vettore dell’immagine di T si scrive come combinazione lineare dei vettori T (v1 ), ..., T (vn ), T (w1 ), ..., T (wr ). Ora, i vettori T (v1 ), ..., T (vn ) sono chiaramente tutti nulli, perché abbiamo scelto v1 , ..., vn all’interno del nucleo di T . Perciò l’immagine di T è generata dai vettori T (w1 ), ..., T (wr ). Ora voglio mostrare che questi r vettori sono necessariamente linearmente indipendenti. Prendiamo una combinazione lineare α1 T (w1 ) + ... + αr T (wr ) uguale al vettore nullo. Voglio far vedere che tutti i coefficienti αi sono nulli. T è lineare, e riesco a scrivere 0 = α1 T (w1 ) + ... + αr T (wr ) = T (α1 w1 + ... + αr wr ) perciò il vettore w = α1 w1 + ...αr wr appartiene al nucleo di T . Ma siccome v1 , ..., vn formano una base del nucleo w si scrive anche come combinazione lineare dei soli v1 , ..., vn . Se gli αi non sono tutti nulli, w si scrive in due modi diversi come combinazione lineare dei vettori v1 , ..., vn , w1 , ..., wr , il che è impossibile, perché formano una base di V . Ricapitolando, l’immagine di T è generata dai vettori T (w1 ), ..., T (wr ) che sono linearmente indipendenti. Questi vettori sono quindi una base di Im T , e quindi dim Im T = r. Inoltre V ha una base v1 , ..., vn , w1 , ..., wr costituita da n + r vettori, quindi dim V = n + r. Allo stesso modo, il nucleo di T ha una base v1 , ..., vn di n vettori, e quindi ha dimensione n. Concludiamo che dim V = n + r = rg T + dim ker T .7 Come conseguenza abbiamo che se le colonne dei coefficienti di un sistema omogeneo sono linearmente indipendenti (e quindi dim V = rg T ) allora la dimensione dello spazio delle soluzioni è zero, e quindi l’unica soluzione è quella banale. 5.2. Il Teorema di Rouché-Capelli. La risposta alla seconda domanda è data dal teorema di Rouché-Capelli, che dice che un sistema non omogeneo ammette soluzioni se la matrice dei coefficienti del sistema di equazioni, e la matrice ottenuta aggiungendo come ulteriore colonna alla matrice dei coefficienti quella dei termini noti, hanno lo stesso rango. Il motivo sta nel fatto che risolvere un sistema di equazioni lineari equivale ad esprimere la colonna dei termini noti come combinazione lineare delle colonne della matrice dei coefficienti: se una tale espressione è impossibile, allora non ci sono soluzioni; ogni volta che, invece, la colonna dei termini noti è combinazione lineare delle colonne della matrice, i coefficienti della combinazione lineare forniscono una soluzione del sistema. Il rango della matrice dei coefficienti del sistema è la dimensione del sottospazio vettoriale generato dalle colonne. Calcoliamo ora il rango della matrice che si ottiene apponendo alla matrice la colonna dei termini noti. Aver aggiunto l’ultima colonna non cambia il sottospazio generato dalle colonne quando essa è combinazione lineare delle precedenti (e quindi il sistema ha soluzioni); ne aumenta la dimensione di 1 se invece non è combinazione lineare (e quindi il sistema non ha soluzioni). In conclusione, il sistema è compatibile quando il rango rimane uguale, ed è incompatibile quando aumenta — e in tal caso aumenta esattamente di 1. 5.3. Il metodo di Cramer. E’ possibile utilizzare i determinanti per risolvere un sistema di n equazioni lineari in n incognite, quando la soluzione è unica: questo accade, naturalmente, quando il rango della matrice dei coefficienti è esattamente n o, equivalentemente, quando il determinante di tale matrice è non nullo. Consideriamo, allora, il sistema di equazioni a x + a12 x2 + · · · + a1n xn = b1 11 1 a21 x1 + a22 x2 + · · · + a2n xn = b2 .. . an1 x1 + an2 x2 + · · · + ann xn = bn e supponiamo che a11 a21 det . .. an1 a12 a22 .. . an2 ... ... ... a1n a2n .. 6= 0. . ann 6Fermo restando che potrebbe non avere soluzioni. Però quando ne ha, la soluzione DEVE essere unica. 7Gli articoli di ricerca sono solitamente scritti in inglese, e l’abbreviazione tradizionale di “kernel” è sorprendentemente ker. 6 ALGEBRA Teorema 5.1 (Cramer). L’unica soluzione del sistema è data da b1 a12 . . . a1n a11 b2 a22 . . . a2n a21 det . det . . . .. .. .. .. bn an2 . . . ann an1 x1 = , x2 = a11 a12 . . . a1n a11 a21 a22 . . . a2n a21 det . det . . . .. .. .. .. an1 an2 . . . ann an1 b1 b2 .. . bn ... ... a12 a22 .. . an2 ... ... ... ... a1n a11 a12 . . . a21 a22 . . . a2n det . . .. .. .. . an1 an2 . . . ann , . . . , xn = a1n a11 a12 . . . a21 a22 . . . a2n det . .. .. .. . . ann an1 an2 . . . b1 b2 . .. bn . a1n a2n .. . ann Dimostrazione. La dimostrazione è sorprendentemente semplice. Ricordiamo innanzitutto che la funzione determinante è separatamente lineare nelle colonne della matrice argomento. Se (α1 , α2 , . . . , αn ) è soluzione del sistema, allora vale b1 a11 a12 a1n b2 a21 a22 a2n . = α1 . + α2 . + · · · + αn . . .. .. .. .. bn an1 an2 ann Utilizzando le proprietà di linearità, si ottiene a11 b1 a12 . . . a1n b2 a22 . . . a2n a21 det . .. .. = α1 det .. .. . . . bn an2 . . . ann an1 a12 a22 .. . an2 ... ... a1n a12 a22 a2n .. +α2 det .. . . ... ann an2 a12 a22 .. . an2 ... ... a1n a1n a2n a2n .. + . . . +αn det .. . . ... ann ann a12 a22 .. . an2 che coincide con a11 a21 α1 det . .. an1 a12 a22 .. . an2 ... ... ... a1n a2n .. . ann in quanto tutti gli addendi successivi hanno due colonne uguali, e sono pertanto nulli. In conclusione, b1 a12 . . . a1n b2 a22 . . . a2n det . .. .. .. . . bn an2 . . . ann α1 = . a11 a12 . . . a1n a21 a22 . . . a2n det . .. .. .. . . an1 an2 . . . ann Sostituendo la colonna dei termini noti nelle altre colonne e procedendo in maniera analoga si otterranno i valori di α2 , . . . , αn . 5.4. Il teorema dell’orlato. I determinanti permettono un calcolo efficace del rango di una matrice — non troppo grande, mi raccomando! Prima di enunciarlo, un po’ di gergo: • Un minore di ordine k di una matrice M è ognuna delle sottomatrici quadrate8 composte dagli elementi che giacciono in k righe e k colonne di M ; • In una matrice A, un minore di ordine k + 1 orla un minore di ordine k se le sue righe e colonne sono scelte aggiungendone una alle righe e colonne che individuano il minore di ordine k. Teorema 5.2 (degli orlati, Kronecker). In una matrice, le righe e le colonne che attraversano un minore (di determinante) non nullo sono linearmente indipendenti. Se un minore non nullo di ordine k è orlato solo da minori nulli di ordine k + 1, allora il rango della matrice è esattamente k. Dimostrazione. La dimostrazione che ho dato a lezione procede per passi intermedi. • Se un minore di ordine h in una matrice h × n è non nullo, allora le h righe sono linearmente indipendenti. Le h colonne che appartengono al minore formano una base di Rh e la matrice ha quindi rango h. Dal momento che il rango è la dimensione del sottospazio vettoriale generato dalle righe della matrice, le h righe devono essere linearmente indipendenti. • Se un minore di ordine h in una matrice è non nullo, allora le h righe che attraversano il minore sono linearmente indipendenti. Ignorando le righe che non attraversano il minore, ci si riduce al caso precedente. Si noti che scambiando il ruolo delle righe e delle colonne, si può ripetere il ragionamento e dimostrare che le colonne che attraversano un minore non nullo sono anch’esse linearmente indipendenti. 8Personalmente, chiamo minore sia la sottomatrice che il suo determinante, in modo da poter dire più brevemente minore non nullo invece di minore di determinante non nullo. ... ... a1n a2n .. , . ... ann ALGEBRA 7 • Se un minore non nullo di ordine h in una matrice (h + 1) × n è orlato da soli minori nulli di ordine h + 1, allora la riga che non attraversa il minore di ordine h è combinazione lineare di quelle che lo attraversano. Le colonne di ciascun minore di ordine h + 1 che orla il minore di ordine h sono linearmente dipendenti a causa dell’annullarsi del determinante; pertanto, la colonna che non attraversa il minore di ordine h è combinazione lineare delle h che lo attraversano. Questo ragionamento può essere ripetuto per ogni colonna, e pertanto le h colonne che attraversano il minore sono una base del sottospazio vettoriale generato dalle colonne. Di conseguenza, il rango della matrice è h, e la riga che non attraversa il minore non nullo di ordine h deve essere combinazione lineare delle h righe — che già sappiamo essere linearmente indipendenti — che lo attraversano. • Se un minore non nullo di ordine h in una matrice è orlato da soli minori nulli di ordine h + 1, allora le righe che non attraversano il minore di ordine h sono combinazioni lineari di quelle che lo attraversano. Di conseguenza, il rango della matrice — cioè la dimensione del sottospazio generato dalle righe della matrice — è h. Di volta in volta, ignoriamo tutte le righe della matrice, con l’eccezione delle h che attraversano il minore non nullo e di un’altra. Riducendosi al caso precedente, si mostra che la riga che non attraversa il minore, qualunque essa sia, è combinazione lineare delle prime h. Le h righe che passano per il minore generano allora il sottospazio generato dalle righe, e sono linearmente indipendenti; il sottospazio generato dalle righe ha quindi dimensione h. Concludiamo: il rango di una matrice è il massimo ordine di un minore non nullo. Le righe e le colonne che attraversano un minore non nullo sono linearmente indipendenti, e le righe e le colonne che attraversano un minore non nullo di ordine massimo sono una base dei sottospazi generati dalle righe e dalle colonne, rispettivamente. Se un minore di ordine h è non nullo, il rango della matrice è almeno h. Se tutti i minori di ordine h + 1 che lo orlano sono nulli, allora il rango è esattamente h, e quindi anche i minori di ordine h + 1 che non lo orlano devono essere nulli! A lezione, abbiamo visto come calcolare il rango di alcune matrici utilizzando queste informazioni. D IPARTIMENTO DI M ATEMATICA , U NIVERSITÀ DEGLI STUDI DI R OMA – “L A S APIENZA” E-mail address: [email protected]
© Copyright 2024 Paperzz