Algebra Lineare 4 Equazioni di Matrice

Le quattro equazioni di matrice nell'Algebra Lineare

Risoluzione di equazioni matriciali Ax= b

Prefazione

Benvenuti alla quarta edizione della mia serie in corso sui fondamenti dell’algebra lineare, la matematica fondamentale dietro il machine learning. Nel mio precedente articolo, ho presentato vettori, combinazioni lineari e span di vettori. In questo saggio daremo uno sguardo all’equazione matriciale Ax = b e vedremo come il principio stesso della risoluzione di un sistema di equazioni lineari è collegato all’equazione matriciale.

Questo articolo sarebbe di maggior utilità per i lettori se letto in accompagnamento a “Linear Algebra and Its Applications” di David C. Lay, Steven R. Lay e Judi J. McDonald. Considerate questa serie come una risorsa complementare.

Sentitevi liberi di condividere pensieri, domande e critiche.

L’intuizione

Nell’ultimo articolo abbiamo parlato di combinazioni lineari che, come promesso, hanno importanti implicazioni. Ricordate che dati i vettori v₁, v₂, … vₐ in ℝⁿ e gli scalari (noti anche come pesi) c₁, c₂, … cₐ, la combinazione lineare è il vettore definito dalla somma dei prodotti scalari, c₁v₁ + c₂v₂ + … + cₐvₐ.¹

Diciamo che un vettore b è una combinazione lineare di un insieme di vettori v₁, v₂, .. vₐₚ in Rⁿ, se esiste un insieme di pesi c₁, c₂, … cₐ (una soluzione) tale che c₁v₁ + c₂v₂ + … + cₐvₐ = b.

Per determinare se b è una combinazione lineare di alcuni vettori dati v₁, v₂, .. vₐ abbiamo organizzato i nostri vettori in un sistema di equazioni lineari, quindi abbiamo creato una matrice aumentata delle nostre equazioni e abbiamo utilizzato operazioni di riduzione riga per ridurre la matrice alla forma canonica ridotta. Se la forma canonica ridotta presentava una incongruenza, ovvero una riga del tipo: [0, 0, … | m] dove m ≠ 0, ciò significava che il nostro vettore b non è una combinazione lineare dei vettori perché non esistono insiemi di pesi per cui l’equazione c₁v₁ + c₂v₂ + … + cₐvₐ = b sia vera.

Se non c’era tale incongruenza, ciò significava che potevamo scrivere il vettore b come una combinazione lineare di un insieme di vettori, come nell’esempio sopra. Vi ricordate come abbiamo verificato la nostra risposta alla fine? Moltiplicavamo ciascun vettore per il suo scalare corrispondente e quindi trovavamo la somma dei vettori. Se la somma dei vettori era uguale a b, sapevamo che avevamo effettuato i nostri calcoli correttamente e che b era effettivamente una combinazione lineare.

Questo processo di verifica è in realtà la matrice Ax = b travestita!

Ax = b

Se A è una matrice m x n, e x è in Rⁿ (vedrete perché è importante che x sia in Rⁿ nella prossima sezione), allora il prodotto Ax è la combinazione lineare dei vettori (colonne) in A, utilizzando gli scalari corrispondenti in x.

Si noti che nulla di tutto questo è nuovo materiale, abbiamo già calcolato inconsapevolmente Ax quando verifichiamo le nostre combinazioni lineari nel mio articolo precedente. L’equazione matriciale Ax = b è comunque fondamentale perché formalizza tutto questo in una notazione compatta e riemergerà in nuovi modi in seguito.

Ora sappiamo che se ci viene data una matrice A di dimensioni m x n e x e calcoliamo il prodotto matriciale Ax e questo è uguale a b, allora b può essere scritto come una combinazione lineare dei vettori (colonne) in A e degli scalari/elementi in x. Quindi in sintesi: l’equazione Ax = b avrà una soluzione (x) solo se b può essere scritto come una combinazione lineare delle colonne di A.

Moltiplicazione tra matrici

Ho introdotto Ax = b come un prodotto tra matrici, ma non ho ancora spiegato la moltiplicazione tra matrici (che è ciò che Ax rappresenta)!

La moltiplicazione tra matrici è l’operazione di moltiplicare due matrici per produrne una terza, il loro prodotto. Abbiamo già visto l’addizione di matrici in cui due matrici vengono sommate per produrre la loro somma. Affinché l’addizione di matrici sia definita, le due matrici che vengono sommate, matrice A e matrice B, devono essere delle stesse dimensioni. Allo stesso modo, la moltiplicazione tra matrici ha una richiesta. Per moltiplicare la matrice A e la matrice B e ottenere AB, il numero di colonne nella matrice A deve essere uguale al numero di righe nella matrice B. La dimensione del prodotto tra la matrice A e B, che chiameremo matrice C, dipenderà dal numero di righe della matrice A e dal numero di colonne della matrice B. La matrice C avrà m (# di righe nella matrice A) righe e p (# di colonne nella matrice B) colonne.

Allora, come funziona la moltiplicazione tra matrici? Se dovessimo moltiplicare la matrice A e B, ogni voce nella riga i-esima, colonna j-esima del prodotto è il prodotto scalare della riga i-esima nella matrice A e della colonna j-esima nella matrice B.

Per ora, tutto ciò che devi sapere è che il prodotto scalare è la somma del prodotto delle entrate corrispondenti tra due vettori ed è definito solo quando i due vettori hanno lo stesso numero di elementi. Questa spiegazione è lontana dal rendere giustizia al prodotto scalare, ma riserverò l’intuizione geometrica completa per più avanti.

Per brevità, ho calcolato il prodotto matriciale di due matrici 2 x 2, ma la stessa procedura si generalizza per matrici di qualsiasi dimensione purché le matrici soddisfino i criteri per la moltiplicazione tra matrici, altrimenti il loro prodotto sarà indefinito.

Proprietà della moltiplicazione tra matrici

Se A, B e C sono matrici di dimensioni n x n e c e d sono scalari, allora sono vere le seguenti proprietà.³

  1. AB BA (non commutativo in generale)
  2. (AB)C = A(BC) (associativo)
  3. A(B+C) = AB + AC e (B+C)A = BA + CA (distributivo)
  4. 0A = 0 (proprietà moltiplicativa dello zero)

Presta attenzione al fatto che la moltiplicazione tra matrici non è commutativa, questa proprietà potrebbe richiedere un po’ di tempo per essere compresa dato che siamo abituati in modo intuitivo alla commutatività con i numeri reali.

Queste proprietà sono utili per calcolare i prodotti tra matrici, che saranno un soggetto ricorrente nell’algebra lineare.

Conclusion

La moltiplicazione delle matrici è un’operazione matematica fondamentale che sottende alla funzionalità principale delle reti neurali, in particolare durante le fasi di alimentazione in avanti e di retropropagazione.

Nella fase di alimentazione in avanti di una rete neurale, i dati vengono elaborati attraverso i vari strati e la moltiplicazione delle matrici è al cuore di questa operazione. Ogni strato di una rete neurale è composto da neuroni, rappresentati come somme ponderate degli ingressi, seguite da una funzione di attivazione. Queste somme ponderate vengono calcolate utilizzando la moltiplicazione delle matrici.

Durante il passaggio di retropropagazione, la rete neurale impara dai suoi errori. Regola i pesi dei neuroni per ridurre al minimo l’errore tra le uscite previste e quelle effettive. Anche qui, la moltiplicazione delle matrici è un componente chiave di questo processo, specificamente nel calcolo dei gradienti, che indicano quanto ciascun peso deve essere regolato per ridurre l’errore.

Imparare la matematica è un’esperienza entusiasmante di per sé, ma imparare anche le applicazioni dell’Algebra Lineare insieme alla teoria può rendere il percorso attraverso una ripida curva di apprendimento ancora più stimolante.

Riassunto

In questo capitolo, abbiamo imparato:

  • Intuizione di combinazioni lineari e prodotto di matrici Ax = b: come il prodotto di matrici non è necessariamente un nuovo concetto, ma formalizza una procedura che già utilizzavamo!
  • Ax = b: il prodotto di matrici ha una soluzione x se b è una combinazione lineare dell’insieme di vettori (colonne) in A.
  • Moltiplicazione di matrici: l’operazione dietro Ax = b, ampiamente utilizzata nelle applicazioni di apprendimento automatico, con esempi specifici come le reti neurali.
  • Proprietà della moltiplicazione di matrici: non commutatività, associatività, distributività e la proprietà moltiplicativa dello zero.

Note

*Tutte le immagini sono state create dall’autore, salvo diversa indicazione.* Mi scuso per il ritardo nel proseguire da dove ci eravamo fermati. Attualmente sto sostenendo gli esami di metà periodo (tra cui uno di Algebra Lineare haha!) ¹Definizione di combinazioni lineari tratta da Algebra Lineare e Applicazioni 6a edizione di David C. Lay, Steven R. Lay e Judi J. McDonald²Definizione di proprietà del prodotto di matrici tratta da Algebra Lineare e Applicazioni 6a edizione di David C. Lay, Steven R. Lay e Judi J. McDonald³Proprietà delle matrici tratte da src.