Cosa sono le curve di Kaplan Meier e come si costruiscono su Excel, SPSS e R

copertina le curve di kaplan Meier

Categorie:

In questo articolo parleremo nel dettaglio delle principali caratteristiche delle curve di Kaplan-Meier, e come queste possono essere costruite con Excel, SPSS e R.
Se dovessi avere altri dubbi o desideri una consulenza privata non esitare a contattarci!

Cosa sono le curve di Kaplan-Maier

Le curve di sopravvivenza di Kaplan Meier sono uno strumento statistico molto utilizzato in ambito medico per valutare l’andamento e la probabilità di sopravvivenza dei pazienti con una determinata diagnosi (es: tumori) o comunque la probabilità che un determinato evento non accada (es: il rigetto di un organo dopo un trapianto).

Definiamo d’ora in poi, in maniera generica, la probabilità di sopravvivenza come la probabilità che l’evento di interesse non avvenga.

Omino che risale una curva di Kaplan-Meier per arrivare ad una lampadina

A cosa servono le curve di Kaplan Meier

Le curve di Kaplan Meier sono, quindi, lo strumento di analisi statistica che ci consente di costruire il grafico della relazione esistente tra la probabilità di sopravvivere e il tempo di osservazione, ovvero le curve di sopravvivenza, e di misurare il rischio che un certo evento possa accadere.

Gli obiettivi principali dell’analisi di sopravvivenza sono:

1) STIMARE la funzione di sopravvivenza (ad esempio, probabilità cumulativa di sopravvivenza a 3 o 5 anni);

2) CONFRONTARE la sopravvivenza di gruppi di pazienti sottoposti a trattamenti diversi;

3) VALUTARE la capacità prognostica di diverse variabili considerate separatamente e/o congiuntamente.

Per effettuare un’analisi della sopravvivenza sono indispensabili, oltre al gruppo di soggetti studiato, due variabili:

1) Una variabile detta ‘Evento’ che indica se il paziente non ha avuto l’evento di interesse (Evento=0) o se ha avuto l’evento (Evento=1) durante il periodo di osservazione;

2) Una variabile detta ‘Survival’ o ‘Tempo’ (sopravvivenza) che indica la durata del periodo di osservazione: T1-T0. Viene in genere espresso in anni, in mesi o giorni. Il tempo T0 non è detto che sia lo stesso per tutti i pazienti, in quanto si riferisce al momento della diagnosi o dell’evento chirurgico.

Differenza tra eventi e censure

Spesso si rischia di fare confusione tra eventi e censure: con evento si indica che durante il periodo di osservazione il paziente ha avuto l’evento che si sta studiando, mentre con censura si indica o un paziente che non ha avuto l’evento fino alla fine del periodo di osservazione, oppure un paziente che non si è riusciti a seguire per tutta la durata di tempo prestabilita, ma che fino all’ultimo momento di osservazione non ha presentato l’evento (escono quindi dallo studio per un motivo diverso dall’evento: sono lost in follow-up).

Supponiamo di avere 6 pazienti il cui tempo T0 è l’1 Gennaio 1997 e il periodo di osservazione di interesse è fino al 31 Dicembre 1999:

schema riassuntivo pazienti

Di questi 6 pazienti i primi tre sono rimasti vivi per tutto il periodo di osservazione, un paziente non è deceduto ma è stato perso di vista il 31 Dicembre 1998, quindi è considerato censurato prima del termine del periodo di osservazione, un paziente è morto il 31 Dicembre 1997 e l’ultimo il 31 Dicembre 1999.

Otteniamo quindi che sono arrivati alla fine del periodo di osservazione 4 pazienti, di cui uno ha avuto l’evento, mentre due pazienti non sono arrivati alla fine del termine di osservazione: uno ha avuto l’evento e uno è stato censurato (non ha avuto l’evento).

Probabilità condizionale e cumulativa di sopravvivenza

Alcuni indici classici quando si svolgono le analisi relative alla sopravvivenza sono:

\begin{aligned}
\textbf{Quoziente\ di\ mortalita'} &= \frac{Numero\ di\ eventi\ terminali}{Numero\ di\ individui\ esposti\ al\ rischio}
\end{aligned}
\begin{aligned}
\textbf{Tasso\ di\ mortalita'} &= \frac{Numero\ di\ eventi\ terminali}{\sum_\ Tempi\ di\ partecipazione\ allo\ studio\ degli\ individui\ esposti\ al\ rischio}
\end{aligned}

Probabilità di sopravvivenza = 1 – Quoziente di mortalità

Altri due indici molto importanti sono la probabilità condizionale di sopravvivenza, ovvero la probabilità di non avere l’evento al tempo t, sapendo che l’evento non si è verificato fino al tempo t-1, e la probabilità cumulativa di sopravvivenza, ovvero la probabilità a priori di non avere avuto ancora l’evento fino al tempo t:

 Primo meseSecondo meseTerzo mese
Probabilità condizionale0.60.70.9
Probabilità cumulativa0.60.6*0.7=0.420.42*0.9=0.378
foglio, riga e calcolatrice per costruire le curve di Kaplan-Meier

Costruzione delle curve Kaplan Meier

Per costruire la curva di Kaplan Meier abbiamo bisogno di suddividere il periodo di tempo in intervalli: avremo un nuovo intervallo ogni volta che si verifica un evento. In ogni intervallo dobbiamo sapere quante sono le persone ancora presenti nello studio, quanti eventi e quante censure si sono verificate, in modo da poter calcolare la probabilità di sopravvivenza condizionale e di conseguenza quella cumulativa di tale periodo.

Supponiamo di avere 10 pazienti e un periodo di osservazione pari a 240 giorni; i cerchi grigi sono gli eventi, mentre quelli bianchi le censure.

tabella dati pazienti e giorni

Costruendo una tabella per il primo intervallo si hanno i seguenti risultati:

Tabella costruita estraendo il primo intervallo

Il primo evento si ha dopo 40 giorni e non ci sono censure: la probabilità di sopravvivenza è 9/10= 0.9 (così come la probabilità cumulativa essendo il primo intervallo).

Per quanto riguarda il secondo intervallo si ha:

Tabella costruita estraendo il secondo intervallo

ovvero l’evento si ha al giorno 69 e nell’intervallo vi è anche un paziente censurato: la probabilità di sopravvivenza è 8/9 = 0.89 mentre quella cumulativa è 0.9*0.89=0.80.

Si procede in questo modo fino al termine del periodo di osservazione.

Il passo successivo è costruire la curva di Kaplan Meier, che risulta essere simile a un grafico a “gradini”:

Grafico della curva di Kaplan-Meier in base ai dati della tabella

Cosa è il log rank test delle curve Kaplan Meier

È possibile confrontare due curve di Kaplan Meirer per determinare, ad esempio, la diversa sopravvivenza di due gruppi di pazienti (trattamento vs controllo, terapia A vs terapia B, ecc…).

Il test che viene utilizzato per il confronto di due curve si chiama log rank test.

Per vedere come costruire le curve di Kaplan Meier facciamo un nuovo esempio: supponiamo di avere due gruppi di 6 pazienti ciascuno, che vengono seguiti per 100 giorni. Si ha la seguente situazione:

tabella con grppo 1 e gruppo 2 sull' ascissa e i giorni sull'ordinata

Come prima dobbiamo costruire una tabella considerando gli intervalli di tempo, questa volta tenendo conto dei due gruppi; bisogna inoltre aggiungere l’indice di mortalità attesa per ogni intervallo, data dal numero dei pazienti a rischio nel gruppo diviso il numero dei pazienti totali a rischio. Per il primo intervallo si ha:

tabella costruita estraendo il primo intervallo di giorni 1-23

ovvero il primo evento al giorno 23, nel gruppo 1, non ci sono censurati e il rischio di mortalità attesa è lo stesso per i due gruppi. Per il secondo intervallo si ha:

tabella con secondo intervallo di giorni 24-25

ovvero il secondo evento si ha al giorno 25, nel gruppo 2, non ci sono censurati e il rischio di mortalità attesa è più alto nel gruppo 2.

Si procede così fino a quando non ho più pazienti.

tabella finale

Alla fine, avremo il numero di morti in ciascun gruppo e le relative mortalità attese totali (date dalla somma delle singole in ciascun gruppo).

Per ottenere il valore del log rank test si ha la formula:

\begin{aligned}
\textbf{Log\ rank\ test} &= \frac{(Mortalita'\ attesa\ -\ Mortalita'\ osservata)^2}{Somma\ dei\ prodotti\ delle\ mortalita'\ attese}
\end{aligned}

Nel nostro esempio, la mortalità attesa – la mortalità osservata è pari a 1.13 (si ricava sia da 4-5,13 che da 5-3,87), quindi il risultato è:

\begin{aligned}
\textbf{Log\ rank\ test} &= \frac{(1,13)^2}{(0,5\ *\ 0,5)\ +\ (0,454\ *\ 0,546)\ +\ ...} &= 0,65
\end{aligned}

Il valore ottenuto (statistica test) si distribuisce come un Chi quadrato con numero gruppi-1 gradi di libertà (nel nostro caso 2-1=1) ed il test ha come ipotesi nulla la differenza non statisticamente significativa delle due curve. È quindi sufficiente andare a guardare il p-value del log rank test per decidere se rifiutare o meno l’ipotesi nulla di curve di sopravvivenza non significativamente differenti.

Overall survival e event free survival: cosa cambia?

La differenza tra Overall survival (OS) e Event free survival (EFS) è l’evento di interesse: supponiamo di avere dei pazienti che hanno fatto chemioterapia a seguito di un tumore e che questi siano guariti. L’evento di interesse potrebbe essere di due tipi: o avere una ricaduta o, a seguito della ricaduta, il decesso.

In questo caso la ricaduta rappresenta l’Event free survival, mentre il decesso rappresenta l’Overall survival.

ragazza che lavora al computer

Kaplan Meier: costruzione delle curve con Excel, SPSS e R

Per costruire le curve di Kaplan Meier su Excel abbiamo bisogno di scaricare e aggiungere il pacchetto “add-in”, che purtroppo non è più disponibile.

Per quanto riguarda le curve di Kaplan Meier su SPSS, basta andare su Analizza -> Sopravvivenza -> Kaplan – Meier e si apre una finestra in cui inserire la colonna relativa al tempo di osservazione, la colonna relativa all’aver avuto l’evento oppure no ed eventualmente la variabile relativa ai gruppi, nel caso volessimo confrontare più gruppi (e quindi determinare anche il valore del log rank test).

Kaplan-Meier su SPSS

Vuoi saperne di più? Scopri i nostri corsi SPSS cliccando QUI o CONTATTACI, anche per chi è alle prime armi!

Infine, su R abbiamo bisogno di installare e caricare i pacchetti “survminer” e “survival”: il comando per costruire la curva è survfit con la formula Surv:

Comandi per costruire la curva su SPSS
  • La prima variabile è numerica e indica il tempo di osservazione di ciascun paziente (anni, mesi, giorni);
  • La seconda variabile è numerica e assume valori 0 (non evento) e 1 (evento);
  • ~ 1 indica che non si fanno distinzioni tra gruppi;
  • Il comando ggsurvplot serve a disegnare la curva di Kaplan Meier.

Se volessimo disegnare le curve tra diversi gruppi, al posto di 1 dobbiamo inserire la variabile che li contiene: per esempio, per la distinzione tra maschi e femmine utilizzerò la variabile genere:

comandi per curve tra diversi gruppi

Infine per ottenere il log rank test, bisogna usare il comando survdiff al posto di survfit e aggiungere il parametro rho=0:

comandi per ottenere il log rank test

Curioso di imparare a usare R? Scopri di più sui nostri corsi cliccando QUI o CONTATTACI, anche per chi non è pratico del software!

Per saperne di più sulle curve di Kaplan Meier o su altri argomenti statistici, non esitare a contattarci: oltre ai corsi, siamo disponibili anche per consulenze o lavorare al tuo progetto su consegna!

Articolo a cura della Dott.ssa Alessandra Cardinale

Fonti e bibliografia: Giornale Italiano di Nefrologia / Anno 21 n. 6, 2004 / pp. 540-546

Categorie
About us

Analisi-Statistiche.it si pone l’obiettivo di fornire servizi di FormazioneConsulenza ed Analisi Statistica
ad Aziende e Privati. Diamo maggior valore ai tuoi dati utilizzando le più efficaci tecniche dell’analisi statistica.
Concretezza, Semplicità e Passione è ciò che ci distingue.

Contattaci

 Via Enrico Cruciani Alibrandi, 67, 00149 Roma RM

Dal Lunedì al Venerdì 8:30 – 19:30

E-mail: info@analisi-statistiche.it

Telefono: + 39 375 634 8711

Maggio: 2021
L M M G V S D
 12
3456789
10111213141516
17181920212223
24252627282930
31