Statistica descrittiva

De Cliomatica - Digital History
Tempo di lettura 14 minuti - per Celeste Di Pasquale


Statistica Descrittiva

La statistica descrittiva è un insieme di tecniche usate per descrivere le caratteristiche essenziali dei fenomeni collettivi osservati.

La storiografia, generalmente, si avvale di queste tecniche di statistica descrittiva in quanto il suo obiettivo è, il più delle volte, quello di descrivere la realtà che è oggetto della ricerca ma anche confrontarla con altre situazioni diverse dal punto di vista cronologico e geografico [1] per cui l’uso di determinati metodi statistici come gli indicatori di centralità e gli indicatori di variabilità potrebbe essere molto utile.

La statistica descrittiva mette, di fatti, a disposizione il calcolo di indicatori sintetici che riassumono con un singolo valore proprietà statistiche di una popolazione rispetto a una sua variabile con lo scopo di sostituire alla pluralità delle modalità osservate un’unica modalità che le rappresenti tutte.

Vediamo più da vicino questi indici a partire dagli indicatori di centralità.


Indicatori di centralità (misure di centralità)

Le misure di centralità sono le più utilizzate e sono le medie (aritmetica, geometrica e ponderata), la moda e la mediana.

Per media si potrebbe, dunque, intendere una modalità che rappresenti tutte le modalità di una distribuzione e questo risulta essere molto utile in quanto la nostra mente dinanzi a un insieme di osservazioni riguardanti uno stesso fenomeno fa difficoltà a ricavare un’idea complessiva mentre riassumere il contenuto di diverse osservazioni in un’unica modalità ci permette di descrivere meglio il fenomeno e confrontarlo con altri.

Le medie (definite medie ferme) differiscono dalle altre misure di centralità quali moda e mediana (definire medie lasche) per il fatto che le prime sono calcolate su tutti i termini della distribuzione mentre le altre sono determinate solo in base ad alcuni termini [2].

Vediamo le medie ferme:

  • media aritmetica: è il risultato della somma dei valori di tutti gli n termini divisa per il numero dei casi n
InDipasquale3.png

Possiamo utilizzare la media aritmetica, per esempio, per calcolare il numero di nati in media nelle regioni italiane in un determinato anno.

Questo dato potrebbe essere senz’altro indicativo, come abbiamo visto sin da subito, di altri fenomeni come, per esempio, il benessere sociale ma lo storico deve prestare attenzione nell’utilizzare la media aritmetica soprattutto nel caso in cui vi sono fenomeni “anomali”.

Excel MEDIA (n1, n2, …) dove n1, n2, ... sono gli argomenti di cui vogliamo calcolare la media aritmetica

[3] Figura 2: MEDIA dei nati vivi in regioni italiane nel 2019

In questo esempio notiamo come la media aritmetica non sia molto rappresentativa poiché vi sono regioni come la Valle d’Aosta dove il valore attribuito alla variabile è molto basso (811) e regioni come la Lombardia e il Lazio in cui è molto alto (rispettivamente 71 782 e 40 596). Vedremo in seguito come, in casi come questo, sia necessario associare il calcolo della media ad altri indicatori di centralità come la mediana e la moda.

Ci sono alcune situazioni, tuttavia, in cui è importante assegnare una diversa valenza alle osservazioni del carattere osservato e per questo si utilizza:

  • la media aritmetica ponderata = prevede l’attribuzione di un “peso” adeguato ad ogni osservazione cioè un valore che aumenta o diminuisce l’importanza di ogni fenomeno
InDipasquale5.png

La media ponderata viene, dunque, utilizzata quando si vuole attribuire un peso adeguato ai termini su cui si vuole operare.

Per comprendere quanto detto possiamo prendere in considerazione un esempio citato da Rodolfo Benini il quale chiarisce: “se sopra al mercato si sono venduti 100 quintali di grano al prezzo unitario di L.20; poi altri 150 al prezzo di L. 20,70; poi altri 300 al prezzo di L.22, non sarebbe logico concludere che il prezzo medio è \(\frac{20+20,70+22}{3}= 20,90\) perché la partita di grano che fu venduta a L.22 era tre volte più importante di quella che fu venduta a 20 e due volte più di quella che ottenne il prezzo di 20,70” [4].

In questo caso dovremmo ponderare i prezzi con le quantità vendute e quindi \(\frac{20*100+20,70*150+22*300}{100+150+300}= 21,28\)

  • media geometrica = misura il valore che sostituito a tutti i termini della distribuzione ne lascia invariata la funzione prodotto [5] .

La media geometrica è definita solo se tutte le osservazioni sono positive ed è data dalla radice ennesima del prodotto degli n termini:

InDipasquale6.png

La media geometrica viene usata, soprattutto, come media dei rapporti indici o numeri indici (= rapporti statistici che misurano la variazione di un determinato fenomeno nel tempo) e in ambito storiografico la media geometrica viene usata tutte le volte che vogliono avere un indice che sia la media di numeri indici riguardanti fenomeni affini [6]:

Esempio: il numero indice dei prezzi dei cereali che sia costruito come la media degli indici dei prezzi delle varie specie come grano, mais, avena ecc.

Excel: funzione: MEDIA.GEOMETRICA()

Tra i dati vi posso essere anche variabili con valori incongrui rispetto agli altri valori dell’insieme considerato (outliers):

Esempio: variabile “nati vivi” 811 rappresenterà un outlier

In questi casi calcolare la media non sarà sufficiente poiché essa non sarà il valore che riassume al meglio le modalità delle singole unità motivo per cui il calcolo della media viene affiancato a quello di altri indicatori di centralità quali mediana e moda.

  • Mediana = è il valore centrale di un campione di valori ordinati in senso crescente o decrescente; in altre parole, è il valore che bipartisce la graduatoria formata così da precedere un numero di termini più piccoli che è uguale al numero di termini più grandi che lo seguono

Esempio:

InDipasquale7.png

Excel: MEDIANA (n1, n2, …)

Figura 3- MEDIANA dei nati vivi in regioni italiane nel 2019

vantaggio: robusta perché poco influenzata dai valori anomali o atipici in quanto elimina i valori estremi

punto debole: sensibile alle modifiche apportate nella parte centrale della distribuzione poiché usa solo un valore dell’insieme.

  • Moda = è la modalità cui corrisponde la frequenza più alta cioè il valore più ripetuto.

Se il carattere è quantitativo la moda è una grandezza:

es: C = {4, 2, 6, 9, 5, 2, 1, 2}
la moda è 2 perché è il numero che si ripete più volte

se il carattere è qualitativo la moda è la modalità qualitativa più frequente:

es C= {cattolico, protestante, cattolico, ateo, protestante, protestante}
la moda è “protestante”

Excel: MODA (num1; [num2]; …)

  • Quale indicatore di centralità utilizzare nella ricerca storica?

Abbiamo visto come la scelta di quale indice di centralità calcolare dipenda dalla tipologia di dati in quanto:

  • media (aritmetica, ponderata e geometrica) può essere calcolata solo per le distribuzioni secondo un carattere quantitativo
  • mediana può essere determinata per le distribuzioni secondo un carattere qualitativo ordinato o quantitativo
  • moda può essere determinata per le distribuzioni secondo un qualsiasi carattere (qualitativo o quantitativo)

Lo storico quando sceglie il tipo di media da utilizzare deve, dunque, in primo luogo considerare il tipo di carattere osservato se quantitativo o qualitativo per poi soffermarsi anche sui valori dei caratteri per esempio potremmo usare la moda e la mediana quando vi sono valori “anomali” poiché sarebbe illogico calcolare la media se vi sono dati che non sono rappresentativi del fenomeno [7].

Quello che possiamo dire è che anche nell’applicare le tecniche di statistica descrittiva lo storico non può limitarsi all’applicazione meccanica di semplici “regole di calcolo” ma deve effettuare scelte metodologiche.


Indici di variabilità (misure di variabilità)

Se si vuole caratterizzare un fenomeno attraverso le sue caratteristiche non ci si può limitare a misurare il valore centrale ma bisogna misurare anche la sua variabilità = la loro attitudine ad assumere valori diversi.

La variabilità aumenta all’aumentare della diversità tra le modalità assunte dalle diverse unità o rispetto ad un valore caratteristico del fenomeno considerato.

Gli indici di variabilità cercano di spiegare queste variazioni esistenti in una collettività in cui ci possono essere valori molto diversi che si discostano molto dalla media aritmetica o valori più omogenei che sono più vicini anche alla media aritmetica.

Tra le principali misure di variabilità vi è la:

  • deviazione standard (scarto quadratico medio) = è un indicatore di dispersione di una distribuzione di valori che permette di stimare la variazione all’interno di un insieme.

La deviazione standard è la radice quadrata della varianza = media dei quadrati degli scarti

(scarto = la differenza tra ogni termine \(\ {x_i}\) e la media \( \bar X \)) in quanto se usiamo sia numeri positivi che negativi il valore degli scarti sarà 0 mentre usando i quadrati degli scarti avremo sempre numeri positivi.

InDipasquale9.png

La varianza essendo espressa nel quadrato dell’unità di misura dei fenomeni diventa difficile capire cosa significa, per esempio, che la varianza dei capitali fissi investiti in certe aziende corrisponde a una certa quantità in moneta elevata al quadrato e per questo si usa la radice della varianza definita scarto quadratico medio o deviazione standard che è espresso nella stessa unità di misura del fenomeno.

InDipasquale10.png

N.B. queste formule possono essere usate solo nel caso della popolazione mentre se lavoriamo con un campione al denominatore utilizzeremo N-1 e quindi nella statistica descrittiva useremo la formula vista mentre nella statistica inferenziale useremo:

InDipasquale11.png

Excel: DEV.ST.P(num1; [num2]; …) nel caso della popolazione

DEV.ST.C(num1; [num2]; …) nel caso del campione

Figura 4-4 - DEVIAZIONE STANDARD dei nati vivi in regioni italiane nel 2019

Quando due fenomeni sono espressi in unità di misura diverse risulta difficile confrontare la loro variabilità con gli indicatori appena visti motivo per cui ci si avvale degli indici di variabilità relativa [8] cioè indici che permettono sì di misurare la variabilità ma che siano puri numeri indipendenti dalle unità di misura.

Gli indici di variabilità relativa si possono ottenere rapportando l’indice di variabilità assoluto ad una media del carattere considerato e così avremo:

  • varianza relativa
InDipasquale13.png
  • coefficiente di variazione
InDipasquale14.png

Questi valori potrebbero essere moltiplicati * 100 così da ottenere il valore in percentuale e per questo sono definiti indici percentuali di variabilità.

Esempio: se avessimo i dati relativi all’estensione della piccola proprietà contadina di una regione e gli analoghi dati relativi al latifondo e vorremmo sapere quale delle due misure sia più variabile non possiamo limitarci a calcolare lo scostamento semplice medio poiché lo scostamento semplice medio del latifondo sarà, quasi sicuramente, maggiore di quello della piccola proprietà ma questo non significa che la superficie dei latifondi sia più variabile di quella della piccola proprietà poiché si tratta di due unità di misura diverse: il latifondo è una unità di misura maggiore e per questo è necessario, in casi come questo, avvalersi degli indici relativi di variabilità appena visti [9].


Bibliografia e sitografia

  1. Ivi, p.144
  2. Ivi pp.151-157
  3. I dati utilizzati sono stati estratti dalla banca dati Statistiche Istat, StatBase: https://www.istat.it/it/dati-analisi-e-prodotti/banche-dati/statbase l'accesso ai principali dati (istat.it) e sono relativi alle nascite (nati vivi) di ogni regione italiana nell’anno 2019.
  4. R. Benini, Principi di statistica metodologica, Torino, 1906, p.98
  5. Francesco Borazzo e Paola Perchinunno, Analisi statistiche con Excel (Pearson Italia S.p.a., 2007).
  6. A. Porro, Storia e statistica. Introduzione ai metodi quantitativi per la ricerca storica, Roma, 1989, p.154
  7. A. Porro, Storia e statistica. Introduzione ai metodi quantitativi per la ricerca storica, Roma, 1989, pp. 159-160
  8. Ivi , pp. 167-169
  9. Ibidem



Citazione di questo articolo
Come citare: DI PASQUALE, Celeste . "Statistica descrittiva". In: CLIOMATICA - Portale di Storia Digitale e ricerca. Disponibile in: http://lhs.unb.br/cliomatica/index.php/Statistica_descrittiva. il giorno: 27/06/2024.






Informare errori in questa pagina