Concetti base di statistica

De Cliomatica - Digital History
Tempo di lettura 12 minuti - per Celeste Di Pasquale


Concetti base di statistica

La statistica, spesso, fa paura agli storici sia per i dubbi teorici e metodologici, ma anche per la paura della matematica, poiché si pensa che per fare statistica sia necessario fare calcoli complicati. Questo però non è vero, in quanto le decisioni più importanti riguardano la conoscenza da parte dello storico delle fonti e dei limiti della quantificazione e questo non richiede matematica ma consapevolezza del metodo e conoscenza storica.

La matematica necessaria per i possibili calcoli nella storia è, di fatti, molto semplice in quanto la statistica usa sì i numeri, ma a differenza della matematica non cerca di creare modelli, tesi e astrazioni, ma sfrutta le regole di base e di calcolo per tradurre i fenomeni reali in dati numerici che possano essere facilmente analizzati [1].


Nozioni elementari di matematica

Il primo passo è conoscere le quattro operazioni che, generalmente, ci vengono insegnate dai primi anni scolastici e, quindi, fanno parte del bagaglio comune; ciò che invece è più importante menzionare è la notazione utilizzata:

  • Per la somma si usa:
NO: a1 + a2 + a3…
SI \(\sum_{i=1}^{n}\ {a_i}\) (si legge sommatoria su \(\ {a_i}\) per i che va da 1 a n)
I numeri sotto e sopra il sigma si riferiscono a un insieme di dati che stiamo guardando. Il numero in basso è il primo del set mentre quello in alto è l’ultimo. La a è la variabile che siamo aggiungendo.
  • Per la moltiplicazione si usa:
∏(produttoria)

Il valore assoluto di un numero relativo è il numero stesso privato del segno e viene indicato con due barrette verticali: |-5| = 5

La funzione matematica viene indicata con l’uguaglianza y= f(x) e si ha quando esiste una relazione tra una grandezza y e un’altra grandezza x cioè a ogni valore di x corrisponde un determinato valore di y:

Esempio: y= 5+2x quindi se x= 0 y=5

y è la variabile dipendente e x la variabile indipendente


Nozioni fondamentali di statistica

Popolazione e campionamento:

  • Popolazione = insieme di tutte le manifestazioni relative ad un certo fenomeno (= universo)

Di un universo non è possibile avere una conoscenza esaustiva sia perché il numero degli elementi che lo compongono è infinito ma anche nel caso in cui il numero degli elementi è finito ma non analizzabile [2] .

  • Campione è un sottoinsieme della popolazione = una collezione di elementi che appartengono ad un più ampio aggregato (popolazione) [3].
Il campione deve essere rappresentativo della popolazione da cui è stato estratto.

L’adeguatezza del campione dipende da diversi fattori:

  • dimensione: il campione deve essere sufficientemente grande in funzione della variabilità del carattere in studio e dell’inferenza che si vuole fare → se il carattere ha bassa variabilità anche un campione piccolo potrebbe essere rappresentativo, mentre se la variabilità è elevata un campione piccolo rischia di escludere una porzione consistente della variazione esistenza;
  • randomizzazione: gli elementi che entrano a far parte del campione vengono scelti in maniera casuale.
[4] Figura 1- La prima fase di un’analisi consiste nell’estrazione di un campione dalla popolazione di cui vogliamo conoscere i parametri (come la media μ o la varianza σ2). Il campione viene descritto mediante statistiche (indicate con lettere latine) e a partire da queste si farà inferenza ai corrispondenti parametri che caratterizzano la popolazione.
Esistono diversi modi per definire un campione e molte discipline definiscono quale sarebbe il modo migliore per farlo. Per esempio, nell’econometria la selezione casuale dei casi è stata vista per decenni come la modalità più appropriata per quel tipo di studio.
Nella storia c’è il problema che, il più delle volte, le fonti che abbiamo sono già parte di un tutto ben più ampio e, quindi, la popolazione su cui deve operare lo storico è già un campione, un “aggregato casuale” [5] , poiché limitato a ciò che è stato registrato casualmente nel materiale documentario.

Ogni unità statistica è portatrice di caratteristiche:

  • variabili (detti anche caratteri) = caratteristiche di ogni unità statistica [6]

Esempio: studenti di un determinato corso di studi saranno caratterizzati da determinate caratteristiche come per esempio luogo di nascita, età, sesso, colore di capelli, stato civile, professione, percorso di studi ecc.

Il ricercatore deve, dunque, determinare quali sono i caratteri che interessano ai fini della indagine e li deve rilevare cioè deve scegliere tra i caratteri, potenzialmente infiniti, quelli che gli servono.

Ogni variabile in corrispondenza di una osservazione assume un determinato valore:

  • modalità: uno dei possibili valori che può assumere una variabile (nel caso di variabili quantitative si usa il termine valore).

Esempio: se la variabile è il sesso la modalità potrebbe essere “femmina”.

La tradizione statistica italiana distingue:

  • variabile qualitative o categoriche = danno luogo a risposte qualitative designate con nomi, parole ecc. (es. sesso: “maschio” o “femmina”) [7] Le variabili qualitative si distinguono a loro volta:
    • ordinati (o ordinabili) = è possibile instituire un ordine naturale o convenzionale tra le modalità [8] (es. ceto sociale → il “ceto medio” si colloca sotto l’alta borghesia ma sopra la classe operaia)
    • sconnessi [9]= non è possibile stabilire un legame o graduatoria fra i valori della variabile (per es. sesso → non esiste una gerarchia tra “maschio” e “femmina”)
  • variabili quantitative o numeriche = danno luogo a risposte quantitative a domande come “quanto siete alti” “quanti prodotti ha venduto nel primo mese del 2021 la ditta X?” Ci sono due tipi di variabili quantitative:
    • discrete = producono risposte numeriche che derivano da un processo di conteggio e, quindi, costituite da numeri interi (es. la variabile “numero di figli” e il valore dovrà essere un numero intero quindi 3 figli ma non è possibile avere 2,7 figli)
    • continue = generano risposte che derivano da un processo di misurazione (es. “altezza” che può assumere un qualunque valore nel continuo e così valore di “altezza” potrà essere 165 cm, 164,8 o 164,79)
[10]


Le distribuzioni statistiche

I dati corrispondenti alle modalità con cui un carattere si manifesta in un collettivo costituiscono:

  • distribuzione unitaria = rappresenta come il carattere si distribuisce fra le diverse unità della popolazione

riunendo le modalità uguali otteniamo le frequenze corrispondenti a ciascuna modalità:

  • distribuzione di frequenza = insieme delle modalità di un carattere cui siano associate le relative frequenze (frequenza = numero di volte con cui compaiono le stesse modalità del carattere considerato)
  • se alle modalità di un carattere sono associate non le frequenze, ma le intensità (intensità = somma di tutti i valori assunti dalle modalità uguali) parliamo di distribuzione di intensità.

Distribuzione di frequenza e distribuzione di intensità sono dette distribuzioni statistiche perché formate da dati statistici.

Una distribuzione è definita semplice se si riferisce a una sola variabile ed è rappresentabile con una semplice tabella mentre è doppia, tripla ecc. se si riferisce a due, tre ecc. caratteri.

Nel caso di una variabile qualitativa per costruire una distribuzione di frequenza è sufficiente contare quante sono le unità osservate che ricadono nelle diverse modalità, mentre più complicato risulta essere per le variabili quantitative.

In ogni caso è importante garantire l’omogeneità dei dati e questo risulta essere valido ancor di più per la ricerca storica poiché lo storico può sì procedere con una classificazione convenzionale ma deve far risaltare le differenze economiche, sociali, politiche ecc [11]. e scegliere gli estremi basandosi sulla sua conoscenza dell’argomento.

La nozione di distribuzione ci permette di definire anche la distinzione che viene operata tra le due principali branche della scienza statistica: statistica descrittiva e statistica inferenziale:

  • statistica descrittiva = lo scopo è raccogliere, presentare e analizzare i dati relativi alla popolazione che costituisce l’oggetto di studio; consiste nella costruzione delle distribuzioni e nella valutazione e descrizione delle caratteristiche essenziali dei fenomeni collettivi (per approfondimento vedi sezione Statistica descrittiva)
  • statistica inferenziale = è l’insieme di procedure che consentono la stima delle caratteristiche di una popolazione sulla base dei dati campionari [12]. L’obiettivo è fare affermazioni relative alla natura teorica delle distribuzioni osservate e se questa natura teorica può essere identificata tenendo sotto controllo la possibilità di errore allora diventa possibile “inferire” da tale conoscenza “predizioni” sul comportamento di sistemi simili.

La storiografia utilizza principalmente le tecniche della statistica descrittiva, ma può avere la necessità di operare solo su una parte delle informazioni disponibili, soprattutto quando si trova dinanzi a fonti sovrabbondanti, e in questo caso potrebbe essere utile procedere per campioni con le tecniche di statistica inferenziale [13].


Bibliografia e sitografia

  1. Maurizio De Pra, Finalmente ho capito la statistica: I metodi, gli strumenti, le rappresentazioni grafiche, le tecniche, i concetti... spiegati a tutti con la massima chiarezza (Vallardi, 2016).
  2. M. Sari Gorla, Elementi di statistica applicata . Seconda edizione, Milano, 2011, p.3
  3. Ibidem
  4. Ibidem
  5. Angelo Porro, Storia e statistica. Introduzione ai metodi quantitativi per la ricerca storica, Roma, 1989, pp.41-42
  6. David M. Levine, Timothy C. Krehbiel, e Mark L. Berenson, Statistica, Edizione italiana a cura di Raffaella Piccarreta, Milano, 2006, p.2
  7. 'Ibidem
  8. Angelo Porro, Storia e statistica. Introduzione ai metodi quantitativi per la ricerca storica, Roma, 1989, p. 55
  9. Ibidem
  10. David M. Levine, Timothy C. Krehbiel, e Mark L. Berenson, Statistica, Edizione italiana a cura di Raffaella Piccarreta, Milano, 2006, pp.9-10
  11. Angelo Porro, Storia e statistica. Introduzione ai metodi quantitativi per la ricerca storica, Roma, 1989, pp.47-50
  12. M. Sari Gorla, Elementi di statistica applicata. Seconda edizione, Milano, 2011
  13. Angelo Porro, Storia e statistica. Introduzione ai metodi quantitativi per la ricerca storica, Roma, 1989, p. 52.



Citazione di questo articolo
Come citare: DI PASQUALE, Celeste . "Concetti base di statistica". In: CLIOMATICA - Portale di Storia Digitale e ricerca. Disponibile in: http://lhs.unb.br/cliomatica/index.php/Concetti_base_di_statistica. il giorno: 27/06/2024.






Informare errori in questa pagina