Revisão de 22h58min de 16 de agosto de 2021 por Lana.Sato (discussão | contribs)

R

De Cliomatica - Digital History
Tempo di lettura 10 minuti - per Ludovica Binetti& Lorenzo Di Gianvittorio


Le basi di R

A partire dalla fine del secolo scorso, nel campo degli studi storici, ha iniziato a diffondersi la pratica di digitalizzare una grande moltitudine di dati storici, prevalentemente per ragioni di efficienza e di velocità di recupero di questi dati. Una volta in possesso di dati digitalizzati, in realtà, un ulteriore vantaggio è quello di effettuare su di essi analisi di tipo statistico. Uno dei linguaggi che più si è affermato in quest’ultimo campo è R, un termine dal duplice significato. Con esso si può, difatti, indicare sia un linguaggio di programmazione usato per l'analisi statistica e la visualizzazione di dati, che un “ambiente di sviluppo” [1] ovvero una collezione di software che agevolano il lavoro di scrittura del codice sorgente del programmatore [2] . Uno dei vantaggi che questo linguaggio offre allo storico è, ad esempio, la possibilità di salvare in uno script (un file con estensione .R) un blocco di codice che esegue una certa analisi su dei dati di interesse. Questo script, una volta elaborato, potrà essere riutilizzato più e più volte su insiemi di dati differenti, effettuando, eventualmente, dei piccoli accorgimenti a seconda del particolare tipo di analisi che si vuole condurre. Prima di capire, però, come sia possibile accedere ai dati ed effettuare su di essi analisi statistiche, è doveroso, prima, installare e settare l’ambiente di lavoro, nonché prendere confidenza con la sua interfaccia e con la sintassi basilare. Qui di seguito si offrono una serie di indicazioni di carattere generale proprio per accompagnare il lettore in queste prime e delicate fasi. Inoltre, per prendere una maggiore confidenza con la sintassi di R, si suggerisce, nelle fasi iniziali, di non creare degli script ma di eseguire singoli comandi nella console in maniera tale da avere un riscontro diretto dell'output ed individuare con più facilità eventuali errori di battitura o sintassi.

I primi passi: RStudio

R, in quanto linguaggio di programmazione, può essere eseguito o da riga di comando o tramite un'apposita interfaccia, chiamata RStudio, disponibile sia come applicazione desktop che come applicazione web. In questa sede, si farà riferimento all'applicazione desktop scaricabile al presente link. Si nota che, scaricando RStudio, R sarà automaticamente installato nel proprio computer.

Figura 4: Interfaccia grafica di RStudio,

L'interfaccia grafica di RStudio si presenta come in Figura 4. Le potenzialità sono molteplici, ma i principali elementi su cui bisogna porre maggiore attenzione sono:

  • Il riquadro in alto a sinistra, che contiene l'editor. Questo permette non solo di creare degli script ma anche di visualizzare eventuali dati in formato tabulare;
  • Il riquadro in alto a destra, in cui è possibile visualizzare, nella scheda “Environment”, la lista degli oggetti creati, mentre, nella scheda “History”, la cronologia dei comandi eseguiti;
  • Il riquadro in basso a sinistra, che contiene la console. Essa è caratterizzata dalla presenza del simbolo > (chiamato prompt di R), a seguito del quale vengono inseriti i comandi da eseguire;
  • Il riquadro in basso a destra, contenente, infine, diverse schede:
    • “File”: consente di esplorare i file del nostro computer;
    • “Plot”: dà la possibilità di visualizzare i grafici creati;
    • “Packages”: serve per la visualizzazione di pacchetti installati e/o caricati;
    • “Help”: scheda molto utile per ricercare la documentazione di un pacchetto o di singoli comandi.

Impostare la directory di lavoro e caricamento di dati

La primissima cosa da fare ogni qual volta viene aperto RStudio è settare la working directory che sarà visualizzata nella sezione in basso a destra. La directory è ciò che consente al programmatore di recuperare i file (di solito file . txt o .csv), all'interno dei quali sono contenuti i propri dati. Una delle più grandi utilità di R per uno storico è, difatti, la possibilità di avere un modo per analizzare grandi quantità di dati storici che spesso vengono digitalizzati e salvati in formati tabellari. Questi dati potranno essere importati nell’ambiente di lavoro tramite un opportuno comando read.table() che li inserisce all’interno di un dataframe. All’interno di questo comando è importante specificare nell’ordine indicato:

  • Nome del file dal quale si vogliono importare i dati;
  • La presenza o meno di intestazioni al dataframe;
  • Il separatore utilizzato;
  • Il numero della colonna che contiene i nomi delle righe oppure un vettore contenente tali nomi.

Un esempio si riporta qui di seguito:

InR2.png

Altri parametri specificabili nella funzione possono essere consultati al presente link.

Variabili e funzioni di statistica descrittiva

Una delle cose certamente più utili quando si programma in R è quello di creare variabili (o “oggetti”). Ad ogni variabile deve essere assegnato un nome secondo delle linee guida consultabili qui. Per creare una variabile, è necessario scrivere, nella riga di comando, i seguenti elementi nell'ordine indicato:

  • Nome da assegnare all'entità;
  • Comando di assegnazione < –;
  • Contenuto.

Si noterà che, dopo l’assegnamento, il nome dell'entità, con il relativo contenuto, comparirà nella “Environment” in alto a destra. Il vantaggio di creare oggetti è, difatti, quello di poterli richiamare e riutilizzare in seguito. Ad esempio, se si volessero analizzare alcuni dati relativi al numero di telefoni (espresso in migliaia) [3] presenti in diverse regioni del mondo dall’anno 1951 al 1961, li si potrebbe inserire in un oggetto al fine di richiamarli più agevolmente in seguito. Per accedere ai dati di cui sopra si è detto, è possibile usare la funzione data() che permette di recuperare una serie di dataset che l’ambiente di R offre: nel nostro caso, il dataset da recuperare ha il nome di “World Phones”. Pertanto scrivendo > data ("WorldPhones") nella riga di comando si noterà la creazione di un oggetto nella scheda del working environment (vedi Figura 5).

Figura 5: visualizzazione dell'oggetto creato nell'Environment

Si noterà, anche, che cliccando su di esso, si aprirà nell’editor la tabella contenente i dati come in Figura 6.

Figura 6: visualizzazione della tabella dei dati nell'Editor

A questo punto, quello che si è ottenuto, altro non è che un dataframe sul quale è possibile lavorare per ottenere risposte a diverse domande. Per esempio, qual è la media di numeri di telefono che si possedevano in un certo anno nelle diverse regioni del mondo? Qual è la regione del mondo con più numeri di telefono in un certo anno? Prima di questo, però, si prenda familiarità con alcune semplici funzioni che permettono di calcolare media o mediana e trovare il valore minimo e massimo all’interno del dataset numerico. Rispettivamente si avrà: mean(), median(), min() e max() a cui basterà aggiungere, entro le parentesi, il nome del dataframe. Una funzione molto utile per ottenere un prospetto di questi valori per l’intero dataset è summary().

InR5.png

Questa mostrerà, per ogni regione, una serie di informazioni. Per esempio il numero massimo di telefoni in Africa, tra il 1951 e il 1961 è stato 2005, quello minimo 89. Oppure si potrà velocemente comparare i valori e vedere, ad esempio che la regione con la media più alta di telefoni nell’intervallo di tempo considerato è stata il Nord America. Per accedere, invece, a singole righe, colonne o valori di un dataframe è possibile usare una notazione particolare: all’interno di parentesi quadre si dovranno specificare 2 numeri separati da una virgola, il primo indicante il numero di riga e il secondo il numero di colonna. Si ricordi che, in R, il conteggio di righe e colonne parta da 1 e non da 0 (come si è soliti contare nel mondo dell'informatica).

Qui di seguito si riportano degli esempi:

  • Accesso alla 3ª riga

InR6.png

  • Accesso alla 5ª colonna

InR7.png

  • Accesso al valore della 3ª riga nella 5ª colonna

InR8.png

Se si tratta di valori di particolare interesse, questi potranno, oltretutto, essere salvati in delle variabili tramite il comando di assegnamento. Per esempio, se fossimo interessati a conservare l’informazione del numero massimo di telefoni in Nord America tra il 1951 e il 1962 si potrebbe fare come segue:

InR9.png


Bibliografia e sitografia

  1. Di solito un ambiente di sviluppo è costituito dai seguenti elementi: editor, per la scrittura delle istruzioni; compilatore; debugger, uno strumento per l'individuazione di errori che impediscono la fase di compilazione o di esecuzione; browser, per la gestione dei file.
  2. Per definizione consulta anche W3school.
  3. Cfr. RDocumentation.



Citazione di questo articolo
Come citare: BINETTI, Ludovica & Di Gianvittorio, Lorenzo. "R". In: CLIOMATICA - Portale di Storia Digitale e ricerca. Disponibile in: http://lhs.unb.br/cliomatica/index.php/R. il giorno: 1/07/2024.






Informare errori in questa pagina