Revisão de 22h44min de 16 de agosto de 2021 por Lana.Sato (discussão | contribs)

R

De Cliomatica - Digital History
Tempo di lettura 8 minuti - per Ludovica Binetti& Lorenzo Di Gianvittorio


Le basi di R

A partire dalla fine del secolo scorso, nel campo degli studi storici, ha iniziato a diffondersi la pratica di digitalizzare una grande moltitudine di dati storici, prevalentemente per ragioni di efficienza e di velocità di recupero di questi dati. Una volta in possesso di dati digitalizzati, in realtà, un ulteriore vantaggio è quello di effettuare su di essi analisi di tipo statistico. Uno dei linguaggi che più si è affermato in quest’ultimo campo è R, un termine dal duplice significato. Con esso si può, difatti, indicare sia un linguaggio di programmazione usato per l'analisi statistica e la visualizzazione di dati, che un “ambiente di sviluppo” [1] ovvero una collezione di software che agevolano il lavoro di scrittura del codice sorgente del programmatore [2] . Uno dei vantaggi che questo linguaggio offre allo storico è, ad esempio, la possibilità di salvare in uno script (un file con estensione .R) un blocco di codice che esegue una certa analisi su dei dati di interesse. Questo script, una volta elaborato, potrà essere riutilizzato più e più volte su insiemi di dati differenti, effettuando, eventualmente, dei piccoli accorgimenti a seconda del particolare tipo di analisi che si vuole condurre. Prima di capire, però, come sia possibile accedere ai dati ed effettuare su di essi analisi statistiche, è doveroso, prima, installare e settare l’ambiente di lavoro, nonché prendere confidenza con la sua interfaccia e con la sintassi basilare. Qui di seguito si offrono una serie di indicazioni di carattere generale proprio per accompagnare il lettore in queste prime e delicate fasi. Inoltre, per prendere una maggiore confidenza con la sintassi di R, si suggerisce, nelle fasi iniziali, di non creare degli script ma di eseguire singoli comandi nella console in maniera tale da avere un riscontro diretto dell'output ed individuare con più facilità eventuali errori di battitura o sintassi.

I primi passi: RStudio

R, in quanto linguaggio di programmazione, può essere eseguito o da riga di comando o tramite un'apposita interfaccia, chiamata RStudio, disponibile sia come applicazione desktop che come applicazione web. In questa sede, si farà riferimento all'applicazione desktop scaricabile al presente link. Si nota che, scaricando RStudio, R sarà automaticamente installato nel proprio computer.

Figura 4: Interfaccia grafica di RStudio,

L'interfaccia grafica di RStudio si presenta come in Figura 4. Le potenzialità sono molteplici, ma i principali elementi su cui bisogna porre maggiore attenzione sono:

  • Il riquadro in alto a sinistra, che contiene l'editor. Questo permette non solo di creare degli script ma anche di visualizzare eventuali dati in formato tabulare;
  • Il riquadro in alto a destra, in cui è possibile visualizzare, nella scheda “Environment”, la lista degli oggetti creati, mentre, nella scheda “History”, la cronologia dei comandi eseguiti;
  • Il riquadro in basso a sinistra, che contiene la console. Essa è caratterizzata dalla presenza del simbolo > (chiamato prompt di R), a seguito del quale vengono inseriti i comandi da eseguire;
  • Il riquadro in basso a destra, contenente, infine, diverse schede:
    • “File”: consente di esplorare i file del nostro computer;
    • “Plot”: dà la possibilità di visualizzare i grafici creati;
    • “Packages”: serve per la visualizzazione di pacchetti installati e/o caricati;
    • “Help”: scheda molto utile per ricercare la documentazione di un pacchetto o di singoli comandi.

Impostare la directory di lavoro e caricamento di dati

La primissima cosa da fare ogni qual volta viene aperto RStudio è settare la working directory che sarà visualizzata nella sezione in basso a destra. La directory è ciò che consente al programmatore di recuperare i file (di solito file . txt o .csv), all'interno dei quali sono contenuti i propri dati. Una delle più grandi utilità di R per uno storico è, difatti, la possibilità di avere un modo per analizzare grandi quantità di dati storici che spesso vengono digitalizzati e salvati in formati tabellari. Questi dati potranno essere importati nell’ambiente di lavoro tramite un opportuno comando read.table() che li inserisce all’interno di un dataframe. All’interno di questo comando è importante specificare nell’ordine indicato:

  • Nome del file dal quale si vogliono importare i dati;
  • La presenza o meno di intestazioni al dataframe;
  • Il separatore utilizzato;
  • Il numero della colonna che contiene i nomi delle righe oppure un vettore contenente tali nomi.

Un esempio si riporta qui di seguito:

InR2.png

Altri parametri specificabili nella funzione possono essere consultati al presente link.

Variabili e funzioni di statistica descrittiva

Una delle cose certamente più utili quando si programma in R è quello di creare variabili (o “oggetti”). Ad ogni variabile deve essere assegnato un nome secondo delle linee guida consultabili qui. Per creare una variabile, è necessario scrivere, nella riga di comando, i seguenti elementi nell'ordine indicato:

  • Nome da assegnare all'entità;
  • Comando di assegnazione < –;
  • Contenuto.

Si noterà che, dopo l’assegnamento, il nome dell'entità, con il relativo contenuto, comparirà nella “Environment” in alto a destra. Il vantaggio di creare oggetti è, difatti, quello di poterli richiamare e riutilizzare in seguito. Ad esempio, se si volessero analizzare alcuni dati relativi al numero di telefoni (espresso in migliaia) [3] presenti in diverse regioni del mondo dall’anno 1951 al 1961, li si potrebbe inserire in un oggetto al fine di richiamarli più agevolmente in seguito. Per accedere ai dati di cui sopra si è detto, è possibile usare la funzione data() che permette di recuperare una serie di dataset che l’ambiente di R offre: nel nostro caso, il dataset da recuperare ha il nome di “World Phones”. Pertanto scrivendo > data ("WorldPhones") nella riga di comando si noterà la creazione di un oggetto nella scheda del working environment (vedi Figura 5).

Figura 5: visualizzazione dell'oggetto creato nell'Environment


Bibliografia e sitografia

  1. Di solito un ambiente di sviluppo è costituito dai seguenti elementi: editor, per la scrittura delle istruzioni; compilatore; debugger, uno strumento per l'individuazione di errori che impediscono la fase di compilazione o di esecuzione; browser, per la gestione dei file.
  2. Per definizione consulta anche W3school.
  3. Cfr. RDocumentation.



Citazione di questo articolo
Come citare: BINETTI, Ludovica & Di Gianvittorio, Lorenzo. "R". In: CLIOMATICA - Portale di Storia Digitale e ricerca. Disponibile in: http://lhs.unb.br/cliomatica/index.php/R. il giorno: 1/07/2024.






Informare errori in questa pagina