Conceitos básicos de estatística para historiadores

De Cliomatica - Digital History
Tempo estimado de leitura deste artigo 19 minutos - por Tiago Gil


PORTAL DE ESTATÍSTICA

Página inicial de Análise Estatística

Conceitos básicos (operações básicas, notações, etc)

Estatística descritiva (médias, mediana, moda, desvio padrão e coeficiente de variação)

Séries temporais (Distribuição dos dados))

Relação entre variáveis (Correlação, regressão, etc)

Introdução

Muitos pesquisadores em história temem a estatística não apenas pelas suas dúvidas teóricas e metodológicas mas pelo receio da matemática. Na verdade, a matemática necessária para os cálculos possíveis em história é bastante básica.

Veja os exercícios abaixo e avalie sua capacidade de resolvê-los:


a) 2 + 2

b) 6 - 2

c) 2 x 2

d) 8 / 2

e) \(\sqrt{16}\)

f) \(2^2\)


Gabarito: 4 (para todas)

Se você conseguiu responder todas, está suficientemente familiarizado com a matemárica necessária para cálculos bastante complexos. Se você não conseguiu, não desanime! Na verdade, basta entender os conceitos que orientam a aplicação das fórmulas e o computador fará todos os cálculos. As decisões mais importantes dizem respeito ao conhecimento que o historiador tem das fontes e dos limites da quantificação. E isso não requer matemática, mas conhecimento histórico.

Avançando um pouco mais: população e amostra

Em primeiro lugar, é importante ter clareza que quando estamos falando de estatística estamos falando de conjuntos, ou seja, um agrupamentos específicos de casos (ou observações, segundo uma tradução muito comum do inglês para o português). Esse conjunto pode ser formado por casos de tipo muito diferentes. Pode ser uma lista de moradores de uma casa, de maças vendidas em uma banca de feira ou assassinatos em uma determinada rua. Esse conjunto pode ser previamente organizado em um Banco de dados, ainda que isso não seja obrigatório. Entre os conjuntos, temos duas possibilidades mais gerais. Ou estamos falando da totalidade de casos de um determinado fenômeno ou tipo, ao que chamamos de população, ou estamos falando de uma parcela dessa totalidade, ao que chamamos amostra, que pode ser definida por diversos critérios, inclusive por seleção aleatória. Há diferentes procedimentos estatísticos para tratar os dados de uma população (novamente, fala da totalidade dos casos e não dos habitantes de algum lugar) e os de uma amostra. As amostras demandam, por exemplo, a realização de testes para averiguar se são confiáveis ou se tem um perfil enviezado. Se nosso caso de estudo é sobre festas noturnas e só usamos dados sobre os eventos de segundas e terças, nossa amostra será enviezada, pois são dias pouco animados para este tipo de confraternização. Se eu tomar os dados de segunda como a regra, não será possível compreender muita coisa sobre meu objeto. Ou seja, para averiguar o potencial enviezamento dos dados, é preciso ter conhecimento histórico e erudição sobre o problema em questão. A totalidade dos casos é sempre mais segura, ainda que ela nem sempre seja possível.

Há diversas formas de se definir uma amostra e muitas disciplinas definem o que seria a melhor maneira de fazer isso. Em econometria, por exemplo, há décadas que a seleção aleatória de casos é prevista como a melhor e mais adequada àquele tipo de estudo. É claro que, como já dissemos, a totalidade seria o ideal. Em história, contudo, há um problema: muitas vezes a totalidade das fontes que temos já é uma parcela de um todo que foi maior, ou seja, fontes foram perdidas ou sequer foram feitas. Seria isso uma amostra? Sim, mas provavelmente enviezada (em termos estatísticos, não em termos históricos, pois ela é fruto de seu tempo) e não sabemos exatamente em que direção. Para isso é preciso conhecer bem as fontes e buscar entender suas características, encontrando suas limitações (de uso estatístico) e a quais interesses ela atendia.

Achou algum erro? Não entendeu o conteúdo? fale com a gente!

Há ainda uma última expressão que convém conhecer: proxy. É um termo da estatística que designa um conjunto de dados sobre uma tema que é eventualmente usado para saber sobre outra coisa que não aquela mesma, com a qual (se infere) teria relação direta. Na falta de um conjunto de dados sobre o que queremos, usamos outro, que pode servir, já que seriam conectados. Um exemplo pode ajudar a entender melhor: estudando o padrão de consumo dos ricos de uma povoação, não dispomos de fontes que nos sirvam para saber quem são os ricos. Não temos inventários, dados bancários ou mesmo registros de propriedade, todos esses conjuntos de dados que, juntos, nos permitiriam uma boa aproximação. A povoação em estudo, contudo, era escravista. Sabemos que em sociedades escravistas modernas é comum que a distinção social se faça pelo número de escravos que uma família dispõe. É razoável inferir, assim, que os mais ricos terão mais escravos. Dessa forma, se sabemos quantos escravos cada senhor tem, podemos estimar um ranking (precário) das pessoas mais ricas, estabelecendo um corte em algum momento (acima de 5 escravizados, por exemplo, baseando-nos em algum critério claramente definido). Isso seria um proxy: usamos a propriedade de escravos para falar de outra variável, a riqueza em dinheiro. Não é completamente absurdo, pois os mais pobres certamente não teriam muitos escravos, mas pode acabar eliminando eventuais ricos que não tinham essa força de trabalho em quantidade (negociantes, por exemplo, não precisavam tanto de trabalhadores quanto fazendeiros).


Avançando ainda mais: conhecendo as notações

Vimos acima que é importante ter um conhecimento das quatro operações. Contudo, mesmo para essas operações, vamos usar uma simbologia (notação) diferente de + - x e /. É que quando usamos esses sinais, estamos falando de operações abstratas, de um "2" qualquer. No caso da estatística aplicada aos problemas de história, quase sempre faremos referência a conjuntos de dados e, por isso, somos obrigados a usar uma simbologia específica para isso.

Vamos começar com a adição, que para o somatório de conjuntos é representada assim, com a letra grega "sigma" \(\sum\).

Na subtração, usamos "delta" \(\triangle\)

Para a multiplicação dos dados de um conjunto, usa-se o \(\prod\).


Contudo, na imensa maioria dos casos vamos trabalhar apenas com \(\sum\).

O somatório \(\sum\) é sempre apresentado de modo completo, desse jeito:

\(\sum_{i=1}^5 X_i\)

Parece assustador, mas é muito simples: os números abaixo e acima do sigma fazem referência a um conjunto de dados que estamos observando. O número que fica abaixo do sigma é o primeiro do conjunto. O que fica na parte superior é o último. O "x" é a variável que estamos somando.

Vejamos abaixo uma lista hipotética com o número de canetas que uma família tem. Cada pessoa na família tem um número "X" de canetas.

Pessoa,canetas (X)

pessoaA,2

pessoaB,3

pessoaC,5

pessoaD,1


O somatório de todas as canetas será representado assim:

\(\sum_{i=1}^4 X_i\)

. O "X" é o total de canetas.


Logo,

\(\sum_{i=1}^4 X_i\). = 11


Seria o mesmo que dizer 2 + 3 + 5 + 1



Lamp2.png Exemplo de software: Veja como fazer isso no LivreOffice e em outras planilhas eletrônicas.



Se por alguma razão for importante excluir a pessoaA, então ficaria assim:

\(\sum_{i=2}^4 X_i\)


Logo,

\(\sum_{i=2}^4 X_i\) = 9


É apenas uma forma de apresentar os dados.


Por fim, mas não menos importante, convém relembrar a ordem das operações. As divisões e multiplicações sempre precedem as adições e subtrações. Mas, antes delas, temos a raíz quadrada e a potencia. E antes destas, parênteses, colchetes e chaves. Basta seguir a ordem: chaves, colchetes, parênteses, raíz, potência, multiplicação, divisão, soma e subtração. Esse regra básica será nossa guia para decompor equações mais complexas.


Achou algum erro? Não entendeu o conteúdo? fale com a gente!


Nota bibliográfica

Todas as informações contidas nesse verbete foram baseadas em dois manuais que são mencionados nas referências.[1] [2]


Referências

  1. Canning, John. Statistics for the Humanities. John Canning, 2014.
  2. Floud, Roderick. An introduction to quantitative methods for historians. Routledge, 2013.



Citação deste verbete
Como citar: GIL, Tiago. "Conceitos básicos de estatística para historiadores". In: CLIOMATICA - Portal de História Digital e Pesquisa. Disponível em: http://lhs.unb.br/cliomatica/index.php/Conceitos_b%C3%A1sicos_de_estat%C3%ADstica_para_historiadores. Data de acesso: 24 de junho de 2024.






Informar erro nesta página