Revisão de 10h33min de 20 de fevereiro de 2020 por Tiago (discussão | contribs)

Estatística descritiva para historiadores

De Cliomatica - Digital History
Tempo estimado de leitura deste artigo 22 minutos - por Tiago Gil


PORTAL DE ESTATÍSTICA

Página inicial de Análise Estatística

Conceitos básicos (operações básicas, notações, etc)

Estatística descritiva (médias, mediana, moda, desvio padrão e coeficiente de variação)

Séries temporais (Distribuição dos dados))

Relação entre variáveis (Correlação, regressão, etc)

Introdução

A chamada estatística descritiva é formada pelas ferramentas mais conhecidas e usadas deste campo do conhecimento. A forma de calcular a média, ou melhor, as diferentes medidas de centralidade são algumas das principais questões que trataremos neste verbete. Além disso, veremos também formas de dispersão, distribuição e séries temporais.

Nesse verbete vamos apenas discutir o conceito e os modos de empregar essas métricas. O cálculo e as fórmulas ficarão nos verbetes de cada uma das ferramentas, que estarão diretamente lincados aqui. Fazemos isso por entender que a compreensão do significado destes cálculos é mais importante que o modo de resolvê-la, ainda que essas questões não sejam separáveis e nossa abordagem aqui seja apenas didática.


Medidas de centralidade

Antes de tudo, convém lembrar que as medidas sobre as quais vamos falar fazem sempre referência a um conjunto específico de dados. Não existe média geral, ela é sempre a média de algum grupo de informações, ou seja, de uma população ou de uma amostra. E para que serve a média? Trata-se de um cálculo que elimina as diferenças existentes entre os membros de um grupo, salientando um ponto do qual todos estão igualmente distantes. É uma forma simples de apresentar um rosto único para uma série de dados diversos os quais, entendemos, tem alguma razão para estar no mesmo grupo, razão essa que pode ser metodológica, empírica ou teórica. Muitas vezes ela não nos diz muito sobre os nossos dados e por isso é frequentemente criticada. A média, contudo, tem uma grande utilidade: ela permite comparações entre grupos diferentes. Ela nos dá uma noção diante da completa incerteza. Ainda que ela simplifique, ela não está distante da maior parte dos casos que foram usados para formá-la. Sozinha, contudo, não é de grande serventia e obtém seu brilho nas comparações com outras médias ou quando melhor explicada junto com outras medidas, como a moda e a mediana.

Vejamos um caso no qual a média pode ser útil como uma primeira referência. Stuart Schwartz calculou a quantidade média de escravos por tipo de propriedade agrícola na Bahia do início do século XIX. Segundo ele, os senhores de engenho tinham, em média, 65,5 escravos. Os plantadores de fumo, 19,3; os donos de sítios ou fazendas, 13,4; donos de alambique, 12,1 e os lavradores de cana, 10,5. Esses dados nos mostram uma enorme diferença social no mundo dos livres. Os senhores de engenho tinham muito mais escravos que os demais segmentos e a média nos ajuda a entender exatamente quanto.[1][2]

As medidas de centralidade, contudo, não se resumem a média. E a média, aliás, tem suas variações, como a média aritmética (a mais usada), a média geométrica e a ponderada.

Médias

As médias são três: aritmética, geométrica e ponderada. Cada uma tem sua utilidade. Se diferem de outras medidas de centralidade, como a moda e a mediana por incluirem, em seu cálculo, todas os casos (ou observações) de um conjunto.

Média aritmética

É a mais conhecida de todas. É fruto da soma dos valores de todos os casos de um grupo dividida pelo número de casos.


\(\tilde{x} = \sqrt{2}\{frac{\sum_{i=1}^n X_i}{n}^2 }\)

Onde:

\(\tilde{x}\) = símbolo padrão para média (com um risco ou til acima da letra)

\(\sum_{i=1}^n X_i\) = a soma dos valores de todos os casos (e apenas isso)

\(n\) = a quantidade de casos

Ou seja

\(\tilde{x} = \frac{\sum_{i=1}^n X_i}{n} = \frac{soma-dos-valores-de-todos-os-casos}{quantidade-de-casos}\)




Média geométrica

A média geométrica é menos conhecida, porém sua utilidade não é menor. Ela é perfeita para séries de dados apresentam aumento crescente, taxas de crescimento, número de quilômetros de ferrovia construídos por ano, etc. Seu cálculo feito pela raíz n (total de fatores) do produto dos fatores. Ou seja: multiplicam-se os fatores e se fazer a raíz n do produto.


\(\left(\prod_{i=1}^n a_i \right)^{1/n} = \sqrt[n]{a_1 a_2 \cdots a_n}.\)

Onde:

\(\prod_{i=1}^n a_i\) É o símbolo da multiplicação de todos os elementos


ou que:


\(\prod_{i=1}^n a_i\) = \(a_1 a_2 \cdots a_n \)

A média geométrica sempre será menor (ou, no máximo, igual) à média aritmética, mas é a medida correta para conjuntos que indiquem crescimento. Também é caracterizada por não dar tanto peso a valores extremos.




Média ponderada

A média ponderada é semelhante à média aritmética tendo, contudo, uma característica importante: ela dá importância aos pesos de seus termos. Nesse caso, sua fórmula é:


\(\bar{x} = \frac{ \sum_{i=1}^n x_i w_i }{\sum_{i=1}^n w_i} = \frac{ x_1 w_1 + x_2 w_2 + x_3 w_3 + ... + x_n w_n }{w_1 + w_2 + w_3 + ... + w_n}\)

Onde X é igual aos valores e W é o peso que queremos atribuir a eles.

Tomemos um conjunto de notas de um aluno para saber sua média ponderada. Ele fez três provas. A primeira tinha peso 3 (30% ou 0.3), a segunda, 2 (20% ou 0.2) e a última, 5 (50% ou 0.5)

\(W = \{0.3, 0.2, 0.5\} \,\)

Suas notas foram: 4, 8 e 9.

\(X = \{4, 8, 9\} \,\)

Logo, sua média ponderada se calcula assim:


\(\bar{x} = \frac{4\cdot 0.3 + 8\cdot 0.2 + 9\cdot 0.5}{0.3+0.2+0.5}= 7.81\,\)

Ou seja, soma-se o produto da multiplicação de peso vezes o valor e se divide pela soma dos pesos. No caso, o resultado é 7,3


Antes de continuar, convém destacar um problema comum e bastante sério que pode acontecer com a média. Se dentre os casos do nosso conjunto algum for muito diferente dos demais, ela terá pouca utilidade. Por exemplo: em uma pequena cidade há apenas dez senhores de escravos. Dos dez, nove possuem somente 2 escravizados. O restante, caso único, tem 50 cativos. Ou seja, temos nove senhores com dois escravos e um com 50, totalizando 68 cativos para dez senhores, ou seja, 6,8 na média. É possível verificar como esse último número não explica nada dos nove casos e faz diluir a senzala do grande senhor. Para evitar esse problema é que usamos outras medidas, como a mediana e a moda. Elas nos falam sobre as insuficiências da média e convém sempre mostrá-las juntas com essa última.


Vejamos aqui como fazer esses cálculos em planilhas eletrônicas e outros programas que usam funções de cálculo em bancos de dados, mesmo em geoprocessamento.




Mediana

A mediana se obtem encontrando o número, uma vez que nosso conjunto esteja ordenado, que fica exatamente no meio, tendo o mesmo número de casos com valor inferior ou superior, conforme o exemplo abaixo:

Conjunto: {21, 05, 08, 46, 12, 45, 15}

Colocando em ordem:


05, 08, 12, 15, 21, 45, 46


No caso, a mediana desta conjunto é 15, que tem três valores menores e outros três maiores. É o caso que fica no meio dos demais casos.

Caso o número de valores intermediários seja composto de dois número (quando o conjunto é par), faz-se a média aritmética dos dois.

Essa medida de centralidade possui um ponto fraco, pois só uso um valor do conjunto. Seu ponto forte, contudo, é que elimina eventuais valores extremos que podem deixar a média aritmética distante dos valores mais frequentes.





Moda

Dentro de um conjunto de valores, a moda é o valor que mais se repete.

Ou seja, considerando o conjunto C = {4, 2, 6, 9, 5, 2, 1, 2}, a moda é 2, pois é o que mais se repete (três vezes, contra uma de todos os demais).

Essa medida é muito útil para várias coisas. Por exemplo, em muitas cidades do Brasil, a moda das escravarias era um, indicando que a ampla maioria dos senhores tinha apenas um escravizado, ainda que alguns tivesse dezenas ou centenas. Resta saber, assim, o quanto esses valores se repetem.





Medidas de dispersão

As medidas de dispersão procuram dar conta das variações existentes dentro do conjunto estudado, existem casos discrepantes ou se há relativa homogeneidade. Vejamos as principais medidas:


Desvio padrão

O desvio padrão tem um conceito muito simples. Ele calcula a diferença entre cada caso e a média. Se fizermos essa conta considerando números positivos e negativos, o resultado será zero e sem significado. Para tanto, transformamos todas as diferenças em números positivos (elevando ao quadrado e tomando a raiz, procedimento feito simples e exclusivamente para essa função de deixar todos positivos). Ou seja, se temos 3 casos, 10, 5 e 3, a média é 6. As diferenças, então, são -4, -1 e 1. Como aplicamos o quadrado e a raiz, as diferenças ficam 4, 1 e 1. A média delas é 2.

DEMANDA REVISÃO SÉRIA


Quartis
Coeficiente de variação

distribuição e séries temporais


Referências

  1. SCHWARTZ, Stuart. Segredos Internos. São Paulo: Companhia das Letras, 1988
  2. Para mais exemplos de médias em pesquisas sobre escravidão, ver também MARCONDES, Renato Leite. Diverso e desigual: o Brasil escravista na década de 1870. São Paulo: FUNPEC, 2009



Citação deste verbete
Como citar: GIL, Tiago. "Estatística descritiva para historiadores". In: CLIOMATICA - Portal de História Digital e Pesquisa. Disponível em: http://lhs.unb.br/cliomatica/index.php/Estat%C3%ADstica_descritiva_para_historiadores. Data de acesso: 1 de julho de 2024.






Informar erro nesta página