Mudanças entre as edições de "Estatística descritiva para historiadores"

De Cliomatica - Digital History
 
(23 revisões intermediárias pelo mesmo usuário não estão sendo mostradas)
Linha 41: Linha 41:
  
  
 +
{{exemplo|exemplo=[[Média aritmética em Planilhas Eletrônicas|Veja como fazer isso no LivreOffice e em outras planilhas eletrônicas.]]}}
  
 
----
 
----
  
 +
{{erro}}
  
  
Linha 66: Linha 68:
  
  
 +
{{exemplo|exemplo=[[Média geométrica em Planilhas Eletrônicas|Veja como fazer isso no LivreOffice e em outras planilhas eletrônicas.]]}}
  
 
----
 
----
  
 
+
{{erro}}
  
 
====== ''Média ponderada'' ======
 
====== ''Média ponderada'' ======
Linha 92: Linha 95:
  
  
<div style='text-align: left;'><math>\bar{x} = \frac{4\cdot 0.3 + 8\cdot 0.2 + 9\cdot 0.5}{0.3+0.2+0.5}= 7.81\,</math></div>
+
<div style='text-align: left;'><math>\bar{x} = \frac{4\cdot 0.3 + 8\cdot 0.2 + 9\cdot 0.5}{0.3+0.2+0.5}= 7.3\,</math></div>
  
 
Ou seja, soma-se o produto da multiplicação de peso vezes o valor e se divide pela soma dos pesos. No caso, o resultado é '''7,3'''
 
Ou seja, soma-se o produto da multiplicação de peso vezes o valor e se divide pela soma dos pesos. No caso, o resultado é '''7,3'''
 +
 +
 +
{{exemplo|exemplo=[[Média ponderada em Planilhas Eletrônicas|Veja como fazer isso no LivreOffice e em outras planilhas eletrônicas.]]}}
  
  
Linha 100: Linha 106:
 
'''Antes de continuar''', convém destacar um problema comum e bastante sério que pode acontecer com a média. Se dentre os casos do nosso conjunto algum for muito diferente dos demais, ela terá pouca utilidade. Por exemplo: em uma pequena cidade há apenas dez senhores de escravos. Dos dez, nove possuem somente 2 escravizados. O restante, caso único, tem 50 cativos. Ou seja, temos nove senhores com dois escravos e um com 50, totalizando 68 cativos para dez senhores, ou seja, 6,8 na média. É possível verificar como esse último número não explica nada dos nove casos e faz diluir a senzala do grande senhor. Para evitar esse problema é que usamos outras medidas, como a mediana e a moda. Elas nos falam sobre as insuficiências da média e convém sempre mostrá-las juntas com essa última.
 
'''Antes de continuar''', convém destacar um problema comum e bastante sério que pode acontecer com a média. Se dentre os casos do nosso conjunto algum for muito diferente dos demais, ela terá pouca utilidade. Por exemplo: em uma pequena cidade há apenas dez senhores de escravos. Dos dez, nove possuem somente 2 escravizados. O restante, caso único, tem 50 cativos. Ou seja, temos nove senhores com dois escravos e um com 50, totalizando 68 cativos para dez senhores, ou seja, 6,8 na média. É possível verificar como esse último número não explica nada dos nove casos e faz diluir a senzala do grande senhor. Para evitar esse problema é que usamos outras medidas, como a mediana e a moda. Elas nos falam sobre as insuficiências da média e convém sempre mostrá-las juntas com essa última.
  
 
[[Vejamos aqui como fazer esses cálculos em planilhas eletrônicas e outros programas que usam funções de cálculo em bancos de dados, mesmo em geoprocessamento.]]
 
  
  
Linha 107: Linha 111:
 
----
 
----
 
----
 
----
 +
 +
 +
{{erro}}
  
 
===== '''Mediana''' =====
 
===== '''Mediana''' =====
Linha 127: Linha 134:
  
  
 +
{{exemplo|exemplo=[[Mediana em Planilhas Eletrônicas|Veja como fazer isso no LivreOffice e em outras planilhas eletrônicas.]]}}
  
 
----
 
----
Linha 141: Linha 149:
  
  
 +
{{exemplo|exemplo=[[Moda em Planilhas Eletrônicas|Veja como fazer isso no LivreOffice e em outras planilhas eletrônicas.]]}}
  
 
----
 
----
Linha 146: Linha 155:
 
----
 
----
  
 +
 +
{{erro}}
 +
 +
====='''Quartis'''=====
 +
 +
Se a média divide os casos em duas metades (abaixo e acima da média), os quartis dividem em quatro partes, usando, para isso, a mediana. A mediana divide o conjunto em duas metades, que serão também essas divididas em metades. O caso que fica entre o menor valor e a mediana, será o primeiro quartil. O caso mediano será o segundo quartil e o valor entre o caso mediano e o caso com maior valor será o terceiro quartil. Vejamos um exemplo:
 +
 +
2, 3, 4, 5, 6, 7, 8
 +
 +
Toma-se a mediana, no caso, 5:
 +
 +
2, 3, 4, '''5''', 6, 7, 8
 +
 +
Toma-se agora o caso que fica entre o mínimo e a mediana, neste caso, 3, que será o '''primeiro quartil''':
 +
 +
2, '''3''', 4, '''5''', 6, 7, 8
 +
 +
Por fim, toma-se o caso entre a mediana e o valor máximo, nesse exemplo, o 7, que será o '''terceiro quartil''':
 +
 +
2, '''3''', 4, '''5''', 6, '''7''', 8
 +
 +
 +
Esse é, basicamente, o conceito de quartil. Mas há, contudo, uma grande divergência sobre o cálculo dos quartis e mais de um método para esse cálculo (mais de 5, na verdade). Alguns dos métodos e formas de cálculo podem ser encontradas no site [http://mathworld.wolfram.com/Quartile.html Wolfram MathWorld]. Para que o leitor tenha uma ideia, o software R, um dos mais conceituados em estatística, deu como resultado 3.5 para o primeiro quartil do nosso conjunto e 6.5 para o terceiro quartil. O mesmo resultado foi obtido com o Libre Office Calc.
 +
 +
----
 +
 +
----
  
 
====Medidas de dispersão====
 
====Medidas de dispersão====
Linha 155: Linha 191:
 
===== '''Desvio padrão''' =====
 
===== '''Desvio padrão''' =====
  
O desvio padrão tem um conceito muito simples: estimar a variação existente dentro de um conjunto. Para tanto, ele calcula a diferença entre cada caso e a média. Se fizermos essa conta considerando números positivos e negativos, o resultado será zero e sem significado. Para tanto, transformamos todas as diferenças em números positivos e só assim tomamos a média das diferença. Começamos calculando as diferenlas para depois elevar cada uma delas ao quadrado, dividindo a soma disso pelo número de casos e, finalmente, tomando a raiz. A parte da potência e raiz é somente para deixar todas as diferenlas com valores positivos). Ou seja, se temos 3 casos, 10, 5 e 3, a média é 6. As diferenças, então, são 4, -1 e -3. Ao quadrado, tudo fica 16, 1 e 9, que juntos somam 26. 26 dividido por 3 (número de casos), temos 8,6666, cuja raiz é 2,9439. '''Mas atenção:''' esse cálculo do desvio padrão é usado somente para o conjunto da '''[[Conceitos_básicos_de_estatística_para_historiadores#Avançando um pouco mais: população e amostra|população]]'''. Se estamos trabalhando com uma '''[[Conceitos_básicos_de_estatística_para_historiadores#Avançando um pouco mais: população e amostra|amostra]]''', o cálculo é diferente. No caso, se faz da seguinte maneira: calculando as diferenlas para depois elevar cada uma delas ao quadrado, dividindo a soma disso pelo número de casos '''menos um''', finalmente, tomando a raiz. No caso do exemplo acima, ficaria assim: se temos 3 casos, 10, 5 e 3, a média é 6. As diferenças, então, são 4, -1 e -3. Ao quadrado, tudo fica 16, 1 e 9, que juntos somam 26. 26 dividido ''por 2 (número de casos menos um)'', temos 13, cuja raiz é 3,6055. Esse é o desvio padrão de uma amostra.
+
O desvio padrão tem um conceito muito simples: estimar a variação existente dentro de um conjunto. Para tanto, ele calcula a diferença entre cada caso e a média. Se fizermos essa conta considerando números positivos e negativos, o resultado será zero e sem significado. Para tanto, transformamos todas as diferenças em números positivos e só assim tomamos a média das diferença. Começamos calculando as diferenças para depois elevar cada uma delas ao quadrado, dividindo a soma disso pelo número de casos e, finalmente, tomando a raiz. A parte da potência e raiz é somente para deixar todas as diferenças com valores positivos). Ou seja, se temos 3 casos, 10, 5 e 3, a média é 6. As diferenças, então, são 4, -1 e -3. Ao quadrado, fica 16, 1 e 9, que juntos somam 26. 26 dividido por 3 (número de casos), temos 8,6666, cuja raiz é 2,9439.  
 +
 
 +
'''Mas atenção:''' esse cálculo do desvio padrão é usado somente para o conjunto da '''[[Conceitos_básicos_de_estatística_para_historiadores#Avançando um pouco mais: população e amostra|população]]'''.  
 +
 
 +
Se estamos trabalhando com uma '''[[Conceitos_básicos_de_estatística_para_historiadores#Avançando um pouco mais: população e amostra|amostra]]''', o cálculo é feito de outro modo. No caso, se faz assim: calculando as diferenças para depois elevar cada uma delas ao quadrado, dividindo a soma disso pelo número de casos '''menos um''', finalmente, tomando a raiz. No caso do exemplo acima, ficaria assim: se temos 3 casos, 10, 5 e 3, a média é 6. As diferenças, então, são 4, -1 e -3. Ao quadrado, fica 16, 1 e 9, que juntos somam 26. Até aqui, tudo exatamente igual. Com 26 dividido ''por 2 (número de casos menos um)'', temos 13, cuja raiz é 3,6055. Esse é o desvio padrão de uma amostra. A diferença está apenas na divisão.
  
 
Fórmula do desvio padrão da população:
 
Fórmula do desvio padrão da população:
Linha 168: Linha 208:
 
Ou seja:  
 
Ou seja:  
  
<div style='text-align: left;'><math>\sum_{i=1}^N (x_i - \bar{x})^2 }</math></div>
+
<div style='text-align: left;'><math>\sum_{i=1}^N (x_i - \bar{x})^2</math></div>
  
 
é a soma das diferenças entre a média e os casos que foram, antes, elevadas aos quadrado.
 
é a soma das diferenças entre a média e os casos que foram, antes, elevadas aos quadrado.
Linha 184: Linha 224:
 
Onde ''s'' é o símbolo para o desvio padrão da amostra e <math>\bar{x}</math> é a média de ''x'', que representa o caso.  
 
Onde ''s'' é o símbolo para o desvio padrão da amostra e <math>\bar{x}</math> é a média de ''x'', que representa o caso.  
  
Ou seja:
 
  
<math>\sum_{i=1}^N (x_i - \bar{x})}{n-1}^2</math>
+
A diferença fica apenas na divisão, que será, neste cenário, o total de casos '''menos um'''.
 +
 
 +
 
  
é a soma das diferenças entre a média e os casos que foram, antes, elevadas aos quadrado.
+
{{erro}}
  
A diferença fica apenas na divisão, que será, neste cenário, o total de casos '''menos um'''.
 
  
 +
----
  
====='''Quartis'''=====
+
----
  
  
Linha 199: Linha 240:
 
===== '''Coeficiente de variação''' =====
 
===== '''Coeficiente de variação''' =====
  
 +
O coeficiente de variação permite comparar a variação de duas séries que possuem escalas ou unidades de medida diferentes. Roderick Floud, em seu livro ''An Introduction to Quantitative Methods for Historians''<ref>Floud, Roderick. An introduction to quantitative methods for historians. Routledge, 2013.</ref> apresenta uma interessante comparação entre o tamanho de navios e o número de seus tripulantes, para saber qual das duas medidas difere mais de sua média. A fórmula para isso é simples.
  
  
 +
CV = s x 100 '''/'''<math>\tilde{x}</math>
  
 +
                                     
  
 +
Onde: s = desvio padrão do conjunto e <math>\tilde{x}</math> é a média aritmética do mesmo grupo.
  
'''distribuição e séries temporais'''
 
  
 +
----
 +
 +
----
 +
 +
{{erro}}
  
 
}}
 
}}
 +
[[category:DescriptiveStatistics]]

Edição atual tal como às 12h57min de 22 de setembro de 2020

Tempo estimado de leitura deste artigo 33 minutos - por Tiago Gil


PORTAL DE ESTATÍSTICA

Página inicial de Análise Estatística

Conceitos básicos (operações básicas, notações, etc)

Estatística descritiva (médias, mediana, moda, desvio padrão e coeficiente de variação)

Séries temporais (Distribuição dos dados))

Relação entre variáveis (Correlação, regressão, etc)

Introdução

A chamada estatística descritiva é formada pelas ferramentas mais conhecidas e usadas deste campo do conhecimento. A forma de calcular a média, ou melhor, as diferentes medidas de centralidade são algumas das principais questões que trataremos neste verbete. Além disso, veremos também formas de dispersão, distribuição e séries temporais.

Nesse verbete vamos apenas discutir o conceito e os modos de empregar essas métricas. O cálculo e as fórmulas ficarão nos verbetes de cada uma das ferramentas, que estarão diretamente lincados aqui. Fazemos isso por entender que a compreensão do significado destes cálculos é mais importante que o modo de resolvê-la, ainda que essas questões não sejam separáveis e nossa abordagem aqui seja apenas didática.


Medidas de centralidade

Antes de tudo, convém lembrar que as medidas sobre as quais vamos falar fazem sempre referência a um conjunto específico de dados. Não existe média geral, ela é sempre a média de algum grupo de informações, ou seja, de uma população ou de uma amostra. E para que serve a média? Trata-se de um cálculo que elimina as diferenças existentes entre os membros de um grupo, salientando um ponto do qual todos estão igualmente distantes. É uma forma simples de apresentar um rosto único para uma série de dados diversos os quais, entendemos, tem alguma razão para estar no mesmo grupo, razão essa que pode ser metodológica, empírica ou teórica. Muitas vezes ela não nos diz muito sobre os nossos dados e por isso é frequentemente criticada. A média, contudo, tem uma grande utilidade: ela permite comparações entre grupos diferentes. Ela nos dá uma noção diante da completa incerteza. Ainda que ela simplifique, ela não está distante da maior parte dos casos que foram usados para formá-la. Sozinha, contudo, não é de grande serventia e obtém seu brilho nas comparações com outras médias ou quando melhor explicada junto com outras medidas, como a moda e a mediana.

Vejamos um caso no qual a média pode ser útil como uma primeira referência. Stuart Schwartz calculou a quantidade média de escravos por tipo de propriedade agrícola na Bahia do início do século XIX. Segundo ele, os senhores de engenho tinham, em média, 65,5 escravos. Os plantadores de fumo, 19,3; os donos de sítios ou fazendas, 13,4; donos de alambique, 12,1 e os lavradores de cana, 10,5. Esses dados nos mostram uma enorme diferença social no mundo dos livres. Os senhores de engenho tinham muito mais escravos que os demais segmentos e a média nos ajuda a entender exatamente quanto.[1][2]

As medidas de centralidade, contudo, não se resumem a média. E a média, aliás, tem suas variações, como a média aritmética (a mais usada), a média geométrica e a ponderada.

Médias

As médias são três: aritmética, geométrica e ponderada. Cada uma tem sua utilidade. Se diferem de outras medidas de centralidade, como a moda e a mediana por incluirem, em seu cálculo, todas os casos (ou observações) de um conjunto.

Média aritmética

É a mais conhecida de todas. É fruto da soma dos valores de todos os casos de um grupo dividida pelo número de casos.


\(\tilde{x} = \frac{\sum_{i=1}^n X_i}{n}\)

Onde:

\(\tilde{x}\) = símbolo padrão para média (com um risco ou til acima da letra)

\(\sum_{i=1}^n X_i\) = a soma dos valores de todos os casos (e apenas isso)

\(n\) = a quantidade de casos

Ou seja

\(\tilde{x} = \frac{\sum_{i=1}^n X_i}{n} = \frac{soma-dos-valores-de-todos-os-casos}{quantidade-de-casos}\)



Lamp2.png Exemplo de software: Veja como fazer isso no LivreOffice e em outras planilhas eletrônicas.



Achou algum erro? Não entendeu o conteúdo? fale com a gente!


Média geométrica

A média geométrica é menos conhecida, porém sua utilidade não é menor. Ela é perfeita para séries de dados apresentam aumento crescente, taxas de crescimento, número de quilômetros de ferrovia construídos por ano, etc. Seu cálculo feito pela raíz n (total de fatores) do produto dos fatores. Ou seja: multiplicam-se os fatores e se fazer a raíz n do produto.


\(\left(\prod_{i=1}^n a_i \right)^{1/n} = \sqrt[n]{a_1 a_2 \cdots a_n}.\)

Onde:

\(\prod_{i=1}^n a_i\) É o símbolo da multiplicação de todos os elementos


ou que:


\(\prod_{i=1}^n a_i\) = \(a_1 a_2 \cdots a_n \)

A média geométrica sempre será menor (ou, no máximo, igual) à média aritmética, mas é a medida correta para conjuntos que indiquem crescimento. Também é caracterizada por não dar tanto peso a valores extremos.



Lamp2.png Exemplo de software: Veja como fazer isso no LivreOffice e em outras planilhas eletrônicas.



Achou algum erro? Não entendeu o conteúdo? fale com a gente!
Média ponderada

A média ponderada é semelhante à média aritmética tendo, contudo, uma característica importante: ela dá importância aos pesos de seus termos. Nesse caso, sua fórmula é:


\(\bar{x} = \frac{ \sum_{i=1}^n x_i w_i }{\sum_{i=1}^n w_i} = \frac{ x_1 w_1 + x_2 w_2 + x_3 w_3 + ... + x_n w_n }{w_1 + w_2 + w_3 + ... + w_n}\)

Onde X é igual aos valores e W é o peso que queremos atribuir a eles.

Tomemos um conjunto de notas de um aluno para saber sua média ponderada. Ele fez três provas. A primeira tinha peso 3 (30% ou 0.3), a segunda, 2 (20% ou 0.2) e a última, 5 (50% ou 0.5)

\(W = \{0.3, 0.2, 0.5\} \,\)

Suas notas foram: 4, 8 e 9.

\(X = \{4, 8, 9\} \,\)

Logo, sua média ponderada se calcula assim:


\(\bar{x} = \frac{4\cdot 0.3 + 8\cdot 0.2 + 9\cdot 0.5}{0.3+0.2+0.5}= 7.3\,\)

Ou seja, soma-se o produto da multiplicação de peso vezes o valor e se divide pela soma dos pesos. No caso, o resultado é 7,3



Lamp2.png Exemplo de software: Veja como fazer isso no LivreOffice e em outras planilhas eletrônicas.



Antes de continuar, convém destacar um problema comum e bastante sério que pode acontecer com a média. Se dentre os casos do nosso conjunto algum for muito diferente dos demais, ela terá pouca utilidade. Por exemplo: em uma pequena cidade há apenas dez senhores de escravos. Dos dez, nove possuem somente 2 escravizados. O restante, caso único, tem 50 cativos. Ou seja, temos nove senhores com dois escravos e um com 50, totalizando 68 cativos para dez senhores, ou seja, 6,8 na média. É possível verificar como esse último número não explica nada dos nove casos e faz diluir a senzala do grande senhor. Para evitar esse problema é que usamos outras medidas, como a mediana e a moda. Elas nos falam sobre as insuficiências da média e convém sempre mostrá-las juntas com essa última.






Achou algum erro? Não entendeu o conteúdo? fale com a gente!
Mediana

A mediana se obtem encontrando o número, uma vez que nosso conjunto esteja ordenado, que fica exatamente no meio, tendo o mesmo número de casos com valor inferior ou superior, conforme o exemplo abaixo:

Conjunto: {21, 05, 08, 46, 12, 45, 15}

Colocando em ordem:


05, 08, 12, 15, 21, 45, 46


No caso, a mediana desta conjunto é 15, que tem três valores menores e outros três maiores. É o caso que fica no meio dos demais casos.

Caso o número de valores intermediários seja composto de dois número (quando o conjunto é par), faz-se a média aritmética dos dois.

Essa medida de centralidade possui um ponto fraco, pois só uso um valor do conjunto. Seu ponto forte, contudo, é que elimina eventuais valores extremos que podem deixar a média aritmética distante dos valores mais frequentes.



Lamp2.png Exemplo de software: Veja como fazer isso no LivreOffice e em outras planilhas eletrônicas.





Moda

Dentro de um conjunto de valores, a moda é o valor que mais se repete.

Ou seja, considerando o conjunto C = {4, 2, 6, 9, 5, 2, 1, 2}, a moda é 2, pois é o que mais se repete (três vezes, contra uma de todos os demais).

Essa medida é muito útil para várias coisas. Por exemplo, em muitas cidades do Brasil, a moda das escravarias era um, indicando que a ampla maioria dos senhores tinha apenas um escravizado, ainda que alguns tivesse dezenas ou centenas. Resta saber, assim, o quanto esses valores se repetem.



Lamp2.png Exemplo de software: Veja como fazer isso no LivreOffice e em outras planilhas eletrônicas.





Achou algum erro? Não entendeu o conteúdo? fale com a gente!
Quartis

Se a média divide os casos em duas metades (abaixo e acima da média), os quartis dividem em quatro partes, usando, para isso, a mediana. A mediana divide o conjunto em duas metades, que serão também essas divididas em metades. O caso que fica entre o menor valor e a mediana, será o primeiro quartil. O caso mediano será o segundo quartil e o valor entre o caso mediano e o caso com maior valor será o terceiro quartil. Vejamos um exemplo:

2, 3, 4, 5, 6, 7, 8

Toma-se a mediana, no caso, 5:

2, 3, 4, 5, 6, 7, 8

Toma-se agora o caso que fica entre o mínimo e a mediana, neste caso, 3, que será o primeiro quartil:

2, 3, 4, 5, 6, 7, 8

Por fim, toma-se o caso entre a mediana e o valor máximo, nesse exemplo, o 7, que será o terceiro quartil:

2, 3, 4, 5, 6, 7, 8


Esse é, basicamente, o conceito de quartil. Mas há, contudo, uma grande divergência sobre o cálculo dos quartis e mais de um método para esse cálculo (mais de 5, na verdade). Alguns dos métodos e formas de cálculo podem ser encontradas no site Wolfram MathWorld. Para que o leitor tenha uma ideia, o software R, um dos mais conceituados em estatística, deu como resultado 3.5 para o primeiro quartil do nosso conjunto e 6.5 para o terceiro quartil. O mesmo resultado foi obtido com o Libre Office Calc.



Medidas de dispersão

As medidas de dispersão procuram dar conta das variações existentes dentro do conjunto estudado, existem casos discrepantes ou se há relativa homogeneidade. Vejamos as principais medidas:


Desvio padrão

O desvio padrão tem um conceito muito simples: estimar a variação existente dentro de um conjunto. Para tanto, ele calcula a diferença entre cada caso e a média. Se fizermos essa conta considerando números positivos e negativos, o resultado será zero e sem significado. Para tanto, transformamos todas as diferenças em números positivos e só assim tomamos a média das diferença. Começamos calculando as diferenças para depois elevar cada uma delas ao quadrado, dividindo a soma disso pelo número de casos e, finalmente, tomando a raiz. A parte da potência e raiz é somente para deixar todas as diferenças com valores positivos). Ou seja, se temos 3 casos, 10, 5 e 3, a média é 6. As diferenças, então, são 4, -1 e -3. Ao quadrado, fica 16, 1 e 9, que juntos somam 26. 26 dividido por 3 (número de casos), temos 8,6666, cuja raiz é 2,9439.

Mas atenção: esse cálculo do desvio padrão é usado somente para o conjunto da população.

Se estamos trabalhando com uma amostra, o cálculo é feito de outro modo. No caso, se faz assim: calculando as diferenças para depois elevar cada uma delas ao quadrado, dividindo a soma disso pelo número de casos menos um, finalmente, tomando a raiz. No caso do exemplo acima, ficaria assim: se temos 3 casos, 10, 5 e 3, a média é 6. As diferenças, então, são 4, -1 e -3. Ao quadrado, fica 16, 1 e 9, que juntos somam 26. Até aqui, tudo exatamente igual. Com 26 dividido por 2 (número de casos menos um), temos 13, cuja raiz é 3,6055. Esse é o desvio padrão de uma amostra. A diferença está apenas na divisão.

Fórmula do desvio padrão da população:


\(\sigma = \sqrt{\frac{\sum_{i=1}^N (x_i - \bar{x})}{n}^2 }\)

Onde \(\sigma\) é o símbolo para o desvio padrão da população e \(\bar{x}\) é a média de x, que representa o caso.

Ou seja:

\(\sum_{i=1}^N (x_i - \bar{x})^2\)

é a soma das diferenças entre a média e os casos que foram, antes, elevadas aos quadrado.


Por sua vez, o desvio padrão de uma amostra seria:



\(s = \sqrt{\frac{\sum_{i=1}^N (x_i - \bar{x})}{n-1}^2 }\)


Onde s é o símbolo para o desvio padrão da amostra e \(\bar{x}\) é a média de x, que representa o caso.


A diferença fica apenas na divisão, que será, neste cenário, o total de casos menos um.


Achou algum erro? Não entendeu o conteúdo? fale com a gente!





Coeficiente de variação

O coeficiente de variação permite comparar a variação de duas séries que possuem escalas ou unidades de medida diferentes. Roderick Floud, em seu livro An Introduction to Quantitative Methods for Historians[3] apresenta uma interessante comparação entre o tamanho de navios e o número de seus tripulantes, para saber qual das duas medidas difere mais de sua média. A fórmula para isso é simples.


CV = s x 100 /\(\tilde{x}\)


Onde: s = desvio padrão do conjunto e \(\tilde{x}\) é a média aritmética do mesmo grupo.




Achou algum erro? Não entendeu o conteúdo? fale com a gente!


Referências

  1. SCHWARTZ, Stuart. Segredos Internos. São Paulo: Companhia das Letras, 1988
  2. Para mais exemplos de médias em pesquisas sobre escravidão, ver também MARCONDES, Renato Leite. Diverso e desigual: o Brasil escravista na década de 1870. São Paulo: FUNPEC, 2009
  3. Floud, Roderick. An introduction to quantitative methods for historians. Routledge, 2013.



Citação deste verbete
Como citar: GIL, Tiago. "Estatística descritiva para historiadores". In: CLIOMATICA - Portal de História Digital e Pesquisa. Disponível em: http://lhs.unb.br/cliomatica/index.php/Estat%C3%ADstica_descritiva_para_historiadores. Data de acesso: 1 de julho de 2024.






Informar erro nesta página