Como calcular Estatísticas Básicas no R

Crie um roteiro para calcular estatísticas básicas/descritivas utilizando o R.

Embora em algumas situações as médias não representem bem os dados disponíveis, elas nos fornecem um olhar rápido em conjuntos de dados que podem variar de 10, 100, 1.000, até 1.000.000 valores. Tal medida, associada à outros indicadores, são muito uteis.

Neste tutorial, você aprenderá como calcular a média e outras estatísticas básicas (como desvio padrão, intervalo de confiança e valores máximos e mínimos) de um conjunto de dados utilizando a linguagem de programação R.

Antes de realizarmos qualquer cálculo, vejamos as definições de estatística descritiva, média, desvio padrão, mediana, quartis, mínimo e máximo.

Definições

  • Estatística descritiva: Conjunto de informações estatísticas básicas obtidas de um conjunto de dados para descreve-lo;
  • Média: Valor que representa o “número do meio” do conjunto de dados (as vezes, ele coincide com a mediana);
  • Mediana: Se organizarmos nossos dados em ordem crescente, o valor mediano será aquele do meio;
  • Desvio padrão: Quanto os valores estão afastados da média, quanto mais longe, maior será o desvio padrão;
  • Quartis: Se organizarmos nossos dados em ordem crescente, podemos dividir o conjunto de dados em partes iguais, por exemplo, com quatro divisões, teremos o primeiro quartil (representando 25% dos dados – ou seja, sabemos que até o primeiro quartil, temos 1/4 dos dados), segundo quartil (50% dos dados), terceiro quartil (75% dos dados) e o quarto quartil (100% dos dados);
  • Mínimo: Menor valor encontrado no conjunto de dados;
  • Máximo: Maior valor encontrado no conjunto de dados.

Tendo esses conceitos em mente, vamos calcular as estatísticas descritivas (básicas) do conjunto de dados chamado Nile, disponível no próprio R. Este conjunto descreve a vazão anual do rio Nilo entre os anos de 1871 a 1970, em 10^8 m³.

data(Nile)
vazao_nilo <- Nile

Agora que já definimos uma variável para os nossos dados (i.e. vazao_nilo), vamos usar alguns comandos diferentes para calcular as estatísticas descritivas.

Função summary()

Esta função é bem simples. Basta inserir seu conjunto de dados nela e teremos: Mínimo, Primeiro quartil, Mediana, Média, Terceiro quartil, e Máximo. Veja exemplo abaixo usando nossos dados.

summary(vazao_nilo)

# Resultados:

Min. 1st Qu. Median Mean 3rd Qu. Max.
456.0 798.5 893.5 919.4 1032.0 1370.0 

Caso você tenha salvo ou precise em outro cálculo posterior desses dados, você pode resgata-los da seguinte forma.

resultados <- summary(vazao_nilo)

resultados[4] # Retorna a coluna da média;
resultados[[4]] # Retorna apenas o valor da média;

Substitua o algarismo 4 por outros valores para acessar os outros índices (1 = Mínimo; 2 = Primeiro Quartil; 3 = Mediana; 4 = Média; 5 = Terceiro Quartil; 6 = Máximo).

Funções Isoladas

Muitas vezes precisamos somente das médias, ou somente os valores máximos. Para isso, o R tem funções que calculam somente um índice estatístico. Veja os exemplos abaixo.

# Valor médio
mean(vazao_nilo)

# Desvio padrão
sd(vazao_nilo)

# Valor máximo e mínimo, respectivamente
max(vazao_nilo)
min(vazao_nilo)

# Mediana
median(vazao_nilo)

# Quartis
quantile(vazao_nilo)

A partir dessas funções, podemos calcular as estatísticas descritivas isoladamente, facilitando sua manipulação.

Visualmente, como tudo isso fica?

As vezes precisamos apresentar nossos dados em gráficos, para facilitar a compreensão do leitor. Por isso, vamos utilizar as seguintes funções:

  • plot(): Cria um gráfico;
  • abline(a, b): Desenha uma linha no gráfico, sendo a = coeficiente linear e b = coeficiente angular (inclinação da linha);
  • axis(): Controla o intervalo nos eixos x e y;
  • seq(): Cria uma sequência de números.

Com essas funções, vamos criar um gráfico a partir do código abaixo:

plot(vazao_nilo, xlab="Ano", ylab="Vazão do Rio Nilo", main="Blog 2 Engenheiros", las=1, yaxt="")
axis(side=1, at=seq(1850, 1970, 20))
axis(side=2, at=seq(400, 1400, 100), las=1)

abline(mean(vazao_nilo), 0, col="red")
abline(median(vazao_nilo), 0, col="blue")
abline(max(vazao_nilo), 0, col="purple")
abline(min(vazao_nilo), 0, col="purple3")

gráfico gerado com R função plot

Veja que a linha vermelha representa a média, a linha azul, a mediana e as linhas roxas, os valores máximo e mínimo.

A partir desse código, insira os valores do primeiro e terceiro quartis como linhas verdes.

Clique aqui para visualizar a resposta.

Após plotar o gráfico do código anterior, basta executar os seguintes códigos.

quartis <- quantile(vazao_nilo)
abline(quartis[[2]], 0, col="green1")
abline(quartis[[4]], 0, col="green3")

Agora que você já sabe como calcular as estatísticas descritivas, você pode montar um código e aplicar a qualquer conjunto de dados que você possua, facilitando enormemente suas atividades.

Caso você tenha dúvidas, comentários ou seu código não funcionou, comente seus problemas abaixo. Ou entre em contato conosco pela nossa página no facebook e twitter.



Clique na figura abaixo e assine nossa lista de emails para receber nosso ebook "Como criar mapas de localização com ArcGIS 10.x".


Author: Fernando BS

Engenheiro Ambiental e de Segurança do Trabalho. Atua nas áreas de recuperação ambiental, geoprocessamento e ciência do solo. Busca soluções utilizando softwares como ArcGIS, R e MATLAB.

2 thoughts on “Como calcular Estatísticas Básicas no R”

Deixe uma resposta

O seu endereço de e-mail não será publicado. Campos obrigatórios são marcados com *