Como calcular Qui-quadrado no R?
Aprenda como calcular o teste qui-quadrado utilizando R.
Após finalizar a aplicação de questionários com os funcionários da empresa na qual você trabalha, você obteve um monte de respostas, com gênero, faixa etária, faixa salarial, bairro em que o entrevistado mora, etnia, e muitos outras respostas.
Como o seu foco era as etnias dos entrevistados, você também levantou a cor do cabelo e dos olhos deles. Analisando os dados, você se perguntou, “Será que a cor do cabelo realmente influencia a cor dos olhos?”. Como realizar esse tipo de comparação?
O teste estatístico que pode nos responder isso é o Qui-quadrado.
O teste qui-quadrado (χ2) analisa se há relação entre duas variáveis categóricas (por exemplo, gênero, faixa etária, bairro e etnia).
Para o nosso cálculo, vamos utilizar o conjunto de dados já disponibilizado no R (denominados built-in data sets).
data(“HairEyeColor”)
O comando data() irá carregar o conjunto HairEyeColor, que nada mais é do que uma tabela com 3 dimensões (Cor do cabelo, Cor dos olhos, Gênero). Para acessar os dados dele, é necessário utilizar colchetes e definir o número, ou nome, da linha, coluna ou tabela desejada. Veja um exemplo abaixo.
HairEyeColor[,,] # Mostra todos os dados HairEyeColor[,,”Male”] # Mostra todos os dados do gênero masculino HairEyeColor[1,,] # Mostra todos os dados daqueles que têm cabelo preto
Agora que vimos como manipular os dados no R da nossa tabela, vamos aplicar o teste qui-quadrado, selecionando primeiro o gênero masculino e depois o feminino.
chisq.test(HairEyeColor[,,1]) chisq.test(HairEyeColor[,,2])
No gênero masculino, obtivemos um valor p (p-value) de 4,447 e-06, ou seja, muitíssimo próximo de zero, e para o gênero feminino, temos valores menores que 2,2 e-16, idem ao anterior.
Com os resultados em mãos, como interpretar eles? Valores próximos de um (01) indicam que não há correlação entre as categorias, no nosso caso, os valores são muito pequenos, e quando os valores (níveis de significância) são inferiores à 0,05, há correlação entre a cor do cabelo e a cor dos olhos em ambos os gêneros.
Você deve ter notado que você recebeu uma mensagem de erro do tipo “Aproximação do qui-quadrado pode estar incorreta”, isso acontece quando nossa amostra é muito pequena, interferindo assim no resultado.
Como podemos resolver isso? Neste caso, iremos somar a população masculina e feminina para avaliar se a cor do cabelo continua influenciando a cor dos olhos na nossa população.
hec_soma <- HairEyeColor[,,1] + HairEyeColor[,,2] chisq.test(hec_soma)
Com a soma, teremos p-value inferior à 2,2e-16. Em outras palavras, as cores do cabelo influenciam as cores dos olhos.
O resultado da função chisq.test() retorna também outras duas variáveis, que são X-squared e df (graus de liberdade). Basicamente, eles são utilizados para definir o p-value por meio da tabela de distribuição qui-quadrado.
Por fim, vimos que as variáveis categóricas cor do cabelo e dos olhos estão relacionadas.
Encontrou alguma dificuldade ou erro? Deixe seu comentário abaixo e nos acompanhe no facebook e twitter.
Fontes consultadas:
Chi-squared Tests of Independence. R-Tutor.
Chi-Square Test of Independence in R. STHDA.
Parabéns pelo texto e contribuição! Sucesso!!!!
Bom dia Prof. Kristian. Obrigado pelo comentário e força. Abraço.
sou estudante de mestrado em estatística e analise de dados