Variável categórica
De Wikipedia, a enciclopédia encyclopedia
Em estatística, uma variável categórica é uma variável que pode assumir apenas um número limitado, e geralmente fixo, de valores possíveis, atribuindo cada indivíduo ou outra unidade de observação a um determinado grupo ou categoria nominal com base em alguma propriedade qualitativa.[1] Na ciência da computação e em alguns ramos da matemática, as variáveis categóricas são chamadas de enumerações ou tipos enumerados. É comum se referir a cada um dos valores possíveis de uma variável categórica como um nível, embora isso não seja feito neste artigo. A distribuição de probabilidade associada a uma variável categórica aleatória é chamada de distribuição categórica.
Dado categórico é o tipo de dados estatísticos que consiste em variáveis categóricas ou em dados que foram convertidos para esse formato, por exemplo, como dados agrupados. Mais especificamente, os dados categóricos podem derivar de observações feitas de dados qualitativos que são resumidos como contagens ou tabulações cruzadas, ou de observações de dados quantitativos agrupados em determinados intervalos. Frequentemente, os dados puramente categóricos são resumidos na forma de uma tabela de contingência. No entanto, particularmente ao considerar a análise de dados, é comum usar a expressão "dado categórico" para se referir a conjuntos de dados que, embora contenham algumas variáveis categóricas, também podem conter variáveis não categóricas.
Uma variável categórica que pode assumir exatamente dois valores é denominada uma variável binária ou variável dicotômica; um caso especial importante é o da variável de Bernoulli. Variáveis categóricas com mais de dois valores possíveis são chamadas de variáveis politômicas; variáveis categóricas são frequentemente consideradas politômicas, a menos que especificado de outra forma. A discretização é o tratamento de dados contínuos como se fossem categóricos. A dicotomização é o tratamento de dados contínuos ou variáveis politômicas como se fossem variáveis binárias. A análise de regressão frequentemente trata a associação à categoria com uma ou mais variáveis fictícias (dummy) quantitativas.