Coluna C & T: Organização de dados nominais - Daniel Nascimento-e-Silva

Os dados são os tijolos com os quais os cientistas constroem o edifício da ciência. E um desses tijolinhos é o que chamamos de nominais. Ele é tão difundido, que dificilmente se encontra qualquer pesquisa ou levantamento sem que eles estejam presentes. E talvez essa difusão seja a origem e a causa de muitas e graves confusões acerca do que se pode e o que não se pode fazer com eles. Em termos de analogia, quem não entende de construção pode querer fazer uma torneira com tijolos ou uma vidraça com telhas de barro, da mesma forma que tem quem queira calcular a média desse tipo de dados, o que é inadmissível. É preciso conhecer a natureza dos dados e o tipo de manuseio que eles permitem, de forma semelhante com que os engenheiros e pedreiros fazem com seus materiais de construção e procedimentos que eles permitem fazer. Quem desconhece essas duas coisas tende a fazer as confusões que se veem todos os dias na mídia popular e, mais principalmente, nas comunicações científicas produzidas e avaliadas por quem é apedeuta em ciência. Vejamos como se pode organizar os dados nominais.

Dados nominais medem nomes, registram nomes. É daí que advém a sua nomenclatura. E como foca nomes, registra a qualidade deles. É, portanto, uma forma de mensuração de qualidade. É isso mesmo: medir a qualidade. É por isso que se diz que, sem mensuração, não há ciência. Imagine uma lista de chamada de uma turma com 40 alunos ou com os nomes de trabalhadores de determinado setor de uma fábrica que tenha ao lado o sexo e o turno de trabalho, além de seus nomes, naturalmente. É possível saber quantos alunos são do sexo masculino e quantos trabalhadores são do sexo feminino. É possível comparar a quantidade de trabalhadores dos turnos diurnos com os noturnos e assim sucessivamente. Sexo, nome e turno de trabalho são categorias analíticas, enquanto feminino/masculino, os nomes dos alunos/trabalhadores e os turnos de trabalho são qualidades daquelas categorias. É por isso que se diz que esses dados medem qualidade (as divisões das categorias) e as próprias categorias analíticas (esses dados são também chamados de categóricos por esse motivo). Esses dados também são chamados de discretos porque não podem ser quebrados. Não é possível ter 1,7 aluno, assim como é impossível que se tenha 3,8 trabalhadores. O simples fato desses dados serem discretos impede que se faça muitas coisas que gostaríamos de fazer, como calcular a média. Aliás, a média não é outra coisa que uma das medidas separatrizes e de tendência central, palavrões que todo cientista conhece muito bem.

A organização desses dados é feita em formato numérico ou pictórico. Costumamos usar dois blocos de organização numérica. O primeiro é descritivo, feito com o uso da frequência simples, frequência percentual e moda. E nada mais. Por exemplo, para saber qual é a marca de creme dental preferida pela população de um bairro, só se pode saber quantos preferem cada marca, o percentual de preferência de cada marca e qual é a marca preferida (moda). Não é possível fazer média, como costumeiramente se vê por aí. A segunda forma é associativa, estratégia utilizada para testar hipóteses. É possível saber, por exemplo, se há associação entre o turno de aula com o sexo dos alunos, da mesma forma que se pode saber se há diferença na preferência por gênero de filme a partir da escolaridade das pessoas.

Disso se pode deduzir as várias formas de exposição do resultado da organização desses dados. Gráficos de barras são muito usuais com esse intento, desde que as categorias sejam em número igual ou superior a cinco. Quantidade menores cabem melhor em gráficos de setores, conhecidos por gráficos tipo pizza. Mas é muito possível inovar (e isso é incentivado), principalmente quando se quer apresentar a descrição de múltiplos aspectos do fenômeno ao mesmo tempo. Por exemplo, para os alunos de uma turma se pode fazer um gráfico ou tabela mostrando a frequência simples e percentual, por turno e sexo. A única regra é que a forma de representação escolhida esteja em consonância com aquilo que se quer mostrar, para que a evidência empírica seja visível e compreensível para quem ler o relatório ou a comunicação científica. É por essa razão que se diz que toda organização de dados é uma maneira de apresentação de evidências empíricas. Não é uma forma de embelezar o texto.

É preciso prestar atenção, contudo, nas tabelas associativas e relacionais. Elas sempre vão apresentar um resultado essencial, primário, que é o nível de significância (ou nível alfa ou simplesmente p-valor). Os demais resultados são utilizados para se compreender com adequação o que o primário quer dizer. A significância diz respeito ao aceite ou não do grau de risco envolvido com aquele resultado. Em determinadas áreas, o nível de significância precisa estar abaixo de 0,05%, porque, se for maior, o risco de erro é elevado e pode levar a decisões desastrosas. Quanto menor a significância, menor a probabilidade de erro. Em educação, ensino, administração, engenharia, dentre inúmeros outros campos, a significância máxima aceitável é de 0,05. Em termos práticos, se o p-valor for superior ao nível de significância previsto no protocolo do estudo, deve-se aceitar a hipótese de normalidade, em que a ocorrência daquele fenômeno é ocasional; se for inferior, deve-se aceitar a hipótese de que aquela ocorrência representa a realidade, não é ocasional. Exemplo, o p-valor 0,003 pode significar que comer salada diariamente reduz a incidência de câncer, enquanto o p-valor ≥ 0,35 indica o contrário, que comer salada diariamente não afeta a incidência de câncer.

Engana-se redondamente quem imagina que os dados nominais são coletados apenas via questionários fechados. Nos questionários eles estão apenas estruturados. Eles aparecem em profusão em dados semiestruturados e não estruturados, especialmente os coletados através de entrevistas. Nesses dois casos, a organização deve começar pela categorização, para que sejam criadas as qualidades de cada variável. Só a partir de então os dados podem tomar a forma de representação. Para finalizar: dados nominais sozinhos são sempre descritivos, não são explicativos. E só há ciência com explicação (associação ou relação).

Coluna C & T: Organização de dados nominais – Daniel Nascimento-e-Silva

**(*) Daniel Nascimento-e-Silva, PhD, Professor e Pesquisador do Instituto Federal do Amazonas (IFAM)**

Veja também

Coluna C & T: Coleta de dados estruturados – Daniel Nascimento-e-Silva

Coluna C & T: Organização de dados relacionais: matriz – Daniel Nascimento-e-Silva