Coluna C & T: Organização de dados intervalares – Daniel Nascimento-e-Silva

A organização dos dados de tipo intervalar é um desafio para quem está começando seu caminho na longa jornada da construção do conhecimento científico. Alguns motivos justificam esse desafio. O primeiro é a possibilidade de confusão entre os dados intervalares e os ordinais. Há quem imagine, por exemplo, que toda escala de atitudes, com extremos positivos e negativos, seja uma forma de representação de dados intervalares. A prática da pesquisa científica mostra justamente o contrário, que são ordinais, de maneira que alguém muito satisfeito tem mais satisfação do que quem está completamente insatisfeito. São ordinais porque se diminuirmos uma posição de extremo satisfeito de um apenas satisfeito não resulta em uma posição insatisfeita. Dito de outra forma, se não é possível diminuir ou subtrair posições, não são dados intervalares. O segundo é a confusão entre os dados intervalares e os racionais. Mas essa confusão é bem mais fácil de dirimir, basta saber se é possível a multiplicação ou divisão dos intervalos. Por exemplo, 2 graus Celsius de temperatura multiplicado por 10 graus Celsius de temperatura não dá 20 graus porque temperatura é um fenômeno que não aceita multiplicação ou divisão. Se não aceita, é intervalar; se aceita, é racional. E a terceira e mais desastrosa das confusões é tomar os dados intervalares como nominais, como são vistos nos erros dos famosos gráficos de pizzas e barras, que os desconhecedores dos tipos de dados cometem. Como organizar, então, os dados intervalares com adequação?

Primeiro, é preciso lembrar que os dados intervalares são, naturalmente, compostos por intervalos, faixas numéricas entre uma posição e outra em uma escala. Diferentemente dos dados ordinais, os intervalares têm os valores conhecidos, os cientistas sabem o tamanho da diferença entre um ponto e outro da escala. Por exemplo, a temperatura de 30 graus é superior à tempera de 20 graus em exatos 10 graus. Por outro lado, não se sabe o valor quantitativo de uma posição Completamente Satisfeito para outra de apenas Satisfeito. Quando se sabe a diferença, tem-se um dado intervalar; quando não se sabe, ordinal. Segundo, há um valor zero de temperatura, mas ele é apenas um ponto central, arbitrário, que separa os valores negativos e positivos da escala. Com base nisso, é perfeitamente compreensível que se compreenda as diferentes maneiras representativas dos dados intervalares.

Esses dados podem ser sintetizados em termos de média, mediana, moda, amplitude, mínimo, máximo, desvios interquartílicos, desvio padrão, adição e subtração. É perfeitamente possível, por exemplo, a elaboração de tabelas contendo os valores dessas medias, da mesma forma que se pode elaborar outros recursos pictóricos, como gráficos e diagramas. O que importa saber é que o desenho, que é o produto final de todo processo de organização de dados, é de livre criação do cientista. Seu desafio é criar uma imagem que mostre com o máximo de exatidão possível o que se passou efetivamente na realidade.

A organização desses dados precisa levar em consideração algumas exigências elementares. A primeira delas é o tamanho da amostra, que precisa ser de pelo menos 30 elementos, para que a distribuição se aproxime da curva normal. Se a amostra for menor, é recomendável o teste t – e se houver mais de duas amostras independentes, é preciso fazer a análise da variância. Essas amostras pequenas, quando não estiver garantida a normalidade, precisam lançar mão dos testes não paramétricos, o que força a considerar os dados intervalares como ordinais. Resumindo: a organização dos dados depende do tamanho da amostra, tipo de dados e a distribuição deles.

A estatística Z tem uma forma peculiar de ser apresentada. É baseada na curva normal e permite que se veja o quanto certo valor se afasta da média, medida em unidades de desvio padrão. O teste T de Student tem uma representação muito similar, aplicado a dados intervalares típicos com distribuição gaussiana. Permite que se comparem duas amostras ou uma única amostra. Neste caso, a média da amostra é comparada com uma média teórica, extraída da literatura. A organização dos dados precisa mostrar pelo menos a média, o desvio padrão e o resultado do p-valor. Isso pode ser feito, por exemplo, comparando-se médias antes e depois de uma intervenção pedagógica, para aferir o impacto da intervenção no aprendizado, comportamento ou outro fenômeno.

Dados intervalares são formidáveis para análise de variância (ANOVA). Permite que se comparem três ou mais amostras, como diferentes turmas submetidas a um mesmo procedimento. A organização desses dados também é típica, atentando-se para a soma dos quadrados dos desvios, quadrados médios e a estatística F. Se o F calculado for igual ou superior ao F crítico, rejeita-se a hipótese nula. Inúmeros outros testes podem ser feitos tendo como matéria-prima os dados intervalares, como é o caso do U de Mann-Whitney, apenas para citar um dos mais comuns. Serve para comprovar se dois grupos independentes apresentam ou não diferenças ou se fazem parte da mesma amostra. É preciso cumprir algumas exigências básicas e simples, como a independência dos erros e o pareamento ou não dos dados.

O que a prática de organização de dados intervalares tem trazido é que eles são uma ferramenta poderosíssima para a) se detectar realidades que outras formas não permitem e b) compreender lógicas imperceptíveis utilizando simples análises de textos. Não é uma técnica que necessariamente tem que sobrepujar outras, mas outro recurso com o intuito de se buscar ver mais além e de forma mais precisa. Uma forma de ver determinado fenômeno garante certa validade interpretativa, mas se houver mais de uma é possível aferir a convergência da interpretação. Se houver mais de duas, é como se mais foco de luz é dirigido para aquilo que as sombras não permitem ver. O cientista geralmente nunca usa um único feixe de luz para ver o invisível.

(*) Daniel Nascimento-e-Silva, PhD, Professor e Pesquisador do Instituto Federal do Amazonas (IFAM)

Veja também

Topo