Coluna C & T: Organização de dados estruturados - Daniel Nascimento-e-Silva

A organização dos dados estruturados é feita de inúmeras maneiras bastante sedimentadas pelas comunidades científicas. Por essa razão, talvez, tenha servido como referência para a prática científica, sempre que possível. É muito importante que essa possibilidade seja ressaltada, uma vez que a estruturação dos dados depende em muito do estado da arte. Quando o estoque de conhecimentos é bastante robusto, há a possibilidade de se estabelecidos esquemas de dimensões-categorias analíticas passíveis de serem testados. Isso implica na constatação de que são os próprios cientistas que elaboram essas relações, mas sempre com base naquilo que os conhecimentos válidos permitem fazer. Isso quer dizer que os testes empíricos são sempre dessas relações construídas, seja em forma de questões norteadoras, seja no formato clássico de hipóteses. Como consequência, as referências para a organização desses tipos de dados são sempre os modelos ou arquiteturas teóricas elaboradas. Na verdade, esses marcos e arquiteturas são criadas justamente para isso: para se constatar ou não se a realidade se comporta em consonância com os modelos previamente imaginados.

A primeira coisa que se deve levar em consideração para a organização desse tipo de dados é que um fenômeno é feito de partes (ou de etapas) que, por sua vez, são constituídos por categorias. As categorias são as evidências empíricas que são registradas em forma de dados, cujas reuniões formam as dimensões analíticas. Por exemplo, o corpo humano pode ser dividido em cabeça, tronco e membros. A cabeça, por sua vez, pode ser subdivida em orelha, olhos, nariz, queixo etc., de maneira que uma explicação sobre a cabeça (dimensão ou parte) deve incluir alguns desses componentes (categorias ou elementos). De forma semelhante, a dimensão “aspectos demográficos” pode incluir idade, sexo, escolaridade, estado civil, renda bruta e outros aspectos da realidade específicas de cada indivíduo. Igualmente, a dimensão “aspectos laborais” pode envolver “satisfação no trabalho”, “motivação no trabalho”, “clima organizacional” e assim por diante. São os componentes (categorias analíticas) que precisam ser organizadas para gerar os resultados sobre a parte da realidade (dimensão analítica). É por isso que as dimensões analíticas são um constructo: são nomes inventados para representar um conjunto de coisas que são medidas.

A segunda coisa que se deve ter em mente é que dados estruturados precisam ser tratados, organizados como tal. Por essa razão, para haver estrutura, cada categoria precisa dar conta de todos os tipos de respostas possíveis. Por exemplo, para a categoria “escolaridade”, as alternativas poderiam ser ensino fundamental, ensino médio, ensino superior, especialização, mestrado, doutorado e sem escolaridade completa, sempre advertindo a necessidade da completude. Isso quer dizer que se não houver exaustão, os dados não podem ser considerados exaustivos. Como consequência, todos dados estruturados devem ser enquadrados em um e apenas um dos seguintes tipos: nominais, ordinais, intervalares e racionais.

A terceira coisa que jamais se deve perder de vista é que dados nominais são muito pobres e só permitem medir a frequência absoluta, frequência relativa e a moda. E nada mais. Escolaridade é um exemplo desse tipo de dado. É possível saber qual é a escolaridade mais comum (moda), qual o percentual da menos comum (frequência relativa) e quantos têm o ensino médio (frequência absoluta). Por essa razão é um erro criminoso tentar usar média com esses dados. É como se fosse possível unir melancias, laranjas, limas e caju e ver qual é a fruta média. Dados ordinais permitem calcular tudo o que os nominais fazem, mais a mediana e os desvio interquartílicos. Média? Nem pensar! Esses dados servem para medir coisas como satisfação, motivação, aprendizagem e tudo o mais que designe ordem: mais ou menos satisfação, satisfação máxima e satisfação mínima, aprendizagem plena e aprendizagem mediana. Dados nominais e ordinais são chamados de qualitativos ou categóricos porque só conseguem exprimir as qualidades e categorias.

A quarta coisa é o cuidado com os dados intervalares. O motivo é um só: não confundi-los com os dados ordinais. A maneira mais prática para evitar confusão é a constatação de que os dados ordinais apresentam ordenamento sem que seja possível medir a diferença de uma posição para a outra. Por exemplo, o campeão não pode ser considerado duas vezes vice-campeão, da mesma forma que o quem chega em primeiro lugar em uma corrida não correu duas vezes o que correu o segundo lugar. Mas veja o caso das temperaturas: 50 graus é sempre maior do que 40 graus e essa diferença pode ser calculada. É por isso que aqui é possível o cálculo da média e os desvios padrões, mas não é possível a determinação de um zero separando aspectos positivos e negativos. Quem apresenta essa característica são apenas os dados racionais, motivo pelo qual permitem fazer qualquer tipo de cálculo.

Quem não tem familiaridade com a ciência pode estar se perguntando até agora: mas como eles são organizados? A resposta é: através de cálculo. Organizar dados estruturados é aplicar a eles as medidas que lhes são válidas. A moda diz muita coisa sobre os dados nominais, assim como o terceiro quartil explica coisas formidáveis em dados ordinais. E todo os tipos de dados estruturados permitem a transformação dos cálculos em algum tipo de representação gráfica ou tabela, de maneira que a finalidade de todo tipo de organização de dados se cumpre, que é tornar visível ao cientista a resposta que ele procura para cada uma de suas questões norteadoras.

O procedimento de organização começa com a geração das respostas de cada categoria, individualmente, e finaliza a primeira etapa com a explicação de todas as categorias sobre a dimensão. Por exemplo, o conhecimento do sexo, escolaridade, estado civil e renda bruta individual permite compreender o conjunto de indivíduos pesquisados. Esse conhecimento é uma descrição. Mas quando relacionamos uma dimensão com outra dimensão, por exemplo, escolaridade e “motivações para o trabalho”, as coisas mudam de figura. Agora não se está mais fazendo descrição, mas gerando explicação. Agora é possível saber se mulheres diferem de homens em relação à luminosidade no ambiente de trabalho, por exemplo. E esse saber fica explícito em uma figura, que é o desafio da organização de dados.

Coluna C & T: Organização de dados estruturados – Daniel Nascimento-e-Silva

**(*) Daniel Nascimento-e-Silva, PhD, Professor e Pesquisador do Instituto Federal do Amazonas (IFAM)**

Veja também

Coluna C & T: Organização de dados funcionais: síntese – Daniel Nascimento-e-Silva

Coluna C & T: Discussão dos resultados – Daniel Nascimento-e-Silva