Coluna C & T: A organização de dados – Daniel Nascimento-e-Silva

Os esforços científicos são analíticos, mas apenas as consequências sintéticas são percebidas pelos que ignoram os procedimentos da ciência, o que inclui quase todos os pesquisadores. Isso quer dizer que todo o edifício construído pela ciência tem nos dados os seus tijolos elementares. Um pequeno compartimento é feito com singelos e aparentemente inexpressivos dados, como é o caso da altura de um indivíduo ou os motivos que o impelem à ação. A quantidade e os tipos de dados a serem coletados dependem do tamanho do compartimento a ser construído, como foi mostrado de diversas formas. Um dos motivos para essa relação é a necessária conexão entre o projeto do compartimento, os tipos e quantidade de tijolos a serem coletados, construídos, obtidos. Da mesma forma como procedem os engenheiros, os cientistas vinculam o projeto do ambiente aos materiais a serem utilizados para tal a partir de procedimentos que convertam o desenho mental em materialidade efetiva. É justamente nessa intermediação que se situam as diferentes estratégias de organização dos dados. É preciso que cada punhado de cimento seja colocado junto dos demais, assim como as pequenas gotas de água e porções de areia. Cada tipo de dado precisa estar ao lado do outro para se lhe conhecerem os contornos e, depois, para sintetizá-los de alguma forma. Nisso consiste o desafio das organizações de dados.

O verbo organizar é originário da ideia de órgão. Essa natureza etimológica é praticamente desconhecida de quase todos os pesquisadores e cientistas e residem aí as grandes dificuldades que muitos encontram para os procedimentos de organização dos dados que coletam. Para entender a ideia originária de órgão é necessário que se leve em consideração a concepção de um dado como um tijolo, como a menor peça que se vai utilizar para alguma edificação. Cada dado nunca está sozinho. Um dado sobre idade, por exemplo, está vinculado a outro dado também sobre idade. Quando coleto dados sobre a idade dos alunos de uma turma, minhas anotações registrarão o dado de João, o de Maria, o de Pedro e assim sucessivamente. O dado relativo à idade de João faz parte do conjunto das idades de Maria e Pedro e de todos os demais. É esse, portanto, o primeiro desafio de organizar: fazer conjuntos de dados. No final dessa primeira etapa teremos o conjunto das idades, dos pesos, alturas, aspirações profissionais e o que quer que tenhamos coletado. Esse conjunto é um órgão porque ele reúne e dá sentido a todos os dados ao mesmo tempo. É isso que chamamos de síntese a que todo processo de organização visa.

O segundo aspecto comumente desconhecido dos desafios de organização de dados é a dimensão funcional dos órgãos. O fígado funciona de uma forma, enquanto o coração o faz de outra, também distinta do cérebro e da mão direita. Cada uma dessas coisas é um órgão e, portanto, funciona de uma forma distinta das outras. De forma semelhante, o conjunto das idades dos alunos de uma turma tem um funcionamento distinto do conjunto dos pesos desses mesmos discentes. A idade tem seu funcionamento em relação ao tempo, enquanto os pesos estão vinculados à massa, ao quão pesado ou leve cada um é. Pode acontecer, contudo, de haver vinculação de um órgão com o outro. Por exemplo, a idade pode influenciar no peso, de maneira que quanto maior a idade, maior poderia ser o peso de alguém, que seria outra forma de funcionar, agora com a reunião de dois órgãos diferentes para formar um terceiro. Essa complicação toda tem apenas uma finalidade: mostrar que cada conjunto de dados tem pelo menos um sentido. Dito de outra forma, a maneira como os dados funcionam e se comportam permite a descoberta de algum sentido nesse funcionamento e nesse comportamento. Assim, precisamos saber formar os órgãos para que possamos descobrir os seus sentidos, os seus segredos.

Voltando para o exemplo das idades, quando coloco uma idade ao lado da outra e os nomes dos respectivos alunos, tem-se uma ideia da grandeza do conjunto, que é uma forma de organizar. Se eu coloco as idades em ordem crescente, da menor para a maior, tenho outra forma de organizar. Se faço o inverso, da maior para a menor, obtenho outro produto de organização. Se separo as idades dos alunos das idades das alunas, tenho outra maneira de organizar. Se eu calculo a média das idades totais ou das idades das alunas ou das idades dos alunos, outras três maneiras de organizar foram aplicadas. Note que, em todas elas, quando eu terminei de organizar gerei um sentido, descobri uma lógica por trás daqueles dados. É esse o desafio de organizar: descobrir segredos que, de outra forma, é impossível.

Como será mostrado inúmeras vezes, não importa qual o procedimento de organização de dados que se queira utilizar, todos eles são aplicações ou de esquema lógico ou raciocínio matemático. No fundo, todo processo de organização de dados é um tipo de cálculo matemático. Contudo, para que isso seja percebido e possa ser aplicado com precisão, é necessário, naturalmente, que se tenha uma sólida formação matemática. Isso é aplicado, por exemplo, em definições conceituais. Veja o caso de “Homem é o ser humano do sexo masculino”. Aqui se tem f(H) = sh (m), onde f(H) é o conceito, sh (é o termo de equivalência) e m é o atributo qualificador do termo de equivalência. Quem não entende de matemática não consegue ver isso e essa ignorância o impede de fazer brilhantes organizações desses dados e gerar descobertas maravilhosas.

Quando os cientistas se propõem a realizar uma pesquisa, veem-lhes à mente a pergunta principal ou hipótese central a ser respondida ou testada e as formas através das quais os dados a serem coletados serão organizados para responder à pergunta ou testar a hipótese. É uma trilogia inseparável: problema x coleta x organização dos dados. Da mesma forma que existem inúmeras regras que precisam ser obedecidas para que os dados sejam coletados de forma válida, também há várias outras para que a validade esteja presente no processo de organização. Como organização pode ser confundida com análise, trabalharemos em conjunto essas duas dimensões fundamentais das pesquisas científicas.

(*) Daniel Nascimento-e-Silva, PhD, Professor e Pesquisador do Instituto Federal do Amazonas (IFAM)

Veja também

Topo