Coluna C & T: Organização de dados semiestruturados - Daniel Nascimento-e-Silva

Quando os cientistas organizam dados semiestruturados têm em mente um dentre dois desafios: primeiro, identificar dimensões dentre várias categorias analíticas; segundo, descobrir novas categorias a partir de dimensões já mapeadas. Os dados semiestruturados são aqueles decorrentes de questões de pesquisas cujos padrões de respostas os cientistas não podem estipular porque não têm uma ideia clara de suas estruturas ou processos. Dito de outra forma, nas questões semiestruturadas, os cientistas sabem o que querem aprender, mas não têm a mínima ideia das respostas que podem encontrar. É diferente das questões estruturadas, onde são conhecidas tanto as perguntas quanto as alternativas de respostas possíveis. Por essa razão, as estratégias de organização desse tipo de dados precisa seguir um dos dois desafios: ou construir dimensões (constructos) ou descobrir categorias analíticas.

A organização dos dados voltada para a descobertas de dimensões busca responder à seguinte questão: que elementos fazem parte de que dimensões ou partes do fenômeno que se quer compreender? Diversas técnicas podem ser utilizadas com esse intuito. Um exemplo clássico é a análise fatorial exploratória. Quando utilizamos essa técnica não sabemos ao certo a que agrupamento ou fatores cada elemento pertence. Muitas vezes, por exemplo, a arquitetura teórica sugere que A, B, C e D pertencem ao fator Alfa e os elementos Z, Y, X e W, ao Delta; contudo, quando organizados, tanto a representação matemática quanto a gráfica demonstram que esses arranjos teóricos têm outras configurações, com os elementos A, D, Z e W pertencentes ao fator Beta e os elementos B, C, Y e X ao fator Ômega. Ainda que a arquitetura teórica tenha sido elaborada sobre descobertas teórico-empíricas, essa relação dimensão-categoria pode mudar ou porque outras dimensões precisam ser descobertas ou porque novas categorias precisam ser encontradas empiricamente. A configuração relativamente precisa dimensão-categoria vai se estabelecendo aos poucos, à medida que outros experimentos empíricos forem feitos.

Mas o que mais caracteriza os dados teórico-empíricos é o fato de que grande parte das investigações se dá em forma de entrevistas, observações ou questionários com questões abertas ou mistas. É sobre essa estratégia que se concentra a maior parte dos estudos que visam tanto à descoberta de dimensões quanto de categorias analíticas. O fundamento desse procedimento é que pequenos e limitados casos podem sugerir a circunscrição operativa de determinados elementos, como é o caso de variáveis que interferem na aprendizagem. A finalidade, então, pode ser tanto fazer uma lista dessas variáveis interferentes quanto a maneira através da qual elas agem sobre o indivíduo provocando, retardando ou impedindo a sua aprendizagem. De fato, um pequeno caso ou pequeno número de casos permitem esse acompanhamento e registro mais próximo dessas variáveis.

Nesse exemplo em particular, o desafio é elaborar um mapa relacional, do tipo modelo mental, em que as variáveis possam ser visualizadas, assim como os seus efeitos (e/ou falta deles) sobre o fenômeno sob estudo. A organização dos dados é consequência daqueles esquemas lógicos apontados, que é descobrir quem faz parte de que dimensão analítica (o nome do grupo resultante é arbitrado, construído, é um constructo) e que variáveis novas foram descobertas. De forma analógica, é como se os cientistas apontasse um microscópio para uma pequena parte da realidade para que pudesse vê-la de forma mais minuciosa, procurando capturar seus detalhes essenciais. Mas é o estudo de apenas uma parte da realidade, e isso jamais deverá sair da mente do cientista que realiza esse tipo de estudo, de maneira que suas descobertas são apenas uma possível fonte de evidência confiável, mas ainda não é uma explicação sobre o todo. Toda ciência é universal, de maneira que o particular é, no máximo, uma representação um tanto quanto distante da realidade toda daquele fenômeno sob investigação.

A organização dos dados semiestruturados deixa bem claro esse caráter de particularidade. As variáveis que interferem na aprendizagem em uma escola rural do Estado do Amazonas podem ser diferentes das variáveis que exercem a mesma interferência na aprendizagem de crianças de Berlim, adolescentes do Canadá e adultos da África. A ciência é justamente esse desafio quase insano de descobrir uma lógica universal que explique tanto a realidade particularizada quanto totalizada. Quando organizamos dados semiestruturadas se tem em mente justamente esse caminho a percorrer, daquela comunidade isolada do estado do Amazonas, para todo o estado do Amazonas, depois toda a Amazônia, Brasil, América do Sul e planeta. É por isso que durante a revisão da literatura procuramos compreender as variáveis em comuns de cada pequeno estudo semiestruturado, de cada mapa de variável ou dimensão particular, para que saibamos o que é particular (e diferenciador) de cada caso e o que faz parte do fenômeno universal. Matematicamente, f(Apr) = aU + bU… + zP + yP, em que as variáveis aU e bU são universais e zP + zP são particulares. A organização de dados semiestruturados permite que se vejam os primeiros ensaios da futura “fotografia” do fenômeno que, neste momento, só se percebem os efeitos, o seus contornos menos nítidos.

À medida que os estudos semiestruturados avançam, tornam-se possíveis as primeiras tentativas efetivas de se construir a arquitetura fenomênica, que se dá através de estudos estruturados. As fotografias particulares que as organizações desses dados permitem fazê-lo ajudam sobremaneira na composição do quebra-cabeça, onde a figura que se desenha devagar com os dados semiestruturados ganha forma e se torna mais nítida. Contudo, nunca se deve deixar de ter consciência de que a explicação de uma parte da realidade, um caso ou conjunto pequeno de casos, é apenas um primeiro passo para a construção de uma explicação sólida e consistente, que chamamos de teoria. Assim como poucas andorinhas não fazem verão, sem milhares de casos não haverá explicação válida cientificamente.

Coluna C & T: Organização de dados semiestruturados – Daniel Nascimento-e-Silva

**(*) Daniel Nascimento-e-Silva, PhD, Professor e Pesquisador do Instituto Federal do Amazonas (IFAM)**

Veja também

Coluna C & T: Organização de dados ordinais – Daniel Nascimento-e-Silva

Coluna C & T: Redação do resumo – Daniel Nascimento-e-Silva