As questões estruturais têm como finalidade identificar as partes componentes de determinado fenômeno sob investigação. Quando essas questões são respondidas com base na literatura, ajudam a compor a arquitetura ou marco teórico a ser testado empiricamente; quando as respostas são procuradas na realidade empírica, um dos intentos é a comparação com a arquitetura teórica, para fazer avançar ou atualizar o estoque de conhecimentos disponível. Em ambos os casos, contudo, a organização dos dados coletados estarão direcionados para a primeira concepção do protótipo da tecnologia a ser gerada. A finalidade com esses procedimentos é a construção de uma estrutura analítica do produto (EAP). Se for construída com base na literatura, a intenção é que a EAP seja testada empiricamente; se elaborada com base na realidade, o passo seguinte já é a prototipagem. Assim, a prototipagem é o estágio em que a EAP foi testada e confirmada empiricamente. E essa confirmação se faz em dois estágios. A primeira é a construção de uma matriz analítica, como será descrito aqui.
Quando esses dados são coletados da literatura, a massa de dados decorrente é composta de uma coluna com as fontes bibliográficas e pelo menos uma coluna com os componentes estruturais. Por exemplo, para a questão “quais são os componentes de um painel de controle baseado no balanced scorecard?”, anota na coluna da esquerda a fonte bibliográfica e, na da direita, cada um dos componentes indicados por aquela mesma fonte. Se o levantamento da literatura apresentar 100 respostas, teremos uma matriz de 100 linhas por duas colunas. Cada fonte apresentará os seus elementos, que constituem os dados procurados e que deverão ser organizados para que se descubra a ordem, a lógica que está por trás deles.
Como os dados estruturais, de fato, são uma lista de elementos integrantes de um todo, o processo de organização se faz com o uso de uma matriz de frequência. Essa matriz é constituída por linhas, que identificam o elemento constituinte do fenômeno, na primeira coluna, seguida da quantidade de sua ocorrência naquela amostra, complementada pelo seu valor em percentual em uma terceira coluna. Esse esquema lógico precisa ser aplicado a todos os elementos encontrados.
Acontece com muita frequência de um mesmo elemento receber nomes diferentes, variando de uma fonte para outra. Por exemplo, uma fonte poderia citar como elemento do balanced scorecard “aprendizado”, enquanto outra poderia citar esse mesmo elemento como “conhecimento adquirido”. Se os pesquisadores, baseados na literatura, considerarem que aprendizado é outra maneira de se falar de conhecimento adquirido, ambos podem e precisam fazer parte de um mesmo agrupamento semântico. É preciso muita atenção e acuidade para que essas ocorrências sejam detectadas e manuseadas com adequação.
O estágio final da matriz dos dados estruturais apresenta, portanto, na coluna da esquerda seus elementos componentes e, partindo-se para a direita, a frequência simples e a percentual de cada uma delas. Pode completar, e isso é recomendável, que a quarta e última coluna mostre o quanto o percentual de cada elemento contribui para a conformação da totalidade quantitativa do fenômeno. Quanto maior a frequência relativa, maior a importância dele para a composição da arquitetura teórica a ser testada, se forem dados bibliográficos, ou da estrutura analítica do produto, se forem dados empíricos. Essa constatação teórica precisa estar na mente de cada cientista.
O visual da matriz vai mostrar, portanto, alguns poucos elementos com alta carga percentual. Geralmente a quantidade desses elementos representa mais ou menos 20% de toda a lista de elementos componentes. Se a lista resultante apontar 100 tipos diferentes de elementos constituintes do fenômeno, é provável que algo a somatória percentual de cerca de 20 desses elementos representem 80% de toda a carga percentual. Inversamente, 80% dos elementos encontrados representam apenas 20% dos itens da lista. Apenas para efeito de curiosidade, esse comportamento é previso pela chamada Lei de Pareto, que diz que 80% do comportamento de um fenômeno é explicado por 20% das causas. Contudo, para efeito de validação da arquitetura teórica e EAP, essas constatações se revestem de importância fundamental.
A organização de dados empíricos é feita com base nas sinalizações das descobertas teóricas. Na verdade, o teste das arquiteturas e marcos teóricos têm justamente essa finalidade, a de saber se aquilo que foi inventado com base nos conhecimentos científicos disponíveis se comporta da forma prevista. Se não se comportar, é preciso que se alterem os elementos da arquitetura e marco teóricos para que se tenha validade empírica que permita o início da fase de prototipagem. Afinal, o grande desafio de organização de dados é justamente o de permitir a construção de uma representação da futura tecnologia que se pretende gerar. Assim, quanto mais precisas forem as descobertas visualmente perceptíveis na matriz, mais provável que a EAP obtenha sucesso como ponto de partida da prototipagem.
O estágio final da organização dos dados, que chamamos de matriz estrutural, é matéria-prima das arquiteturas e marcos teóricos, quando os dados são de natureza bibliográfica, e estruturas analíticas do produto, quando são de natureza empírica. Em linguagem comum, a organização dos dados forma a chamada fundamentação teórica de todo estudo científico. No caso específico das questões estruturais, perfazem os marcos teóricos, quando os elementos não podem ser identificados, ou a arquitetura teórica, quando a maioria está presente, como será mostrado mais adiante.