Metodologia

Auditabilidade: por que todo número tem rastro

Cada score do IA Performance Index pode ser rastreado até o prompt original. Saiba como a TIDEX garante auditabilidade total.

VS
Vittor Saraiva
·19 de março de 2026·4 min de leitura

Todo número do IA Performance Index pode ser rastreado até o prompt que o gerou

Auditabilidade significa que cada score, sub-score e componente do IA Performance Index pode ser rastreado até os dados brutos que o originaram. Se o seu score de presença caiu de 6.2 pra 4.8, a gente consegue mostrar exatamente quais prompts pararam de retornar a sua marca, em quais motores, e desde quando. Não existe caixa preta. Essa decisão de design foi intencional desde o primeiro dia. Segundo o Gartner Hype Cycle for AI 2024, a falta de explicabilidade é o principal obstáculo pra adoção de ferramentas de IA em decisões de negócio — 54% dos executivos citam "não entender como o número foi calculado" como barreira. O IA Performance Index foi construído pra eliminar essa barreira. Cada relatório inclui não apenas o score, mas a árvore completa de evidências que o sustenta, desde as fontes consultadas até as respostas brutas dos motores.

A árvore de evidências: do score ao prompt individual

O relatório do IA Performance Index é estruturado em camadas. Na superfície, o score de 0 a 10. Um nível abaixo, os scores das três dimensões (presença, qualidade, contexto). Mais um nível, os 7 componentes com seus pesos. E no nível mais profundo, cada prompt executado, cada resposta recebida, cada verificação de acurácia feita. Essa estrutura permite que qualquer stakeholder navegue pelo relatório no nível de detalhe que precisa. O CEO vê o score e a tendência. O head de marketing vê as dimensões e identifica onde atuar. O analista vê os prompts individuais e entende exatamente o que cada motor respondeu. Segundo a McKinsey Global Survey on AI 2024, organizações que implementam IA com governança transparente têm 1.7x mais probabilidade de capturar valor significativo. A auditabilidade do índice funciona como camada de governança — garante que decisões baseadas no score têm fundamento verificável.

Por que a gente registra as respostas brutas dos motores

Cada vez que o pipeline dispara um prompt, a resposta completa do motor é registrada com timestamp, modelo usado, versão da API e parâmetros de execução. A gente faz isso por dois motivos. Primeiro, pra permitir reauditoria: se um cliente questiona um resultado, a gente pode reproduzir a análise e mostrar a evidência original. Segundo, pra detectar mudanças nos motores. LLMs são atualizados constantemente — o ChatGPT de março não responde igual ao de janeiro. Ter as respostas brutas permite comparar versões e identificar se uma mudança no score veio de algo que a marca fez ou de uma atualização do motor. Segundo o Stanford HAI Report 2024, os principais LLMs recebem atualizações significativas a cada 2-4 meses. Sem registro das respostas originais, seria impossível separar variação real de ruído causado por atualização do modelo. A gente mantém histórico de respostas por pelo menos 12 meses.

Reprodutibilidade: o teste que valida a metodologia

Uma metodologia auditável precisa ser reprodutível. Se a gente rodar os mesmos prompts nas mesmas condições, os resultados devem ser similares. LLMs têm um grau natural de variação nas respostas — a temperatura do modelo faz com que a mesma pergunta gere respostas ligeiramente diferentes. Pra lidar com isso, a gente executa cada prompt múltiplas vezes e usa a mediana dos resultados. Além disso, padronizamos as condições: conversa limpa sem histórico, parâmetros fixos de temperatura e tokens, mesma versão da API quando possível. Segundo pesquisa do MIT sobre reprodutibilidade em IA (2024), variação de até 8% entre execuções é considerada aceitável em avaliações baseadas em LLM. Nossos testes internos mostram variação média de 4-5% entre rodadas, dentro da faixa aceitável. Quando a variação de uma marca específica ultrapassa 10%, a gente sinaliza no relatório e aumenta o número de execuções.

Transparência como vantagem competitiva do índice

A maioria das ferramentas de análise de IA no mercado opera como caixa preta: entrega um número sem mostrar como chegou nele. A gente tomou a decisão de abrir a metodologia porque acredita que isso é o que gera confiança de longo prazo. Se um concorrente quiser replicar a abordagem, pode tentar — mas a execução consistente do pipeline multi-LLM com 8 fontes de dados é o que gera valor, não o segredo da fórmula. Segundo o Edelman Trust Barometer 2024, empresas percebidas como transparentes têm 76% mais confiança dos clientes. A auditabilidade do IA Performance Index não é um feature — é um princípio de design. Cada decisão metodológica está documentada, cada peso é explicado, e cada resultado pode ser questionado e verificado. Isso é o que diferencia um índice sério de um número bonito num dashboard.

#metodologia#IA Performance Index

Leia também

Duvidas? Fale conosco