Pesquisa | Resultados validados

4 nós · Canary v1 (0.5B) · Q4_K_M

Primeira validação experimental de Prova de Inferência. Duas máquinas fisicamente separadas podem produzir output idêntico para o mesmo prompt e seed?

Achado #1: Consenso determinístico é alcançável para tarefas simples. Fibonacci e Go Max Element atingiram 3/4 e 4/4 de acordo consistentemente.

Achado #2: Complexidade correlaciona inversamente com acordo. Baixa: 75-100%, Média: 25-50%, Alta: 0-25%.

Achado #3: Heterogeneidade de hardware NÃO afeta corretude. Um nó que leva 115s produz o mesmo output que um que leva 6s.

Achado #4: Consenso byte-perfect tem um teto fundamental devido a diferenças de aritmética de ponto flutuante entre arquiteturas de CPU.

Achado #5: Resposta otimista elimina penalidade de UX. Latência do usuário = latência do nó mais rápido (6s).

Prompt	Complexidade	Acordo	Tempo
Fibonacci (Python)	Baixa	3/4 ✅	101s
Reverse String (Rust)	Média	2/4 ❌	66s
Is Prime (JavaScript)	Média	2/4 ❌	122s
BST Class (Python)	Alta	1/4 ❌	123s
Max Element (Go)	Baixa	4/4 ✅	120s

Taxa de Acordo: 40% (2/5 passaram) Causa raiz: divergência de ponto flutuante entre arquiteturas de CPU Conclusão: Camada de consenso semântico é OBRIGATÓRIA para tarefas complexas

4 nós · Unificação de system prompt + correção de threshold

Corrigindo lógica de threshold, introduzindo system prompt unificado e implementando normalização de código pré-embedding, atingimos 100% de consenso. subindo de 80% na v1 e 40% no modo byte-only.

Bug Crítico Corrigido: v1 aceitava outputs com similaridade coseno de 0.610 como "acordado" por lógica incorreta de threshold. Threshold agora aplicado ANTES do cálculo de quórum.

System Prompt: Maior melhoria individual. Elimina variância de comentários, formatação markdown, texto explicativo. Força output consistente.

Thresholds Dinâmicos: Baixo=0.95, Médio=0.90, Alto=0.85. Adapta à complexidade da tarefa.

Distribuição de Score: Colapsou de 0.179-1.000 (v1) para 0.998-1.000 (v2). Melhoria massiva.

Versão	Método	Acordo
v0 (baseline)	Apenas byte	40%
v1	Semântico (fixo 0.95)	80%
v2 (atual)	Semântico + system prompt	100%

Insight chave: controlar o FORMATO do output é mais eficaz que melhorar ALGORITMOS de comparação. Ao restringir o que os nós produzem, tornamos a comparação trivial. Teste BST: 0.217 (v1) → 0.999 (v2). Mesmo hardware, mesmo prompt.

51 prompts · 5 linguagens · Ed25519 + Camada de Execução

Primeiro benchmark completo com assinatura criptográfica e Layer 5 (Consenso por Execução) ativa. Tarefas de complexidade média atingem 100% de acordo.

90.2% consenso semântico em 51 prompts em 4 nós heterogêneos.

100% verificação criptográfica. Cada resposta assinada.

Tier médio: 100%. A maioria das tarefas reais de assistente de código.

Adicionar 4º nó aumenta divergência (byte cai 21%) mas semântico fica estável (-2%). Protocolo absorve heterogeneidade.

Tier	Passed	Rate
Baixa (funções simples)	16/18	88.9%
Média (algoritmos)	18/18	100%
Alta (classes, estruturas de dados)	12/15	80.0%

Testes que falharam: JS LRU Cache (0.233), Rust Doubly Linked List (0.302), Python Min-Heap (0.401) Causa raiz: divergência multi-paradigma + qualidade de código do modelo 0.5B Camada 5 (Execução) ativada mas não conseguiu recuperar. Modelo pequeno demais para código executável

Sprint 2 · Parada por quórum antecipado + score de reputação

Quórum antecipado retorna imediatamente quando 3/4 nós atingem consenso byte. Reputação de nós identifica corretamente tiers de performance. Hierarquia natural emerge sem programação explícita.

94.1% consenso semântico (subiu de 90.2%). 66.7% byte-perfect (subiu de 37.3%).

78% redução de latência em tarefas convergentes. Fibonacci: 50s → 11s.

Reputação de nós: Nós rápidos (peso 1.44) vs lentos (peso 0.44). Diferença de 3.3x reflete valor operacional real.

Nós degradados não quebram a rede. Nó 3 degradou para 146s média. Sistema adaptou via quórum antecipado.

Nó	Confiança	Peso	Latência Média
Nó 0 (Desktop)	0.96	1.44	5.0s
Nó 1 (Xeon)	0.96	1.44	6.3s
Nó 2 (Laptop)	0.96	0.96	15.2s
Nó 3 (Laptop Antigo)	0.89	0.44	145.9s

Canary v1 (7B) · 51 prompts · 4 nós · ~3.5 horas

Escala do modelo correlaciona diretamente com determinismo do output. O modelo 7B elimina quase toda divergência. tarefas impossíveis com 0.5B atingem consenso byte perfeito.

100% consenso semântico (51/51). Todos os prompts passam.

96.1% byte-perfect (49/51). Inferência distribuída quase determinística.

Escala do modelo → determinismo é uma relação mensurável e reproduzível.

Python: 100% byte-perfect. JavaScript: 100%. Go: ~95%. Rust: ~90%.

Fadiga de rede é real: Após 2.5h de inferência 7B contínua, nós começaram a cair. Sistema continuou com quórum reduzido.

Modelo	Byte-Perfect	Semântico	Latência
0.5B	66.7%	94.1%	~50s avg
7B	96.1%	100%	~120s avg

De 40% a 100% em um dia: 40% → identificou divergência de ponto flutuante 80% → consenso semântico resolveu 94% → system prompt + ajuste de threshold 100% → modelo 7B restaura determinismo Cada passo guiado por evidência experimental, não especulação.

Análise estática · Rust + TypeScript · Todos os módulos

Auditoria profunda de código revelou 12 achados. Críticos: execução de código sem sandbox, endpoint de chat ignorando consenso, código do usuário salvo em disco. Todos resolvidos.

P0 Crítico. Execução sem sandbox: Código gerado por LLM rodava direto no host. Corrigido com timeout + blocklist + isolamento.

P0 Crítico. Chat ignorava consenso: /api/chat chamava inferência diretamente sem coordenador. Corrigido: consenso quando peers ≥ 2.

P0 Crítico. Código do usuário salvo em disco: README dizia "nenhum código enviado" mas feedback salvava últimos 300 chars. Corrigido: apenas hash ou opt-in explícito.

P1. Race condition no DAG: Inserção concorrente de vértices podia criar forks. Corrigido com processamento sequencial.

P1. Verificação de finalidade O(n²): count_descendants recursivo sem memoização. Corrigido com travessia topológica com cache.

Severidade	Qtd	Status
Crítico (P0)	3	✅ Todos resolvidos
High (P1)	4	✅ Todos resolvidos
Medium (P2)	4	✅ Todos resolvidos
Low (P3)	1	✅ Resolvido

Documento de design · Informado por achados experimentais

O protocolo evoluiu de "byte-perfect ou nada" para um sistema sofisticado de verificação em 5 camadas que aceita diversidade de hardware como feature, não como bug.

Camada 1. Consenso Byte: Comparação de hash SHA-256. Para outputs curtos, baixa entropia, tarefas determinísticas. Custo: O(1).

Camada 2. Normalizado: Trim, quebras de linha, normalização de espaços e hash. Lida com diferenças cosméticas.

Camada 3. Semântico: Similaridade coseno de embeddings. Threshold >0.95. Método principal em produção.

Camada 4. Estrutural: Comparação de AST. Detecta código equivalente com estilo diferente. >0.90 similaridade estrutural.

Camada 5. Execução: Roda código gerado, compara outputs. Maior confiança. Isolado em sandbox.

Zonas de Afinidade Determinística: Nós com hardware compatível formam zonas onde byte-perfect é alcançável. Cross-zone usa semântico.

Penalização Estatística: Diferença entre divergência honesta (0.90+) e output desonesto (<0.50) é grande o suficiente para detecção confiável sem falsos positivos.

Mudança de paradigma: Antigo: mesma entrada → mesma saída → verificação Novo: mesma entrada → outputs semanticamente equivalentes → consenso probabilístico → reputação Isso é mais próximo de peer review humano. E fundamentalmente mais escalável que reprodução determinística.

Pesquisa fundamental · Informa todas as decisões do protocolo

Estas descobertas definem os limites teóricos e possibilidades práticas do protocolo AGIChoir. Cada uma mudou como projetamos o sistema.

#1. O Teto do Determinismo: Byte-perfect tem um teto fundamental imposto pela aritmética de ponto flutuante do hardware, não do software. CPUs diferentes = outputs diferentes para prompts complexos. Isso NÃO é bug.

#2. Inverso Complexidade-Acordo: Baixa complexidade → 75-100% acordo. Média → 25-50%. Alta → 0-25%. Relação mensurável e reproduzível.

#3. Performance ≠ Corretude: Um nó 20x mais lento ainda produz output correto. A rede aceita QUALQUER hardware de consumo sem degradação de qualidade.

#4. Resposta Otimista é Segura: Output do nó mais rápido SEMPRE fez parte da maioria do consenso. Latência do usuário = nó mais rápido (4-6s), independente do tamanho da rede.

#5. Divergência é Determinística: Mesmo hardware sempre produz mesmo output. Divergência entre nós é consistente e reproduzível. Nós podem ser "fingerprinted". Nós maliciosos não conseguem se esconder atrás de divergência natural.

#6. Três Modos de Consenso Necessários: Byte (código curto), Semântico (código longo/texto), Execução (código testável). Nenhum mecanismo único serve todas as tarefas.

#7. Código é o Domínio Inicial Ideal: Objetivamente verificável, determinístico para tarefas simples, comparável semanticamente via AST, testável por execução, alto valor econômico.

Implicação estratégica: Qualquer um tentando replicar este protocolo enfrenta o mesmo teto de determinismo. Nossa vantagem: descobrimos primeiro e projetamos ao redor. A camada de consenso semântico é nossa inovação arquitetural central. "Inferência não precisa ser reproduzida, apenas validada."

Sprint 9 · Redesign do modelo econômico

Modelo anterior: 150M CHOIR/dia permanente → supply esgotado em 6 dias em escala. Novo modelo: 2.77M/dia permanente → dura 1 ano. Melhoria de 54x.

Créditos Diários (voláteis): 100/dia, expiram em 24h, rate limiting. Não é ativo financeiro.

CHOIR Savings (permanente): Ganho por consenso validado (+5), bônus byte-perfect (+3), uptime (+1/h). Nunca expira.

Anti-Sybil by design: Request cost (1-5) > uptime reward (1/h). Can't profit by requesting to yourself.

Regulatory positioning: Credits = technical rate limiting. Savings = service compensation. No ICO, no pre-sale, no appreciation promise.

Ação	Custo/Recompensa	Tipo
Chat simples	1 crédito	Gasto
Geração de código	2 créditos	Gasto
Modelo pesado (7B)	5 créditos	Gasto
Consenso validado	+5 CHOIR	Ganho
Bônus byte-perfect	+3 CHOIR	Ganho
Uptime por hora	+1 CHOIR	Ganho

Anterior: 150M CHOIR/dia permanente → esgota em 6.6 dias em escala Atual: 2.77M CHOIR/dia permanente → dura 361 dias (~1 ano) Melhoria: 54x mais sustentável "O token não é o produto. O token é o mecanismo que faz o produto funcionar."

Sprints de Desenvolvimento

11 sprints · $0 infraestrutura

Fase 1: O Organismo

Sprints 1-4. Conectividade P2P e inferência distribuída. O momento "Eureka": primeiro quórum 2/2 entre máquinas fisicamente separadas.

3 commits · README, litepaper, manifesto, estrutura do projeto

Scaffolding inicial do projeto. Definiu a visão, escreveu o litepaper, estabeleceu estrutura de pastas (src/, docs/, private/). Roadmap técnico definido.

2 commits · Rust · native_inference.rs

Built native inference engine using llama-cpp-rs. Ollama as fallback engine. Test binary functional. First local inference without external dependencies.

2 commits · Rust · p2p.rs · Validado: 2 nós se descobrem em <1s

Camada P2P completa: discovery automático, mensageria, descoberta local. Tópicos: tasks, results, announce.

Stack: libp2p (Kademlia + Gossipsub + mDNS + Noise + QUIC)

Discovery: Nodes find each other in <1 second on LAN

3 commits · worker.rs, coordinator.rs, crypto.rs · Inferência P2P ponta a ponta

O momento em que se tornou real. Worker processa tarefas, assina criptograficamente, publica resultados. Coordenador distribui e valida. Primeiro consenso 2/2 entre processos separados.

worker.rs: Processes tasks, signs output, publishes via gossipsub

coordinator.rs: Byte + semantic + execution consensus layers

crypto.rs: Assinatura + verificação Ed25519 por nó

CLI modes: --worker, --request, --quorum

Fase 2: A Memória

Sprints 5-7. Blockchain DAG L1, persistência, reconciliação de dados entre peers. O sistema ganhou memória.

5 commits · dag.rs, chain.rs, chain_validation.rs, dag_sync.rs, replay_guard.rs, storage.rs

Blockchain DAG construída do zero. Vértices, transações (Register, PoI, Reward, Slash), regras de finalidade, anti-replay, armazenamento persistente, sincronização entre peers.

DAG structure: GhostDAG simplified. vertices reference multiple parents (tips)

Transactions: RegisterNode, ProofOfInference, Reward, Slash

Finality: 3 confirmations required

Anti-replay: Nonce + TTL + dedup (4 unit tests passing)

Sync: Tip reconciliation + vertex batch via gossipsub

Storage: sled (embedded key-value, persists to disk)

11 commits · TypeScript · Publicado no VS Code Marketplace · Cross-network: 2.9s latência

Produto final. Zero-config: instala extensão → extrai binário → instala modelo → inicia nó. Validado cross-network (WSL → WiFi, máquinas diferentes).

Zero-config: Install extension → everything starts automatically

Features: Chat (streaming), inline completions, 6 profiles, DPO feedback

Cross-network: Machine A (WSL/cable) → Machine B (WiFi) → correct code in 2.9s

Registry relay: Serviço PHP para NAT traversal (temporário, substituído por DHT)

11 commits · DHT via IPFS bootstrap · Treino LoRA · -738 linhas de código legado

Rede se torna pública via DHT bootstrap (5 peers, $0 infra). Pipeline de treino distribuído construído. Refatoração removeu 738 linhas de código morto.

DHT público: 5 peers encontrados via bootstrap. Zero custo de servidor.

train_lora.py: Unsloth + TRL, treino DPO, exporta GGUF

aggregate_feedback.py: Merge multi-nó com deduplicação

model_updater.rs: P2P adapter distribution via gossipsub, versioning

Limpeza: -738 linhas de código legado removidas

Fase 3: A Inteligência

Sprints 8-11. Hardening de segurança, treino DPO, distribuição LoRA, economia de tokens. A rede agora aprende com cada correção de desenvolvedor.

5 commits · 12 achados de segurança resolvidos · Modelo econômico redesenhado

Auditoria completa de segurança: sandbox, fix de privacidade, race condition no DAG, fix O(n²). Redesign da economia de tokens. 54x mais sustentável com créditos diários (expiram) + CHOIR savings (permanente).

Segurança: 3 Críticos + 4 Altos + 4 Médios + 1 Baixo. Todos resolvidos

Economics: Previous model exhausted in 6 days at scale. New model lasts 1 year.

Anti-Sybil: Request cost > uptime reward. Can't profit by self-requesting.

2 commits · Economia ativa no produto · Score de confiança composto

Economia conectada ao produto real. Chat custa créditos. Barra de status mostra saldo. Reputação v2: score de confiança composto, decay para nós inativos, tarefas desafio-resposta.

Token ativo: Chat custa 1 crédito (local) ou 2 (consenso). Mensagem amigável quando esgotado.

Trust score: 40% agreement + 20% quality + 15% reliability + 15% challenges + 10% age

Decay: 2%/época para nós inativos. Use ou perca.

Challenge-response: Known-answer tasks to verify node honesty

New nodes: Start at trust 0.3 (not 0.5). Must earn reputation.

Evolução do Protocolo

Versão	Semântico	Byte	Modelo	Feature Principal
v0	40%	40%	0.5B	Apenas comparação de hash
v1	80%	-	0.5B	Consenso semântico
v2	100% (5 testes)	-	0.5B	Unificação de system prompt
v3	90.2%	37.3%	0.5B	Stack completa (51 testes, crypto)
v4	94.1%	66.7%	0.5B	Quórum antecipado + reputação
v5	100%	96.1%	7B	Roteamento de modelo