Rede
Alpha Privada
Consenso
Stable (Layer 3)
Acordo
94.1% a 100%
Licença
Protocolo Aberto
Do caos da divergência de hardware à precisão do quórum determinístico. Cada linha de código aqui foi escrita sobre evidências experimentais.
4 nós · Canary v1 (0.5B) · Q4_K_M

Primeira validação experimental de Prova de Inferência. Duas máquinas fisicamente separadas podem produzir output idêntico para o mesmo prompt e seed?

Achado #1: Consenso determinístico é alcançável para tarefas simples. Fibonacci e Go Max Element atingiram 3/4 e 4/4 de acordo consistentemente.
Achado #2: Complexidade correlaciona inversamente com acordo. Baixa: 75-100%, Média: 25-50%, Alta: 0-25%.
Achado #3: Heterogeneidade de hardware NÃO afeta corretude. Um nó que leva 115s produz o mesmo output que um que leva 6s.
Achado #4: Consenso byte-perfect tem um teto fundamental devido a diferenças de aritmética de ponto flutuante entre arquiteturas de CPU.
Achado #5: Resposta otimista elimina penalidade de UX. Latência do usuário = latência do nó mais rápido (6s).
PromptComplexidadeAcordoTempo
Fibonacci (Python)Baixa3/4 ✅101s
Reverse String (Rust)Média2/4 ❌66s
Is Prime (JavaScript)Média2/4 ❌122s
BST Class (Python)Alta1/4 ❌123s
Max Element (Go)Baixa4/4 ✅120s
Taxa de Acordo: 40% (2/5 passaram) Causa raiz: divergência de ponto flutuante entre arquiteturas de CPU Conclusão: Camada de consenso semântico é OBRIGATÓRIA para tarefas complexas
4 nós · Unificação de system prompt + correção de threshold

Corrigindo lógica de threshold, introduzindo system prompt unificado e implementando normalização de código pré-embedding, atingimos 100% de consenso. subindo de 80% na v1 e 40% no modo byte-only.

Bug Crítico Corrigido: v1 aceitava outputs com similaridade coseno de 0.610 como "acordado" por lógica incorreta de threshold. Threshold agora aplicado ANTES do cálculo de quórum.
System Prompt: Maior melhoria individual. Elimina variância de comentários, formatação markdown, texto explicativo. Força output consistente.
Thresholds Dinâmicos: Baixo=0.95, Médio=0.90, Alto=0.85. Adapta à complexidade da tarefa.
Distribuição de Score: Colapsou de 0.179-1.000 (v1) para 0.998-1.000 (v2). Melhoria massiva.
VersãoMétodoAcordo
v0 (baseline)Apenas byte40%
v1Semântico (fixo 0.95)80%
v2 (atual)Semântico + system prompt100%
Insight chave: controlar o FORMATO do output é mais eficaz que melhorar ALGORITMOS de comparação. Ao restringir o que os nós produzem, tornamos a comparação trivial. Teste BST: 0.217 (v1) → 0.999 (v2). Mesmo hardware, mesmo prompt.
51 prompts · 5 linguagens · Ed25519 + Camada de Execução

Primeiro benchmark completo com assinatura criptográfica e Layer 5 (Consenso por Execução) ativa. Tarefas de complexidade média atingem 100% de acordo.

90.2% consenso semântico em 51 prompts em 4 nós heterogêneos.
100% verificação criptográfica. Cada resposta assinada.
Tier médio: 100%. A maioria das tarefas reais de assistente de código.
Adicionar 4º nó aumenta divergência (byte cai 21%) mas semântico fica estável (-2%). Protocolo absorve heterogeneidade.
TierPassedRate
Baixa (funções simples)16/1888.9%
Média (algoritmos)18/18100%
Alta (classes, estruturas de dados)12/1580.0%
Testes que falharam: JS LRU Cache (0.233), Rust Doubly Linked List (0.302), Python Min-Heap (0.401) Causa raiz: divergência multi-paradigma + qualidade de código do modelo 0.5B Camada 5 (Execução) ativada mas não conseguiu recuperar. Modelo pequeno demais para código executável
Sprint 2 · Parada por quórum antecipado + score de reputação

Quórum antecipado retorna imediatamente quando 3/4 nós atingem consenso byte. Reputação de nós identifica corretamente tiers de performance. Hierarquia natural emerge sem programação explícita.

94.1% consenso semântico (subiu de 90.2%). 66.7% byte-perfect (subiu de 37.3%).
78% redução de latência em tarefas convergentes. Fibonacci: 50s → 11s.
Reputação de nós: Nós rápidos (peso 1.44) vs lentos (peso 0.44). Diferença de 3.3x reflete valor operacional real.
Nós degradados não quebram a rede. Nó 3 degradou para 146s média. Sistema adaptou via quórum antecipado.
ConfiançaPesoLatência Média
Nó 0 (Desktop)0.961.445.0s
Nó 1 (Xeon)0.961.446.3s
Nó 2 (Laptop)0.960.9615.2s
Nó 3 (Laptop Antigo)0.890.44145.9s
Canary v1 (7B) · 51 prompts · 4 nós · ~3.5 horas

Escala do modelo correlaciona diretamente com determinismo do output. O modelo 7B elimina quase toda divergência. tarefas impossíveis com 0.5B atingem consenso byte perfeito.

100% consenso semântico (51/51). Todos os prompts passam.
96.1% byte-perfect (49/51). Inferência distribuída quase determinística.
Escala do modelo → determinismo é uma relação mensurável e reproduzível.
Python: 100% byte-perfect. JavaScript: 100%. Go: ~95%. Rust: ~90%.
Fadiga de rede é real: Após 2.5h de inferência 7B contínua, nós começaram a cair. Sistema continuou com quórum reduzido.
ModeloByte-PerfectSemânticoLatência
0.5B66.7%94.1%~50s avg
7B96.1%100%~120s avg
De 40% a 100% em um dia: 40% → identificou divergência de ponto flutuante 80% → consenso semântico resolveu 94% → system prompt + ajuste de threshold 100% → modelo 7B restaura determinismo Cada passo guiado por evidência experimental, não especulação.
Análise estática · Rust + TypeScript · Todos os módulos

Auditoria profunda de código revelou 12 achados. Críticos: execução de código sem sandbox, endpoint de chat ignorando consenso, código do usuário salvo em disco. Todos resolvidos.

P0 Crítico. Execução sem sandbox: Código gerado por LLM rodava direto no host. Corrigido com timeout + blocklist + isolamento.
P0 Crítico. Chat ignorava consenso: /api/chat chamava inferência diretamente sem coordenador. Corrigido: consenso quando peers ≥ 2.
P0 Crítico. Código do usuário salvo em disco: README dizia "nenhum código enviado" mas feedback salvava últimos 300 chars. Corrigido: apenas hash ou opt-in explícito.
P1. Race condition no DAG: Inserção concorrente de vértices podia criar forks. Corrigido com processamento sequencial.
P1. Verificação de finalidade O(n²): count_descendants recursivo sem memoização. Corrigido com travessia topológica com cache.
SeveridadeQtdStatus
Crítico (P0)3✅ Todos resolvidos
High (P1)4✅ Todos resolvidos
Medium (P2)4✅ Todos resolvidos
Low (P3)1✅ Resolvido
Documento de design · Informado por achados experimentais

O protocolo evoluiu de "byte-perfect ou nada" para um sistema sofisticado de verificação em 5 camadas que aceita diversidade de hardware como feature, não como bug.

Camada 1. Consenso Byte: Comparação de hash SHA-256. Para outputs curtos, baixa entropia, tarefas determinísticas. Custo: O(1).
Camada 2. Normalizado: Trim, quebras de linha, normalização de espaços e hash. Lida com diferenças cosméticas.
Camada 3. Semântico: Similaridade coseno de embeddings. Threshold >0.95. Método principal em produção.
Camada 4. Estrutural: Comparação de AST. Detecta código equivalente com estilo diferente. >0.90 similaridade estrutural.
Camada 5. Execução: Roda código gerado, compara outputs. Maior confiança. Isolado em sandbox.
Zonas de Afinidade Determinística: Nós com hardware compatível formam zonas onde byte-perfect é alcançável. Cross-zone usa semântico.
Penalização Estatística: Diferença entre divergência honesta (0.90+) e output desonesto (<0.50) é grande o suficiente para detecção confiável sem falsos positivos.
Mudança de paradigma: Antigo: mesma entrada → mesma saída → verificação Novo: mesma entrada → outputs semanticamente equivalentes → consenso probabilístico → reputação Isso é mais próximo de peer review humano. E fundamentalmente mais escalável que reprodução determinística.
Pesquisa fundamental · Informa todas as decisões do protocolo

Estas descobertas definem os limites teóricos e possibilidades práticas do protocolo AGIChoir. Cada uma mudou como projetamos o sistema.

#1. O Teto do Determinismo: Byte-perfect tem um teto fundamental imposto pela aritmética de ponto flutuante do hardware, não do software. CPUs diferentes = outputs diferentes para prompts complexos. Isso NÃO é bug.
#2. Inverso Complexidade-Acordo: Baixa complexidade → 75-100% acordo. Média → 25-50%. Alta → 0-25%. Relação mensurável e reproduzível.
#3. Performance ≠ Corretude: Um nó 20x mais lento ainda produz output correto. A rede aceita QUALQUER hardware de consumo sem degradação de qualidade.
#4. Resposta Otimista é Segura: Output do nó mais rápido SEMPRE fez parte da maioria do consenso. Latência do usuário = nó mais rápido (4-6s), independente do tamanho da rede.
#5. Divergência é Determinística: Mesmo hardware sempre produz mesmo output. Divergência entre nós é consistente e reproduzível. Nós podem ser "fingerprinted". Nós maliciosos não conseguem se esconder atrás de divergência natural.
#6. Três Modos de Consenso Necessários: Byte (código curto), Semântico (código longo/texto), Execução (código testável). Nenhum mecanismo único serve todas as tarefas.
#7. Código é o Domínio Inicial Ideal: Objetivamente verificável, determinístico para tarefas simples, comparável semanticamente via AST, testável por execução, alto valor econômico.
Implicação estratégica: Qualquer um tentando replicar este protocolo enfrenta o mesmo teto de determinismo. Nossa vantagem: descobrimos primeiro e projetamos ao redor. A camada de consenso semântico é nossa inovação arquitetural central. "Inferência não precisa ser reproduzida, apenas validada."
Sprint 9 · Redesign do modelo econômico

Modelo anterior: 150M CHOIR/dia permanente → supply esgotado em 6 dias em escala. Novo modelo: 2.77M/dia permanente → dura 1 ano. Melhoria de 54x.

Créditos Diários (voláteis): 100/dia, expiram em 24h, rate limiting. Não é ativo financeiro.
CHOIR Savings (permanente): Ganho por consenso validado (+5), bônus byte-perfect (+3), uptime (+1/h). Nunca expira.
Anti-Sybil by design: Request cost (1-5) > uptime reward (1/h). Can't profit by requesting to yourself.
Regulatory positioning: Credits = technical rate limiting. Savings = service compensation. No ICO, no pre-sale, no appreciation promise.
AçãoCusto/RecompensaTipo
Chat simples1 créditoGasto
Geração de código2 créditosGasto
Modelo pesado (7B)5 créditosGasto
Consenso validado+5 CHOIRGanho
Bônus byte-perfect+3 CHOIRGanho
Uptime por hora+1 CHOIRGanho
Anterior: 150M CHOIR/dia permanente → esgota em 6.6 dias em escala Atual: 2.77M CHOIR/dia permanente → dura 361 dias (~1 ano) Melhoria: 54x mais sustentável "O token não é o produto. O token é o mecanismo que faz o produto funcionar."

Sprints de Desenvolvimento

11 sprints · $0 infraestrutura

Fase 1: O Organismo

Sprints 1-4. Conectividade P2P e inferência distribuída. O momento "Eureka": primeiro quórum 2/2 entre máquinas fisicamente separadas.

3 commits · README, litepaper, manifesto, estrutura do projeto

Scaffolding inicial do projeto. Definiu a visão, escreveu o litepaper, estabeleceu estrutura de pastas (src/, docs/, private/). Roadmap técnico definido.

2 commits · Rust · native_inference.rs

Built native inference engine using llama-cpp-rs. Ollama as fallback engine. Test binary functional. First local inference without external dependencies.

2 commits · Rust · p2p.rs · Validado: 2 nós se descobrem em <1s

Camada P2P completa: discovery automático, mensageria, descoberta local. Tópicos: tasks, results, announce.

Stack: libp2p (Kademlia + Gossipsub + mDNS + Noise + QUIC)
Discovery: Nodes find each other in <1 second on LAN
3 commits · worker.rs, coordinator.rs, crypto.rs · Inferência P2P ponta a ponta

O momento em que se tornou real. Worker processa tarefas, assina criptograficamente, publica resultados. Coordenador distribui e valida. Primeiro consenso 2/2 entre processos separados.

worker.rs: Processes tasks, signs output, publishes via gossipsub
coordinator.rs: Byte + semantic + execution consensus layers
crypto.rs: Assinatura + verificação Ed25519 por nó
CLI modes: --worker, --request, --quorum

Fase 2: A Memória

Sprints 5-7. Blockchain DAG L1, persistência, reconciliação de dados entre peers. O sistema ganhou memória.

5 commits · dag.rs, chain.rs, chain_validation.rs, dag_sync.rs, replay_guard.rs, storage.rs

Blockchain DAG construída do zero. Vértices, transações (Register, PoI, Reward, Slash), regras de finalidade, anti-replay, armazenamento persistente, sincronização entre peers.

DAG structure: GhostDAG simplified. vertices reference multiple parents (tips)
Transactions: RegisterNode, ProofOfInference, Reward, Slash
Finality: 3 confirmations required
Anti-replay: Nonce + TTL + dedup (4 unit tests passing)
Sync: Tip reconciliation + vertex batch via gossipsub
Storage: sled (embedded key-value, persists to disk)
11 commits · TypeScript · Publicado no VS Code Marketplace · Cross-network: 2.9s latência

Produto final. Zero-config: instala extensão → extrai binário → instala modelo → inicia nó. Validado cross-network (WSL → WiFi, máquinas diferentes).

Zero-config: Install extension → everything starts automatically
Features: Chat (streaming), inline completions, 6 profiles, DPO feedback
Cross-network: Machine A (WSL/cable) → Machine B (WiFi) → correct code in 2.9s
Registry relay: Serviço PHP para NAT traversal (temporário, substituído por DHT)
11 commits · DHT via IPFS bootstrap · Treino LoRA · -738 linhas de código legado

Rede se torna pública via DHT bootstrap (5 peers, $0 infra). Pipeline de treino distribuído construído. Refatoração removeu 738 linhas de código morto.

DHT público: 5 peers encontrados via bootstrap. Zero custo de servidor.
train_lora.py: Unsloth + TRL, treino DPO, exporta GGUF
aggregate_feedback.py: Merge multi-nó com deduplicação
model_updater.rs: P2P adapter distribution via gossipsub, versioning
Limpeza: -738 linhas de código legado removidas

Fase 3: A Inteligência

Sprints 8-11. Hardening de segurança, treino DPO, distribuição LoRA, economia de tokens. A rede agora aprende com cada correção de desenvolvedor.

5 commits · 12 achados de segurança resolvidos · Modelo econômico redesenhado

Auditoria completa de segurança: sandbox, fix de privacidade, race condition no DAG, fix O(n²). Redesign da economia de tokens. 54x mais sustentável com créditos diários (expiram) + CHOIR savings (permanente).

Segurança: 3 Críticos + 4 Altos + 4 Médios + 1 Baixo. Todos resolvidos
Economics: Previous model exhausted in 6 days at scale. New model lasts 1 year.
Anti-Sybil: Request cost > uptime reward. Can't profit by self-requesting.
2 commits · Economia ativa no produto · Score de confiança composto

Economia conectada ao produto real. Chat custa créditos. Barra de status mostra saldo. Reputação v2: score de confiança composto, decay para nós inativos, tarefas desafio-resposta.

Token ativo: Chat custa 1 crédito (local) ou 2 (consenso). Mensagem amigável quando esgotado.
Trust score: 40% agreement + 20% quality + 15% reliability + 15% challenges + 10% age
Decay: 2%/época para nós inativos. Use ou perca.
Challenge-response: Known-answer tasks to verify node honesty
New nodes: Start at trust 0.3 (not 0.5). Must earn reputation.

Evolução do Protocolo

VersãoSemânticoByteModeloFeature Principal
v040%40%0.5BApenas comparação de hash
v180%-0.5BConsenso semântico
v2100% (5 testes)-0.5BUnificação de system prompt
v390.2%37.3%0.5BStack completa (51 testes, crypto)
v494.1%66.7%0.5BQuórum antecipado + reputação
v5100%96.1%7BRoteamento de modelo