Cada decisão documentada. Cada experimento registrado. De 40% a 100% de consenso. a jornada completa.
Do caos da divergência de hardware à precisão do quórum determinístico. Cada linha de código aqui foi escrita sobre evidências experimentais.
Primeira validação experimental de Prova de Inferência. Duas máquinas fisicamente separadas podem produzir output idêntico para o mesmo prompt e seed?
| Prompt | Complexidade | Acordo | Tempo |
|---|---|---|---|
| Fibonacci (Python) | Baixa | 3/4 ✅ | 101s |
| Reverse String (Rust) | Média | 2/4 ❌ | 66s |
| Is Prime (JavaScript) | Média | 2/4 ❌ | 122s |
| BST Class (Python) | Alta | 1/4 ❌ | 123s |
| Max Element (Go) | Baixa | 4/4 ✅ | 120s |
Corrigindo lógica de threshold, introduzindo system prompt unificado e implementando normalização de código pré-embedding, atingimos 100% de consenso. subindo de 80% na v1 e 40% no modo byte-only.
| Versão | Método | Acordo |
|---|---|---|
| v0 (baseline) | Apenas byte | 40% |
| v1 | Semântico (fixo 0.95) | 80% |
| v2 (atual) | Semântico + system prompt | 100% |
Primeiro benchmark completo com assinatura criptográfica e Layer 5 (Consenso por Execução) ativa. Tarefas de complexidade média atingem 100% de acordo.
| Tier | Passed | Rate |
|---|---|---|
| Baixa (funções simples) | 16/18 | 88.9% |
| Média (algoritmos) | 18/18 | 100% |
| Alta (classes, estruturas de dados) | 12/15 | 80.0% |
Quórum antecipado retorna imediatamente quando 3/4 nós atingem consenso byte. Reputação de nós identifica corretamente tiers de performance. Hierarquia natural emerge sem programação explícita.
| Nó | Confiança | Peso | Latência Média |
|---|---|---|---|
| Nó 0 (Desktop) | 0.96 | 1.44 | 5.0s |
| Nó 1 (Xeon) | 0.96 | 1.44 | 6.3s |
| Nó 2 (Laptop) | 0.96 | 0.96 | 15.2s |
| Nó 3 (Laptop Antigo) | 0.89 | 0.44 | 145.9s |
Escala do modelo correlaciona diretamente com determinismo do output. O modelo 7B elimina quase toda divergência. tarefas impossíveis com 0.5B atingem consenso byte perfeito.
| Modelo | Byte-Perfect | Semântico | Latência |
|---|---|---|---|
| 0.5B | 66.7% | 94.1% | ~50s avg |
| 7B | 96.1% | 100% | ~120s avg |
Auditoria profunda de código revelou 12 achados. Críticos: execução de código sem sandbox, endpoint de chat ignorando consenso, código do usuário salvo em disco. Todos resolvidos.
| Severidade | Qtd | Status |
|---|---|---|
| Crítico (P0) | 3 | ✅ Todos resolvidos |
| High (P1) | 4 | ✅ Todos resolvidos |
| Medium (P2) | 4 | ✅ Todos resolvidos |
| Low (P3) | 1 | ✅ Resolvido |
O protocolo evoluiu de "byte-perfect ou nada" para um sistema sofisticado de verificação em 5 camadas que aceita diversidade de hardware como feature, não como bug.
Estas descobertas definem os limites teóricos e possibilidades práticas do protocolo AGIChoir. Cada uma mudou como projetamos o sistema.
Modelo anterior: 150M CHOIR/dia permanente → supply esgotado em 6 dias em escala. Novo modelo: 2.77M/dia permanente → dura 1 ano. Melhoria de 54x.
| Ação | Custo/Recompensa | Tipo |
|---|---|---|
| Chat simples | 1 crédito | Gasto |
| Geração de código | 2 créditos | Gasto |
| Modelo pesado (7B) | 5 créditos | Gasto |
| Consenso validado | +5 CHOIR | Ganho |
| Bônus byte-perfect | +3 CHOIR | Ganho |
| Uptime por hora | +1 CHOIR | Ganho |
11 sprints · $0 infraestrutura
Sprints 1-4. Conectividade P2P e inferência distribuída. O momento "Eureka": primeiro quórum 2/2 entre máquinas fisicamente separadas.
Scaffolding inicial do projeto. Definiu a visão, escreveu o litepaper, estabeleceu estrutura de pastas (src/, docs/, private/). Roadmap técnico definido.
Built native inference engine using llama-cpp-rs. Ollama as fallback engine. Test binary functional. First local inference without external dependencies.
Camada P2P completa: discovery automático, mensageria, descoberta local. Tópicos: tasks, results, announce.
O momento em que se tornou real. Worker processa tarefas, assina criptograficamente, publica resultados. Coordenador distribui e valida. Primeiro consenso 2/2 entre processos separados.
Sprints 5-7. Blockchain DAG L1, persistência, reconciliação de dados entre peers. O sistema ganhou memória.
Blockchain DAG construída do zero. Vértices, transações (Register, PoI, Reward, Slash), regras de finalidade, anti-replay, armazenamento persistente, sincronização entre peers.
Produto final. Zero-config: instala extensão → extrai binário → instala modelo → inicia nó. Validado cross-network (WSL → WiFi, máquinas diferentes).
Rede se torna pública via DHT bootstrap (5 peers, $0 infra). Pipeline de treino distribuído construído. Refatoração removeu 738 linhas de código morto.
Sprints 8-11. Hardening de segurança, treino DPO, distribuição LoRA, economia de tokens. A rede agora aprende com cada correção de desenvolvedor.
Auditoria completa de segurança: sandbox, fix de privacidade, race condition no DAG, fix O(n²). Redesign da economia de tokens. 54x mais sustentável com créditos diários (expiram) + CHOIR savings (permanente).
Economia conectada ao produto real. Chat custa créditos. Barra de status mostra saldo. Reputação v2: score de confiança composto, decay para nós inativos, tarefas desafio-resposta.
| Versão | Semântico | Byte | Modelo | Feature Principal |
|---|---|---|---|---|
| v0 | 40% | 40% | 0.5B | Apenas comparação de hash |
| v1 | 80% | - | 0.5B | Consenso semântico |
| v2 | 100% (5 testes) | - | 0.5B | Unificação de system prompt |
| v3 | 90.2% | 37.3% | 0.5B | Stack completa (51 testes, crypto) |
| v4 | 94.1% | 66.7% | 0.5B | Quórum antecipado + reputação |
| v5 | 100% | 96.1% | 7B | Roteamento de modelo |