Cloudflare Workers AI Aprimorado - A Evolução da Inferência de IA no Edge

2025.12.01

O que é Cloudflare Workers AI

Cloudflare Workers AI é um serviço que permite executar inferência de IA no edge. Executa modelos em data centers ao redor do mundo, oferecendo funcionalidades de IA com baixa latência.

Referência: Cloudflare Workers AI

Novos Modelos Adicionados

Modelos Disponíveis (final de 2024)

CategoriaModeloUso
LLMLlama 3.2Geração de texto
LLMMistral 7BInferência rápida
LLMGemma 2Suporte multilíngue
ImagemStable Diffusion XLGeração de imagens
ImagemFLUX.1Geração de imagens de alta qualidade
ÁudioWhisperReconhecimento de voz
EmbeddingBGEVetorização

Exemplo de Uso

// Inferência com Workers AI
export default {
  async fetch(request, env) {
    const response = await env.AI.run('@cf/meta/llama-3.2-3b-instruct', {
      messages: [
        { role: 'user', content: 'Me conte sobre as características do Cloudflare' }
      ],
      max_tokens: 512
    });

    return new Response(JSON.stringify(response));
  }
};

Referência: Workers AI Models

Vectorize GA (Versão Final)

Banco de Dados Vetorial

Armazena vetores de embedding e executa buscas por similaridade.

// Criação do Vectorize (wrangler CLI)
// wrangler vectorize create my-index --dimensions=768 --metric=cosine

// Inserção de vetores
export default {
  async fetch(request, env) {
    // Converter texto em embedding
    const embedding = await env.AI.run('@cf/baai/bge-base-en-v1.5', {
      text: 'Edge computing da Cloudflare'
    });

    // Salvar no Vectorize
    await env.VECTORIZE.insert([{
      id: 'doc-1',
      values: embedding.data[0],
      metadata: { title: 'Cloudflare Edge' }
    }]);

    return new Response('Inserted');
  }
};

Busca por Similaridade

// Busca de documentos similares
const queryEmbedding = await env.AI.run('@cf/baai/bge-base-en-v1.5', {
  text: 'Inferência de IA no edge'
});

const results = await env.VECTORIZE.query(queryEmbedding.data[0], {
  topK: 5,
  returnMetadata: true
});

// results: [{ id: 'doc-1', score: 0.95, metadata: {...} }, ...]

Referência: Cloudflare Vectorize

AI Gateway

Gerenciamento e Monitoramento de API

Gerencie múltiplos provedores de IA de forma unificada.

// Requisição via AI Gateway
const response = await fetch(
  'https://gateway.ai.cloudflare.com/v1/account-id/gateway-name/openai/chat/completions',
  {
    method: 'POST',
    headers: {
      'Authorization': `Bearer ${OPENAI_API_KEY}`,
      'Content-Type': 'application/json'
    },
    body: JSON.stringify({
      model: 'gpt-4',
      messages: [{ role: 'user', content: 'Hello' }]
    })
  }
);

Principais Funcionalidades

FuncionalidadeDescrição
CacheCache de resultados para requisições idênticas
Rate LimitingLimitação de requisições de API
RetryRetry automático em caso de falha
FallbackMudança para outro provedor
LoggingRegistro de todas as requisições
// Configuração de fallback
{
  "providers": [
    { "provider": "openai", "model": "gpt-4" },
    { "provider": "anthropic", "model": "claude-3-sonnet" }
  ],
  "fallback": true
}

Referência: AI Gateway

AutoRAG (Preview)

Pipeline RAG Automático

Construa um sistema RAG apenas fazendo upload de documentos.

// Configuração do AutoRAG
export default {
  async fetch(request, env) {
    // Indexar documento
    await env.AUTORAG.index({
      content: 'Cloudflare é a maior rede edge do mundo...',
      metadata: { source: 'docs', title: 'About Cloudflare' }
    });

    // Responder pergunta
    const answer = await env.AUTORAG.query({
      question: 'O que é Cloudflare?',
      max_tokens: 256
    });

    return new Response(JSON.stringify(answer));
  }
};

Estrutura de Preços

Workers AI

PlanoNeuronsPreço
Gratuito10,000/dia$0
Pay-as-you-goIlimitado$0.011/1,000 neurons

Vectorize

ItemGratuitoPago
Número de vetores200,000Ilimitado
Queries/mês30M$0.01/1M
Armazenamento1GB$0.05/GB

Referência: Preços Cloudflare

Performance

Comparação de Latência

RegiãoServidor CentralCloudflare Edge
Tóquio200ms20ms
Nova York50ms15ms
Londres100ms18ms

Throughput

Llama 3.2 3B: ~50 tokens/seg
Mistral 7B: ~30 tokens/seg
Whisper: 2x velocidade em tempo real

Exemplo de Implementação: Chatbot RAG

export default {
  async fetch(request, env) {
    const { question } = await request.json();

    // 1. Converter pergunta em embedding
    const questionEmbedding = await env.AI.run('@cf/baai/bge-base-en-v1.5', {
      text: question
    });

    // 2. Buscar documentos relacionados
    const docs = await env.VECTORIZE.query(questionEmbedding.data[0], {
      topK: 3,
      returnMetadata: true
    });

    // 3. Gerar resposta com contexto
    const context = docs.matches.map(d => d.metadata.content).join('\n');
    const answer = await env.AI.run('@cf/meta/llama-3.2-3b-instruct', {
      messages: [
        { role: 'system', content: `Responda baseado nas seguintes informações:\n${context}` },
        { role: 'user', content: question }
      ]
    });

    return Response.json({ answer: answer.response });
  }
};

Resumo

Cloudflare Workers AI continua evoluindo como uma opção viável para inferência de IA no edge.

  • Diversos modelos: LLM, imagem, áudio, embedding
  • Vectorize GA: Versão final do banco de dados vetorial
  • AI Gateway: Gerenciamento multi-provedor
  • Baixa latência: Menos de 20ms globalmente

Vale a pena considerar ao construir aplicações de IA serverless e escaláveis.

← Voltar para a lista