Cloudflare Workers AI - Execute Inferência de IA no Edge

2025.12.05

O que é Workers AI

Cloudflare Workers AI é um serviço que permite executar modelos de IA na rede edge da Cloudflare. Realiza inferência de IA com baixa latência, processando dados sem enviá-los para a nuvem.

Modelos Suportados

Geração de Texto (LLM)

ModeloCaracterísticas
Llama 3 8BUso geral, alta performance
Mistral 7BRápido, eficiente
Gemma 7BDesenvolvido pelo Google, leve
Phi-2Desenvolvido pela Microsoft, compacto

Imagem/Visão

ModeloUso
Stable Diffusion XLGeração de imagens
LLaVACompreensão de imagens
CLIPClassificação de imagens

Áudio

ModeloUso
WhisperReconhecimento de voz
TTSText-to-speech

Uso Básico

Geração de Texto

// src/index.ts
export default {
  async fetch(request: Request, env: Env): Promise<Response> {
    const response = await env.AI.run('@cf/meta/llama-3-8b-instruct', {
      messages: [
        { role: 'system', content: 'Você é um assistente prestativo.' },
        { role: 'user', content: 'Me diga 3 vantagens do TypeScript' }
      ]
    });

    return Response.json(response);
  }
};

Resposta em Streaming

export default {
  async fetch(request: Request, env: Env): Promise<Response> {
    const stream = await env.AI.run('@cf/meta/llama-3-8b-instruct', {
      messages: [
        { role: 'user', content: 'Explique sobre o futuro da IA' }
      ],
      stream: true
    });

    return new Response(stream, {
      headers: { 'content-type': 'text/event-stream' }
    });
  }
};

Geração de Imagens

export default {
  async fetch(request: Request, env: Env): Promise<Response> {
    const response = await env.AI.run('@cf/stabilityai/stable-diffusion-xl-base-1.0', {
      prompt: 'A futuristic city with flying cars, cyberpunk style',
      num_steps: 20
    });

    return new Response(response, {
      headers: { 'content-type': 'image/png' }
    });
  }
};

Análise de Imagens

export default {
  async fetch(request: Request, env: Env): Promise<Response> {
    const imageData = await request.arrayBuffer();

    const response = await env.AI.run('@cf/llava-hf/llava-1.5-7b-hf', {
      image: [...new Uint8Array(imageData)],
      prompt: 'O que está nesta imagem?',
      max_tokens: 512
    });

    return Response.json(response);
  }
};

Reconhecimento de Voz

export default {
  async fetch(request: Request, env: Env): Promise<Response> {
    const audioData = await request.arrayBuffer();

    const response = await env.AI.run('@cf/openai/whisper', {
      audio: [...new Uint8Array(audioData)]
    });

    return Response.json({
      text: response.text,
      language: response.detected_language
    });
  }
};

Integração com Vectorize

// Implementação de RAG (Retrieval-Augmented Generation)
export default {
  async fetch(request: Request, env: Env): Promise<Response> {
    const question = await request.text();

    // Vetorizar a pergunta
    const embedding = await env.AI.run('@cf/baai/bge-base-en-v1.5', {
      text: question
    });

    // Buscar documentos similares no banco vetorial
    const matches = await env.VECTORIZE.query(embedding.data[0], {
      topK: 3
    });

    // Fazer o LLM responder usando o contexto
    const context = matches.map(m => m.metadata.text).join('\n');

    const response = await env.AI.run('@cf/meta/llama-3-8b-instruct', {
      messages: [
        { role: 'system', content: `Responda usando o seguinte contexto:\n${context}` },
        { role: 'user', content: question }
      ]
    });

    return Response.json(response);
  }
};

Estrutura de Preços

Pay-as-you-go:
- Geração de texto: $0.011 / 1,000 neurons
- Geração de imagens: $0.01 / imagem
- Reconhecimento de voz: $0.01 / minuto

Gratuito:
- Até 10,000 neurons por dia grátis

Deploy

# wrangler.toml
[ai]
binding = "AI"

# Deploy
npx wrangler deploy

Casos de Uso

- Chatbots
- Geração de conteúdo
- Pipeline de processamento de imagens
- Transcrição de áudio
- Retrieval-Augmented Generation (RAG)
- Moderação de conteúdo

Resumo

Cloudflare Workers AI é uma plataforma poderosa para executar inferência de IA no edge. Com baixa latência, distribuição global e API simples, o desenvolvimento de aplicações de IA se torna mais fácil.

← Voltar para a lista