Cloudflare Workers AI - Execute Inferência de IA no Edge | Notícias

O que é Workers AI

Cloudflare Workers AI é um serviço que permite executar modelos de IA na rede edge da Cloudflare. Realiza inferência de IA com baixa latência, processando dados sem enviá-los para a nuvem.

Modelos Suportados

Geração de Texto (LLM)

Modelo	Características
Llama 3 8B	Uso geral, alta performance
Mistral 7B	Rápido, eficiente
Gemma 7B	Desenvolvido pelo Google, leve
Phi-2	Desenvolvido pela Microsoft, compacto

Imagem/Visão

Modelo	Uso
Stable Diffusion XL	Geração de imagens
LLaVA	Compreensão de imagens
CLIP	Classificação de imagens

Áudio

Modelo	Uso
Whisper	Reconhecimento de voz
TTS	Text-to-speech

Uso Básico

Geração de Texto

// src/index.ts
export default {
  async fetch(request: Request, env: Env): Promise<Response> {
    const response = await env.AI.run('@cf/meta/llama-3-8b-instruct', {
      messages: [
        { role: 'system', content: 'Você é um assistente prestativo.' },
        { role: 'user', content: 'Me diga 3 vantagens do TypeScript' }
      ]
    });

    return Response.json(response);
  }
};

Resposta em Streaming

export default {
  async fetch(request: Request, env: Env): Promise<Response> {
    const stream = await env.AI.run('@cf/meta/llama-3-8b-instruct', {
      messages: [
        { role: 'user', content: 'Explique sobre o futuro da IA' }
      ],
      stream: true
    });

    return new Response(stream, {
      headers: { 'content-type': 'text/event-stream' }
    });
  }
};

Geração de Imagens

export default {
  async fetch(request: Request, env: Env): Promise<Response> {
    const response = await env.AI.run('@cf/stabilityai/stable-diffusion-xl-base-1.0', {
      prompt: 'A futuristic city with flying cars, cyberpunk style',
      num_steps: 20
    });

    return new Response(response, {
      headers: { 'content-type': 'image/png' }
    });
  }
};

Análise de Imagens

export default {
  async fetch(request: Request, env: Env): Promise<Response> {
    const imageData = await request.arrayBuffer();

    const response = await env.AI.run('@cf/llava-hf/llava-1.5-7b-hf', {
      image: [...new Uint8Array(imageData)],
      prompt: 'O que está nesta imagem?',
      max_tokens: 512
    });

    return Response.json(response);
  }
};

Reconhecimento de Voz

export default {
  async fetch(request: Request, env: Env): Promise<Response> {
    const audioData = await request.arrayBuffer();

    const response = await env.AI.run('@cf/openai/whisper', {
      audio: [...new Uint8Array(audioData)]
    });

    return Response.json({
      text: response.text,
      language: response.detected_language
    });
  }
};

Integração com Vectorize

// Implementação de RAG (Retrieval-Augmented Generation)
export default {
  async fetch(request: Request, env: Env): Promise<Response> {
    const question = await request.text();

    // Vetorizar a pergunta
    const embedding = await env.AI.run('@cf/baai/bge-base-en-v1.5', {
      text: question
    });

    // Buscar documentos similares no banco vetorial
    const matches = await env.VECTORIZE.query(embedding.data[0], {
      topK: 3
    });

    // Fazer o LLM responder usando o contexto
    const context = matches.map(m => m.metadata.text).join('\n');

    const response = await env.AI.run('@cf/meta/llama-3-8b-instruct', {
      messages: [
        { role: 'system', content: `Responda usando o seguinte contexto:\n${context}` },
        { role: 'user', content: question }
      ]
    });

    return Response.json(response);
  }
};

Estrutura de Preços

Pay-as-you-go:
- Geração de texto: $0.011 / 1,000 neurons
- Geração de imagens: $0.01 / imagem
- Reconhecimento de voz: $0.01 / minuto

Gratuito:
- Até 10,000 neurons por dia grátis

Deploy

# wrangler.toml
[ai]
binding = "AI"

# Deploy
npx wrangler deploy

Casos de Uso

- Chatbots
- Geração de conteúdo
- Pipeline de processamento de imagens
- Transcrição de áudio
- Retrieval-Augmented Generation (RAG)
- Moderação de conteúdo

Resumo

Cloudflare Workers AI é uma plataforma poderosa para executar inferência de IA no edge. Com baixa latência, distribuição global e API simples, o desenvolvimento de aplicações de IA se torna mais fácil.

← Voltar para a lista

O que é Workers AI

Modelos Suportados

Geração de Texto (LLM)

Imagem/Visão

Áudio

Uso Básico

Geração de Texto

Resposta em Streaming

Geração de Imagens

Análise de Imagens

Reconhecimento de Voz

Integração com Vectorize

Estrutura de Preços

Deploy

Casos de Uso

Resumo

Artigos Recomendados

Cloudflare Workers AI Aprimorado - A Evolução da Inferência de IA no Edge

Amazon Q Developer - Assistente de Codificação com IA Integrado à AWS

Resumo do AWS re:Invent 2024 - Recursos de IA Generativa Significativamente Aprimorados

Anúncio do Modelo OpenAI o3 - Nova Fronteira da IA Especializada em Raciocínio

Adobe Firefly - Plataforma de geração de imagens e vídeos com IA para uso comercial

Perspectivas das Ferramentas de Codificação com IA em 2025 - Comparação das Principais Ferramentas