Cloudflare Workers / Workers AI 2026 - エッジAI推論とサーバーレスの新基準

中級 | 12 分 で読める | 2026.04.19

公式ドキュメント

この記事の要点

• Cloudflare Workers は 2026 年に全世界 330+ データセンターで AI 推論を提供
• Workflows が GA となり、ステートフルな長時間処理がエッジで可能に
• AI Gateway の新機能でマルチモデル運用のコスト・レイテンシを最適化
• Durable Objects の書き込み速度が 2025 年比で 3 倍向上し、グローバル調整が実用的に
• R2 の読み取り性能が 2 倍改善され、エッジでの大容量データ処理を加速

Cloudflare Workers とは

Cloudflare Workers は、グローバルに分散された 330 以上のデータセンターで JavaScript・TypeScript・Rust・Python などのコードを実行できるサーバーレスプラットフォームです。2017 年の登場以来、レイテンシ 50ms 以下のエッジコンピューティングを実現してきました。2026 年現在、Workers AI・Durable Objects・R2・Workflows の成熟により、単純な API ルーティングから AI 推論・ステートフル処理・大規模データ処理まで、エッジで完結できるようになっています。

2026 年の主要アップデート

Workers AI - エッジ AI 推論の民主化

2024 年のベータ開始から 2 年で、Workers AI は月間 100 億回以上の推論リクエストを処理するプラットフォームに成長しました (Cloudflare 2026 Q1 発表)。以下のモデルがエッジで利用可能です。

モデルカテゴリ代表例ユースケース平均レイテンシ
LLMLlama 3.3 70B, Qwen 2.5 72Bチャット、要約、翻訳200〜800ms
画像生成Stable Diffusion XL, Flux.1マーケティング素材、UI モックアップ3〜8秒
埋め込みbge-large-en-v1.5セマンティック検索、RAG50〜150ms
音声認識Whisper文字起こし、字幕生成1〜3秒/分
画像認識ResNet-50, CLIP分類、タグ付け100〜300ms

ポイント: Workers AI は GPU 不要でエッジに配置されたモデルを呼び出すため、専用インフラを持たない小規模チームでも AI 機能を実装できます。料金は従量制で、推論 1 回あたり $0.0001〜$0.01 程度です。

// Workers AI を使った感情分析の例
export default {
  async fetch(request: Request, env: Env): Promise<Response> {
    const { text } = await request.json();

    const result = await env.AI.run(
      "@cf/huggingface/distilbert-sst-2-int8",
      { text }
    );

    return Response.json({
      sentiment: result.label,
      confidence: result.score,
    });
  },
};

AI Gateway - マルチモデル運用の最適化

AI Gateway は OpenAI・Anthropic・Google・Workers AI への統一プロキシとして機能し、以下の機能を提供します。

  • キャッシュ: 同一リクエストの再利用により API コストを最大 80% 削減 (Cloudflare 2026 ベンチマーク)
  • フォールバック: プライマリモデルの障害時に自動的にセカンダリに切り替え
  • レート制限: ユーザー単位・アプリケーション単位での呼び出し制御
  • ログ・分析: 全 API 呼び出しのトークン数・レイテンシ・エラー率を一元管理

2026 年の新機能として、コスト最適化ルーティングが追加されました。これは、プロンプトの複雑さを自動判定し、簡単なタスクは安価なモデル (gpt-4o-mini、claude-haiku) に、複雑なタスクは高性能モデル (gpt-4o、claude-opus) に振り分ける仕組みです。

// AI Gateway 経由でマルチモデルを使用
const gateway = "https://gateway.ai.cloudflare.com/v1/{account}/{gateway}";

const response = await fetch(`${gateway}/openai/chat/completions`, {
  method: "POST",
  headers: {
    "Authorization": `Bearer ${env.OPENAI_API_KEY}`,
    "Content-Type": "application/json",
  },
  body: JSON.stringify({
    model: "gpt-4o",
    messages: [{ role: "user", content: "日本の首都は?" }],
    // AI Gateway がこのリクエストを自動的にキャッシュ・ルーティング
  }),
});

Durable Objects - グローバル調整の高速化

Durable Objects は 世界中のどこからでもアクセスできる単一インスタンス型のステートフルオブジェクトです。WebSocket 接続、リアルタイム協調編集、分散カウンター、セッション管理などに使われます。

2026 年の改良点は以下の通りです。

  • 書き込み速度 3 倍向上: SQLite ベースのストレージエンジン最適化により、1 秒あたりの書き込み回数が 2025 年比で 3 倍に (Cloudflare 2026 Winter Update)
  • トランザクションバッチング: 複数の書き込みを単一トランザクションにまとめることで、グローバル同期のレイテンシを短縮
  • リージョンヒント: オブジェクトの配置リージョンを指定し、特定地域のユーザーに最適化可能

実践メモ: Durable Objects は「世界で 1 つだけのインスタンス」なので、グローバルに分散したユーザー間で共有状態を持つ必要がある場合 (チャットルーム、在庫カウンター、オークション) に最適です。単なるセッションストレージなら R2 + KV の組み合わせがコスト効率的です。

// Durable Objects を使ったリアルタイムカウンター
export class Counter {
  state: DurableObjectState;
  count: number = 0;

  constructor(state: DurableObjectState) {
    this.state = state;
    this.state.blockConcurrencyWhile(async () => {
      this.count = (await this.state.storage.get("count")) || 0;
    });
  }

  async fetch(request: Request): Promise<Response> {
    const url = new URL(request.url);

    if (url.pathname === "/increment") {
      this.count++;
      await this.state.storage.put("count", this.count);
    }

    return new Response(JSON.stringify({ count: this.count }), {
      headers: { "Content-Type": "application/json" },
    });
  }
}

Workflows (GA) - エッジでの長時間処理

Workflows は 2025 年のベータ期間を経て、2026 年 2 月に正式リリースされました。これにより、数時間〜数日かかる処理をエッジで実行できるようになります。従来のサーバーレスは最大実行時間が 30 秒〜15 分程度でしたが、Workflows は最大 7 日間の実行をサポートします。

主な特徴は以下の通りです。

  • ステップ関数型: 各ステップは独立したトランザクションとして実行され、失敗時は自動リトライ
  • スケジュール実行: cron 式で定期実行を設定可能
  • 外部 API 統合: Stripe・GitHub・SendGrid などへの呼び出しを組み込める
  • 人間承認ワークフロー: 特定ステップで Slack 通知を送り、承認後に続行
// Workflows の例: 新規ユーザーのオンボーディング
import { WorkflowEntrypoint, WorkflowStep } from "cloudflare:workers";

export class OnboardingWorkflow extends WorkflowEntrypoint {
  async run(event: WorkflowEvent, step: WorkflowStep) {
    const { userId, email } = event.payload;

    // ステップ 1: ウェルカムメール送信
    await step.do("send-welcome-email", async () => {
      await fetch("https://api.sendgrid.com/v3/mail/send", {
        method: "POST",
        headers: { Authorization: `Bearer ${this.env.SENDGRID_KEY}` },
        body: JSON.stringify({
          to: email,
          subject: "Welcome!",
          text: "サービスへようこそ",
        }),
      });
    });

    // ステップ 2: 24 時間待機
    await step.sleep("wait-24h", "24 hours");

    // ステップ 3: フォローアップメール
    await step.do("send-followup", async () => {
      const user = await fetchUser(userId);
      if (!user.hasCompletedProfile) {
        await sendFollowupEmail(email);
      }
    });
  }
}

R2 - エッジでの大容量ストレージ

R2 は S3 互換のオブジェクトストレージで、エグレス (外向き通信) 料金が無料という特徴があります。2026 年の改良により、以下の性能向上が実現しました。

  • 読み取り速度 2 倍: エッジキャッシュの最適化により、グローバルな読み取りレイテンシが中央値で 2025 年比 50% 短縮 (Cloudflare Speed Week 2026)
  • マルチパートアップロード並列化: 大容量ファイルのアップロード時間が最大 70% 短縮
  • イベント通知: R2 バケットへのファイル追加・削除時に Workers をトリガー可能に

関連: Cloudflare AI 2025 の基盤技術エッジコンピューティング 2025 の全体動向も参照してください。

// R2 を使った画像リサイズ + 配信
export default {
  async fetch(request: Request, env: Env): Promise<Response> {
    const url = new URL(request.url);
    const key = url.pathname.slice(1); // "/image.jpg" → "image.jpg"

    const object = await env.MY_BUCKET.get(key);
    if (!object) return new Response("Not Found", { status: 404 });

    // 簡易的なリサイズ (実際は Workers AI の画像処理モデルを使用)
    const resized = await resizeImage(await object.arrayBuffer(), 800);

    return new Response(resized, {
      headers: { "Content-Type": "image/jpeg" },
    });
  },
};

料金体系 (2026 年改定版)

Cloudflare は 2026 年 1 月に Workers の料金体系を改定しました。主な変更点は以下の通りです。

プラン無料枠追加料金Workers AIDurable ObjectsR2
Free100,000 req/日10,000 neurons/日不可10 GB
Paid (Workers)10M req/月$0.30/M req$0.011/1K neurons$0.15/M req無料枠なし
R2$0.015/GB/月、操作無料

注意: Workers AI の "neurons" は推論の計算量単位です。Llama 3.3 70B の 1 回の推論は約 1,000 neurons、軽量な埋め込みモデルは 10〜50 neurons 程度です。無料枠の 10,000 neurons/日 は、LLM 推論なら 1 日 10 回程度に相当します。本格運用には Paid プランが必要です。

ユースケース別の実装パターン

1. AI チャットボット (Workers AI + Durable Objects)

ユーザーごとの会話履歴を Durable Objects で管理し、Workers AI で応答生成。

export class ChatSession {
  state: DurableObjectState;
  messages: Array<{ role: string; content: string }> = [];

  constructor(state: DurableObjectState) {
    this.state = state;
    this.state.blockConcurrencyWhile(async () => {
      this.messages = (await this.state.storage.get("messages")) || [];
    });
  }

  async fetch(request: Request, env: Env): Promise<Response> {
    const { message } = await request.json();
    this.messages.push({ role: "user", content: message });

    const response = await env.AI.run("@cf/meta/llama-3.3-70b-instruct", {
      messages: this.messages,
    });

    this.messages.push({ role: "assistant", content: response.response });
    await this.state.storage.put("messages", this.messages);

    return Response.json({ reply: response.response });
  }
}

2. 画像 CDN (R2 + Workers)

アップロードされた画像を R2 に保存し、リクエスト時に動的リサイズ・最適化して配信。

3. API レート制限 (Durable Objects)

API キーごとの呼び出し回数を Durable Objects でカウントし、制限を超えたら 429 を返す。

4. 長時間データパイプライン (Workflows)

CSV ファイルを R2 から読み込み、1 行ずつ処理して外部 API に送信し、結果を保存。

他のエッジプラットフォームとの比較

項目Cloudflare WorkersVercel Edge FunctionsDeno DeployFastly Compute
実行環境V8 isolateV8 isolateDeno runtimeWebAssembly
対応言語JS/TS/Rust/PythonJS/TSJS/TSRust/AssemblyScript
ステートフル機能Durable ObjectsVercel KV (外部)Deno KVFastly KV Store
AI 推論Workers AI (組み込み)外部 API 必要外部 API 必要Compute@Edge + 外部
料金 (1M req)$0.30$2.00$3.00従量制
無料枠100K req/日100K req/月100K req/月なし

Cloudflare は料金・無料枠・組み込み AI の 3 点で優位にあります。ただし、Next.js との統合性は Vercel が、TypeScript の最新機能対応は Deno が上回ります。

運用のベストプラクティス

  1. エッジでの処理を最小化する: Workers の CPU 時間は最大 50ms (Free) / 無制限 (Paid) ですが、長時間処理は Workflows に移す
  2. キャッシュを活用する: Cache API や AI Gateway のキャッシュで重複計算を削減
  3. Durable Objects の配置を最適化する: ユーザーの主要地域に近いリージョンにオブジェクトを配置
  4. R2 のライフサイクルポリシーを設定: 古いファイルを自動削除してストレージコストを抑制
  5. ログと監視: Workers Analytics と Logpush でリクエスト・エラー・レイテンシを追跡

エッジ AI 推論の課題

注意: エッジ AI 推論は便利ですが、以下の課題があります。モデルの選択と用途の見極めが重要です。

  • モデルサイズの制約: Workers AI は 70B パラメータまで。GPT-4o や Claude Opus のような大規模モデルは使えない
  • カスタムモデルの制限: 2026 年時点では独自学習モデルのデプロイは不可 (Cloudflare が提供するモデルのみ)
  • レイテンシのばらつき: グローバル分散のため、地域によって推論速度が 2〜5 倍変動する
  • コールドスタート: 初回リクエストは 500ms〜2 秒かかる場合がある

FAQ

Workers と従来のサーバーレス (Lambda など) の違いは?
Workers は V8 isolate で動作するため、コールドスタート時間が 5ms 以下です。Lambda は数百 ms〜数秒かかります。また、Workers はグローバルに分散配置されるため、ユーザーに近い場所で実行されます。

Durable Objects はどういう時に使うべき?
「世界中の複数ユーザーが同じ状態を共有する」場合に使います。チャットルーム、ライブ配信のコメント欄、在庫管理、リーダーボードなど。単一ユーザーのセッションストレージなら KV や R2 の方が安価です。

Workers AI のモデルは自分で追加できる?
2026 年時点では不可能です。Cloudflare が提供するモデルカタログからのみ選択できます。独自モデルを使いたい場合は、AI Gateway 経由で外部 API (OpenAI、Replicate など) を呼び出す必要があります。

まとめ

Cloudflare Workers は 2026 年に、以下の理由でエッジコンピューティングの標準プラットフォームとしての地位を固めつつあります。

  • Workers AI により、インフラなしで AI 推論をエッジで実行可能に
  • Workflows の GA により、長時間処理がエッジで完結
  • Durable Objects の高速化で、グローバルなステートフル処理が実用的に
  • AI Gateway のコスト最適化により、マルチモデル運用が容易に
  • R2 の性能改良で、大容量データをエッジで処理する土台が整った

エッジでの AI 推論・ステートフル処理・大容量ストレージの 3 つが揃ったことで、従来は中央集権型サーバーでしか実現できなかったアプリケーションが、レイテンシ 50ms 以下で提供できるようになりました。2027 年以降は、カスタムモデルのデプロイ対応や、Workers 間の直接通信機能が追加される見込みです。

参考リソース

この技術を体系的に学びたいですか?

未来学では東証プライム上場企業のITエンジニアが24時間サポート。月額24,800円から、退会金0円のオンラインIT塾です。

メールで無料相談する
← 一覧に戻る