この記事の要点
• Cloudflare Workers は 2026 年に全世界 330+ データセンターで AI 推論を提供
• Workflows が GA となり、ステートフルな長時間処理がエッジで可能に
• AI Gateway の新機能でマルチモデル運用のコスト・レイテンシを最適化
• Durable Objects の書き込み速度が 2025 年比で 3 倍向上し、グローバル調整が実用的に
• R2 の読み取り性能が 2 倍改善され、エッジでの大容量データ処理を加速
Cloudflare Workers とは
Cloudflare Workers は、グローバルに分散された 330 以上のデータセンターで JavaScript・TypeScript・Rust・Python などのコードを実行できるサーバーレスプラットフォームです。2017 年の登場以来、レイテンシ 50ms 以下のエッジコンピューティングを実現してきました。2026 年現在、Workers AI・Durable Objects・R2・Workflows の成熟により、単純な API ルーティングから AI 推論・ステートフル処理・大規模データ処理まで、エッジで完結できるようになっています。
2026 年の主要アップデート
Workers AI - エッジ AI 推論の民主化
2024 年のベータ開始から 2 年で、Workers AI は月間 100 億回以上の推論リクエストを処理するプラットフォームに成長しました (Cloudflare 2026 Q1 発表)。以下のモデルがエッジで利用可能です。
| モデルカテゴリ | 代表例 | ユースケース | 平均レイテンシ |
|---|---|---|---|
| LLM | Llama 3.3 70B, Qwen 2.5 72B | チャット、要約、翻訳 | 200〜800ms |
| 画像生成 | Stable Diffusion XL, Flux.1 | マーケティング素材、UI モックアップ | 3〜8秒 |
| 埋め込み | bge-large-en-v1.5 | セマンティック検索、RAG | 50〜150ms |
| 音声認識 | Whisper | 文字起こし、字幕生成 | 1〜3秒/分 |
| 画像認識 | ResNet-50, CLIP | 分類、タグ付け | 100〜300ms |
ポイント: Workers AI は GPU 不要でエッジに配置されたモデルを呼び出すため、専用インフラを持たない小規模チームでも AI 機能を実装できます。料金は従量制で、推論 1 回あたり $0.0001〜$0.01 程度です。
// Workers AI を使った感情分析の例
export default {
async fetch(request: Request, env: Env): Promise<Response> {
const { text } = await request.json();
const result = await env.AI.run(
"@cf/huggingface/distilbert-sst-2-int8",
{ text }
);
return Response.json({
sentiment: result.label,
confidence: result.score,
});
},
};
AI Gateway - マルチモデル運用の最適化
AI Gateway は OpenAI・Anthropic・Google・Workers AI への統一プロキシとして機能し、以下の機能を提供します。
- キャッシュ: 同一リクエストの再利用により API コストを最大 80% 削減 (Cloudflare 2026 ベンチマーク)
- フォールバック: プライマリモデルの障害時に自動的にセカンダリに切り替え
- レート制限: ユーザー単位・アプリケーション単位での呼び出し制御
- ログ・分析: 全 API 呼び出しのトークン数・レイテンシ・エラー率を一元管理
2026 年の新機能として、コスト最適化ルーティングが追加されました。これは、プロンプトの複雑さを自動判定し、簡単なタスクは安価なモデル (gpt-4o-mini、claude-haiku) に、複雑なタスクは高性能モデル (gpt-4o、claude-opus) に振り分ける仕組みです。
// AI Gateway 経由でマルチモデルを使用
const gateway = "https://gateway.ai.cloudflare.com/v1/{account}/{gateway}";
const response = await fetch(`${gateway}/openai/chat/completions`, {
method: "POST",
headers: {
"Authorization": `Bearer ${env.OPENAI_API_KEY}`,
"Content-Type": "application/json",
},
body: JSON.stringify({
model: "gpt-4o",
messages: [{ role: "user", content: "日本の首都は?" }],
// AI Gateway がこのリクエストを自動的にキャッシュ・ルーティング
}),
});
Durable Objects - グローバル調整の高速化
Durable Objects は 世界中のどこからでもアクセスできる単一インスタンス型のステートフルオブジェクトです。WebSocket 接続、リアルタイム協調編集、分散カウンター、セッション管理などに使われます。
2026 年の改良点は以下の通りです。
- 書き込み速度 3 倍向上: SQLite ベースのストレージエンジン最適化により、1 秒あたりの書き込み回数が 2025 年比で 3 倍に (Cloudflare 2026 Winter Update)
- トランザクションバッチング: 複数の書き込みを単一トランザクションにまとめることで、グローバル同期のレイテンシを短縮
- リージョンヒント: オブジェクトの配置リージョンを指定し、特定地域のユーザーに最適化可能
実践メモ: Durable Objects は「世界で 1 つだけのインスタンス」なので、グローバルに分散したユーザー間で共有状態を持つ必要がある場合 (チャットルーム、在庫カウンター、オークション) に最適です。単なるセッションストレージなら R2 + KV の組み合わせがコスト効率的です。
// Durable Objects を使ったリアルタイムカウンター
export class Counter {
state: DurableObjectState;
count: number = 0;
constructor(state: DurableObjectState) {
this.state = state;
this.state.blockConcurrencyWhile(async () => {
this.count = (await this.state.storage.get("count")) || 0;
});
}
async fetch(request: Request): Promise<Response> {
const url = new URL(request.url);
if (url.pathname === "/increment") {
this.count++;
await this.state.storage.put("count", this.count);
}
return new Response(JSON.stringify({ count: this.count }), {
headers: { "Content-Type": "application/json" },
});
}
}
Workflows (GA) - エッジでの長時間処理
Workflows は 2025 年のベータ期間を経て、2026 年 2 月に正式リリースされました。これにより、数時間〜数日かかる処理をエッジで実行できるようになります。従来のサーバーレスは最大実行時間が 30 秒〜15 分程度でしたが、Workflows は最大 7 日間の実行をサポートします。
主な特徴は以下の通りです。
- ステップ関数型: 各ステップは独立したトランザクションとして実行され、失敗時は自動リトライ
- スケジュール実行: cron 式で定期実行を設定可能
- 外部 API 統合: Stripe・GitHub・SendGrid などへの呼び出しを組み込める
- 人間承認ワークフロー: 特定ステップで Slack 通知を送り、承認後に続行
// Workflows の例: 新規ユーザーのオンボーディング
import { WorkflowEntrypoint, WorkflowStep } from "cloudflare:workers";
export class OnboardingWorkflow extends WorkflowEntrypoint {
async run(event: WorkflowEvent, step: WorkflowStep) {
const { userId, email } = event.payload;
// ステップ 1: ウェルカムメール送信
await step.do("send-welcome-email", async () => {
await fetch("https://api.sendgrid.com/v3/mail/send", {
method: "POST",
headers: { Authorization: `Bearer ${this.env.SENDGRID_KEY}` },
body: JSON.stringify({
to: email,
subject: "Welcome!",
text: "サービスへようこそ",
}),
});
});
// ステップ 2: 24 時間待機
await step.sleep("wait-24h", "24 hours");
// ステップ 3: フォローアップメール
await step.do("send-followup", async () => {
const user = await fetchUser(userId);
if (!user.hasCompletedProfile) {
await sendFollowupEmail(email);
}
});
}
}
R2 - エッジでの大容量ストレージ
R2 は S3 互換のオブジェクトストレージで、エグレス (外向き通信) 料金が無料という特徴があります。2026 年の改良により、以下の性能向上が実現しました。
- 読み取り速度 2 倍: エッジキャッシュの最適化により、グローバルな読み取りレイテンシが中央値で 2025 年比 50% 短縮 (Cloudflare Speed Week 2026)
- マルチパートアップロード並列化: 大容量ファイルのアップロード時間が最大 70% 短縮
- イベント通知: R2 バケットへのファイル追加・削除時に Workers をトリガー可能に
関連: Cloudflare AI 2025 の基盤技術と エッジコンピューティング 2025 の全体動向も参照してください。
// R2 を使った画像リサイズ + 配信
export default {
async fetch(request: Request, env: Env): Promise<Response> {
const url = new URL(request.url);
const key = url.pathname.slice(1); // "/image.jpg" → "image.jpg"
const object = await env.MY_BUCKET.get(key);
if (!object) return new Response("Not Found", { status: 404 });
// 簡易的なリサイズ (実際は Workers AI の画像処理モデルを使用)
const resized = await resizeImage(await object.arrayBuffer(), 800);
return new Response(resized, {
headers: { "Content-Type": "image/jpeg" },
});
},
};
料金体系 (2026 年改定版)
Cloudflare は 2026 年 1 月に Workers の料金体系を改定しました。主な変更点は以下の通りです。
| プラン | 無料枠 | 追加料金 | Workers AI | Durable Objects | R2 |
|---|---|---|---|---|---|
| Free | 100,000 req/日 | — | 10,000 neurons/日 | 不可 | 10 GB |
| Paid (Workers) | 10M req/月 | $0.30/M req | $0.011/1K neurons | $0.15/M req | 無料枠なし |
| R2 | — | — | — | — | $0.015/GB/月、操作無料 |
注意: Workers AI の "neurons" は推論の計算量単位です。Llama 3.3 70B の 1 回の推論は約 1,000 neurons、軽量な埋め込みモデルは 10〜50 neurons 程度です。無料枠の 10,000 neurons/日 は、LLM 推論なら 1 日 10 回程度に相当します。本格運用には Paid プランが必要です。
ユースケース別の実装パターン
1. AI チャットボット (Workers AI + Durable Objects)
ユーザーごとの会話履歴を Durable Objects で管理し、Workers AI で応答生成。
export class ChatSession {
state: DurableObjectState;
messages: Array<{ role: string; content: string }> = [];
constructor(state: DurableObjectState) {
this.state = state;
this.state.blockConcurrencyWhile(async () => {
this.messages = (await this.state.storage.get("messages")) || [];
});
}
async fetch(request: Request, env: Env): Promise<Response> {
const { message } = await request.json();
this.messages.push({ role: "user", content: message });
const response = await env.AI.run("@cf/meta/llama-3.3-70b-instruct", {
messages: this.messages,
});
this.messages.push({ role: "assistant", content: response.response });
await this.state.storage.put("messages", this.messages);
return Response.json({ reply: response.response });
}
}
2. 画像 CDN (R2 + Workers)
アップロードされた画像を R2 に保存し、リクエスト時に動的リサイズ・最適化して配信。
3. API レート制限 (Durable Objects)
API キーごとの呼び出し回数を Durable Objects でカウントし、制限を超えたら 429 を返す。
4. 長時間データパイプライン (Workflows)
CSV ファイルを R2 から読み込み、1 行ずつ処理して外部 API に送信し、結果を保存。
他のエッジプラットフォームとの比較
| 項目 | Cloudflare Workers | Vercel Edge Functions | Deno Deploy | Fastly Compute |
|---|---|---|---|---|
| 実行環境 | V8 isolate | V8 isolate | Deno runtime | WebAssembly |
| 対応言語 | JS/TS/Rust/Python | JS/TS | JS/TS | Rust/AssemblyScript |
| ステートフル機能 | Durable Objects | Vercel KV (外部) | Deno KV | Fastly KV Store |
| AI 推論 | Workers AI (組み込み) | 外部 API 必要 | 外部 API 必要 | Compute@Edge + 外部 |
| 料金 (1M req) | $0.30 | $2.00 | $3.00 | 従量制 |
| 無料枠 | 100K req/日 | 100K req/月 | 100K req/月 | なし |
Cloudflare は料金・無料枠・組み込み AI の 3 点で優位にあります。ただし、Next.js との統合性は Vercel が、TypeScript の最新機能対応は Deno が上回ります。
運用のベストプラクティス
- エッジでの処理を最小化する: Workers の CPU 時間は最大 50ms (Free) / 無制限 (Paid) ですが、長時間処理は Workflows に移す
- キャッシュを活用する: Cache API や AI Gateway のキャッシュで重複計算を削減
- Durable Objects の配置を最適化する: ユーザーの主要地域に近いリージョンにオブジェクトを配置
- R2 のライフサイクルポリシーを設定: 古いファイルを自動削除してストレージコストを抑制
- ログと監視: Workers Analytics と Logpush でリクエスト・エラー・レイテンシを追跡
エッジ AI 推論の課題
注意: エッジ AI 推論は便利ですが、以下の課題があります。モデルの選択と用途の見極めが重要です。
- モデルサイズの制約: Workers AI は 70B パラメータまで。GPT-4o や Claude Opus のような大規模モデルは使えない
- カスタムモデルの制限: 2026 年時点では独自学習モデルのデプロイは不可 (Cloudflare が提供するモデルのみ)
- レイテンシのばらつき: グローバル分散のため、地域によって推論速度が 2〜5 倍変動する
- コールドスタート: 初回リクエストは 500ms〜2 秒かかる場合がある
FAQ
Workers と従来のサーバーレス (Lambda など) の違いは?
Workers は V8 isolate で動作するため、コールドスタート時間が 5ms 以下です。Lambda は数百 ms〜数秒かかります。また、Workers はグローバルに分散配置されるため、ユーザーに近い場所で実行されます。
Durable Objects はどういう時に使うべき?
「世界中の複数ユーザーが同じ状態を共有する」場合に使います。チャットルーム、ライブ配信のコメント欄、在庫管理、リーダーボードなど。単一ユーザーのセッションストレージなら KV や R2 の方が安価です。
Workers AI のモデルは自分で追加できる?
2026 年時点では不可能です。Cloudflare が提供するモデルカタログからのみ選択できます。独自モデルを使いたい場合は、AI Gateway 経由で外部 API (OpenAI、Replicate など) を呼び出す必要があります。
まとめ
Cloudflare Workers は 2026 年に、以下の理由でエッジコンピューティングの標準プラットフォームとしての地位を固めつつあります。
- Workers AI により、インフラなしで AI 推論をエッジで実行可能に
- Workflows の GA により、長時間処理がエッジで完結
- Durable Objects の高速化で、グローバルなステートフル処理が実用的に
- AI Gateway のコスト最適化により、マルチモデル運用が容易に
- R2 の性能改良で、大容量データをエッジで処理する土台が整った
エッジでの AI 推論・ステートフル処理・大容量ストレージの 3 つが揃ったことで、従来は中央集権型サーバーでしか実現できなかったアプリケーションが、レイテンシ 50ms 以下で提供できるようになりました。2027 年以降は、カスタムモデルのデプロイ対応や、Workers 間の直接通信機能が追加される見込みです。
参考リソース
- Cloudflare Workers 公式ドキュメント - Workers の全機能とチュートリアル
- Workers AI モデルカタログ - 利用可能な AI モデル一覧
- Durable Objects ドキュメント - ステートフルアプリケーションの構築ガイド
- Cloudflare R2 ドキュメント - オブジェクトストレージの使い方
- Workflows ドキュメント - 長時間実行ワークフローの設計
- AI Gateway ドキュメント - マルチモデル運用の最適化