OpenAI o3とは
2024年12月、OpenAIは「12 Days of OpenAI」イベントの最終日に、o3モデルを発表しました。o1の後継となるこのモデルは、推論能力において大幅な進化を遂げ、特にARC-AGIベンチマークで驚異的なスコアを記録しました。
驚異的なベンチマーク結果
ARC-AGI(抽象推論)
| モデル | スコア |
|---|---|
| GPT-4o | 5% |
| o1 | 32% |
| o3 (low compute) | 75.7% |
| o3 (high compute) | 87.5% |
| 人間平均 | 85% |
o3は人間平均を超える初のAIモデルとなりました。
その他のベンチマーク
数学(AIME 2024): 96.7%
コーディング(Codeforces): 2727 Elo(99.95パーセンタイル)
科学(GPQA Diamond): 87.7%
o3の技術的特徴
1. 計算量の調整
o3は推論時の計算量を調整できる点が特徴です。
from openai import OpenAI
client = OpenAI()
# 低計算モード(高速・低コスト)
response_fast = client.chat.completions.create(
model="o3-mini",
reasoning_effort="low",
messages=[{"role": "user", "content": "簡単な質問"}]
)
# 高計算モード(高精度・高コスト)
response_precise = client.chat.completions.create(
model="o3",
reasoning_effort="high",
messages=[{"role": "user", "content": "複雑な数学の証明"}]
)
2. o3-mini
より効率的なバージョンで、多くのタスクでo1を上回る性能を発揮します。
| 比較項目 | o1-mini | o3-mini |
|---|---|---|
| AIME 2024 | 70% | 84% |
| 速度 | 基準 | 約2倍 |
| コスト | 基準 | 約40%削減 |
安全性への取り組み
Deliberative Alignment
o3には「熟考的アライメント」という新しい安全機構が導入されています。
1. ユーザーの意図を分析
2. 潜在的なリスクを評価
3. 安全ポリシーとの整合性を確認
4. 適切な応答を生成
安全性テスト結果
- 有害コンテンツ生成抵抗: 99.2%
- ジェイルブレイク耐性: 98.5%
- 誤情報生成防止: 97.8%
利用方法
APIでの使用
from openai import OpenAI
client = OpenAI()
# o3を使用した複雑な推論
response = client.chat.completions.create(
model="o3",
messages=[
{
"role": "user",
"content": """
以下のパズルを解いてください:
3x3のグリッドがあり、各セルには1-9の数字が入ります。
各行、各列の和が15になるようにしてください。
"""
}
]
)
print(response.choices[0].message.content)
ChatGPTでの利用
ChatGPT Plus/Proユーザーは、ChatGPT上でo3を利用できます。
設定方法:
1. ChatGPTにログイン
2. モデル選択でo3を選択
3. 「推論モード」を有効化
参考: ChatGPT - OpenAI
o3 vs 競合モデル
| 能力 | o3 | Gemini 2.0 | Claude Opus 4.5 |
|---|---|---|---|
| 数学推論 | ◎ | ○ | ○ |
| コーディング | ◎ | ○ | ◎ |
| 抽象推論 | ◎ | ○ | ○ |
| 速度 | △ | ◎ | ○ |
| コスト | △ | ○ | ○ |
料金体系(予想)
| モデル | 入力 (1M tokens) | 出力 (1M tokens) |
|---|---|---|
| o3 | $60 | $240 |
| o3-mini | $15 | $60 |
| o1 | $15 | $60 |
注意: 正式な料金は一般公開時に発表予定
まとめ
OpenAI o3は、推論能力において新たなマイルストーンを達成しました。
- ARC-AGI 87.5%: 人間平均を超える抽象推論
- Codeforces 2727 Elo: 世界トップクラスのコーディング能力
- 計算量調整: 精度とコストのトレードオフが可能
- 安全性強化: Deliberative Alignmentの導入
2025年1月末の一般公開が予定されています。
← 一覧に戻る