OpenAI、プログラミング用LLM「GPT-5-Codex」をリリース

OpenAIは、GPT-5をエージェント的なソフトウェアエンジニアリングに最適化した「GPT-5-Codex」をリリースしました。
GPT-5-Codexは、ゼロからのプロジェクト構築、機能やテストの追加、デバッグ、大規模なリファクタリング、コードレビューといった、複雑な実世界のエンジニアリングタスクで訓練されています。
操作性が高く、AGENTS.mdの指示によりよく従い、より高品質なコードを生成します。
GPT-5-Codexは、タスクの複雑さにもとづいて、推論時間をより動的に調整します。
また、コーディングエージェントに不可欠な、開発者との対話的なセッションでのペアリングと、長時間のタスクに対する持続的かつ自律的な実行を兼ね備えています。
小規模で定義が明確な要求や対話中は短い推論時間ですばやく応答し、複雑なタスクにはより時間をかけて取り組みます。
OpenAIのテストによると、GPT-5-Codexは、大規模で複雑なタスクに対して一度に7時間以上自律的に作業し、実装を反復し、テストの失敗を修正し、最終的に成功した実装を提供したとのことです。
OpenAIの従業員のトラフィックにおいて、モデルが生成したトークン数(隠れた推論と最終出力を含む)でソートしたユーザーターンの下位10%では、GPT-5-CodexはGPT-5より93.7%少ないトークンを使用しました。
一方で、上位10%ではGPT-5-Codexはより多く思考し、推論、コードの編集とテスト、反復に2倍の時間を費やしました。
GPT-5-Codexは、コードレビューの実施と重大な欠陥の発見に特化して訓練されています。
コードレビュー時には、コードベースを横断し、依存関係を推論し、正確性を検証するためにコードとテストを実行します。
人気のオープンソースリポジトリの最近のコミットで、経験豊富なソフトウェアエンジニアがGPT-5-Codexのレビューコメントの正確性と重要性を評価したところ、GPT-5-Codexによるコメントは不正確または重要でない可能性が低く、重要な問題に対してユーザーの注意をより多く割けることがわかりました。
GPT-5-Codexは、美しいデスクトップアプリを作成するだけでなく、モバイルウェブサイトの作成においても人間の選好評価で大幅な改善を示しています。
クラウドで作業する際には、ユーザーが入力として提供した画像やスクリーンショットを確認し、自身の作業のスクリーンショットを表示できます。
なお、汎用モデルであるGPT-5とは異なり、GPT-5-CodexはCodexまたはCodexに類似した環境におけるエージェント的なコーディングタスクのみに使用することが推奨されています。
参考リンク
フォローしませんか?