Sonnet 5、エージェント性能が大幅向上!コーディングに最適な選択肢に。
Claude Sonnet 5の発表
原題: Introducing Claude Sonnet 5
重要度の根拠: 新しいモデルのリリースで、多くのユーザーに影響を与えるため。
要約
Claude Sonnet 5が発表されました。これは、コーディングや日常業務において高い知能を持つ、最もエージェント的なSonnetモデルです。Sonnet 5は、従来のモデルに比べて推論やツール使用、コーディングにおいて大幅に改善されており、より安全に使用できることが確認されています。すべてのプランで利用可能で、特に開発者にとって質の高いコストパフォーマンスを提供します。
要点
- Sonnet 5は最もエージェント的なモデル
- 推論やコーディング性能が向上
- 安全性が向上し、悪意のあるリクエストを拒否
- すべてのプランで利用可能
- 低価格で高品質な選択肢を提供
開発者向け技術解説(API・実装詳細・破壊的変更)を見る
Claude Sonnet 5は、従来のSonnet 4.6に比べて推論、ツール使用、コーディング、知識作業といったエージェント性能の重要な側面で大幅な改善を実現しました。Sonnet 5は、Opus 4.8に近いパフォーマンスを提供しつつ、より低価格で利用可能です。API経由で利用でき、FreeおよびProプランのデフォルトモデルとして提供されます。初期価格は、入力トークンが1百万トークンあたり2ドル、出力トークンが1百万トークンあたり10ドルで、2026年8月31日まで有効です。その後は、入力トークンが3ドル、出力トークンが15ドルに価格改定されます。
本文の日本語訳(全文)を見る
私たちの最もエージェント的なSonnetが登場しました。Claude Sonnet 5は、コーディングや日常的な業務においてトップクラスの知能を持っています。Sonnet 5は、これまでで最もエージェント的なSonnetモデルとして設計されており、計画を立てたり、ブラウザやターミナルのようなツールを使用したり、自律的に実行したりすることができます。数ヶ月前には、これらの機能はより大きく高価なモデルにしか求められませんでした。多くの開発者にとって、エージェントAIの時代はSonnetクラスモデルから始まりました。Claude Sonnet 3.5、3.6、3.7は、コーディングやツール使用において印象的なスキルを示した最初のモデルでした。しかし最近、エージェント機能における明確な進展は、私たちのOpusクラスモデルで見られました。Sonnet 5はそのギャップを狭めており、そのパフォーマンスはOpus 4.8に近いですが、より低価格で提供されます。推論、ツール使用、コーディング、知識作業といった重要なエージェント性能の面で、前モデルのSonnet 4.6に対して大幅な改善が見られます。私たちの安全性評価では、Sonnet 5はSonnet 4.6よりも全体的に望ましくない行動の発生率が低く、エージェント的な文脈での使用が一般的に安全であることが確認されました。評価では、現在のOpusモデルよりもサイバーセキュリティタスクを実行する能力がずっと低いことも示されています。今日から、Claude Sonnet 5はすべてのプランで利用可能です。FreeおよびProプランのデフォルトモデルとして提供され、Max、Team、およびEnterpriseユーザーにも利用可能です。また、Claude CodeやClaude Platformでも利用でき、2026年8月31日までは入力トークンが1百万トークンあたり2ドル、出力トークンが1百万トークンあたり10ドルの導入価格で提供され、その後は入力トークンが3ドル、出力トークンが15ドルに変更されます。開発者はClaude APIを介してclaude-sonnet-5を使用できます。以下のチャートは、異なる努力レベルでのエージェント検索評価BrowseCompおよびコンピュータ使用評価OSWorld-VerifiedにおけるSonnet 5のパフォーマンスをSonnet 4.6およびOpus 4.8と比較しています。Sonnet 5(オレンジ線)はSonnet 4.6(灰色線)に対して厳格な改善を示しています。Opus 4.8(黄色線)はこれらのタスクでの高い精度の選択肢であるものの、Sonnet 5はこれまで利用できなかった高品質な低価格オプションを開発者に提供します。Sonnet 5とOpus 4.8の間で、ユーザーはコストとパフォーマンスの適切なバランスを見つけるために努力レベルを調整できます。初期アクセスパートナーからのフィードバックは一貫しており、Sonnet 5はその前のモデルよりもはるかにエージェント的であると述べられています。テスターは、Sonnetモデルが途中で止まるところを、Sonnet 5が複雑なタスクを完了する様子や、自分の出力を明示的に求められなくてもチェックする様子を説明しました。これらすべてのエージェント的作業を魅力的な価格で実行します。私たちの事前展開安全評価では、Sonnet 5は全体としてSonnet 4.6よりも改善されていることがわかりました。エージェントの安全性に関して、このモデルは悪意のあるリクエストを拒否し、プロンプトインジェクション攻撃におけるハイジャック試行に抵抗する能力が向上しています。このモデルは、Sonnet 4.6よりもハルシネーションとおべっかの発生率が低いことが示されています。悪用や欺瞞に対する協力など、さまざまな不整合行動をテストする自動行動監査では、Sonnet 5は全体的に低いスコア(つまり、安全)を記録しました。しかし、より優れたOpus 4.8やClaude Mythos Previewとこの評価を比較すると、やや高い不整合行動率を示しました。私たちはSonnet 5をサイバーセキュリティタスクに特別に訓練したわけではありません。いくつかのルーチンの無害なサイバータスクを実行できますが、ソフトウェアの脆弱性を開発するなどの潜在的に危険なサイバー技能をテストする評価で、Opus 4.8やMythos 5などのモデルよりもかなり劣るパフォーマンスを示しました。Firefoxブラウザの脆弱性に対するエクスプロイトを開発する能力をテストした評価では、Sonnet 5は完全な動作するエクスプロイトを開発することはできませんでしたが、Sonnet 4.6よりも若干高い部分的成功率を示しました。この変更は、特定の訓練によるものではなく、一般的な知能の改善によるものと考えられます。Sonnet 5は、これらのタスクにおいて前モデルよりもやや強いため、私たちは...
出典: https://www.anthropic.com/news/claude-sonnet-5
媒体: Anthropic News
※本記事は Anthropic / Claude 関連の公開情報を基に AI (OpenAI GPT-4o-mini) が日本語で要約・分類した二次的著作物です。著作権法第32条の引用要件に基づき出典 URL を必ず併記しています。要約は AI 生成のため誤訳・誤解釈を含む可能性があります。詳細・正確な情報は必ず出典元の原文をご確認ください。