非公式・AI自動要約ニュースサイト(Anthropic公式とは無関係)
Claude News JP / www.claude-news.online
📰 ニュース Anthropic 🟠 重要 LLMコーディング · 出典: Anthropic News

Opus 4.8、コーディング性能向上と新機能搭載!

Claude Opus 4.8の発表

原題: Introducing Claude Opus 4.8

重要度の根拠: 新モデルの発表で多くのユーザーに影響を与えるため。

要約

Anthropicが新モデル「Claude Opus 4.8」を発表しました。このモデルはコーディングや代理的タスク、専門的業務においてパフォーマンスが向上し、長時間の作業にも対応できるようになっています。ユーザーはタスクに対する努力の度合いを調整できる新機能や、より大規模な問題に取り組むための「ダイナミックワークフロー」を利用可能です。また、従来のモデルよりもコストが削減され、信頼性も向上しています。

要点

  • Opus 4.8はコーディング性能が向上
  • ユーザーが努力の度合いを調整可能
  • ダイナミックワークフロー機能を搭載
  • 信頼性が向上し、誤った主張を減少
  • 価格は従来モデルと同じ
開発者向け技術解説(API・実装詳細・破壊的変更)を見る

Claude Opus 4.8は、Opus 4.7を基にしたアップグレードで、コーディング、代理的スキル、推論、実務知識のタスクにおいて性能が向上しています。新機能として、ユーザーはタスクに対する「努力」の度合いを調整でき、特に「Claude Code」のダイナミックワークフロー機能を使用することで、大規模な問題に取り組むことが可能です。Opus 4.8はデフォルトで高い努力を設定しており、従来のモデルよりも優れたパフォーマンスを発揮します。初期テストでは、信頼性や判断力の向上が確認されており、特にエージェントタスクにおいて、誤った主張を避ける傾向が強まっています。価格は従来モデルと同じです。

本文の日本語訳(全文)を見る

私たちの最新モデル、Claude Opus 4.8は、Opusクラスのモデルのアップグレードであり、コーディング、代理的タスク、専門的業務においてより強力なパフォーマンスを発揮し、長期にわたる作業を処理する一貫性を持っています。

Claude Opusを新しいバージョン、Claude Opus 4.8にアップグレードします。これはOpus 4.7を基にしており、ベンチマーク全体での改善を実現し、より効果的なコラボレーターとなります。本日から同じ価格で利用可能です。

Opus 4.8は、いくつかの新機能と共に登場します。ユーザーはclaude.aiで、Claudeがタスクにどれだけの努力を注ぐかをコントロールできるようになりました。Claude Codeには、新しい「ダイナミックワークフロー」機能が追加されており、非常に大規模な問題に取り組むことができるようになります。また、Opus 4.8の高速モードでは、モデルが2.5倍の速度で動作することが可能で、以前のモデルよりも3倍安価です。

以下の表は、Opus 4.8がその前任者や他のモデルと、コーディング、代理的スキル、推論、実務知識の業務タスクのテストでどのように比較されるかを示しています。より詳細な情報や、はるかに広範な能力評価は、Claude Opus 4.8システムカードに記載されています。

初期のテスターたちは、Claude Opus 4.8がより信頼性が高く、代理的なタスクを実行する際に判断力が鋭いことを発見しました。以下は、これらのテスターの多くがOpus 4.8とのコラボレーション経験についての引用です。

Opus 4.8での最も顕著な改善点の一つは、その誠実さです。私たちはすべてのモデルに誠実さを持たせるよう訓練しています。例えば、根拠が薄い主張を避けることです。しかし、AIモデルには一般的な問題があり、証拠が薄いにもかかわらず、自信を持って進展を主張してしまうことがあります。初期のテスターたちは、Opus 4.8が自身の作業に関する不確実性を示す可能性が高く、根拠のない主張をする可能性が低いと報告しています。これは、私たちの評価によっても裏付けられており、Opus 4.8はその前任者よりも、書いたコードに欠陥を見逃す可能性が約4倍低いことが示されています。

いつものように、リリース前にモデルの詳細なアライメント評価を実施しました。ポジティブな特性に関して、私たちのアライメントチームは、Opus 4.8が「ユーザーの自律性を支援し、ユーザーの最善の利益に行動する」という社会的特性の測定において新しい高みに達したと結論付けました。この評価はまた、Opus 4.8の誤った行動(欺瞞や悪用の協力など)を示す割合が、Opus 4.7よりも大幅に低く、私たちの最も整合性のあるモデルであるClaude Mythos Previewと同様であることを示しました。完全なアライメント評価は、展開前の安全テストのスイートと共にClaude Opus 4.8システムカードに報告されています。

Claude Opus 4.8に加えて、次のような更新も行っています:Opus 4.8は高い努力をデフォルトに設定しており、これが全体的な品質とユーザー体験の最良のバランスであると判断しています。コーディングタスクにおいて、この努力レベルはOpus 4.7のデフォルトと同様のトークンを使用しつつ、より良いパフォーマンスを発揮します。ユーザーは「エクストラ」(Claude Codeでは「xhigh」)または「マックス」を選択でき、モデルはより良い結果を得るためにより多くのトークンを消費します。私たちは、困難なタスクや長期的な非同期ワークフローには「エクストラ」を使用することを推奨します。高い努力レベルのトークン使用量を考慮して、Claude Codeのレート制限を引き上げました。ユーザーは各プロジェクトに適した選択をすることができます。

ユーザーはOpus 4.8が前モデルに対して控えめだが実質的な改善をもたらすことを実感するでしょう。まだやるべきことはたくさんあります。私たちは、Opusと同様の多くの機能を持ちながら、より低コストで提供するモデルの開発とリリースに取り組んでいます。

さらに、Opusよりも高い知能を持つ新しいモデルクラスをリリースする予定です。Project Glasswingの一環として、一部の組織がサイバーセキュリティ業務のためにClaude Mythos Previewを現在使用しています。この能力レベルのモデルは、一般にリリースされる前に、より強力なサイバーセキュリティ対策が必要です。私たちは、これらのセキュリティ対策の開発を迅速に進めており、今後数週間でMythosクラスのモデルをすべての顧客に提供できることを期待しています。

モデル新機能パフォーマンス対象: 一般ユーザー対象: 開発者

出典: https://www.anthropic.com/news/claude-opus-4-8

媒体: Anthropic News

※本記事は Anthropic / Claude 関連の公開情報を基に AI (OpenAI GPT-4o-mini) が日本語で要約・分類した二次的著作物です。著作権法第32条の引用要件に基づき出典 URL を必ず併記しています。要約は AI 生成のため誤訳・誤解釈を含む可能性があります。詳細・正確な情報は必ず出典元の原文をご確認ください。