非公式・AI自動要約ニュースサイト(Anthropic公式とは無関係)
CClaude News JP / www.claude-news.online
ベンチマーク

MMLU

57 分野の選択問題で LLM の総合的な知識量を測るベンチマーク。

詳しい解説

Massive Multitask Language Understanding。数学、法律、医学など 57 分野の 4 択問題を解かせて正答率を測る。ベース知識量の代理指標として広く使われるが、近年は飽和傾向(多くのモデルが 80% 超)にあり、MMLU-Pro 等の難化版に移行している。

関連用語

← 用語集一覧へ