非公式・AI自動要約ニュースサイト(Anthropic公式とは無関係)
CClaude News JP / www.claude-news.online
技術

量子化

モデルのパラメータを 32bit から 8bit / 4bit などに圧縮し、メモリと推論コストを下げる手法。

詳しい解説

重みの精度を落とすことで、モデルサイズと推論時 VRAM 使用量を削減する。INT8、INT4 量子化が一般的で、ローカル LLM 実行(llama.cpp 等)で多用される。精度はわずかに低下するが、推論速度は数倍速くなる。

別表記

量子化quantization

関連用語

← 用語集一覧へ