LLM入門


合計 2 件の記事があります。 現在 1 ページ中の 1 ページ目です。

4.2 LLMの推論速度を最適化する方法|バッチ推論と半精度推論の活用

LLMの推論速度を改善するための技術を解説。バッチ推論、ONNX Runtime、半精度推論(FP16)など、効率的な推論手法とその実装例を紹介します。
2024-11-14

4.0 LLMのモデル圧縮と推論速度の最適化|効率的なパフォーマンス改善

LLMのモデル圧縮技術と推論速度の最適化手法を解説。量子化、知識蒸留、ONNXを使用したPython実装例で効率的なLLMのデプロイをサポート。
2024-11-12