ローカルLLMサーバを建てて、自宅でAIを動かしてみよう～VRAM 8GBでGemma 4 12Bが動くのか実験してみた～

update 追記 2026/06/26

約11分で読めます約5,974文字標準本文の文字数から550字/分で換算した読了目安です。

全 4 ページ

目次から移動

実際にGemma 4 12Bを動かしてみよう

さあ、上で保存したスクリプトを使って起動してみましょう。
スクリプトを実行して、all slots are idleの表示が出れば起動完了です。

起動が成功していれば、http://localhost:11434/にアクセスするとチャット画面が表示されるはずです。

試しにチャットしてみましょう。返事が返ってきたら成功です！

ちなみに、起動パラメータで--reasoningをonにすると、回答する前に「考える」ようになります。考えることによって、回答の質が向上する可能性があります。（--reasoning-budgetは512～2048あたりを設定）

マルチモーダル対応なので、画像も読み込ませることができます。が、イマイチな印象。別途OCRも試しましたが精度がよろしくなかったので向いてないかも。

上記設定（コンテキスト長：150k）でVRAM使用量は8GB中7.8GBとなりました。200kでは会話の途中からVRAMに収まりきらなくなってしまい、極端に遅くなるため、150k程度が8GBの限界と思われます。

なお、RTX 3070 Laptopでの動作速度は、20〜36 tok/s程度となりました。（一般的に、コンテキストが大きくなるにつれ遅くなっていきます）

極端に遅かったり、GPU使用率が低い場合は、VRAMに収まりきらずメインメモリやCPUを使っている状態ですので、--ctx-sizeなどパラメータを調整してみてください。

auto_stories PAGES

expand_more

first_page 1 234 last_page