rss_feed
filter_alt

詳細検索

expand_more
~
0
10000
最小
最大
Nintendo
PlayStation
Xbox
物理キーボードを検出しました。PCビューに切り替えますか?
ローカルLLMサーバを建てて、自宅でAIを動かしてみよう ~VRAM 8GBでGemma 4 12Bが動くのか実験してみた~

ローカルLLMサーバを建てて、自宅でAIを動かしてみよう ~VRAM 8GBでGemma 4 12Bが動くのか実験してみた~

実際にGemma 4 12Bを動かしてみよう

さあ、上で保存したスクリプトを使って起動してみましょう。
スクリプトを実行して、all slots are idleの表示が出れば起動完了です。

llama-serverの起動完了

起動が成功していれば、http://localhost:11434/にアクセスするとチャット画面が表示されるはずです。

llama-serverのチャット画面

試しにチャットしてみましょう。返事が返ってきたら成功です!

試しにチャットしてみる。ひっかけではない。

ちなみに、起動パラメータで--reasoningonにすると、回答する前に「考える」ようになります。考えることによって、回答の質が向上する可能性があります。(--reasoning-budget512~2048あたりを設定)

推論をONにした場合の出力はこんな感じ

マルチモーダル対応なので、画像も読み込ませることができます。が、イマイチな印象。別途OCRも試しましたが精度がよろしくなかったので向いてないかも。

画像認識させてみた。チョコ……

動作中のVRAM使用量・速度について

上記設定(コンテキスト長:150k)でVRAM使用量は8GB中7.8GBとなりました。200kでは会話の途中からVRAMに収まりきらなくなってしまい、極端に遅くなるため、150k程度が8GBの限界と思われます。

150kコンテキストでのVRAM使用量

なお、RTX 3070 Laptopでの動作速度は、20〜36 tok/s程度となりました。(一般的に、コンテキストが大きくなるにつれ遅くなっていきます)

極端に遅かったり、GPU使用率が低い場合は、VRAMに収まりきらずメインメモリやCPUを使っている状態ですので、--ctx-sizeなどパラメータを調整してみてください。

コメントを投稿する

メールアドレスが公開されることはありません。 が付いている欄は必須項目です