はじめに
Googleは6月5日、Gemma 4 QAT(Quantization-Aware Training)を発表しました。
QATとは、量子化(要は省メモリ化)を見込んで学習しておくこと。これにより精度を保ちつつVRAM使用量を抑えられるのが特徴です。
モデル自体の説明は当ブログの記事や他媒体にお任せするとして、
今回はこれを使って、古めのゲーミングノートPC(VRAM 8GB)でも、Gemma 4 12Bを動かせるのか実験してみたいと思います。ついでに、Gemma 4 12Bを使ってVS Codeのチャット機能上で動作させるところまで紹介します。
ちなみに、ローカルLLMサーバを立てると何が良いの?という点ですが、後述するVS Codeでも使えるほか、OpenClawなどのAIエージェントも無料で使い放題にできちゃいますし、何より情報漏洩を気にせずAIを使えるのが嬉しいポイントかなと思います。
PCスペック
使用したゲーミングノートPCのスペックは下記。
| 項目 | スペック |
|---|---|
| 型番 | ASUS TUF Dash F15 FX516PR |
| OS | Windows 11 Home |
| CPU | Core i7-11370H |
| メモリ | 16GB |
| GPU | GeForce RTX 3070 Laptop |
| VRAM | 8GB |
なお、今回使用したPCはゲーミングノートPCのため、悪しきOptimusテクノロジーのおかげでGPUのVRAMはOSで使用されておらず、8GB丸々空いていることに留意いただければと思います。デスクトップPCをお使いの方は、VRAM確保のために内蔵グラフィックを使うといいかも。

使用するローカルLLMサーバについて
ローカルLLMサーバには llama.cpp(llama-server) を使用します。導入が簡単かつ設定項目が豊富で、何よりアップデートが早いのが理由です。ちなみにmacOSやLinuxも対応しています。
ちなみに、GUIじゃなきゃイヤな方には、設定できる項目数の観点からLM Studioがおすすめです。(Ollamaも人気があるが、設定項目がほぼない)
LM StudioやOllamaの紹介記事は世の中に無限に存在するため、説明は割愛します。
実際の導入手順は次ページから。