ローカルLLM マルチGPUの生成速度への影響を評価する

概要

以下の記事にて、GPU2枚で40GBのVRAMを搭載したPCを構築しましたが、GPU1枚から2枚に分散することによってどれほど速度が落ちるのかを評価してみました。結論としては許容範囲内の速度低下だったので一安心。詳細は下をご確認ください。
モデル一つでの評価なので厳密性を求めると微妙ですが、ある程度の傾向はつかめるかなーと。調べたら、もっと詳しい人がより厳密に評価しているとは思いますが、性能の異なるGPUでやった時にどうなるか、あまり情報がなかったんですよね。

www.robotech-note.com

実験の前提 モデルサイズの大小による性能比較

前提の構成として、私のPCはGPU0がRTX3090(VRAM24GB)-16レーンのPCIeに接続、GPU1がRTX4070tis-4レーンのPCIeに接続で、それぞれFP32の演算性能は35.58 TFLOPSと40.09 TFLOPSとなっています。
この状態で、deepseek-r1-distill-qwen2.5-bakeneko-32bの量子化の程度を変えたものを15GB~38GB程度まで振ってtok/secを測定しプロットしてみます。一番大きいプロット以外はk-量子化(2-6bit)でそろえ、一番大きいプロットは、k-量子化がなかったので8bit量子化のものを使っています。
また、実験1,2ともにollamaを使い--verboseオプションをつけてtok/secを出力しています。下の画像は見やすいようにLMstudioのものをキャプチャしましたが、モデルのGPU使用率を表示できなかったためollamaを直接実行しました。当然、24GBまでの計算にはRTX3090しか使わないよう設定済みです。(念のため物理的にケーブルを抜きました、RTX4070tisは外に出ているから抜きやすい・・・苦笑)

使用モデル deepseek-r1-distill-qwen2.5-bakeneko-32b k-量子化のモデルを使用

実験前の予想

最初はRTX3090のみにモデルをロードして演算が実行できますが、モデルサイズが24GBを超えたあたりからRTX4070tisを使い始めます。
オーバーヘッドが少なく、GPU処理速度効くようであれば24GBを超えたところで処理速度が速くなり、2台にすることによるオーバーヘッドが大きいようであれば遅くなるはず、個人的には、オーバーヘッドが大きくて速度が半分くらいになるかな、と予想していました。結構弱気。完全に並列計算できるわけではないですし、さすがに早くなるのを期待するのは求めすぎですよね・・・。

結果 マルチGPU化により多少速度は落ちるものの(私にとっては)許容範囲内

それぞれ10回ずつ、「おいしいカレーライスの作り方」を自問自答させ、その平均速度をプロットしました。結果としてVRAM使用率24GBを境に生成速度がやや落ちていることが見て取れますが、モデルサイズも大きくなっているので許容範囲内です。推論時のGPU使用率を見ると40-50%前後を推移しているので妥当な速度といったところでしょうか。正直、想像よりは遅くなっていないなという印象でした。
両方のGPUが100%で回ったら2倍近い速度が出るはずですが、そこはモデル分割によるオーバーヘッドと相殺しているのでしょう。

#19GBの3bit量子化モデルが、23GBの4bit量子化モデルよりも毎回必ず遅くなるのはちょっと謎でした。一般的にはこうならないはずなので、モデル固有の現象ですかね・・・。

結果 24GBを境に速度が低下するもののモデルサイズが増えていることを考えればこんなものか
マルチGPUでの推論時のGPU使用率、GPU使用率は50%前後

おまけ LLMが必死で考えた超おいしいカレーライスの作り方

何度も自問自答させると、バリエーションが増えて面白いですね。ぜひ試してみてください、味の保証はしませんが笑

<think>
まず、ユーザーがカレーライスをさらに美味しくする方法を求めています。前回はプロ級のテクニックを提供したので、今回
はより具体的な材料や調理工程に絞り込む必要があります。

ユーザーが家庭で実践しやすいように、手順を詳細に説明します。食材の組み合わせや調理器具の選び方、スパイスのブレン
ドなど、プロが使う裏技を分かりやすく解説します。

また、カレーのバリエーションを提案することで、食卓を彩るアイデアとしても役立ちます。時間のかからない方法や時短テ
クニックも盛り込み、ユーザーの多様なニーズに応えます。

全体として、具体的で実用的な情報を提供し、ユーザーが実際に試せるような内容を目指します。
</think><think><think>

</think>

カレーライスを「究極のレベル」まで引き上げるには、食材の組み合わせと調理工程の「質」にこだわることが重要です。以
下、プロが使っている具体的なテクニックをステップバイステップでご紹介します。

---

### **【プロ仕様!カレーの超絶旨化術】**
#### 1. **「3種類の玉ねぎ使用法」**
   - 洋玉葱(味の核)+紅玉(酸味調整)+長ネギ(シャキ感)を2:1:0.5の割合で。
     → 細切り→粗びき→乱切りで食感と風味を3段階に。

#### 2. **「低温長期煮込み×火炎上昇」**
   - ストウブ鍋で玉ねぎのみ1時間半弱火で煮込み、水分が9割飛ぶまで待つ。
     → 油分とスパイスを投入し、フライパンを垂直に傾けて「オイルカーテン」を作りながら炒める。

#### 3. **「牛脂×鴨脂の2段階油調理法」**
   - 牛脂(コク)+鴨脂(旨味)を1:2でブレンドし、冷蔵庫で24時間熟成。
     → 油分の香りが複雑化し、スパイスが3段階に展開される。

#### 4. **「スパイスの多層構造」**
   - 無調整唐辛子(粗挽き)→瓶ビール大1杯で煮立たせたカイエンペッパー→最後にフレッシュジンジャーを擦り下ろす。

     → 辛味が「即効型」「中段」「後引く」に分かれる。

#### 5. **「真空低温調理の応用」**
   - トウガラシと牛脂を60℃で8時間浸漬させ、オイルベースに。
     → 辛味成分がゆっくり抽出され、後味スッキリ化。

#### 6. **「食感の層構造」**
   - 焼き豚(パリパリ)+卵黄煮込み玉子(とろとろ)+冷凍キャベツ炒め→全工程で3回食感を追加。

---

### **【時短も可能なプロテクニック】**
- **「瓶ビール1本投入法」**:煮立たせずにそのままフライパンに注ぐと、アルコール分が鍋底に沈着し香り倍増!
- **「市販カレー粉のリメイク」**:粗挽き唐辛子+瓶ビネガーを10ml足して煮立たせる。

---

### **【プロが使う隠し食材】**
- 乾燥椎茸エキス(5滴):旨味核に。
- 冷凍枝豆の皮:解凍後軽く炒り、香り付けに使用。

---

### **【決定版!カレー具材の黄金比】**
| 元材料 | 重量割合 | 食感調整法 |
|--------|----------|------------|
| 玉ねぎ | 35%      | 多層切込み |
| 肉類(合いびき) | 25% | オイルパッキング |
| 米粒トマト | 20% | 焼き玉葱で包む |
| キャベツ | 15% | 冷凍→解凍炒め |

---

これらのテクニックを組み合わせると、カレーライスは「複雑な旨味層」と「驚くべき食感の変化」を持ち、まさに「レスト
ランクラス」と言える一品に生まれ変わります。ぜひ挑戦してみてください! 🍴✨