タイプアンロックステージフリート難易度高度ジョブAPI をデプロイ対象AI ビルダー対象開発チームサービスパイプサービスデーモン Hoody の利点HTTP ネイティブ Hoody の利点コンテナ経済学 Hoody の利点AI ネイティブ

use-cases / run-a-local-llm-serve-it-to-your-fleet / hero

PIPE · LOCAL LLM · FAN-OUT

ローカル LLM を実行し、フリート全体に配信

1 台の GPU ボックスで 70B モデルを実行しています。フリート全体の 50 個のダウンストリームコンテナが、同じクエリに対する同じ答えを必要とします — 同じカタログをスコアリング、同じエンベディングを生成、同じ実験を評価しています。50 回の推論に支払わないでください。モデルを 1 回実行し、トークンをブロードキャストします。

Pipe API を読む

gpu-01.fleet.local · llama.cpp

実行中RTX 409024 GB VRAMllama3-70b · q41× ソース

ステップ 1 · モデル# generate once, pipe upwardllama.cpp -m llama3-70b.gguf \ -p "$PROMPT" --stream \ | curl -T - \ /pipe/llm?n=50

ステップ 2 · パイプpipe/llm?n=501 つのパス · 50 人の読者

フリート · 50 個のコンシューマーコンテナ

n=50

app-1

app-2

app-3

app-4

app-5

app-6

app-7

app-8

app-9

app-10

app-11

app-12

app-13

app-14

app-15

app-16

app-17

app-18

app-19

app-20

app-21

app-22

app-23

app-24

app-25

app-26

app-27

app-28

app-29

app-30

app-31

app-32

app-33

app-34

app-35

app-36

app-37

app-38

app-39

app-40

app-41

app-42

app-43

app-44

app-45

app-46

app-47

app-48

app-49

app-50

全員が同じトークンを味わうコネクションごとのバックプレッシャー

モデルは 1 回実行 · パイプはブロードキャスト · 遅いワーカーは自分自身だけを遅らせる

use-cases / run-a-local-llm-serve-it-to-your-fleet / mechanism

1 つの GPU、1 つのパイプ、50 人のコンシューマー

素朴な答えは、キュー、リクエストバッチング、ロック競合を伴う HTTP サーバーです。この形により安価な答えは: 各クエリが ?n=50 付きでパイプパスに送られます。モデルは 1 回実行されます。50 個のコンシューマーコンテナが同じパスを GET し、パイプによってファンアウトされた同じトークンを同時にストリーミングします。遅いワーカーは自分自身のコネクションにバックプレッシャーを適用 — 他はラインスピードを維持します。

fleet-broadcast.sh

# 1× GPU box — run the model once and pipe its tokens upward.
llama.cpp -m llama3-70b.gguf -p "$PROMPT" --stream \
  | curl -T - https://pipe.hoody.com/api/v1/pipe/llm?n=50

# 50 consumer containers — same path, ?n=50, fanned out by the pipe.
for i in $(seq 1 50); do
  curl https://pipe.hoody.com/api/v1/pipe/llm?n=50 \
    | jq -c .delta \
    | ./score.py --worker $i &
done

# Sender blocks until 50 readers have connected, then bytes flow.
# Slow workers backpressure their own connection — others stay at line speed.

PUT がバイトを上へ送ります。GET がバイトを下へ引き出します。?n=50 パラメータは何人の読者を待つかを指定します。パイプはその人数が接続するまでコネクションを保持し、その後ストリームを全員に同時にファンアウトします。キューも、バッチングレイヤーも、ロードバランサー付き推論サーバーもありません。

1 回の推論

モデルはクエリごとに正確に 1 回実行

50 個のダウンストリームコンテナが同じ答えを欲しがります。GPU でそれを 1 回生成します。パイプが配信を処理します。リクエストバッチングフレームワークも、トークンキャッシングレイヤーも、「もう一度実行しないでください」の調整もありません。

パイプファンアウト

?n=50 が同じバイトを 50 人の読者にファンアウト

パイプは 50 人の受信者が接続するまでブロックし、その後プロデューサーのバイトを各受信者に並列でストリーミングします。同一のコピー、ラインレート配信、サーバー側保存ゼロ。パスあたり最大 256 受信者。

受信者ごとのバックプレッシャー

遅いワーカーは自分自身だけを遅らせる

1 つのコンシューマーコンテナが GC 中またはディスクが忙しい場合、そのコネクションが遅れます。パイプはその受信者にバックプレッシャーを適用 — 他の 49 個はフルスピードでストリーミングを続けます。ヘッドオブラインブロッキングなし、キュー深度チューニングなし。

ファンアウト上限256パイプによって強制されるパスごとの受信者上限 — ?n を設定して、転送開始前にその数を待たせます。

クエリあたりの推論回数1モデルはクエリごとに 1 回実行され、コンシューマーごとには実行されません。コンピュートコストはフリートサイズから切り離されます。

SDK フットプリント0 kbプロデューサーは curl です。コンシューマーも curl です。HTTP を話すあらゆるものがサブスクライブできます — コンテナ、エージェント、ブラウザ、シェル。

use-cases / run-a-local-llm-serve-it-to-your-fleet / economics

支払いをやめるもの

50 個のコンテナが同じ答えを欲しがるとき、代替手段はコール単位、トークン単位、または推論サーバー単位で課金します。パイプは 1 つの HTTP 転送に対して課金します。すでにレンタルしているボックスでモデルを実行してください。

ビフォアホスト型 API · トークン単位の課金50× トークンBedrock や OpenAI は、50 個のコンテナが同じ質問をしたときに、50 回の同一の補完に対して課金します。同じプロンプト、同じ答え、50 回課金されます。

アフターローカルモデル · パイプブロードキャスト1× トークンすでにレンタルしている GPU ボックスが 1 回生成します。パイプがバイトを 50 個すべてに運びます。フリートは推論料金をスケールせずに水平にスケールします。

これはすべてのワークロードではありません — N 個のコンテナが同じ答えを欲しがる形です。それがあなたの形である場合、パイプは配線できる中で最も安価なファンアウトです。発散するプロンプトを持つワークロードは依然として実際の推論サーバーが必要です。このパターンは、質問が同一でフリートが広いときに輝きます。

use-cases / run-a-local-llm-serve-it-to-your-fleet / punchline

1 つの GPU、1 つのパイプ、50 個のコンテナが同じトークンを味わう。

0101 · 1 つの GPU がトークンを生成

0202 · 1 つのパイプが運ぶ

0303 · 50 個のコンテナが同時に味わう

推論ファンアウトサービスなしパスがブロードキャスト

use-cases / run-a-local-llm-serve-it-to-your-fleet / replaces

これが置き換えるもの

1 つのクエリが多数のコンシューマーに供給される必要があるときに手を伸ばす、すべての「フリートにモデルアクセスを与える」スタック。それぞれがコール単位で課金したり、ウェイトをホストしたり、vLLM の前にロードバランサーを実行するよう求めたりします。パイプは 1 回ブロードキャストします。

AWS Lambda + Bedrockトークン単位の課金 × フリートサイズ、所有していないウェイト
Modal Labsホスト型 GPU ランナー、ワーカーごとの秒単位課金
Replicateコール単位の価格設定、コンシューマーごとのネットワークラウンドトリップ
OpenAI API at scale同一のプロンプトがコンシューマーごとに 1 回課金
ロードバランサー背後の vLLM/TGIサーバー、キュー、バッチングチューニング、稼働させるオペレーション表面
セルフホストモデルゲートウェイルーティング、認証、レート制限 — 1 つのファンアウトのためにすべて DIY

use-cases / run-a-local-llm-serve-it-to-your-fleet / cta

1 つの答えに対して 50 件の推論料金を支払うのをやめましょう。すでにシリコンをレンタルしている場所でモデルを実行してください。パイプを開きます。フリートに読ませましょう。

Pipe API を読む

use-cases / run-a-local-llm-serve-it-to-your-fleet / related

ローカル LLM を実行し、フリート全体に配信

1 つの GPU、1 つのパイプ、50 人のコンシューマー

モデルはクエリごとに正確に 1 回実行

?n=50 が同じバイトを 50 人の読者にファンアウト

遅いワーカーは自分自身だけを遅らせる

支払いをやめるもの

これが置き換えるもの

他のユースケースを読む

1 つのサーバーで 60 のコンテナ

1 つのリンクで開発者をオンボード

オンデマンドで具現化するAPI エンドポイント

Git のようにコンピュータをブランチ化

スマホで本物の VS Code

他の AI エージェントを生成する AI エージェント

顧客ごとに 1 つのサンドボックスを自動的に

完成したプロトタイプで目覚める

電話から本番環境を緊急修復

誰でも curl できる URL に本番ログを tail

1 つのビルドを 30 の CI ワーカーへ同時にプッシュ

カフェからエージェントの思考を眺める

会議招待ではなく URL で画面を共有

2 つの curl でクラウド間で 200GB を移動

1 行でチームメイトにデータベースの状態を送信

HTTP を読むあらゆるものに LLM トークンをストリーミング

上司が参加せずに観戦できるプログレスバー

構築する必要のなかった Webhook ファンアウト

2 つの curl コマンドだけの CI キャッシュ

スクリプトにドラッグ&ドロップでアップロード

ノートパソコンから 200 人にワークショップを配信

メッセージブローカーなしのコンテナ間 IPC

電車内でエージェントを tail し、終了したら通知を受ける

2 つのターミナルで HTTP 越しのマイク

5 つのエージェント、5 つのパイプ、1 つの判定

今朝のインシデントをチーム全員で再生

今までで最速の「あのファイル送って」

メトリクスバックエンドなしのライブメトリクスダッシュボード

完了したら自分で消える cron ジョブ

夜間マイグレーションの直前にコンテナをスナップショット

全顧客に専用 crontab を自動で

午前 3 時にエージェントを起こし、4 時に退役させる

オーケストレーターなしの日次ロールアップ

ブランチごとの crontab を、コードと一緒にデプロイ

シフトとともに失効するオンコールエスカレーション

毎時のスクレイプ、日次のダイジェスト、週次のアーカイブ — 1 つのコンテナで

顧客に自分の cron スケジュールを持ち込んでもらう

スクリプトではなくエージェントをスケジュールする

静かなジョブのためのハートビート

直近 24 時間を 24 個のスナップショットとして保持

今朝の webhook を、明日の同じ時刻にリプレイ

空港のスマホから crontab を編集

200 件の受信箱へファンアウトするスケジュール配信

不安定なジョブを失わずにミュートする

昨日のエージェントを採点するエージェント

自分自身の引退をスケジュールするクリーンアップジョブ

SSH セッションなしで TLS 証明書を更新する

本番を壊そうとする毎週のカナリア

生かしておける余裕のある趣味プロジェクトの墓場

プルリクエストごとのプレビュー環境、月中

ベアメタル 1 台で 12 製品ポートフォリオを運営

ステージングサーバー税を撲滅

40 のクライアントサイト、1 つの家賃、1 つのダッシュボード

E2B の請求を、すでにレンタルしているベアメタルに置き換える

アイドル状態のステージングは無料、だからステージングが削除されなくなる

フリート規模で顧客ごとのサンドボックス

S3 の請求項目にならない CI キャッシュ

50 件の営業電話のための 50 のデモ環境