タイプアンロックステージ本番環境難易度中程度ジョブストリームを共有対象AI ビルダー対象バックエンド開発者サービスパイプサービスエージェント Hoody の利点HTTP ネイティブ Hoody の利点AI ネイティブ

use-cases / stream-llm-tokens-to-anything / hero

PIPE · エージェント · ストリーミング

HTTP を読むあらゆるものに LLM トークンをストリーミング

エージェントのステップ 3 がトークンを生成。ステップ 4 はステップ 3 が完了する前に消費を開始する必要がある。モデルの出力をパスに直接パイプ; 次のプロセスが同じパスを curl。SSE 配管なし、ブローカーなし、コールバック格闘なし — バイトはラインスピードで動く。

パイプ API を読む

プロデューサー · ステップ 3コンシューマー · ステップ 4

agent.sh

ステップ 3 · LLM# stream tokens upwardai.generate([ stream: true]) | curl -T - \ /pipe/tokens

トークンストリームライブ

theagentcalls{tool:searchquery:kafkavspipe}->streamtheagentcalls{tool:searchquery:kafkavspipe}->stream

古い新しい

バッファなし · ブローカーなし · 再エンコードなし

reader.sh

ステップ 4 · コンシューマー# read at line speedcurl \ /pipe/tokens \ | jq -c .delta | apply()# no buffer between us

use-cases / stream-llm-tokens-to-anything / mechanism

2 つの curl、1 つのパス、中間レイヤーなし

ほとんどのストリーミングスタックは、トークンを 4 フィート動かすために SSE エンドポイント、キュー、pub/sub バス、フレームワークコールバックを必要とする。パイプはそのすべてを置き換える: プロデューサーが PUT でパスに書き込み、コンシューマーが GET で同じパスから読む。バイトは 2 つの間を直接流れる — サーバー上の中間ストレージなし。

通常のスタック

ジェネレーターとリーダーの間に 5 つのレイヤー

LangChain ストリーミング抽象化コールバック地獄
Server-Sent Events 配管フレーミング + ハートビート
Redis pub/sub運用するブローカー
カスタム WebSocket リレー認証 + 再接続
メッセージブローカー (Kafka/RabbitMQ)トピック + パーティション
エージェントフレームワークのコールバックベンダー固有

パイプ

同じパスに触れる 2 つの curl

プロデューサーcurl -T - /pipe/tokens

同じパス

コンシューマーcurl /pipe/tokens

サーバーサイドストレージ: ゼロ。バイトは両者が接続した瞬間に送信側から受信側へストリーミング、バックプレッシャーは受信側ごとに処理。エンドポイントは 2 つの curl が触れたから存在するだけ。

agent-step-3.sh

# Step 3 — agent generates and pipes tokens upward.
ai.generate({ model, stream: true }) \
  | jq -c '{delta: .text}' \
  | curl -T - https://pipe.hoody.com/api/v1/pipe/run-42/tokens?n=3

# Step 4 — three readers GET the same path. The pipe fans out.
curl https://pipe.hoody.com/api/v1/pipe/run-42/tokens?n=3 | tee evaluator.log
curl https://pipe.hoody.com/api/v1/pipe/run-42/tokens?n=3 | jq -c .delta
curl https://pipe.hoody.com/api/v1/pipe/run-42/tokens?n=3 | websocketd --port=8080

# All four processes block until the n=3 readers connect, then bytes flow.

PUT がバイトを上に押し、GET がバイトを下に引く。?n パラメータは何人のリーダーを待つかを指定; パイプはその数が接続するまでブロックし、その後同時にファンアウトする。クライアント SDK なし、ブローカーなし、SDK インストールなし — HTTP のみ。

use-cases / stream-llm-tokens-to-anything / listeners

同じパス、多くのリーダー、SDK なし

プロデューサーがパイプし始めると、HTTP を話すあらゆるものがサブスクライブできる。同じストリームに最大 256 リーダー、パイプによってファンアウトされ、バックプレッシャーは受信側ごとに処理。インストールするクライアントライブラリなし、プロビジョニングするリレーなし。

フロントエンド向け

ブラウザが同じ URL を読む

EventSource または fetch リーダーがパイプパスにヒットし、エージェントが生成しているのと同じバイトストリームを取得。サーバーで SSE フレーミングなし — パイプはモデルが発行するバイトをそのまま運ぶ。

評価者向け

2 つ目のエージェントがリッスンして決定

評価者プロセスが同じパスにサブスクライブ。出力がドリフトした瞬間にプロデューサーを中断できる。同じワイヤー上の 2 つのエージェント、その間を仲介するオーケストレーターフレームワークなし。

ログトレイル向け

監視するコンテナにストリームを tee

ロギングコンシューマーが読み、gzip し、ディスクに書く。デバッガー UI が並列で読む。誰も他の存在を知らない — パイプはすべてのリーダーに同じバイトを渡すだけ。

ファンアウト上限256パイプによって強制されるパスごとの受信側上限 — 転送が始まる前にその数を待つには ?n を設定。

レイテンシオーバーヘッド0バイトは到着するとパイプを通過。サーバー上のバッファリングなし — バックプレッシャーは受信側ごとに処理。

SDK フットプリント0 kbプロデューサーとコンシューマーは curl。HTTP を話すあらゆるものがサブスクライブできる — ブラウザ、コンテナ、エージェント、シェル。

use-cases / stream-llm-tokens-to-anything / punchline

LLM がストリーム。パイプがストリーム。リーダーがストリーム。中間レイヤーなし。

0101 · モデルがトークンを発行

0202 · パイプがバイトを転送

0303 · リーダーがそれらを適用

ステップ間にブローカーなしパスがプロトコル

use-cases / stream-llm-tokens-to-anything / replaces

これが置き換えるもの

あるプロセスが別のプロセスにリアルタイムでトークンをストリーミングする必要があるときに手を伸ばす配線。それぞれが独自のフレーミング、独自の SDK、独自の運用面を持つ。パイプがワイヤーだ。

LangChain ストリーミング抽象化コールバックチェーン、フレームワークロックイン
Server-sent events 配管フレーミング + ハートビート + 再接続ロジック
Redis pub/subインストール、運用、支払うブローカー
カスタム WebSocket リレー認証、再接続、バックプレッシャー全部 DIY
メッセージブローカー (Kafka, RabbitMQ)1 つのストリームのためのトピック、パーティション、コンシューマーグループ
エージェントフレームワークのコールバックベンダー固有、同じ SDK からのみ読み取り可能

use-cases / stream-llm-tokens-to-anything / cta

すでに HTTP を話す 2 つのプロセス間でストリーミングインフラを配線するのを止めよう。パスを開く。そこにパイプ。そこから読む。

パイプ API を読む

use-cases / stream-llm-tokens-to-anything / related

HTTP を読むあらゆるものに LLM トークンをストリーミング

2 つの curl、1 つのパス、中間レイヤーなし

ジェネレーターとリーダーの間に 5 つのレイヤー

同じパスに触れる 2 つの curl

同じパス、多くのリーダー、SDK なし

ブラウザが同じ URL を読む

2 つ目のエージェントがリッスンして決定

監視するコンテナにストリームを tee

これが置き換えるもの

他のユースケースを読む

1 つのサーバーで 60 のコンテナ

1 つのリンクで開発者をオンボード

オンデマンドで具現化するAPI エンドポイント

Git のようにコンピュータをブランチ化

スマホで本物の VS Code

他の AI エージェントを生成する AI エージェント

顧客ごとに 1 つのサンドボックスを自動的に

完成したプロトタイプで目覚める

電話から本番環境を緊急修復

誰でも curl できる URL に本番ログを tail

1 つのビルドを 30 の CI ワーカーへ同時にプッシュ

カフェからエージェントの思考を眺める

会議招待ではなく URL で画面を共有

2 つの curl でクラウド間で 200GB を移動

1 行でチームメイトにデータベースの状態を送信

上司が参加せずに観戦できるプログレスバー

構築する必要のなかった Webhook ファンアウト

2 つの curl コマンドだけの CI キャッシュ

スクリプトにドラッグ&ドロップでアップロード

ノートパソコンから 200 人にワークショップを配信

メッセージブローカーなしのコンテナ間 IPC

電車内でエージェントを tail し、終了したら通知を受ける

2 つのターミナルで HTTP 越しのマイク

5 つのエージェント、5 つのパイプ、1 つの判定

今朝のインシデントをチーム全員で再生

今までで最速の「あのファイル送って」

ローカル LLM を実行し、フリート全体に配信

メトリクスバックエンドなしのライブメトリクスダッシュボード

完了したら自分で消える cron ジョブ

夜間マイグレーションの直前にコンテナをスナップショット

全顧客に専用 crontab を自動で

午前 3 時にエージェントを起こし、4 時に退役させる

オーケストレーターなしの日次ロールアップ

ブランチごとの crontab を、コードと一緒にデプロイ

シフトとともに失効するオンコールエスカレーション

毎時のスクレイプ、日次のダイジェスト、週次のアーカイブ — 1 つのコンテナで

顧客に自分の cron スケジュールを持ち込んでもらう

スクリプトではなくエージェントをスケジュールする

静かなジョブのためのハートビート

直近 24 時間を 24 個のスナップショットとして保持

今朝の webhook を、明日の同じ時刻にリプレイ

空港のスマホから crontab を編集

200 件の受信箱へファンアウトするスケジュール配信

不安定なジョブを失わずにミュートする

昨日のエージェントを採点するエージェント

自分自身の引退をスケジュールするクリーンアップジョブ

SSH セッションなしで TLS 証明書を更新する

本番を壊そうとする毎週のカナリア

生かしておける余裕のある趣味プロジェクトの墓場

プルリクエストごとのプレビュー環境、月中

ベアメタル 1 台で 12 製品ポートフォリオを運営

ステージングサーバー税を撲滅

40 のクライアントサイト、1 つの家賃、1 つのダッシュボード

E2B の請求を、すでにレンタルしているベアメタルに置き換える

アイドル状態のステージングは無料、だからステージングが削除されなくなる

フリート規模で顧客ごとのサンドボックス

S3 の請求項目にならない CI キャッシュ

50 件の営業電話のための 50 のデモ環境