use-cases / run-a-local-llm-serve-it-to-your-fleet / hero

PIPE · LOKALES LLM · FAN-OUT

Betreibe ein lokales LLM und liefere es an deine ganze Flotte aus

Du betreibst ein 70B-Modell auf einer einzelnen GPU-Box. Fünfzig nachgelagerte Container in deiner Flotte brauchen für dieselbe Anfrage dieselbe Antwort – sie scoren denselben Katalog, erzeugen dieselben Embeddings, werten dasselbe Experiment aus. Bezahl nicht für fünfzig Inferenzen. Lass das Modell einmal laufen, broadcaste die Tokens.

Pipe-API lesen

gpu-01.fleet.local · llama.cpp

LÄUFTRTX 409024 GB VRAMllama3-70b · q41× SOURCE

SCHRITT 1 · MODELL# generate once, pipe upwardllama.cpp -m llama3-70b.gguf \ -p "$PROMPT" --stream \ | curl -T - \ /pipe/llm?n=50

SCHRITT 2 · PIPEpipe/llm?n=50EIN PFAD · FÜNFZIG READER

Flotte · 50 Consumer-Container

n=50

app-1

app-2

app-3

app-4

app-5

app-6

app-7

app-8

app-9

app-10

app-11

app-12

app-13

app-14

app-15

app-16

app-17

app-18

app-19

app-20

app-21

app-22

app-23

app-24

app-25

app-26

app-27

app-28

app-29

app-30

app-31

app-32

app-33

app-34

app-35

app-36

app-37

app-38

app-39

app-40

app-41

app-42

app-43

app-44

app-45

app-46

app-47

app-48

app-49

app-50

ALLE SCHMECKEN DIESELBEN TOKENSBACKPRESSURE PRO VERBINDUNG

das Modell läuft einmal · die Pipe broadcastet · langsame Worker bremsen nur sich selbst

use-cases / run-a-local-llm-serve-it-to-your-fleet / mechanism

Eine GPU, eine Pipe, fünfzig Consumer

Die naive Antwort ist ein HTTP-Server mit Queue, Request-Batching und Lock-Contention. Die billigere Antwort für diese Form: Jede Anfrage geht auf einen Pipe-Pfad mit ?n=50. Das Modell läuft einmal. Fünfzig Consumer-Container holen denselben Pfad per GET ab und streamen dieselben Tokens zur selben Zeit, von der Pipe gefannt-out. Ein langsamer Worker bremst nur seine eigene Verbindung – die anderen bleiben auf voller Geschwindigkeit.

fleet-broadcast.sh

# 1× GPU box — run the model once and pipe its tokens upward.
llama.cpp -m llama3-70b.gguf -p "$PROMPT" --stream \
  | curl -T - https://pipe.hoody.com/api/v1/pipe/llm?n=50

# 50 consumer containers — same path, ?n=50, fanned out by the pipe.
for i in $(seq 1 50); do
  curl https://pipe.hoody.com/api/v1/pipe/llm?n=50 \
    | jq -c .delta \
    | ./score.py --worker $i &
done

# Sender blocks until 50 readers have connected, then bytes flow.
# Slow workers backpressure their own connection — others stay at line speed.

PUT schickt Bytes nach oben. GET zieht sie nach unten. Der ?n=50-Parameter sagt, auf wie viele Reader gewartet werden soll; die Pipe hält die Verbindung, bis so viele verbunden sind, dann fannt sie den Stream gleichzeitig an alle aus. Keine Queue, keine Batching-Schicht, kein Inference-Server-mit-Loadbalancer.

EINE INFERENZ

Das Modell läuft genau einmal pro Anfrage

Fünfzig nachgelagerte Container wollen dieselbe Antwort; du erzeugst sie einmal auf der GPU. Die Pipe übernimmt die Auslieferung. Kein Request-Batching-Framework, keine Token-Caching-Schicht, keine „bitte nicht nochmal laufen lassen“-Koordination.

PIPE FAN-OUT

?n=50 fannt dieselben Bytes an fünfzig Reader

Die Pipe blockiert, bis fünfzig Empfänger verbunden sind, dann streamt sie die Bytes des Producers parallel an jeden. Identische Kopien, Auslieferung in Leitungsgeschwindigkeit, null serverseitiger Speicher. Bis zu 256 Empfänger pro Pfad.

BACKPRESSURE PRO EMPFÄNGER

Langsame Worker bremsen nur sich selbst

Wenn ein Consumer-Container gerade Garbage Collection macht oder seine Disk beschäftigt ist, hängt seine Verbindung. Die Pipe wendet Backpressure auf diesen Empfänger an – die anderen 49 streamen weiter mit voller Geschwindigkeit. Kein Head-of-Line-Blocking, kein Tuning der Queue-Tiefe.

FAN-OUT-LIMIT256Empfängerobergrenze pro Pfad, von der Pipe erzwungen – setze ?n, damit so viele warten, bevor die Übertragung beginnt.

INFERENZEN PRO ANFRAGE1Das Modell läuft einmal pro Anfrage, nicht einmal pro Consumer. Compute-Kosten sind von der Flottengröße entkoppelt.

SDK-FOOTPRINT0 kbProducer ist curl. Consumer sind curl. Alles, was HTTP spricht, kann sich subscriben – Container, Agent, Browser, Shell.

use-cases / run-a-local-llm-serve-it-to-your-fleet / economics

Wofür du nicht mehr bezahlst

Wenn fünfzig Container dieselbe Antwort wollen, rechnen die Alternativen pro Call, pro Token oder pro Inference-Server ab. Die Pipe rechnet einen HTTP-Transfer ab. Lass das Modell auf einer Box laufen, die du sowieso schon mietest.

VORHERHosted API · Abrechnung pro Token50× TokensBedrock oder OpenAI rechnet dir fünfzig identische Completions ab, wenn fünfzig Container dieselbe Frage stellen. Gleicher Prompt, gleiche Antwort, fünfzig Mal in Rechnung gestellt.

NACHHERLokales Modell · Pipe-Broadcast1× TokensDie GPU-Box, die du sowieso mietest, generiert einmal. Die Pipe trägt die Bytes an alle fünfzig. Die Flotte skaliert horizontal, ohne dass die Inferenzrechnung mitskaliert.

Das ist nicht jeder Workload – es ist die Form, in der N Container dieselbe Antwort wollen. Wenn das deine Form ist, ist die Pipe das billigste Fan-Out, das du je verkabelst. Workloads mit divergierenden Prompts wollen weiterhin einen echten Inference-Server; dieses Pattern glänzt, wenn die Frage identisch und die Flotte breit ist.

use-cases / run-a-local-llm-serve-it-to-your-fleet / punchline

Eine GPU, eine Pipe, fünfzig Container, die dieselben Tokens schmecken.

0101 · EINE GPU ERZEUGT DIE TOKENS

0202 · EINE PIPE TRÄGT SIE

0303 · FÜNFZIG CONTAINER SCHMECKEN SIE GLEICHZEITIG

kein Inference-Fan-Out-Serviceder Pfad ist der Broadcast

use-cases / run-a-local-llm-serve-it-to-your-fleet / replaces

Was das ersetzt

Jeder „gib meiner Flotte Zugriff auf ein Modell“-Stack, zu dem du greifst, wenn eine Anfrage viele Consumer versorgen muss. Jeder rechnet pro Call ab, hostet deine Weights oder erwartet, dass du einen Loadbalancer vor vLLM betreibst. Die Pipe broadcastet einmal.

AWS Lambda + BedrockAbrechnung pro Token × Flottengröße, Weights, die dir nicht gehören
Modal LabsHosted GPU-Runner, Abrechnung pro Sekunde pro Worker
ReplicatePreis pro Call, Netzwerk-Roundtrip pro Consumer
OpenAI API im großen StilIdentischer Prompt einmal pro Consumer abgerechnet
vLLM/TGI hinter einem LoadbalancerServer, Queue, Batching-Tuning, Ops-Oberfläche, die am Leben gehalten werden will
Selbstgehostete Modell-GatewaysRouting, Auth, Rate Limits – alles DIY für ein einziges Fan-Out

use-cases / run-a-local-llm-serve-it-to-your-fleet / cta

Hör auf, fünfzig Inferenzrechnungen für eine Antwort zu zahlen. Lass das Modell dort laufen, wo du das Silizium sowieso schon mietest. Öffne eine Pipe. Lass die Flotte lesen.

Pipe-API lesen

use-cases / run-a-local-llm-serve-it-to-your-fleet / related

Lies die anderen

Sechzig Container auf einem Server

Eine Bare-Metal-Box führt Dutzende bis Hunderte von Hoody-Containern aus. KSM und BTRFS-Dedup machen die Marginalkosten nahezu null.

Containers·Snapshots

Einen Entwickler mit einem einzigen Link onboarden

Eine neue Engineerin fängt am Montag an. Du schickst eine URL. Sie öffnet sie auf irgendeinem Laptop und ist in einem frischen Container, geklont von deinem Developer-Baseline-Snapshot — Code, Dependencies, Env, Seed-Daten, VS Code im Browser. Code schreiben in fünf Minuten, kein Setup.

Snapshots·Containers·Terminal·Files

API-Endpoints, die on-demand entstehen

Ein Wildcard-Exec-Script fängt den Aufruf ab, fragt eine KI, den Handler zu schreiben, führt ihn in einer V8-Sandbox aus und speichert die Route. Der nächste Aufruf ist nativ.

Exec·Agent·Code·Files

Branch-Computer wie Git-Branches

Snapshot eines laufenden Containers — Dateien, Prozesse, Speicher. Wiederherstellung in Sekunden. Fork via /copy. Branching, aber für den gesamten Computer.

Snapshots·Containers

Echtes VS Code auf deinem Handy

Der Code Orchestrator startet eine VS-Code-Instanz im Container und liefert den Editor über eine ganz normale HTTPS-URL aus. Jedes Gerät mit Browser kann sie öffnen. Die Arbeit lebt im Container, nicht auf dem Gerät.

Display·Terminal·Files·Containers+1

KI-Agenten, die andere KI-Agenten starten

Ein Recherche-Agent POSTet an /api/v1/projects/$PID/containers, um einen Child-Container zu starten, und ruft dann dessen Agent-URL auf wie jeden anderen HTTP-Service. Sub-Agenten starten ihre eigenen Sub-Agenten genauso. Kein Orchestrator-Framework, nur URLs.

Agent·Exec·Containers

Eine Sandbox pro Kunde, automatisch

Ein Exec-Skript fängt deinen Signup-Webhook ab, kopiert einen Fresh-Customer-Container und übergibt dem neuen Tenant seine eigene URL. Isolation ist das Betriebssystem, keine tenant_id-Spalte.

Containers·Snapshots·Exec·Files

Aufwachen zu einem fertigen Prototyp

Übergib der KI einen Absatz um Mitternacht. Sie startet eigene Container, macht Snapshots vor riskanten Schritten und postet zum Notification Webhook beim Sonnenaufgang.

Agent·Snapshots·Containers·Browser+2

Notfall-Fix für Production vom Telefon aus

PagerDuty weckt dich auf. Öffne die Terminal-URL auf deinem Telefon. PATCH einen Snapshot von vor dem Bad Deploy. Production ist zurück. Kein Bastion, kein VPN, kein Laptop.

Terminal·Snapshots·Network

Produktions-Logs an eine URL streamen, die jeder per curl lesen kann

Eine Pipe-URL. Bis zu 256 Leser. Drei Engineers verfolgen denselben Vorfall gleichzeitig — ohne Bastion, ohne Datadog-Sitz, ohne Log-Forwarder.

Pipe

Einen Build gleichzeitig an dreißig CI-Worker pushen

Der Build-Container streamt das Tarball mit ?n=30 in einen Pipe-Pfad. Alle dreißig Test-Worker rufen dieselbe URL per curl ab. Bytes laufen einmal durch, fan-out inklusive.

Pipe

Deinem Agent vom Café aus beim Denken zusehen

Dein Agent läuft zu Hause. Du sitzt im Café. Pipe jedes Loop-Event durch Hoody Pipe und rufe denselben Pfad vom Handy per curl ab — der Trace landet Zeichen für Zeichen. Kein SSH, kein Dashboard, kein Upload.

Pipe·Agent

200 GB zwischen Clouds mit zwei curls verschieben

pg_dump | gzip | curl in Frankfurt. curl | gunzip | psql in Singapur. Bytes fließen durch die Pipe — null Disk dazwischen.

Pipe

Schicke einem Teammitglied einen Datenbank-Stand in einer Zeile

pg_dump streamt direkt in dessen psql. Keine Datei hochgeladen, kein Link geteilt, kein Download. Die Pipe leitet die Bytes durch.

Pipe

LLM-Tokens an alles streamen, was HTTP liest

Schritt 3 streamt Tokens mit curl -T -. Schritt 4 ruft denselben Pfad per curl ab. Tokens wandern in Lichtgeschwindigkeit vom Generator zum Consumer. Keine SSE-Plumbing, kein Broker.

Pipe·Agent

Ein Fortschrittsbalken, dem dein Chef zusehen kann, ohne mitzumachen

Hänge ?progress an die Pipe-URL. Wer sie öffnet, bekommt ein Live-HTML-Dashboard — Bytes, Geschwindigkeit, ETA, Status. Bis zu fünfzig Zuschauer, keiner belegt einen Receiver-Slot, keiner berührt den Stream.

Pipe

Das Webhook-Fan-out, das du nicht selbst bauen musstest

Stripe POSTet auf einen Pipe-Pfad mit ?n=12. Zwölf Subscriber rufen die Receiver-URL per curl mit ?n=12 ab. Die Pipe hält das Event, bis alle verbunden sind.

Pipe·Exec

Ein CI-Cache, der nur aus zwei curl-Befehlen besteht

tar | zstd | curl schiebt node_modules in eine Pipe. Zwanzig nachgelagerte Jobs holen es per curl | zstd -d | tar x. Kein S3-Bucket, keine Cache-Action, keine Egress-Rechnung.

Pipe·Containers

Drag-and-Drop-Uploads in dein Skript

hoody-pipe liefert auf jedem Pfad ein Web-Upload-Formular. Zieh eine Datei auf die Seite, dein Skript liest die Bytes aus stdin. Null Upload-Code, kein S3-Bucket, keine Presigned URLs.

Pipe·Exec

Einen Workshop an 200 Zuschauer vom Laptop aus broadcasten

ffmpeg streamt deinen Bildschirm an einen Pipe-Pfad mit ?n=200. Jeder Teilnehmer öffnet die URL per curl im Browser-Tab. Keine Plattform, keine Logins, kein Upload.

Pipe

Inter-Container-IPC ohne Message Broker

Container A schreibt auf einen Pipe-Pfad. Container B liest vom selben Pfad. Backpressure ist die Verbindung. Kein Redis, keine Queue, kein Broker.

Pipe·Containers

Im Zug deinen Agent tailen, gepingt werden, wenn er ankommt

Der Agent streamt seinen Trace an einen Pipe-Pfad, den du vom Handy aus mit curl ziehen kannst. Wenn er fertig ist, ruft sein letzter Schritt hoody-notifications auf, und dein Handy vibriert. Zwei URLs und ein Buzz — kein SDK, keine Client-App, kein Dashboard.

Pipe·Agent·Notifications

Ein Mikrofon über HTTP, in zwei Terminals

ffmpeg nimmt das Mikrofon auf und pipet es an eine URL. Das andere Ende holt sie per curl und gibt das Audio aus. Kein Zoom, kein SDK, kein Signaling-Server.

Pipe

Fünf Agenten, fünf Pipes, ein Urteil

Ein Panel aus fünf Modellen prüft denselben Input. Jedes läuft im eigenen Container und streamt sein Urteil in seinen eigenen Pipe-Pfad. Ein Judge-Prozess holt alle fünf parallel per curl ab und zählt das Ergebnis aus.

Pipe·Agent·Containers

Spiel den Vorfall von heute Morgen für das ganze Team noch einmal ab

Snapshotte die Logs zur Vorfallszeit in hoody-files. Spiele sie über eine Hoody-Pipe-URL mit ?n=8 ab. Acht Engineers holen denselben Pfad per curl ab und sehen die Kaskade im Gleichschritt – das Post-Mortem ist ein synchroner Stream, kein Confluence-Dokument.

Pipe·Files

Das schnellste „schick mir die Datei“, das du je getippt hast

Ein Teammitglied fragt nach einem 4-GB-Dump. Slack lehnt ab, Drive braucht eine Freigabeanfrage. Du tippst curl -T file …; sie tippen curl … > file. Die Bytes wandern direkt zwischen den Festplatten – kein Upload-Balken, kein Link zum Teilen.

Pipe

Ein Live-Metriken-Dashboard ganz ohne Metrik-Backend

Die Monitoring-Schleife jedes Containers schickt eine Metrik per curl an eine Pipe-URL. Das Dashboard ruft dieselbe URL mit ?progress ab und rendert den SSE-Stream.

Pipe

Der Cron-Job, der sich selbst löscht, wenn du fertig bist

POSTe einen verwalteten Cron-Eintrag mit expires_at 48 Stunden in der Zukunft. Der Job läuft nach Plan und entfernt sich danach selbst — keine Erinnerung, kein Cleanup-PR, kein veralteter Eintrag.

Cron

Snapshote den Container direkt vor der nächtlichen Migration

Ein hoody-cron-Eintrag, der um 02:55 UTC feuert, die Snapshots-URL curlt und das Artefakt pre-migration-2026-05-04 nennt. Fünf Minuten später läuft die Migration. Wenn sie funktioniert, liegt der Snapshot ungenutzt herum und kostet nichts. Wenn sie scheitert, stellst du in 30 Sekunden mit einem einzigen PATCH wieder her.

Cron·Snapshots

Eine eigene Crontab für jeden Kunden, automatisch

Jeder Tenant bekommt seinen eigenen Container und seinen eigenen hoody-cron-Service. Kunde A's 9-Uhr-Digest feuert pünktlich, auch wenn Kunde B's Job 40 Minuten hängt — weil sie nicht in derselben Crontab stehen.

Cron·Containers

Einen Agent um 3 Uhr wecken, ihn um 4 Uhr verabschieden

Ein nächtlicher Cron POSTet einen Spawn-Request, der Agent erledigt seine Stunde Arbeit, dann reißt ein zweiter Cron den Container ab. Der Agent existiert nur, wenn es Arbeit für ihn gibt.

Cron·Agent·Containers

Daily Rollups ohne Orchestrator

Rohe Events stapeln sich in einer SQLite-URL. Jede Nacht curlt ein Cron-Eintrag eine Exec-URL, das Skript führt das Rollup-SQL aus und schreibt die Daily-Tabelle zurück. Kein DAG, kein Airflow-Postgres, kein Scheduler-Dashboard.

Cron·SQLite·Exec

Eine crontab pro Branch, mit dem Code deployt

Dein Repo eincheckt `.hoody/crontab`. Das Deploy-Skript PUTet diese Datei an die Cron-API des neuen Containers. Jeder Branch bekommt seinen Container, sein Dateisystem, seinen Zeitplan.

Cron·Containers

On-Call-Eskalation, die mit der Schicht abläuft

POST einen Cron-Eintrag mit expires_at = Schichtende. Wenn die Schicht endet, löscht sich der Eintrag selbst. Der nächste On-Call postet seinen eigenen.

Cron·Notifications

Stündlicher Scrape, tägliches Digest, wöchentliches Archiv — ein Container

Drei Zeilen in einer crontab: stündlicher Browser-Scrape in SQLite, täglicher Exec-Digest, wöchentliches Archiv in Files. Ein 5-$-Container, drei Rhythmen.

Cron·Browser·SQLite·Files

Lass deine Kunden ihren eigenen Cron-Zeitplan mitbringen

Kunden POSTen ihre eigenen 5-Feld-Ausdrücke; ihre crontab lebt isoliert in ihrem Container. Du validierst nicht gegen eine globale Queue.

Cron·Containers

Plane den Agenten, nicht das Skript

Ein 5-Feld-Cron-Eintrag curlt hoody-agent mit einem Prompt, statt ein festes Skript auszuführen. Heute ist der letzte Tag des Monats — der Agent merkt es. Das Datenformat hat sich geändert — der Agent merkt es.

Cron·Agent

Ein Heartbeat für die stillen Jobs

Jeder Cron-Lauf POSTet einen Heartbeat an einen Notifications-Endpoint. Ein zweiter Cron prüft den letzten Heartbeat und alarmiert bei Stille. Die Stille ist der Alarm.

Cron·Notifications

Behalte die letzten 24 Stunden als 24 Snapshots

Ein stündlicher Cron POSTet einen Snapshot, benannt nach der Stunde. Nach 24 Stunden überschreibt jeder neue Snapshot den von gestern zur gleichen Stunde. Die 24-Etagen-Zeitmaschine.

Cron·Snapshots

Spiele die Webhooks von heute Morgen morgen zur gleichen Zeit erneut ab

Du hast 30 Minuten echten Stripe-Traffic in einen hoody-files-Ordner aufgenommen. Ein Cron-Eintrag spielt ihn jeden Werktag um 9 Uhr gegen Staging ab — gleiches Volumen, gleiche Payloads, gleicher Tageszeit-Druck.

Cron·Files·Exec

Bearbeite deine Crontab vom Handy aus, am Flughafen

Öffne die Cron-URL auf deinem Handy am Gate. Tippe auf eine Zeile, ändere ein einzelnes Feld der Cron-Expression, drücke Speichern. PATCH geht durch. Der Job feuert heute Nacht nach dem neuen Schedule. Keine SSH-Session, keine Jump-Box, kein Laptop.

Cron·Terminal

Ein geplanter Digest, der an 200 Postfächer fan-outet

Cron um 9 Uhr POSTet an ein Exec-Skript, das den Digest baut und eine Pipe-URL mit ?n=200 curlt. Zweihundert Empfänger treffen die gleiche URL einmal.

Cron·Exec·Pipe

Den flakigen Job stummschalten, ohne ihn zu verlieren

PATCH /entries/[id] [ enabled: false ]. Der Job bleibt in deiner Crontab und wartet darauf, repariert zu werden. Kein Löschen, kein Neuschreiben, kein Kontextverlust.

Cron

Ein Agent, der die Agenten von gestern benotet

Ein nächtlicher Cron POSTet an den Supervisor-Agenten mit den gestrigen Agent-Traces aus SQLite. Der Supervisor bewertet jeden einzelnen. Cron ist der Supervisor.

Cron·Agent·SQLite

Cleanup-Jobs, die ihren eigenen Ruhestand planen

Das Cleanup-Skript prüft, ob noch etwas zum Aufräumen übrig ist. Wenn das Verzeichnis leer ist, schickt es ein DELETE auf seinen eigenen Cron-Eintrag. Job erledigt, Job verschwunden.

Cron·Files

TLS-Zertifikate ohne SSH-Session erneuern

Wöchentlich per Cron: POST an ein Exec-Skript, das certbot ausführt und das neue Zertifikat per PATCH an den Proxy schickt. Keine Shell-Session, kein Key, kein Jump-Host.

Cron·Exec

Ein wöchentlicher Canary, der versucht, die Produktion zu zerlegen

Sonntag 7 Uhr weckt ein Cron einen Hoody Agent in einem frischen Container gegen einen Snapshot der Produktion. Er fährt die OWASP Top 20 ab, fuzzt die API und schreibt bis 9 Uhr einen Findings-Bericht an eine URL. Container geht in Rente.

Cron·Agent·Browser·Snapshots

Der Hobbyprojekt-Friedhof, den du dir leisten kannst, am Leben zu lassen

Elf halbfertige Side Projects auf Heroku sind elf Dynos zu je 5–7 $. Auf Hoody sind es elf Container auf einer 29-$-Bare-Metal-Box. Idle kostet null, die URL weckt den Container in Millisekunden, und die Schach-Engine, die niemand benutzt, läuft trotzdem.

Containers

Eine Vorschau-Umgebung pro Pull Request, den ganzen Monat

Jeder offene PR bekommt seinen eigenen Klon eines Snapshots. Der Container wacht auf, sobald Reviewer den Link öffnen; idle PRs kosten nichts.

Containers·Snapshots

Ein 12-Produkt-Portfolio von einer einzigen Bare-Metal-Box aus betreiben

Zwölf isolierte Container, jeder ein eigenes SaaS, teilen sich einen 49-$-Server. Die Marge pro Produkt geht von negativ auf richtig schön.

Containers

Schluss mit der Staging-Server-Steuer

Hör auf, ein Duplikat der Produktion zu bezahlen. Snapshot des Prod-Containers, davon bei Bedarf Staging abzweigen, und zurück auf die Disk einfrieren, wenn keiner testet. Drei Umgebungen, eine Maschine, eine Rechnung.

Containers·Snapshots

Vierzig Kundenseiten, eine Miete, ein Dashboard

Jede Kundenseite lebt in ihrem eigenen Container; du rechnest pro Seite ab, du zahlst den Host einmal. Endlich rechnet sich die Mathematik für Agenturen.

Containers·Workspaces

Ersetz die E2B-Rechnung durch das Bare Metal, das du eh schon mietest

Deine Agents mieten keine Compute mehr im Sekundentakt von E2B/Modal/Daytona. Sie nutzen Container auf der Box, die du bereits hast.

Containers·Agent·Exec

Idle-Staging kostet nichts, also wird Staging nicht mehr gelöscht

Staging starb früher, weil es teuer war, es am Leben zu halten. Wenn Idle gratis ist, darf Staging weiterleben — auch das, das ein Teamkollege vor 90 Tagen zuletzt angefasst hat.

Containers·Snapshots

Sandbox pro Kunde im Flotten-Maßstab

Achthundert isolierte Kunden auf drei Bare-Metal-Servern — eine monatliche Pauschalrechnung, kein Meter pro Mandant. Jeder Tenant bekommt einen echten Container mit eigenem Kernel-Namespace, eigenem Dateisystem und eigener URL. Idle-Container kosten nichts zusätzlich zu dem Server, den du eh schon zahlst.

Containers·Snapshots·Exec

Der CI-Cache, der keine S3-Rechnungsposition ist

Cache-Dateien liegen in /files auf der Box, die du eh schon mietest. Worker schicken Tarballs per PUT und GET über HTTP. Kein S3-Bucket, kein Egress, kein dritter Anbieter — die Bytes verlassen die Box nie.

Files·Containers

Fünfzig Demo-Umgebungen für fünfzig Sales Calls

Jeder Interessent bekommt eine echte, isolierte Kopie deines Produkts mit seinen Daten befüllt. Geklont aus einem Snapshot. Eine Woche lang seine.

Containers·Snapshots

Betreibe ein lokales LLM und liefere es an deine ganze Flotte aus

Eine GPU, eine Pipe, fünfzig Consumer

Das Modell läuft genau einmal pro Anfrage

?n=50 fannt dieselben Bytes an fünfzig Reader

Langsame Worker bremsen nur sich selbst

Wofür du nicht mehr bezahlst

Was das ersetzt

Lies die anderen

Sechzig Container auf einem Server

Einen Entwickler mit einem einzigen Link onboarden

API-Endpoints, die on-demand entstehen

Branch-Computer wie Git-Branches

Echtes VS Code auf deinem Handy

KI-Agenten, die andere KI-Agenten starten

Eine Sandbox pro Kunde, automatisch

Aufwachen zu einem fertigen Prototyp

Notfall-Fix für Production vom Telefon aus

Produktions-Logs an eine URL streamen, die jeder per curl lesen kann

Einen Build gleichzeitig an dreißig CI-Worker pushen

Deinem Agent vom Café aus beim Denken zusehen

Teile deinen Bildschirm per URL, nicht per Meeting-Einladung

200 GB zwischen Clouds mit zwei curls verschieben

Schicke einem Teammitglied einen Datenbank-Stand in einer Zeile

LLM-Tokens an alles streamen, was HTTP liest

Ein Fortschrittsbalken, dem dein Chef zusehen kann, ohne mitzumachen

Das Webhook-Fan-out, das du nicht selbst bauen musstest

Ein CI-Cache, der nur aus zwei curl-Befehlen besteht

Drag-and-Drop-Uploads in dein Skript

Einen Workshop an 200 Zuschauer vom Laptop aus broadcasten

Inter-Container-IPC ohne Message Broker

Im Zug deinen Agent tailen, gepingt werden, wenn er ankommt

Ein Mikrofon über HTTP, in zwei Terminals

Fünf Agenten, fünf Pipes, ein Urteil

Spiel den Vorfall von heute Morgen für das ganze Team noch einmal ab

Das schnellste „schick mir die Datei“, das du je getippt hast

Ein Live-Metriken-Dashboard ganz ohne Metrik-Backend

Der Cron-Job, der sich selbst löscht, wenn du fertig bist

Snapshote den Container direkt vor der nächtlichen Migration

Eine eigene Crontab für jeden Kunden, automatisch

Einen Agent um 3 Uhr wecken, ihn um 4 Uhr verabschieden

Daily Rollups ohne Orchestrator

Eine crontab pro Branch, mit dem Code deployt

On-Call-Eskalation, die mit der Schicht abläuft

Stündlicher Scrape, tägliches Digest, wöchentliches Archiv — ein Container

Lass deine Kunden ihren eigenen Cron-Zeitplan mitbringen

Plane den Agenten, nicht das Skript

Ein Heartbeat für die stillen Jobs

Behalte die letzten 24 Stunden als 24 Snapshots

Spiele die Webhooks von heute Morgen morgen zur gleichen Zeit erneut ab

Bearbeite deine Crontab vom Handy aus, am Flughafen

Ein geplanter Digest, der an 200 Postfächer fan-outet

Den flakigen Job stummschalten, ohne ihn zu verlieren

Ein Agent, der die Agenten von gestern benotet

Cleanup-Jobs, die ihren eigenen Ruhestand planen

TLS-Zertifikate ohne SSH-Session erneuern

Ein wöchentlicher Canary, der versucht, die Produktion zu zerlegen

Der Hobbyprojekt-Friedhof, den du dir leisten kannst, am Leben zu lassen

Eine Vorschau-Umgebung pro Pull Request, den ganzen Monat

Ein 12-Produkt-Portfolio von einer einzigen Bare-Metal-Box aus betreiben

Schluss mit der Staging-Server-Steuer

Vierzig Kundenseiten, eine Miete, ein Dashboard

Ersetz die E2B-Rechnung durch das Bare Metal, das du eh schon mietest

Idle-Staging kostet nichts, also wird Staging nicht mehr gelöscht

Sandbox pro Kunde im Flotten-Maßstab

Der CI-Cache, der keine S3-Rechnungsposition ist

Fünfzig Demo-Umgebungen für fünfzig Sales Calls