
Sessenta contêineres em um servidor
Uma caixa bare-metal executa dezenas a centenas de contêineres Hoody. KSM e BTRFS dedup fazem o custo marginal próximo a zero.
Você está fazendo pair-debug à meia-noite e o hotspot do outro lado não vai aguentar um Zoom. Os dois têm um shell. ffmpeg captura o microfone, curl faz PUT em um caminho de pipe, o outro terminal faz curl e toca os bytes. Sem SDK, sem signaling, sem reunião.
$ ffmpeg -f alsa -i default \
-c:a libopus -f ogg - \
| curl -T - https://pipe.containers.hoody.com/api/v1/pipe/voice$ curl https://pipe.containers.hoody.com/api/v1/pipe/voice
| mpv --no-video -sem signaling, sem SDK, sem Zoom
ffmpeg codifica seu microfone em opus e escreve no stdout. curl faz PUT desse stdin para /api/v1/pipe/voice. Quem fizer GET do mesmo caminho recebe os bytes conforme o remetente os produz. O pipe segura o receptor por até cinco minutos para o remetente conectar, encaminha o Content-Type e não armazena nada.
ffmpeg -f alsa -i default -c:a libopus -f ogg - lê seu microfone, codifica em opus e escreve no stdout.
curl -T - faz PUT do stdin para /api/v1/pipe/voice. O pipe espera até cinco minutos por um receptor no mesmo caminho.
O terminal deles roda curl https://.../api/v1/pipe/voice. O pipe casa remetente com receptor e começa a transmitir.
O curl deles passa por aplay ou mpv. O áudio toca conforme chega, byte por byte. ctrl-C encerra a chamada.
O pipe encaminha Content-Type, suporta hold-time de até cinco minutos antes que uma contraparte conecte e usa HTTPS — nada mais exótico que o protocolo que seu shell já fala.
Não há cancelamento de eco, sem jitter buffer, sem DSP sofisticado. É o tipo de canal de voz que um SRE usa para fazer pair-debug: enxuto, baixo overhead, confiável. Cada camada que uma plataforma de reunião constrói é uma camada que o par de pipes simplesmente não tem.
O mesmo mecanismo de mic-via-HTTP se lê de três formas diferentes dependendo de quem está do outro lado do pipe.
Você está três comandos dentro de um incidente de produção. Subir o Zoom levaria mais tempo que o fix. ffmpeg | curl do seu lado, curl | mpv do deles — você consegue conversar enquanto faz tail nos logs.
Tethering pelo celular engasga numa videochamada. Um stream opus de 32 kbps por HTTP não. O outro lado abre uma URL e escuta — eles nem precisam de microfone para participar.
Nada é armazenado em servidor. Não há app de terceiros em nenhuma das máquinas. O pipe é puramente streaming — bytes passam e somem no momento em que o ctrl-C cai.
Áudio é só bytes. Bytes são só um pipe.
A linha de ferramentas de voz que todo par de engenheiros acumula. Cada uma assume uma reunião, uma conta ou um servidor de signaling custom. A URL do pipe não assume nenhuma dessas.
Da próxima vez que alguém disser 'bora numa call rapidinha', abra um pipe.