Bajo el capó

Una API que cabe
en una línea.

Sin SDK obligatorio, sin YAML de mil líneas. Empujas un modelo y obtienes un endpoint global. El resto lo resuelve el tejido.

halcyon — deploy
Developer experience

Despliega como haces
git push.

Un comando publica tu modelo en las 38 regiones. El endpoint es global desde el primer segundo y escala a cero cuando nadie lo usa.

  • Endpoint HTTPS global instantáneo
  • Claves y cuotas por equipo
  • Rollback atómico a cualquier versión
  • Métricas y trazas sin configurar nada
Llamada de inferencia

Pides. Responde en 9 ms.

# una petición, enrutada al nodo más cercano
curl https://api.halcyon.dev/v3/infer \
  -H "Authorization: Bearer $HALCYON_KEY" \
  -d '{
       "model": "mi-modelo",
       "input": "Resume el informe Q3",
       "stream": true
     }'

# → primer token en 9 ms · región: mad1
Especificaciones

Lo esencial.

Runtime
WASM aislado + GPU passthrough
Formatos
GGUF · ONNX · safetensors
Protocolos
HTTP/3 · SSE · WebTransport · gRPC
Regiones
38 · expansión continua
Cuantización
fp16 · int8 · int4
Cold-start
0 ms (pesos calientes)
Changelog

Qué hay de nuevo.

  1. v3.4rendimiento27 jun 2026

    Enrutado por afinidad geográfica con caché de pesos L2.

  2. v3.3modelos12 jun 2026

    Soporte para modelos cuantizados int4 con pérdida < 0,5 %.

  3. v3.2api28 may 2026

    Streaming de tokens vía Server-Sent Events y WebTransport.

  4. v3.1infra09 may 2026

    Regiones en São Paulo, Bombay y Johannesburgo.