Stable Audio 2.5 | EmpirioLabs AI Docs

Stability AI · Audio Generation

POST /v1/audio/generations

Up-to-3-minute audio de texto con text-to-audio, audio-to-audio e inpainting de audio para producción musical, diseño de sonido y remezclas.

A simple vista

Campo	Valor
ID de modelo	`stable-audio-2-5`
Fecha de lanzamiento del modelo	2025-09-10
Modalidades de entrada	Texto
Modalidades de salida	Audio
Ventana de contexto	-
Precisión del peso	-
Características	music_generation, text_to_audio, sound_effects
Inferencia nativa	No
Nuevo	No
Puntos finales soportados	`POST /v1/audio/generations`

Precios

Carga	Especificaciones	Tarifa
Generación	por generación	$0.68

Solicitud de ejemplo

$ curl https://api.empiriolabs.ai/v1/audio/generations \
>   -H 'Authorization: Bearer $EMPIRIOLABS_API_KEY' \
>   -H 'Content-Type: application/json' \
>   -d '{"model": "stable-audio-2-5", "prompt": "warm jazz piano", "duration": 8}'

Parámetros

Parámetro	Tipo	Obligatorio	Default	Descripción
`prompt`	Cuerda	Sí	-	Qué generar.
`mode`	enum	no	`"text-to-audio"`	Audio-Inpaint regenera una ventana de [mask_start, mask_end] de un clip existente manteniendo el resto. · Permitidos: `text-to-audio`, `audio-to-audio`, `audio-inpaint`
`output_format`	enum	no	`"mp3"`	Formato de archivo multimedia de salida (mp3, wav, mp4, png, jpg, etc., dependiendo del punto final). · Permitidos: `mp3`, `wav`
`duration`	Número	no	`190`	Segundos. Hasta 3 minutos y 10 segundos. · Rango: 1 – 190
`steps`	Número	no	`8`	Pasos de difusión. El modelo turbo 2.5 está ajustado para un número de pasos muy bajo. · Rango: 4 – 8
`cfg_scale`	Número	no	`1`	Guía sin clasificador. El modelo turbo utiliza por defecto un pequeño CFG. · Rango: 1 – 25
`strength`	Número	no	`0.5`	Solo audio a audio. 0,01 = ignorar referencia, 1 = mantenerse cerca de la referencia. · Rango: 0,01 – 1
`mask_start`	Número	no	-	Inicio de ventana de pintura (segundos). Necesario para la entrada de audio. · Rango: 0 – 190
`mask_end`	Número	no	-	Extremo de la ventana de pintura (segundos). Necesario para la entrada de audio. · Rango: 0 – 190
`random_seed`	Booleano	no	Cierto	Si es cierto, usa una semilla aleatoria en cada llamada.
`seed`	Número	no	-	Semilla de reproducibilidad. Solo se usa cuando random_seed=falso.
`audio_url`	Cuerda	no	-	Consulta la URL de audio para audio-to-audio / inpaint.

Notas

Añade el modo audio-inpaint (regenerar una ventana temporal) encima de Stable Audio 2.0.

Requisitos de modo

Audio-to-audio y audio-inpaint requieren AMBOS un prompt y un archivo de audio subido
El audio-a-audio utiliza el audio de referencia para style/conditioning, NO para clonación de voz

Machine-legible esquema: GET https://api.empiriolabs.ai/v1/models/stable-audio-2-5.