Stable Audio 2.0

Stable Audio 2.0
Stability AI · Audio Generation
POST /v1/audio/generations

Genera audio de hasta 3 minutos a partir de indicaciones de texto, soportando text-to-audio y audio-to-audio con duración, pasos y escala CFG ajustables.

A simple vista

CampoValor
ID de modelostable-audio-2-0
Fecha de lanzamiento del modelo2024-04-03
Modalidades de entradaTexto
Modalidades de salidaAudio
Ventana de contexto-
Precisión del peso-
Característicasmusic_generation, text_to_audio, sound_effects
Inferencia nativaNo
NuevoNo
Puntos finales soportadosPOST /v1/audio/generations

Precios

CargaEspecificacionesTarifa
Coste basepor generación$0.58
Coste por pasopor paso$0.00

Solicitud de ejemplo

$curl https://api.empiriolabs.ai/v1/audio/generations \
> -H 'Authorization: Bearer $EMPIRIOLABS_API_KEY' \
> -H 'Content-Type: application/json' \
> -d '{"model": "stable-audio-2-0", "prompt": "warm jazz piano", "duration": 8}'

Parámetros

ParámetroTipoObligatorioDefaultDescripción
promptCuerda-Qué generar. Sé específico sobre el género, los instrumentos, el estado de ánimo y el tempo.
modeenumno"text-to-audio"text-to-audio: generar solo desde el prompt. audio-to-audio: condición en un clip de referencia. · Permitido: text-to-audio, audio-to-audio
output_formatenumno"mp3"Formato de archivo multimedia de salida (mp3, wav, mp4, png, jpg, etc., dependiendo del punto final). · Permitidos: mp3, wav
durationNúmerono190Segundos. Stability Audio 2.0 genera hasta 3 minutos y 10 segundos. · Rango: 1 – 190
stepsNúmerono50Pasos de difusión. Más = mayor fidelidad, más lento (y añade créditos por paso). · Rango: 30 – 100
cfg_scaleNúmerono7Guía sin clasificador. Más alto = sigue el prompt de forma más estricta. · Rango: 1 – 25
strengthNúmerono1Solo audio a audio. 0 = ignorar referencia, 1 = permanecer cerca de la referencia. · Rango: 0 – 1
random_seedBooleanonoCiertoSi es cierto, usa una semilla aleatoria en cada llamada.
seedNúmerono-Semilla de reproducibilidad. Solo se usa cuando random_seed=falso.
audio_urlCuerdano-Consulta la URL de audio para el modo audio-to-audio.

Notas

Genera hasta 3 minutos de audio a partir de texto o mediante transformación audio-to-audio.

Modo de audio a audio

  • Requiere TANTO un prompt como un archivo de audio subido
  • Escala CFG recomendada: 7-15
  • Pasos recomendados: 6-8
  • Fuerza típica: 0,3-0,7

Machine-legible esquema: GET https://api.empiriolabs.ai/v1/models/stable-audio-2-0.