Stable Audio 2.0

Stable Audio 2.0
Stability AI · Audio Generation
POST /v1/audio/generations

Gera áudio de até 3 minutos a partir de prompts de texto, suportando text-to-audio e audio-to-audio com duração, passos e escala CFG ajustáveis.

De um olhar

CampoValor
ID do modelostable-audio-2-0
Data de lançamento do modelo2024-04-03
Modalidades de entradaTexto
Modalidades de saídaÁudio
Janela de contexto-
Precisão do peso-
Característicasmusic_generation, text_to_audio, sound_effects
Inferência nativaNão
NovoNão
Endpoints suportadosPOST /v1/audio/generations

Precificação

CargaEspecificaçãoTaxa
Custo Basepor geração$0.58
Custo por Passopor passo$0.00

Exemplo de pedido

$curl https://api.empiriolabs.ai/v1/audio/generations \
> -H 'Authorization: Bearer $EMPIRIOLABS_API_KEY' \
> -H 'Content-Type: application/json' \
> -d '{"model": "stable-audio-2-0", "prompt": "warm jazz piano", "duration": 8}'

Parâmetros

ParâmetroTipoObrigatórioPadrãoDescrição
promptStringsim-O que gerar. Seja específico sobre gênero, instrumentos, clima e andamento.
modeenumNão"text-to-audio"text-to-audio: gerar apenas a partir do prompt. audio-to-audio: condição em um clipe de referência. · Permitido: text-to-audio, audio-to-audio
output_formatenumNão"mp3"Formato de arquivo de mídia de saída (mp3, wav, mp4, png, jpg, etc., dependendo do endpoint). · Permitido: mp3, wav
durationNúmeroNão190Segundos. Stability Audio 2.0 gera até 3 minutos e 10 segundos. · Alcance: 1 – 190
stepsNúmeroNão50Etapas de difusão. Mais = maior fidelidade, mais lento (e adiciona créditos por passo). · Alcance: 30 – 100
cfg_scaleNúmeroNão7Orientação sem classificadores. Maior = segue o prompt de forma mais rigorosa. · Intervalo: 1 – 25
strengthNúmeroNão1Apenas áudio para áudio. 0 = ignorar referência, 1 = ficar próximo da referência. · Intervalo: 0 – 1
random_seedBooleanoNãoVerdadeSe for verdade, use uma seed aleatória a cada chamada.
seedNúmeroNão-Semente de reprodutibilidade. Usado apenas quando random_seed=falso.
audio_urlStringNão-Consulte a URL de áudio para o modo audio-to-audio.

Notas

Gera até 3 minutos de áudio a partir de texto ou por meio de transformação audio-to-audio.

Modo áudio para áudio

  • Requer TANTO um prompt quanto um arquivo de áudio enviado
  • Escala CFG recomendada: 7-15
  • Passos recomendados: 6-8
  • Força típica: 0,3-0,7

Machine esquema legível: GET https://api.empiriolabs.ai/v1/models/stable-audio-2-0.