Stable Audio 2.5

Stable Audio 2.5
Stability AI · Audio Generation
POST /v1/audio/generations

음악 제작, 사운드 디자인, 리믹스를 위한 text-to-audio, audio-to-audio, 오디오 인페인팅을 더해 텍스트에서 to-3-minute 오디오 작업을 할 수 있습니다.

한눈에

필드가치
모델 IDstable-audio-2-5
모델 출시일2025-09-10
입력 양상본문
출력 방식오디오
컨텍스트 윈도우-
무게 정밀도-
특징music_generation, text_to_audio, sound_effects
원주민 추론아니
신규아니
지원되는 엔드포인트POST /v1/audio/generations

가격

돌격사양요금
생성세대당$0.68

예시 요청

$curl https://api.empiriolabs.ai/v1/audio/generations \
> -H 'Authorization: Bearer $EMPIRIOLABS_API_KEY' \
> -H 'Content-Type: application/json' \
> -d '{"model": "stable-audio-2-5", "prompt": "warm jazz piano", "duration": 8}'

매개변수

매개변수유형필수기본 설정설명
prompt스트링-무엇을 생성할지.
mode열거아니"text-to-audio"오디오-인페인트는 기존 클립의 [mask_start, mask_end] 창을 재생성하면서 나머지는 유지합니다. · 허용: text-to-audio, audio-to-audio, audio-inpaint
output_format열거아니"mp3"출력 미디어 파일 형식(엔드포인트에 따라 mp3, wav, mp4, png, jpg 등)을 선택할 수 있습니다. · 허용: mp3, wav
duration번호아니190몇 초. 최대 3분 10초까지. · 범위: 1 – 190
steps번호아니8확산 단계. 2.5 터보 모델은 매우 낮은 스텝 카운트를 위해 튜닝되어 있습니다. · 사거리: 4 – 8
cfg_scale번호아니1분류기 없는 안내. 터보 모델은 기본적으로 소형 CFG를 사용합니다. · 사거리: 1 – 25
strength번호아니0.5오디오-오디오만 가능합니다. 0.01 = 참조 무시, 1 = 참조 근처에 머무름. · 범위: 0.01 – 1
mask_start번호아니-인페인트 창 시작 (초). 오디오 인페인트에 필수입니다. · 범위: 0 – 190
mask_end번호아니-인페인트 창 끝(초). 오디오 인페인트에 필수입니다. · 범위: 0 – 190
random_seed불리언아니맞아요만약 맞다면, 매번 무작위 시드를 사용하세요.
seed번호아니-재현성 시드. random_seed=false 때만 사용됩니다.
audio_url스트링아니-audio-to-audio / 인페인트 오디오 URL을 참고하세요.

주석

Stable Audio 2.0 위에 audio-inpaint 모드(시간 창 재생성)를 추가합니다.

**모드 요구사항 **

  • 오디오-투-오디오와 오디오-인페인트는 모두 프롬프트와 업로드된 오디오 파일 모두가 필요합니다
  • 오디오-투-오디오는 style/conditioning 위해 참조 오디오를 사용하며, 음성 복제에는 사용하지 않습니다

Machine-읽기 가능한 스키마: GET https://api.empiriolabs.ai/v1/models/stable-audio-2-5.