Stable Audio 2.5

Stability AI · Audio Generation

POST /v1/audio/generations

음악 제작, 사운드 디자인, 리믹스를 위한 text-to-audio, audio-to-audio, 오디오 인페인팅을 더해 텍스트에서 to-3-minute 오디오 작업을 할 수 있습니다.

한눈에

필드	가치
모델 ID	`stable-audio-2-5`
모델 출시일	2025-09-10
입력 양상	본문
출력 방식	오디오
컨텍스트 윈도우	-
무게 정밀도	-
특징	music_generation, text_to_audio, sound_effects
원주민 추론	아니
신규	아니
지원되는 엔드포인트	`POST /v1/audio/generations`

가격

돌격	사양	요금
생성	세대당	$0.68

예시 요청

$ curl https://api.empiriolabs.ai/v1/audio/generations \
>   -H 'Authorization: Bearer $EMPIRIOLABS_API_KEY' \
>   -H 'Content-Type: application/json' \
>   -d '{"model": "stable-audio-2-5", "prompt": "warm jazz piano", "duration": 8}'

매개변수

매개변수	유형	필수	기본 설정	설명
`prompt`	스트링	네	-	무엇을 생성할지.
`mode`	열거	아니	`"text-to-audio"`	오디오-인페인트는 기존 클립의 [mask_start, mask_end] 창을 재생성하면서 나머지는 유지합니다. · 허용: `text-to-audio`, `audio-to-audio`, `audio-inpaint`
`output_format`	열거	아니	`"mp3"`	출력 미디어 파일 형식(엔드포인트에 따라 mp3, wav, mp4, png, jpg 등)을 선택할 수 있습니다. · 허용: `mp3`, `wav`
`duration`	번호	아니	`190`	몇 초. 최대 3분 10초까지. · 범위: 1 – 190
`steps`	번호	아니	`8`	확산 단계. 2.5 터보 모델은 매우 낮은 스텝 카운트를 위해 튜닝되어 있습니다. · 사거리: 4 – 8
`cfg_scale`	번호	아니	`1`	분류기 없는 안내. 터보 모델은 기본적으로 소형 CFG를 사용합니다. · 사거리: 1 – 25
`strength`	번호	아니	`0.5`	오디오-오디오만 가능합니다. 0.01 = 참조 무시, 1 = 참조 근처에 머무름. · 범위: 0.01 – 1
`mask_start`	번호	아니	-	인페인트 창 시작 (초). 오디오 인페인트에 필수입니다. · 범위: 0 – 190
`mask_end`	번호	아니	-	인페인트 창 끝(초). 오디오 인페인트에 필수입니다. · 범위: 0 – 190
`random_seed`	불리언	아니	맞아요	만약 맞다면, 매번 무작위 시드를 사용하세요.
`seed`	번호	아니	-	재현성 시드. random_seed=false 때만 사용됩니다.
`audio_url`	스트링	아니	-	audio-to-audio / 인페인트 오디오 URL을 참고하세요.

주석

Stable Audio 2.0 위에 audio-inpaint 모드(시간 창 재생성)를 추가합니다.

**모드 요구사항 **

오디오-투-오디오와 오디오-인페인트는 모두 프롬프트와 업로드된 오디오 파일 모두가 필요합니다
오디오-투-오디오는 style/conditioning 위해 참조 오디오를 사용하며, 음성 복제에는 사용하지 않습니다

Machine-읽기 가능한 스키마: GET https://api.empiriolabs.ai/v1/models/stable-audio-2-5.