Stable Audio 2.0

Stability AI · Audio Generation

POST /v1/audio/generations

텍스트 프롬프트에서 최대 3분의 오디오를 생성하며, 가능한 시간, 스텝, CFG 스케일과 함께 text-to-audio 및 audio-to-audio을 지원합니다.

한눈에

필드	가치
모델 ID	`stable-audio-2-0`
모델 출시일	2024-04-03
입력 양상	본문
출력 방식	오디오
컨텍스트 윈도우	-
무게 정밀도	-
특징	music_generation, text_to_audio, sound_effects
원주민 추론	아니
신규	아니
지원되는 엔드포인트	`POST /v1/audio/generations`

가격

돌격	사양	요금
기본 비용	세대당	$0.58
단계당 비용	한 걸음당	$0.00

예시 요청

$ curl https://api.empiriolabs.ai/v1/audio/generations \
>   -H 'Authorization: Bearer $EMPIRIOLABS_API_KEY' \
>   -H 'Content-Type: application/json' \
>   -d '{"model": "stable-audio-2-0", "prompt": "warm jazz piano", "duration": 8}'

매개변수

매개변수	유형	필수	기본 설정	설명
`prompt`	스트링	네	-	무엇을 생성할지. 장르, 악기, 분위기, 템포에 대해 구체적으로 말하세요.
`mode`	열거	아니	`"text-to-audio"`	text-to-audio: 프롬프트에서만 생성하세요. audio-to-audio: 참고 영상에 대한 조건. · 허용: `text-to-audio`, `audio-to-audio`
`output_format`	열거	아니	`"mp3"`	출력 미디어 파일 형식(엔드포인트에 따라 mp3, wav, mp4, png, jpg 등)을 선택할 수 있습니다. · 허용: `mp3`, `wav`
`duration`	번호	아니	`190`	몇 초. Stability Audio 2.0은 최대 3분 10초를 생성합니다. · 범위: 1 – 190
`steps`	번호	아니	`50`	확산 단계. More = 더 높은 정확도, 느리게(그리고 한 걸음당 크레딧이 추가됨). · 사거리: 30 – 100
`cfg_scale`	번호	아니	`7`	분류기 없는 안내. 더 높은 = 프롬프트를 더 엄격하게 따르는 것. · 사거리: 1 – 25
`strength`	번호	아니	`1`	오디오-오디오만 가능합니다. 0 = 참조 무시, 1 = 참조 근처에 머무르기. · 사거리: 0 – 1
`random_seed`	불리언	아니	맞아요	만약 맞다면, 매번 무작위 시드를 사용하세요.
`seed`	번호	아니	-	재현성 시드. random_seed=false 때만 사용됩니다.
`audio_url`	스트링	아니	-	audio-to-audio 모드에 대한 오디오 URL을 참고하세요.

주석

텍스트 또는 audio-to-audio 변환을 통해 최대 3분의 오디오를 생성합니다.

오디오-오디오 모드

프롬프트와 업로드된 오디오 파일 모두가 필요합니다
권장 CFG 스케일: 7-15
권장 단계: 6-8
일반적인 강도: 0.3-0.7

Machine-읽기 가능한 스키마: GET https://api.empiriolabs.ai/v1/models/stable-audio-2-0.