Stable Audio 2.0

Stable Audio 2.0
Stability AI · Audio Generation
POST /v1/audio/generations

텍스트 프롬프트에서 최대 3분의 오디오를 생성하며, 가능한 시간, 스텝, CFG 스케일과 함께 text-to-audio 및 audio-to-audio을 지원합니다.

한눈에

필드가치
모델 IDstable-audio-2-0
모델 출시일2024-04-03
입력 양상본문
출력 방식오디오
컨텍스트 윈도우-
무게 정밀도-
특징music_generation, text_to_audio, sound_effects
원주민 추론아니
신규아니
지원되는 엔드포인트POST /v1/audio/generations

가격

돌격사양요금
기본 비용세대당$0.58
단계당 비용한 걸음당$0.00

예시 요청

$curl https://api.empiriolabs.ai/v1/audio/generations \
> -H 'Authorization: Bearer $EMPIRIOLABS_API_KEY' \
> -H 'Content-Type: application/json' \
> -d '{"model": "stable-audio-2-0", "prompt": "warm jazz piano", "duration": 8}'

매개변수

매개변수유형필수기본 설정설명
prompt스트링-무엇을 생성할지. 장르, 악기, 분위기, 템포에 대해 구체적으로 말하세요.
mode열거아니"text-to-audio"text-to-audio: 프롬프트에서만 생성하세요. audio-to-audio: 참고 영상에 대한 조건. · 허용: text-to-audio, audio-to-audio
output_format열거아니"mp3"출력 미디어 파일 형식(엔드포인트에 따라 mp3, wav, mp4, png, jpg 등)을 선택할 수 있습니다. · 허용: mp3, wav
duration번호아니190몇 초. Stability Audio 2.0은 최대 3분 10초를 생성합니다. · 범위: 1 – 190
steps번호아니50확산 단계. More = 더 높은 정확도, 느리게(그리고 한 걸음당 크레딧이 추가됨). · 사거리: 30 – 100
cfg_scale번호아니7분류기 없는 안내. 더 높은 = 프롬프트를 더 엄격하게 따르는 것. · 사거리: 1 – 25
strength번호아니1오디오-오디오만 가능합니다. 0 = 참조 무시, 1 = 참조 근처에 머무르기. · 사거리: 0 – 1
random_seed불리언아니맞아요만약 맞다면, 매번 무작위 시드를 사용하세요.
seed번호아니-재현성 시드. random_seed=false 때만 사용됩니다.
audio_url스트링아니-audio-to-audio 모드에 대한 오디오 URL을 참고하세요.

주석

텍스트 또는 audio-to-audio 변환을 통해 최대 3분의 오디오를 생성합니다.

오디오-오디오 모드

  • 프롬프트와 업로드된 오디오 파일 모두가 필요합니다
  • 권장 CFG 스케일: 7-15
  • 권장 단계: 6-8
  • 일반적인 강도: 0.3-0.7

Machine-읽기 가능한 스키마: GET https://api.empiriolabs.ai/v1/models/stable-audio-2-0.