Stable Audio 2.5

Stable Audio 2.5
Stability AI · Audio Generation
POST /v1/audio/generations

संगीत उत्पादन, ध्वनि डिजाइन और रीमिक्सिंग के लिए text-to-audio, audio-to-audio और ऑडियो इनपेंटिंग के साथ पाठ से अप-to-3-minute ऑडियो।

एक नजर में

फ़ील्डमूल्य
मॉडल आईडीstable-audio-2-5
मॉडल रिलीज की तारीख2025-09-10
इनपुट तौर-तरीकेटेक्स्ट
आउटपुट के तौर-तरीकेऑडियो
संदर्भ विंडो-
वजन परिशुद्धता-
सुविधाऐंmusic_generation, text_to_audio, sound_effects
मूल अनुमाननहीं
नयानहीं
समर्थित समापन बिंदुPOST /v1/audio/generations

मूल्य निर्धारण

आवेशित करनायुक्तिदर
पीढ़ीप्रति पीढ़ी$0.68

उदाहरण अनुरोध

$curl https://api.empiriolabs.ai/v1/audio/generations \
> -H 'Authorization: Bearer $EMPIRIOLABS_API_KEY' \
> -H 'Content-Type: application/json' \
> -d '{"model": "stable-audio-2-5", "prompt": "warm jazz piano", "duration": 8}'

पैरामीटर

प्राचलप्रकारआवश्यकडिफ़ॉल्टया क़िस्‍म
promptतारहाँ-क्या उत्पन्न करना है।
modeएनमनहीं"text-to-audio"ऑडियो-इनपेंट बाकी को रखते हुए मौजूदा क्लिप की एक [mask_start, mask_end] विंडो को पुन: उत्पन्न करता है। अनुमति: text-to-audio, audio-to-audio, audio-inpaint
output_formatएनमनहीं"mp3"आउटपुट मीडिया फ़ाइल स्वरूप (mp3, wav, mp4, png, jpg, आदि, समापन बिंदु के आधार पर)। · अनुमति: mp3, wav
durationसंख्यानहीं190सेकंड। 3 मिनट 10 सेकंड तक। · रेंज: 1 - 190
stepsसंख्यानहीं8प्रसार चरण। 2.5 टर्बो मॉडल को बहुत कम स्टेप काउंट के लिए ट्यून किया गया है। · रेंज: 4 - 8
cfg_scaleसंख्यानहीं1क्लासिफायर-मुक्त मार्गदर्शन। टर्बो मॉडल डिफ़ॉल्ट रूप से छोटे CFG का उपयोग करता है। · रेंज: 1 - 25
strengthसंख्यानहीं0.5केवल ऑडियो-टू-ऑडियो। 0.01 = संदर्भ पर ध्यान न दें, 1 = संदर्भ के करीब रहें। · रेंज: 0.01 - 1
mask_startसंख्यानहीं-इनपेंट विंडो स्टार्ट (सेकंड)। ऑडियो-इनपेंट के लिए आवश्यक। · रेंज: 0 - 190
mask_endसंख्यानहीं-इनपेंट विंडो एंड (सेकंड)। ऑडियो-इनपेंट के लिए आवश्यक। · रेंज: 0 - 190
random_seedबूलियननहींसचयदि सत्य है, तो प्रत्येक कॉल में एक यादृच्छिक बीज का उपयोग करें।
seedसंख्यानहीं-प्रजनन क्षमता बीज। केवल तभी उपयोग किया जाता है जब random_seed=false।
audio_urlतारनहीं-audio-to-audio/इनपेंट के लिए संदर्भ ऑडियो यूआरएल।

टिप्पणियाँ

स्थिर ऑडियो 2.0 के शीर्ष पर ऑडियो-इनपेंट मोड (एक समय विंडो पुन: उत्पन्न करें) जोड़ता है।

मोड आवश्यकताएँ

  • ऑडियो-टू-ऑडियो और ऑडियो-इनपेंट दोनों के लिए प्रॉम्प्ट और अपलोड की गई ऑडियो फ़ाइल दोनों की आवश्यकता होती है
  • ऑडियो-टू-ऑडियो style/conditioning के लिए संदर्भ ऑडियो का उपयोग करता है, आवाज क्लोनिंग के लिए नहीं

Machine-पठनीय स्कीमा: GET https://api.empiriolabs.ai/v1/models/stable-audio-2-5