Stable Audio 2.0

Stable Audio 2.0
Stability AI · Audio Generation
POST /v1/audio/generations

يُنتج صوتياً يصل إلى 3 دقائق من عجلات النص، ويدعم text-to-audio و audio-to-audio

في لمحة

الميدانالقيمة
النموذجstable-audio-2-0
تاريخ الإفراج النموذجي2024-04-03
طرائق المدخلاتالنص
طرائق النواتجAudio
نافذة السياق-
دقة الوزن-
المعالمmusic_generation، text_to_audio، sound_effects
Native inferenceلا
جديدةلا
نقاط النهاية المدعومةPOST /v1/audio/generations

الطباعة

الرسمSpecالمعدل
التكلفة الأساسيةلكل جيل$0.58
التكلفةلكل خطوة$0.00

طلب مثال

$curl https://api.empiriolabs.ai/v1/audio/generations \
> -H 'Authorization: Bearer $EMPIRIOLABS_API_KEY' \
> -H 'Content-Type: application/json' \
> -d '{"model": "stable-audio-2-0", "prompt": "warm jazz piano", "duration": 8}'

البارامترات

البارامتراتالنوعالمطلوبةالتقصيرالوصف
promptسلسلةنعم-ماذا يولد كُن مُحدداً بشأن (جينر)، الآلات، المزاج، والمزاج.
modeenumلا"text-to-audio"text-to-audio: توليد فقط من الطلب. audio-to-audio: حالة على مقطع مرجعي. · مسموح: text-to-audio، audio-to-audio
output_formatenumلا"mp3"تنسيق ملف وسائط الإخراج (mp3، wav، mp4، png، jpg، إلخ، حسب نقطة النهاية). · مسموح: mp3، wav
durationالعددلا190ثواني تولد الاستقرار 2 درجة تصل إلى 3 دقائق 10 ثواني الرنج: 1 - 190
stepsالعددلا50خطوات الشدة More = higher fidelity, slower (and adds per-step credits). الرنج: 30 - 100
cfg_scaleالعددلا7إرشادات مجانية أعلى = يتّبع بسرعة أكبر. الرنج: 1 - 25
strengthالعددلا1(أوديو) فقط 0 = تجاهل الإشارة، 1 = البقاء على مقربة من الإشارة. الرنج: صفر - 1
random_seedbooleanلاصحيحإذا كان صحيحا، استخدام البذور عشوائي كل مكالمة.
seedالعددلا-بذور التكاثر فقط إستعمل عندما عشوائي
audio_urlسلسلةلا-المرجع الصوتي URL ل audio-to-audio

الحواشي

يولد ما يصل إلى 3 دقائق من الصوت من النص أو عبر تحويل audio-to-audio.

** Audio-to-audio mode**

  • يتطلب منا ملف صوتي سريع ومرفع
  • الجدول الموصى به لفئة الخدمات العامة: 7-15
  • الخطوات الموصى بها: 6-8
  • القوة النموذجية: 0.3-0.7

مخطط Machine قابل للقراءة: GET https://api.empiriolabs.ai/v1/models/stable-audio-2-0.