Whisper Large v3 Turbo

Whisper Large v3 Turbo
OpenAI · Transcription
POST /v1/audio/transcriptions

تم التحكم في النسخ Whisper Large v3 Turbo المستضاف ذاتيا مع كشف ASR متعدد اللغات، والترجمة، وVAD، والطوابع الزمنية، والترجمة، والكلمات الساخنة، وعناصر فك الترميز.

في لمحة

الميدانالقيمة
النموذجwhisper-large-v3-turbo
تاريخ الإفراج النموذجي2024-10-01
طرائق المدخلاتAudio
طرائق النواتجالنص
نافذة السياق-
دقة الوزنFP16
المعالمالتدوين والترجمة واللغات والكلمات
Native inferenceنعم
جديدةنعم
نقاط النهاية المدعومةPOST /v1/audio/transcriptions

الطباعة

الرسمSpecالمعدل
الوصف المراقبكل دقيقة من الصوت$0.005 (كان $0.006)

طلب مثال

$curl https://api.empiriolabs.ai/v1/audio/transcriptions \
> -H 'Authorization: Bearer $EMPIRIOLABS_API_KEY' \
> -F model=whisper-large-v3-turbo \
> -F file=@meeting.mp3

البارامترات

البارامتراتالنوعالمطلوبةالتقصيرالوصف
audio_urlسلسلةلا-URL من الملف الصوتي لترجمة. حصرياً بالصوت
audio_base64سلسلةلا-أجهزة صوتية مدمجة حصرياً بالصوت
audio_suffixسلسلةلا".audio"File extension hint (mp3, wav, m4a, etc.) when the audio source has no recognizable extension.
languageسلسلةلا-ISO 639-1 language code (en, es, fr, etc.). إتركْ فارغاً للكشفِ الآليِ.
taskenumلا"transcribe"الترجمة = نفس اللغة، translate = ترجمة إلى الإنجليزية. · مسموح: transcribe، translate
beam_sizeintegerلا5(بيام) أعلى = أكثر دقة ولكن أبطأ. الرنج: 1 - 32
best_ofintegerلا5عدد المرشحين للعينة التي تحمل درجة حرارة > 0. · Range: 1 - 32
patienceالعددلا1.0عامل صبر البحث أعلى = استكشاف المزيد من المرشحين. الرنج: 0.0 - 10.0
length_penaltyالعددلا1.0وتطبق العقوبات على النصوص الأطول. ويشجع الرفض على تحقيق ناتج أقصر. الرنج: - ١,٠ - ١٠,٠
repetition_penaltyالعددلا1.0جزاء لتكرار الخنازير > 1 يخفض التكرار. الرنج: 0.1 - 5.0
no_repeat_ngram_sizeintegerلا0حجب أي غرام من هذا الحجم من تكرار الناتج. الرنج: صفر - 20
temperatureسلسلةلا"0,0.2,0.4,0.6,0.8,1"درجة حرارة أخذ العينات صفر = محدد، أعلى = أكثر تفاوتا.
compression_ratio_thresholdالعددلا2.4معالجة الناتج مع نسبة الضغط أعلى من ذلك على أنه فشل وتراجع.
log_prob_thresholdالعددلا-1.0معالجة الأجزاء التي يقل فيها متوسط مساحتها عن هذا، على أنها فشلت وعودة.
no_speech_thresholdالعددلا0.6(أ) أن يُعلّم جزءاً صامتاً عندما يتجاوز احتمال عدم التكرار هذا الحد، ويكون حظر الدخول أقل من العتبة.
condition_on_previous_textbooleanلاصحيحUse prior transcript as conditioning for the next segment.
prompt_reset_on_temperatureالعددلا0.5أعيدوا التكييف بسرعة عندما تتراجع درجة الحرارة أثناء العودة الرنج: 0.0 - 1.0
initial_promptسلسلةلا-النص الأوّلي يُوجّهُ إلى المُشَاهِدَة والأسلوبِ.
prefixسلسلةلا-نص لتحضير محاضرة الجزء الأول
suppress_blankbooleanلاصحيحقمع النواتج الفارغة في بداية كل جزء.
suppress_tokensسلسلةلا"-1"الهويات المُنفصلة عن الإتصالات لقمعها أثناء التزيين
without_timestampsbooleanلاكاذبأزمنة قطاعية من الجزء الواحد من الرد
word_timestampsbooleanلاكاذبInclude per-word timestamps in the response.
prepend_punctuationsسلسلةلا-شخصيات التصويب للدمج مع الكلمة التالية
append_punctuationsسلسلةلا-شخصيات التصويب للدمج مع الكلمة السابقة
max_initial_timestampالعددلا1.0إكسب الجزء الأول من الوقت لهذه الثواني العديدة الرنج: 0.0 - 30.0
multilingualbooleanلاكاذبالسماح بتغيير اللغة في ملف صوتي واحد.
vad_filterbooleanلاصحيحتطبيق سيليرو VAD لإزالة الصمت قبل التزيين.
vad_parametersالجسملا-VAD form as JSON (threshold, min_speech_duration_ms, etc.).
max_new_tokensintegerلا-نُصبحُ على مَكْناتِ مَنْ كل جزء.
chunk_lengthintegerلا-طول كل قطعة صوتية في ثوان قبل التزيين
clip_timestampsسلسلةلا"0"فقط الشفرات داخل هذه النطاقات الثانية (البداية، النهاية). Format: “0.5,12.3,15.0,30.0”
hallucination_silence_thresholdالعددلا-عالج الأجزاء الصامتة الطويلة فوق هذه الثواني الكثيرة كالهلوسة وتركها
hotwordsسلسلةلا-الكلمات الساخنة المنفصلة عن البيانات إلى التحيز ضد التزيينات (النوون الصالحة، الجارجون).
language_detection_thresholdالعددلا0.5عتبة الثقة لكشف اللغة الآلية.
language_detection_segmentsintegerلا1Number of leading segments to use for language detection. الرنج: 1 - 20
include_tokensbooleanلاكاذبأضف معرفات الرموز الخام مع كل word/segment.
response_formatenumلا"verbose_json"Json

الحواشي

يدعم URL/base64 الصوت، language/task، التحكم في الشعاع ودرجة الحرارة، VAD/chunking، الكلمات الساخنة، المحفزات، طوابع الكلمات، التحكم في علامات الترقيم، إخراج تصحيح الرموز، وصيغ JSON/text/SRT/VTT.


مخطط Machine قابل للقراءة: GET https://api.empiriolabs.ai/v1/models/whisper-large-v3-turbo.