Whisper Large v3 Turbo

OpenAI · Transcription
POST /v1/audio/transcriptionsتم التحكم في النسخ Whisper Large v3 Turbo المستضاف ذاتيا مع كشف ASR متعدد اللغات، والترجمة، وVAD، والطوابع الزمنية، والترجمة، والكلمات الساخنة، وعناصر فك الترميز.
في لمحة
| الميدان | القيمة |
|---|---|
| النموذج | whisper-large-v3-turbo |
| تاريخ الإفراج النموذجي | 2024-10-01 |
| طرائق المدخلات | Audio |
| طرائق النواتج | النص |
| نافذة السياق | - |
| دقة الوزن | FP16 |
| المعالم | التدوين والترجمة واللغات والكلمات |
| Native inference | نعم |
| جديدة | نعم |
| نقاط النهاية المدعومة | POST /v1/audio/transcriptions |
الطباعة
| الرسم | Spec | المعدل |
|---|---|---|
| الوصف المراقب | كل دقيقة من الصوت | $0.005 (كان $0.006) |
طلب مثال
$ curl https://api.empiriolabs.ai/v1/audio/transcriptions \ > -H 'Authorization: Bearer $EMPIRIOLABS_API_KEY' \ > -F model=whisper-large-v3-turbo \ > -F file=@meeting.mp3
البارامترات
| البارامترات | النوع | المطلوبة | التقصير | الوصف |
|---|---|---|---|---|
audio_url | سلسلة | لا | - | URL من الملف الصوتي لترجمة. حصرياً بالصوت |
audio_base64 | سلسلة | لا | - | أجهزة صوتية مدمجة حصرياً بالصوت |
audio_suffix | سلسلة | لا | ".audio" | File extension hint (mp3, wav, m4a, etc.) when the audio source has no recognizable extension. |
language | سلسلة | لا | - | ISO 639-1 language code (en, es, fr, etc.). إتركْ فارغاً للكشفِ الآليِ. |
task | enum | لا | "transcribe" | الترجمة = نفس اللغة، translate = ترجمة إلى الإنجليزية. · مسموح: transcribe، translate |
beam_size | integer | لا | 5 | (بيام) أعلى = أكثر دقة ولكن أبطأ. الرنج: 1 - 32 |
best_of | integer | لا | 5 | عدد المرشحين للعينة التي تحمل درجة حرارة > 0. · Range: 1 - 32 |
patience | العدد | لا | 1.0 | عامل صبر البحث أعلى = استكشاف المزيد من المرشحين. الرنج: 0.0 - 10.0 |
length_penalty | العدد | لا | 1.0 | وتطبق العقوبات على النصوص الأطول. ويشجع الرفض على تحقيق ناتج أقصر. الرنج: - ١,٠ - ١٠,٠ |
repetition_penalty | العدد | لا | 1.0 | جزاء لتكرار الخنازير > 1 يخفض التكرار. الرنج: 0.1 - 5.0 |
no_repeat_ngram_size | integer | لا | 0 | حجب أي غرام من هذا الحجم من تكرار الناتج. الرنج: صفر - 20 |
temperature | سلسلة | لا | "0,0.2,0.4,0.6,0.8,1" | درجة حرارة أخذ العينات صفر = محدد، أعلى = أكثر تفاوتا. |
compression_ratio_threshold | العدد | لا | 2.4 | معالجة الناتج مع نسبة الضغط أعلى من ذلك على أنه فشل وتراجع. |
log_prob_threshold | العدد | لا | -1.0 | معالجة الأجزاء التي يقل فيها متوسط مساحتها عن هذا، على أنها فشلت وعودة. |
no_speech_threshold | العدد | لا | 0.6 | (أ) أن يُعلّم جزءاً صامتاً عندما يتجاوز احتمال عدم التكرار هذا الحد، ويكون حظر الدخول أقل من العتبة. |
condition_on_previous_text | boolean | لا | صحيح | Use prior transcript as conditioning for the next segment. |
prompt_reset_on_temperature | العدد | لا | 0.5 | أعيدوا التكييف بسرعة عندما تتراجع درجة الحرارة أثناء العودة الرنج: 0.0 - 1.0 |
initial_prompt | سلسلة | لا | - | النص الأوّلي يُوجّهُ إلى المُشَاهِدَة والأسلوبِ. |
prefix | سلسلة | لا | - | نص لتحضير محاضرة الجزء الأول |
suppress_blank | boolean | لا | صحيح | قمع النواتج الفارغة في بداية كل جزء. |
suppress_tokens | سلسلة | لا | "-1" | الهويات المُنفصلة عن الإتصالات لقمعها أثناء التزيين |
without_timestamps | boolean | لا | كاذب | أزمنة قطاعية من الجزء الواحد من الرد |
word_timestamps | boolean | لا | كاذب | Include per-word timestamps in the response. |
prepend_punctuations | سلسلة | لا | - | شخصيات التصويب للدمج مع الكلمة التالية |
append_punctuations | سلسلة | لا | - | شخصيات التصويب للدمج مع الكلمة السابقة |
max_initial_timestamp | العدد | لا | 1.0 | إكسب الجزء الأول من الوقت لهذه الثواني العديدة الرنج: 0.0 - 30.0 |
multilingual | boolean | لا | كاذب | السماح بتغيير اللغة في ملف صوتي واحد. |
vad_filter | boolean | لا | صحيح | تطبيق سيليرو VAD لإزالة الصمت قبل التزيين. |
vad_parameters | الجسم | لا | - | VAD form as JSON (threshold, min_speech_duration_ms, etc.). |
max_new_tokens | integer | لا | - | نُصبحُ على مَكْناتِ مَنْ كل جزء. |
chunk_length | integer | لا | - | طول كل قطعة صوتية في ثوان قبل التزيين |
clip_timestamps | سلسلة | لا | "0" | فقط الشفرات داخل هذه النطاقات الثانية (البداية، النهاية). Format: “0.5,12.3,15.0,30.0” |
hallucination_silence_threshold | العدد | لا | - | عالج الأجزاء الصامتة الطويلة فوق هذه الثواني الكثيرة كالهلوسة وتركها |
hotwords | سلسلة | لا | - | الكلمات الساخنة المنفصلة عن البيانات إلى التحيز ضد التزيينات (النوون الصالحة، الجارجون). |
language_detection_threshold | العدد | لا | 0.5 | عتبة الثقة لكشف اللغة الآلية. |
language_detection_segments | integer | لا | 1 | Number of leading segments to use for language detection. الرنج: 1 - 20 |
include_tokens | boolean | لا | كاذب | أضف معرفات الرموز الخام مع كل word/segment. |
response_format | enum | لا | "verbose_json" | Json |
الحواشي
يدعم URL/base64 الصوت، language/task، التحكم في الشعاع ودرجة الحرارة، VAD/chunking، الكلمات الساخنة، المحفزات، طوابع الكلمات، التحكم في علامات الترقيم، إخراج تصحيح الرموز، وصيغ JSON/text/SRT/VTT.
مخطط Machine قابل للقراءة: GET https://api.empiriolabs.ai/v1/models/whisper-large-v3-turbo.
