Whisper Large v3 Turbo | EmpirioLabs AI Docs

OpenAI · Transcription

POST /v1/audio/transcriptions

تم التحكم في النسخ Whisper Large v3 Turbo المستضاف ذاتيا مع كشف ASR متعدد اللغات، والترجمة، وVAD، والطوابع الزمنية، والترجمة، والكلمات الساخنة، وعناصر فك الترميز.

في لمحة

الميدان	القيمة
النموذج	`whisper-large-v3-turbo`
تاريخ الإفراج النموذجي	2024-10-01
طرائق المدخلات	Audio
طرائق النواتج	النص
نافذة السياق	-
دقة الوزن	FP16
المعالم	التدوين والترجمة واللغات والكلمات
Native inference	نعم
جديدة	نعم
نقاط النهاية المدعومة	`POST /v1/audio/transcriptions`

الطباعة

الرسم	Spec	المعدل
الوصف المراقب	كل دقيقة من الصوت	$0.005 (كان $0.006)

طلب مثال

$ curl https://api.empiriolabs.ai/v1/audio/transcriptions \
>   -H 'Authorization: Bearer $EMPIRIOLABS_API_KEY' \
>   -F model=whisper-large-v3-turbo \
>   -F file=@meeting.mp3

البارامترات

البارامترات	النوع	المطلوبة	التقصير	الوصف
`audio_url`	سلسلة	لا	-	URL من الملف الصوتي لترجمة. حصرياً بالصوت
`audio_base64`	سلسلة	لا	-	أجهزة صوتية مدمجة حصرياً بالصوت
`audio_suffix`	سلسلة	لا	`".audio"`	File extension hint (mp3, wav, m4a, etc.) when the audio source has no recognizable extension.
`language`	سلسلة	لا	-	ISO 639-1 language code (en, es, fr, etc.). إتركْ فارغاً للكشفِ الآليِ.
`task`	enum	لا	`"transcribe"`	الترجمة = نفس اللغة، translate = ترجمة إلى الإنجليزية. · مسموح: `transcribe`، `translate`
`beam_size`	integer	لا	`5`	(بيام) أعلى = أكثر دقة ولكن أبطأ. الرنج: 1 - 32
`best_of`	integer	لا	`5`	عدد المرشحين للعينة التي تحمل درجة حرارة > 0. · Range: 1 - 32
`patience`	العدد	لا	`1.0`	عامل صبر البحث أعلى = استكشاف المزيد من المرشحين. الرنج: 0.0 - 10.0
`length_penalty`	العدد	لا	`1.0`	وتطبق العقوبات على النصوص الأطول. ويشجع الرفض على تحقيق ناتج أقصر. الرنج: - ١,٠ - ١٠,٠
`repetition_penalty`	العدد	لا	`1.0`	جزاء لتكرار الخنازير > 1 يخفض التكرار. الرنج: 0.1 - 5.0
`no_repeat_ngram_size`	integer	لا	`0`	حجب أي غرام من هذا الحجم من تكرار الناتج. الرنج: صفر - 20
`temperature`	سلسلة	لا	`"0,0.2,0.4,0.6,0.8,1"`	درجة حرارة أخذ العينات صفر = محدد، أعلى = أكثر تفاوتا.
`compression_ratio_threshold`	العدد	لا	`2.4`	معالجة الناتج مع نسبة الضغط أعلى من ذلك على أنه فشل وتراجع.
`log_prob_threshold`	العدد	لا	`-1.0`	معالجة الأجزاء التي يقل فيها متوسط مساحتها عن هذا، على أنها فشلت وعودة.
`no_speech_threshold`	العدد	لا	`0.6`	(أ) أن يُعلّم جزءاً صامتاً عندما يتجاوز احتمال عدم التكرار هذا الحد، ويكون حظر الدخول أقل من العتبة.
`condition_on_previous_text`	boolean	لا	صحيح	Use prior transcript as conditioning for the next segment.
`prompt_reset_on_temperature`	العدد	لا	`0.5`	أعيدوا التكييف بسرعة عندما تتراجع درجة الحرارة أثناء العودة الرنج: 0.0 - 1.0
`initial_prompt`	سلسلة	لا	-	النص الأوّلي يُوجّهُ إلى المُشَاهِدَة والأسلوبِ.
`prefix`	سلسلة	لا	-	نص لتحضير محاضرة الجزء الأول
`suppress_blank`	boolean	لا	صحيح	قمع النواتج الفارغة في بداية كل جزء.
`suppress_tokens`	سلسلة	لا	`"-1"`	الهويات المُنفصلة عن الإتصالات لقمعها أثناء التزيين
`without_timestamps`	boolean	لا	كاذب	أزمنة قطاعية من الجزء الواحد من الرد
`word_timestamps`	boolean	لا	كاذب	Include per-word timestamps in the response.
`prepend_punctuations`	سلسلة	لا	-	شخصيات التصويب للدمج مع الكلمة التالية
`append_punctuations`	سلسلة	لا	-	شخصيات التصويب للدمج مع الكلمة السابقة
`max_initial_timestamp`	العدد	لا	`1.0`	إكسب الجزء الأول من الوقت لهذه الثواني العديدة الرنج: 0.0 - 30.0
`multilingual`	boolean	لا	كاذب	السماح بتغيير اللغة في ملف صوتي واحد.
`vad_filter`	boolean	لا	صحيح	تطبيق سيليرو VAD لإزالة الصمت قبل التزيين.
`vad_parameters`	الجسم	لا	-	VAD form as JSON (threshold, min_speech_duration_ms, etc.).
`max_new_tokens`	integer	لا	-	نُصبحُ على مَكْناتِ مَنْ كل جزء.
`chunk_length`	integer	لا	-	طول كل قطعة صوتية في ثوان قبل التزيين
`clip_timestamps`	سلسلة	لا	`"0"`	فقط الشفرات داخل هذه النطاقات الثانية (البداية، النهاية). Format: “0.5,12.3,15.0,30.0”
`hallucination_silence_threshold`	العدد	لا	-	عالج الأجزاء الصامتة الطويلة فوق هذه الثواني الكثيرة كالهلوسة وتركها
`hotwords`	سلسلة	لا	-	الكلمات الساخنة المنفصلة عن البيانات إلى التحيز ضد التزيينات (النوون الصالحة، الجارجون).
`language_detection_threshold`	العدد	لا	`0.5`	عتبة الثقة لكشف اللغة الآلية.
`language_detection_segments`	integer	لا	`1`	Number of leading segments to use for language detection. الرنج: 1 - 20
`include_tokens`	boolean	لا	كاذب	أضف معرفات الرموز الخام مع كل word/segment.
`response_format`	enum	لا	`"verbose_json"`	Json

الحواشي

يدعم URL/base64 الصوت، language/task، التحكم في الشعاع ودرجة الحرارة، VAD/chunking، الكلمات الساخنة، المحفزات، طوابع الكلمات، التحكم في علامات الترقيم، إخراج تصحيح الرموز، وصيغ JSON/text/SRT/VTT.

مخطط Machine قابل للقراءة: GET https://api.empiriolabs.ai/v1/models/whisper-large-v3-turbo.