Whisper Large v3 Turbo | EmpirioLabs AI Docs

OpenAI · Transcription

POST /v1/audio/transcriptions

बहुभाषी एएसआर, अनुवाद, वीएडी, टाइमस्टैम्प, उपशीर्षक, हॉटवर्ड्स और डिकोडर नियंत्रणों के साथ नियंत्रित स्व-होस्टेड Whisper Large v3 Turbo ट्रांसक्रिप्शन उजागर हुआ।

एक नजर में

फ़ील्ड	मूल्य
मॉडल आईडी	`whisper-large-v3-turbo`
मॉडल रिलीज की तारीख	2024-10-01
इनपुट तौर-तरीके	ऑडियो
आउटपुट के तौर-तरीके	टेक्स्ट
संदर्भ विंडो	-
वजन परिशुद्धता	एफपी16
सुविधाऐं	ट्रांसक्रिप्शन, अनुवाद, बहुभाषी, word_timestamps, हॉटवर्ड्स, srt_vtt
मूल अनुमान	हाँ
नया	हाँ
समर्थित समापन बिंदु	`POST /v1/audio/transcriptions`

मूल्य निर्धारण

आवेशित करना	युक्ति	दर
नियंत्रित प्रतिलेखन	प्रति मिनट ऑडियो	$0.005 ($0.006 था)

उदाहरण अनुरोध

$ curl https://api.empiriolabs.ai/v1/audio/transcriptions \
>   -H 'Authorization: Bearer $EMPIRIOLABS_API_KEY' \
>   -F model=whisper-large-v3-turbo \
>   -F file=@meeting.mp3

पैरामीटर

प्राचल	प्रकार	आवश्यक	डिफ़ॉल्ट	या क़िस्‍म
`audio_url`	तार	नहीं	-	ट्रांसक्राइब करने के लिए ऑडियो फ़ाइल का URL. audio_base64 के साथ पारस्परिक रूप से अनन्य।
`audio_base64`	तार	नहीं	-	Base64-एन्कोडेड ऑडियो बाइट्स। audio_url के साथ पारस्परिक रूप से अनन्य।
`audio_suffix`	तार	नहीं	`".audio"`	फ़ाइल एक्सटेंशन संकेत (mp3, wav, m4a, आदि) जब ऑडियो स्रोत में कोई पहचानने योग्य एक्सटेंशन नहीं होता है।
`language`	तार	नहीं	-	आईएसओ 639-1 भाषा कोड (एन, ईएस, एफआर, आदि)। ऑटो-डिटेक्शन के लिए खाली छोड़ दें।
`task`	एनम	नहीं	`"transcribe"`	ट्रांसक्राइब = एक ही भाषा, अनुवाद = अंग्रेजी में अनुवाद करें। · अनुमति: `transcribe`, `translate`
`beam_size`	पूर्ण संख्‍या	नहीं	`5`	बीम खोज चौड़ाई। उच्च = अधिक सटीक लेकिन धीमा। · रेंज: 1 - 32
`best_of`	पूर्ण संख्‍या	नहीं	`5`	तापमान के साथ नमूना लेने वाले उम्मीदवारों की संख्या > 0. · रेंज: 1 - 32
`patience`	संख्या	नहीं	`1.0`	बीम खोज धैर्य कारक। उच्च = अधिक उम्मीदवारों का अन्वेषण करें। · रेंज: 0.0 - 10.0
`length_penalty`	संख्या	नहीं	`1.0`	लंबी प्रतिलेखों पर जुर्माना लागू होता है। नकारात्मक कम आउटपुट को प्रोत्साहित करता है। · रेंज: -10.0 - 10.0
`repetition_penalty`	संख्या	नहीं	`1.0`	टोकन दोहराने के लिए जुर्माना। >1 दोहराव को कम करता है। · रेंज: 0.1 - 5.0
`no_repeat_ngram_size`	पूर्ण संख्‍या	नहीं	`0`	इस आकार के किसी भी एन-ग्राम को आउटपुट में दोहराने से रोकें। · रेंज: 0 - 20
`temperature`	तार	नहीं	`"0,0.2,0.4,0.6,0.8,1"`	नमूना तापमान। 0 = नियतात्मक, उच्च = अधिक भिन्नता।
`compression_ratio_threshold`	संख्या	नहीं	`2.4`	इसके ऊपर संपीड़न अनुपात के साथ आउटपुट को विफल मानें और पुनः प्रयास करें।
`log_prob_threshold`	संख्या	नहीं	`-1.0`	इसके नीचे औसत लॉग-प्रोब वाले खंडों को विफल मानें और पुनः प्रयास करें।
`no_speech_threshold`	संख्या	नहीं	`0.6`	एक खंड को साइलेंट के रूप में चिह्नित करें जब नो-स्पीच प्रायिकता इस OR से अधिक हो और लॉग-प्रोब थ्रेशोल्ड से नीचे हो।
`condition_on_previous_text`	बूलियन	नहीं	सच	अगले खंड के लिए कंडीशनिंग के रूप में पूर्व प्रतिलेख का उपयोग करें।
`prompt_reset_on_temperature`	संख्या	नहीं	`0.5`	पुन: प्रयास के दौरान तापमान वापस गिरने पर कंडीशनिंग प्रॉम्प्ट को रीसेट करें। · रेंज: 0.0 - 1.0
`initial_prompt`	तार	नहीं	-	शब्दावली और शैली का मार्गदर्शन करने के लिए प्रारंभिक पाठ संकेत।
`prefix`	तार	नहीं	-	पहले खंड की प्रतिलेख को प्रस्तुत करने के लिए पाठ।
`suppress_blank`	बूलियन	नहीं	सच	प्रत्येक खंड की शुरुआत में खाली आउटपुट दबाएं।
`suppress_tokens`	तार	नहीं	`"-1"`	डिकोडिंग के दौरान दबाने के लिए अल्पविराम से अलग टोकन आईडी।
`without_timestamps`	बूलियन	नहीं	गलत	प्रतिक्रिया से प्रति-खंड टाइमस्टैम्प को हटा दें।
`word_timestamps`	बूलियन	नहीं	गलत	प्रतिक्रिया में प्रति-शब्द टाइमस्टैम्प शामिल करें।
`prepend_punctuations`	तार	नहीं	-	विराम चिह्न वर्ण निम्न शब्द के साथ मर्ज करने के लिए।
`append_punctuations`	तार	नहीं	-	पिछले शब्द के साथ मर्ज करने के लिए विराम चिह्न।
`max_initial_timestamp`	संख्या	नहीं	`1.0`	पहले खंड के प्रारंभ समय को इतने सेकंड तक सीमित करें। · रेंज: 0.0 - 30.0
`multilingual`	बूलियन	नहीं	गलत	एकल ऑडियो फ़ाइल के भीतर भाषा स्विच करने की अनुमति दें।
`vad_filter`	बूलियन	नहीं	सच	डिकोडिंग से पहले चुप्पी हटाने के लिए सिलेरो वीएडी लागू करें।
`vad_parameters`	वस्तु	नहीं	-	VAD कॉन्फ़िगरेशन JSON (थ्रेशोल्ड, min_speech_duration_ms, आदि) के रूप में।
`max_new_tokens`	पूर्ण संख्‍या	नहीं	-	प्रति खंड डिकोड किए गए टोकन पर कैप।
`chunk_length`	पूर्ण संख्‍या	नहीं	-	डिकोड करने से पहले सेकंड में प्रत्येक ऑडियो चंक की लंबाई।
`clip_timestamps`	तार	नहीं	`"0"`	केवल इन (प्रारंभ, अंत) दूसरी श्रेणियों के भीतर डिकोड करें। प्रारूप: “0.5,12.3,15.0,30.0”।
`hallucination_silence_threshold`	संख्या	नहीं	-	इस कई सेकंड से ऊपर के लंबे मौन वर्गों को मतिभ्रम के रूप में मानें और उन्हें छोड़ दें।
`hotwords`	तार	नहीं	-	अल्पविराम से अलग किए गए हॉटवर्ड्स पूर्वाग्रह डिकोडिंग (उचित संज्ञा, शब्दजाल) के लिए।
`language_detection_threshold`	संख्या	नहीं	`0.5`	ऑटो भाषा का पता लगाने के लिए आत्मविश्वास सीमा।
`language_detection_segments`	पूर्ण संख्‍या	नहीं	`1`	भाषा का पता लगाने के लिए उपयोग किए जाने वाले प्रमुख खंडों की संख्या। · रेंज: 1 - 20
`include_tokens`	बूलियन	नहीं	गलत	प्रत्येक word/segment के साथ कच्चे टोकन आईडी शामिल करें।
`response_format`	एनम	नहीं	`"verbose_json"`	जेसन \| verbose_json \| टेक्स्ट\| एसआरटी \| वीटीटी। · अनुमति: `verbose_json`, `json`, `text`, `srt`, `vtt`

URL/base64 ऑडियो, language/task, बीम और तापमान फ़ॉलबैक नियंत्रण, VAD/chunking, हॉटवर्ड, प्रॉम्प्ट, वर्ड टाइमस्टैम्प, विराम चिह्न नियंत्रण, टोकन डीबग आउटपुट और JSON/text/SRT/VTT प्रारूपों का समर्थन करता है।

Machine-पठनीय स्कीमा: GET https://api.empiriolabs.ai/v1/models/whisper-large-v3-turbo।

एक नजर में

मूल्य निर्धारण

उदाहरण अनुरोध

पैरामीटर

टिप्पणियाँ