Whisper Large v3 Turbo

Whisper Large v3 Turbo
OpenAI · Transcription
POST /v1/audio/transcriptions

बहुभाषी एएसआर, अनुवाद, वीएडी, टाइमस्टैम्प, उपशीर्षक, हॉटवर्ड्स और डिकोडर नियंत्रणों के साथ नियंत्रित स्व-होस्टेड Whisper Large v3 Turbo ट्रांसक्रिप्शन उजागर हुआ।

एक नजर में

फ़ील्डमूल्य
मॉडल आईडीwhisper-large-v3-turbo
मॉडल रिलीज की तारीख2024-10-01
इनपुट तौर-तरीकेऑडियो
आउटपुट के तौर-तरीकेटेक्स्ट
संदर्भ विंडो-
वजन परिशुद्धताएफपी16
सुविधाऐंट्रांसक्रिप्शन, अनुवाद, बहुभाषी, word_timestamps, हॉटवर्ड्स, srt_vtt
मूल अनुमानहाँ
नयाहाँ
समर्थित समापन बिंदुPOST /v1/audio/transcriptions

मूल्य निर्धारण

आवेशित करनायुक्तिदर
नियंत्रित प्रतिलेखनप्रति मिनट ऑडियो$0.005 ($0.006 था)

उदाहरण अनुरोध

$curl https://api.empiriolabs.ai/v1/audio/transcriptions \
> -H 'Authorization: Bearer $EMPIRIOLABS_API_KEY' \
> -F model=whisper-large-v3-turbo \
> -F file=@meeting.mp3

पैरामीटर

प्राचलप्रकारआवश्यकडिफ़ॉल्टया क़िस्‍म
audio_urlतारनहीं-ट्रांसक्राइब करने के लिए ऑडियो फ़ाइल का URL. audio_base64 के साथ पारस्परिक रूप से अनन्य।
audio_base64तारनहीं-Base64-एन्कोडेड ऑडियो बाइट्स। audio_url के साथ पारस्परिक रूप से अनन्य।
audio_suffixतारनहीं".audio"फ़ाइल एक्सटेंशन संकेत (mp3, wav, m4a, आदि) जब ऑडियो स्रोत में कोई पहचानने योग्य एक्सटेंशन नहीं होता है।
languageतारनहीं-आईएसओ 639-1 भाषा कोड (एन, ईएस, एफआर, आदि)। ऑटो-डिटेक्शन के लिए खाली छोड़ दें।
taskएनमनहीं"transcribe"ट्रांसक्राइब = एक ही भाषा, अनुवाद = अंग्रेजी में अनुवाद करें। · अनुमति: transcribe, translate
beam_sizeपूर्ण संख्‍यानहीं5बीम खोज चौड़ाई। उच्च = अधिक सटीक लेकिन धीमा। · रेंज: 1 - 32
best_ofपूर्ण संख्‍यानहीं5तापमान के साथ नमूना लेने वाले उम्मीदवारों की संख्या > 0. · रेंज: 1 - 32
patienceसंख्यानहीं1.0बीम खोज धैर्य कारक। उच्च = अधिक उम्मीदवारों का अन्वेषण करें। · रेंज: 0.0 - 10.0
length_penaltyसंख्यानहीं1.0लंबी प्रतिलेखों पर जुर्माना लागू होता है। नकारात्मक कम आउटपुट को प्रोत्साहित करता है। · रेंज: -10.0 - 10.0
repetition_penaltyसंख्यानहीं1.0टोकन दोहराने के लिए जुर्माना। >1 दोहराव को कम करता है। · रेंज: 0.1 - 5.0
no_repeat_ngram_sizeपूर्ण संख्‍यानहीं0इस आकार के किसी भी एन-ग्राम को आउटपुट में दोहराने से रोकें। · रेंज: 0 - 20
temperatureतारनहीं"0,0.2,0.4,0.6,0.8,1"नमूना तापमान। 0 = नियतात्मक, उच्च = अधिक भिन्नता।
compression_ratio_thresholdसंख्यानहीं2.4इसके ऊपर संपीड़न अनुपात के साथ आउटपुट को विफल मानें और पुनः प्रयास करें।
log_prob_thresholdसंख्यानहीं-1.0इसके नीचे औसत लॉग-प्रोब वाले खंडों को विफल मानें और पुनः प्रयास करें।
no_speech_thresholdसंख्यानहीं0.6एक खंड को साइलेंट के रूप में चिह्नित करें जब नो-स्पीच प्रायिकता इस OR से अधिक हो और लॉग-प्रोब थ्रेशोल्ड से नीचे हो।
condition_on_previous_textबूलियननहींसचअगले खंड के लिए कंडीशनिंग के रूप में पूर्व प्रतिलेख का उपयोग करें।
prompt_reset_on_temperatureसंख्यानहीं0.5पुन: प्रयास के दौरान तापमान वापस गिरने पर कंडीशनिंग प्रॉम्प्ट को रीसेट करें। · रेंज: 0.0 - 1.0
initial_promptतारनहीं-शब्दावली और शैली का मार्गदर्शन करने के लिए प्रारंभिक पाठ संकेत।
prefixतारनहीं-पहले खंड की प्रतिलेख को प्रस्तुत करने के लिए पाठ।
suppress_blankबूलियननहींसचप्रत्येक खंड की शुरुआत में खाली आउटपुट दबाएं।
suppress_tokensतारनहीं"-1"डिकोडिंग के दौरान दबाने के लिए अल्पविराम से अलग टोकन आईडी।
without_timestampsबूलियननहींगलतप्रतिक्रिया से प्रति-खंड टाइमस्टैम्प को हटा दें।
word_timestampsबूलियननहींगलतप्रतिक्रिया में प्रति-शब्द टाइमस्टैम्प शामिल करें।
prepend_punctuationsतारनहीं-विराम चिह्न वर्ण निम्न शब्द के साथ मर्ज करने के लिए।
append_punctuationsतारनहीं-पिछले शब्द के साथ मर्ज करने के लिए विराम चिह्न।
max_initial_timestampसंख्यानहीं1.0पहले खंड के प्रारंभ समय को इतने सेकंड तक सीमित करें। · रेंज: 0.0 - 30.0
multilingualबूलियननहींगलतएकल ऑडियो फ़ाइल के भीतर भाषा स्विच करने की अनुमति दें।
vad_filterबूलियननहींसचडिकोडिंग से पहले चुप्पी हटाने के लिए सिलेरो वीएडी लागू करें।
vad_parametersवस्तुनहीं-VAD कॉन्फ़िगरेशन JSON (थ्रेशोल्ड, min_speech_duration_ms, आदि) के रूप में।
max_new_tokensपूर्ण संख्‍यानहीं-प्रति खंड डिकोड किए गए टोकन पर कैप।
chunk_lengthपूर्ण संख्‍यानहीं-डिकोड करने से पहले सेकंड में प्रत्येक ऑडियो चंक की लंबाई।
clip_timestampsतारनहीं"0"केवल इन (प्रारंभ, अंत) दूसरी श्रेणियों के भीतर डिकोड करें। प्रारूप: “0.5,12.3,15.0,30.0”।
hallucination_silence_thresholdसंख्यानहीं-इस कई सेकंड से ऊपर के लंबे मौन वर्गों को मतिभ्रम के रूप में मानें और उन्हें छोड़ दें।
hotwordsतारनहीं-अल्पविराम से अलग किए गए हॉटवर्ड्स पूर्वाग्रह डिकोडिंग (उचित संज्ञा, शब्दजाल) के लिए।
language_detection_thresholdसंख्यानहीं0.5ऑटो भाषा का पता लगाने के लिए आत्मविश्वास सीमा।
language_detection_segmentsपूर्ण संख्‍यानहीं1भाषा का पता लगाने के लिए उपयोग किए जाने वाले प्रमुख खंडों की संख्या। · रेंज: 1 - 20
include_tokensबूलियननहींगलतप्रत्येक word/segment के साथ कच्चे टोकन आईडी शामिल करें।
response_formatएनमनहीं"verbose_json"जेसन | verbose_json | टेक्स्ट| एसआरटी | वीटीटी। · अनुमति: verbose_json, json, text, srt, vtt

टिप्पणियाँ

URL/base64 ऑडियो, language/task, बीम और तापमान फ़ॉलबैक नियंत्रण, VAD/chunking, हॉटवर्ड, प्रॉम्प्ट, वर्ड टाइमस्टैम्प, विराम चिह्न नियंत्रण, टोकन डीबग आउटपुट और JSON/text/SRT/VTT प्रारूपों का समर्थन करता है।


Machine-पठनीय स्कीमा: GET https://api.empiriolabs.ai/v1/models/whisper-large-v3-turbo