Whisper Large v3 Turbo

OpenAI · Transcription
POST /v1/audio/transcriptionsबहुभाषी एएसआर, अनुवाद, वीएडी, टाइमस्टैम्प, उपशीर्षक, हॉटवर्ड्स और डिकोडर नियंत्रणों के साथ नियंत्रित स्व-होस्टेड Whisper Large v3 Turbo ट्रांसक्रिप्शन उजागर हुआ।
एक नजर में
| फ़ील्ड | मूल्य |
|---|---|
| मॉडल आईडी | whisper-large-v3-turbo |
| मॉडल रिलीज की तारीख | 2024-10-01 |
| इनपुट तौर-तरीके | ऑडियो |
| आउटपुट के तौर-तरीके | टेक्स्ट |
| संदर्भ विंडो | - |
| वजन परिशुद्धता | एफपी16 |
| सुविधाऐं | ट्रांसक्रिप्शन, अनुवाद, बहुभाषी, word_timestamps, हॉटवर्ड्स, srt_vtt |
| मूल अनुमान | हाँ |
| नया | हाँ |
| समर्थित समापन बिंदु | POST /v1/audio/transcriptions |
मूल्य निर्धारण
| आवेशित करना | युक्ति | दर |
|---|---|---|
| नियंत्रित प्रतिलेखन | प्रति मिनट ऑडियो | $0.005 ($0.006 था) |
उदाहरण अनुरोध
$ curl https://api.empiriolabs.ai/v1/audio/transcriptions \ > -H 'Authorization: Bearer $EMPIRIOLABS_API_KEY' \ > -F model=whisper-large-v3-turbo \ > -F file=@meeting.mp3
पैरामीटर
| प्राचल | प्रकार | आवश्यक | डिफ़ॉल्ट | या क़िस्म |
|---|---|---|---|---|
audio_url | तार | नहीं | - | ट्रांसक्राइब करने के लिए ऑडियो फ़ाइल का URL. audio_base64 के साथ पारस्परिक रूप से अनन्य। |
audio_base64 | तार | नहीं | - | Base64-एन्कोडेड ऑडियो बाइट्स। audio_url के साथ पारस्परिक रूप से अनन्य। |
audio_suffix | तार | नहीं | ".audio" | फ़ाइल एक्सटेंशन संकेत (mp3, wav, m4a, आदि) जब ऑडियो स्रोत में कोई पहचानने योग्य एक्सटेंशन नहीं होता है। |
language | तार | नहीं | - | आईएसओ 639-1 भाषा कोड (एन, ईएस, एफआर, आदि)। ऑटो-डिटेक्शन के लिए खाली छोड़ दें। |
task | एनम | नहीं | "transcribe" | ट्रांसक्राइब = एक ही भाषा, अनुवाद = अंग्रेजी में अनुवाद करें। · अनुमति: transcribe, translate |
beam_size | पूर्ण संख्या | नहीं | 5 | बीम खोज चौड़ाई। उच्च = अधिक सटीक लेकिन धीमा। · रेंज: 1 - 32 |
best_of | पूर्ण संख्या | नहीं | 5 | तापमान के साथ नमूना लेने वाले उम्मीदवारों की संख्या > 0. · रेंज: 1 - 32 |
patience | संख्या | नहीं | 1.0 | बीम खोज धैर्य कारक। उच्च = अधिक उम्मीदवारों का अन्वेषण करें। · रेंज: 0.0 - 10.0 |
length_penalty | संख्या | नहीं | 1.0 | लंबी प्रतिलेखों पर जुर्माना लागू होता है। नकारात्मक कम आउटपुट को प्रोत्साहित करता है। · रेंज: -10.0 - 10.0 |
repetition_penalty | संख्या | नहीं | 1.0 | टोकन दोहराने के लिए जुर्माना। >1 दोहराव को कम करता है। · रेंज: 0.1 - 5.0 |
no_repeat_ngram_size | पूर्ण संख्या | नहीं | 0 | इस आकार के किसी भी एन-ग्राम को आउटपुट में दोहराने से रोकें। · रेंज: 0 - 20 |
temperature | तार | नहीं | "0,0.2,0.4,0.6,0.8,1" | नमूना तापमान। 0 = नियतात्मक, उच्च = अधिक भिन्नता। |
compression_ratio_threshold | संख्या | नहीं | 2.4 | इसके ऊपर संपीड़न अनुपात के साथ आउटपुट को विफल मानें और पुनः प्रयास करें। |
log_prob_threshold | संख्या | नहीं | -1.0 | इसके नीचे औसत लॉग-प्रोब वाले खंडों को विफल मानें और पुनः प्रयास करें। |
no_speech_threshold | संख्या | नहीं | 0.6 | एक खंड को साइलेंट के रूप में चिह्नित करें जब नो-स्पीच प्रायिकता इस OR से अधिक हो और लॉग-प्रोब थ्रेशोल्ड से नीचे हो। |
condition_on_previous_text | बूलियन | नहीं | सच | अगले खंड के लिए कंडीशनिंग के रूप में पूर्व प्रतिलेख का उपयोग करें। |
prompt_reset_on_temperature | संख्या | नहीं | 0.5 | पुन: प्रयास के दौरान तापमान वापस गिरने पर कंडीशनिंग प्रॉम्प्ट को रीसेट करें। · रेंज: 0.0 - 1.0 |
initial_prompt | तार | नहीं | - | शब्दावली और शैली का मार्गदर्शन करने के लिए प्रारंभिक पाठ संकेत। |
prefix | तार | नहीं | - | पहले खंड की प्रतिलेख को प्रस्तुत करने के लिए पाठ। |
suppress_blank | बूलियन | नहीं | सच | प्रत्येक खंड की शुरुआत में खाली आउटपुट दबाएं। |
suppress_tokens | तार | नहीं | "-1" | डिकोडिंग के दौरान दबाने के लिए अल्पविराम से अलग टोकन आईडी। |
without_timestamps | बूलियन | नहीं | गलत | प्रतिक्रिया से प्रति-खंड टाइमस्टैम्प को हटा दें। |
word_timestamps | बूलियन | नहीं | गलत | प्रतिक्रिया में प्रति-शब्द टाइमस्टैम्प शामिल करें। |
prepend_punctuations | तार | नहीं | - | विराम चिह्न वर्ण निम्न शब्द के साथ मर्ज करने के लिए। |
append_punctuations | तार | नहीं | - | पिछले शब्द के साथ मर्ज करने के लिए विराम चिह्न। |
max_initial_timestamp | संख्या | नहीं | 1.0 | पहले खंड के प्रारंभ समय को इतने सेकंड तक सीमित करें। · रेंज: 0.0 - 30.0 |
multilingual | बूलियन | नहीं | गलत | एकल ऑडियो फ़ाइल के भीतर भाषा स्विच करने की अनुमति दें। |
vad_filter | बूलियन | नहीं | सच | डिकोडिंग से पहले चुप्पी हटाने के लिए सिलेरो वीएडी लागू करें। |
vad_parameters | वस्तु | नहीं | - | VAD कॉन्फ़िगरेशन JSON (थ्रेशोल्ड, min_speech_duration_ms, आदि) के रूप में। |
max_new_tokens | पूर्ण संख्या | नहीं | - | प्रति खंड डिकोड किए गए टोकन पर कैप। |
chunk_length | पूर्ण संख्या | नहीं | - | डिकोड करने से पहले सेकंड में प्रत्येक ऑडियो चंक की लंबाई। |
clip_timestamps | तार | नहीं | "0" | केवल इन (प्रारंभ, अंत) दूसरी श्रेणियों के भीतर डिकोड करें। प्रारूप: “0.5,12.3,15.0,30.0”। |
hallucination_silence_threshold | संख्या | नहीं | - | इस कई सेकंड से ऊपर के लंबे मौन वर्गों को मतिभ्रम के रूप में मानें और उन्हें छोड़ दें। |
hotwords | तार | नहीं | - | अल्पविराम से अलग किए गए हॉटवर्ड्स पूर्वाग्रह डिकोडिंग (उचित संज्ञा, शब्दजाल) के लिए। |
language_detection_threshold | संख्या | नहीं | 0.5 | ऑटो भाषा का पता लगाने के लिए आत्मविश्वास सीमा। |
language_detection_segments | पूर्ण संख्या | नहीं | 1 | भाषा का पता लगाने के लिए उपयोग किए जाने वाले प्रमुख खंडों की संख्या। · रेंज: 1 - 20 |
include_tokens | बूलियन | नहीं | गलत | प्रत्येक word/segment के साथ कच्चे टोकन आईडी शामिल करें। |
response_format | एनम | नहीं | "verbose_json" | जेसन | verbose_json | टेक्स्ट| एसआरटी | वीटीटी। · अनुमति: verbose_json, json, text, srt, vtt |
टिप्पणियाँ
URL/base64 ऑडियो, language/task, बीम और तापमान फ़ॉलबैक नियंत्रण, VAD/chunking, हॉटवर्ड, प्रॉम्प्ट, वर्ड टाइमस्टैम्प, विराम चिह्न नियंत्रण, टोकन डीबग आउटपुट और JSON/text/SRT/VTT प्रारूपों का समर्थन करता है।
Machine-पठनीय स्कीमा: GET https://api.empiriolabs.ai/v1/models/whisper-large-v3-turbo।
