Whisper Large v3 Turbo

OpenAI · Transcription
POST /v1/audio/transcriptionsKontrollierte selbstgehostete Whisper Large v3 Turbo-Transkription mit mehrsprachigem ASR, Übersetzung, VAD, Zeitstempeln, Untertiteln, Hotwords und Decoder-Steuerungen.
Auf einen Blick
| Spielfeld | Wert |
|---|---|
| Modell-ID | whisper-large-v3-turbo |
| Modell-Veröffentlichungsdatum | 2024-10-01 |
| Eingabemodalitäten | Audio |
| Ausgabemodalitäten | Text |
| Kontextfenster | - |
| Gewichtspräzision | FP16 |
| Merkmale | Transkription, Übersetzung, mehrsprachige, word_timestamps, Hotwords srt_vtt |
| Native Schlussfolgerung | Ja |
| Neu | Ja |
| Unterstützte Endpunkte | POST /v1/audio/transcriptions |
Preisgestaltung
| Berechnen | Spezifikation | Zinssatz |
|---|---|---|
| Kontrollierte Transkription | pro Minute Audio | $0.005 (war $0.006) |
Beispielanfrage
$ curl https://api.empiriolabs.ai/v1/audio/transcriptions \ > -H 'Authorization: Bearer $EMPIRIOLABS_API_KEY' \ > -F model=whisper-large-v3-turbo \ > -F file=@meeting.mp3
Parameter
| Parameter | Typ | Erforderlich | Default | Beschreibung |
|---|---|---|---|---|
audio_url | String | Nein | - | URL der zu transkribierenden Audiodatei. Gegenseitig ausschließend mit audio_base64. |
audio_base64 | String | Nein | - | Base64-codierte Audiobytes. Gegenseitig ausschließend mit audio_url. |
audio_suffix | String | Nein | ".audio" | Dateiendungshinweis (mp3, wav, m4a usw.), wenn die Audioquelle keine erkennbare Endung hat. |
language | String | Nein | - | ISO 639-1 Sprachcode (en, es, fr, usw.). Lassen Sie es für die automatische Erkennung leer. |
task | ENUM | Nein | "transcribe" | transkribieren = gleiche Sprache, übersetzen = ins Englische übersetzen. · Erlaubt: transcribe, translate |
beam_size | Ganzzahl | Nein | 5 | Strahlsuchbreite. Höher = genauer, aber langsamer. · Reichweite: 1 – 32 |
best_of | Ganzzahl | Nein | 5 | Anzahl der Kandidaten mit Temperatur > 0. · Reichweite: 1 – 32 |
patience | Anzahl | Nein | 1.0 | Beam-Search-Geduldsfaktor. Höher = mehr Kandidaten entdecken. · Reichweite: 0,0 – 10,0 |
length_penalty | Anzahl | Nein | 1.0 | Für längere Zeugnisse gibt es eine Strafe. Negativ fördert kürzere Produktionen. · Reichweite: -10,0 – 10,0 |
repetition_penalty | Anzahl | Nein | 1.0 | Strafe für das Wiederholen von Token. >1 reduziert die Wiederholung. · Reichweite: 0,1 – 5,0 |
no_repeat_ngram_size | Ganzzahl | Nein | 0 | Blockieren Sie jedes N-Gramm dieser Größe daran, sich im Ausgang zu wiederholen. · Reichweite: 0 – 20 |
temperature | String | Nein | "0,0.2,0.4,0.6,0.8,1" | Temperatur wird geprochen. 0 = deterministisch, höher = mehr Variation. |
compression_ratio_threshold | Anzahl | Nein | 2.4 | Behandle den Ausgang mit einem Kompressionsverhältnis darüber als fehlgeschlagen und versuche es erneut. |
log_prob_threshold | Anzahl | Nein | -1.0 | Behandeln Sie Segmente mit durchschnittlicher logaritmischer Wahrscheinlichkeit darunter als gescheitert und versuchen Sie es erneut. |
no_speech_threshold | Anzahl | Nein | 0.6 | Markiere ein Segment als stumm, wenn die Redefreiheit diese überschreitet UND log-wahrscheinlich unter dem Schwellenwert liegt. |
condition_on_previous_text | Boolean | Nein | Stimmt | Nutze das vorherige Transkript als Konditionierung für das nächste Segment. |
prompt_reset_on_temperature | Anzahl | Nein | 0.5 | Setze die Konditionierungsaufforderung zurück, wenn die Temperatur beim erneuten Versuch zurückfällt. · Reichweite: 0,0 – 1,0 |
initial_prompt | String | Nein | - | Anfängliche Textaufforderung, um Vokabeln und Stil zu leiten. |
prefix | String | Nein | - | Text als Vorstufe zum Transkript des ersten Abschnitts. |
suppress_blank | Boolean | Nein | Stimmt | Unterdrücken Sie leere Ausgänge zu Beginn jedes Segments. |
suppress_tokens | String | Nein | "-1" | Komma-getrennte Token-IDs sollen während der Dekodierung unterdrückt werden. |
without_timestamps | Boolean | Nein | falsch | Entfernen Sie die Zeitstempel pro Segment aus der Antwort. |
word_timestamps | Boolean | Nein | falsch | Fügen Sie in die Antwort Zeitstempel pro Wort hinzu. |
prepend_punctuations | String | Nein | - | Zeichenzeichen, um mit dem folgenden Wort zu verschmelzen. |
append_punctuations | String | Nein | - | Zeichenzeichen, um mit dem vorangegangenen Wort zu verschmelzen. |
max_initial_timestamp | Anzahl | Nein | 1.0 | Begrenze die Startzeit des ersten Segments auf diese Anzahl von Sekunden. · Reichweite: 0,0 – 30,0 |
multilingual | Boolean | Nein | falsch | Erlaubt Sprachwechsel innerhalb einer einzigen Audiodatei. |
vad_filter | Boolean | Nein | Stimmt | Wenden Sie Silero VAD an, um die Stille zu entfernen, bevor Sie dekodieren. |
vad_parameters | Gegenstand | Nein | - | VAD-Konfiguration als JSON (Schwellenwert, min_speech_duration_ms usw.). |
max_new_tokens | Ganzzahl | Nein | - | Obergrenze für dekodierte Token pro Segment. |
chunk_length | Ganzzahl | Nein | - | Länge jedes Audioabschnitts in Sekunden vor der Dekodierung. |
clip_timestamps | String | Nein | "0" | Dekodiere nur innerhalb dieser (Start-, End-)Sekundenbereiche. Format: “0.5,12.3,15.0,30.0”. |
hallucination_silence_threshold | Anzahl | Nein | - | Behandle lange stille Abschnitte über diese Sekunden als Halluzinationen und überspringe sie. |
hotwords | String | Nein | - | Komma-getrennte Hotwords, zu denen die Dekodierung voreingenommen wird (Eigennamen, Fachjargon). |
language_detection_threshold | Anzahl | Nein | 0.5 | Konfidenzschwelle für automatische Spracherkennung. |
language_detection_segments | Ganzzahl | Nein | 1 | Anzahl der führenden Segmente zur Spracherkennung. · Reichweite: 1 – 20 |
include_tokens | Boolean | Nein | falsch | Fügen Sie rohe Token-IDs neben jedes word/segment hinzu. |
response_format | ENUM | Nein | "verbose_json" | JSON | verbose_json | Text | srt | VTT. · Erlaubt: verbose_json, json, text, srt, vtt |
Anmerkungen
Unterstützt URL/base64 Audio-, language/task-, Strahl- und Temperaturrückfallkontrollen, VAD/chunking, Hotwords, Prompts, Wortzeitstempel, Satzzeichen, Token-Debug-Ausgabe und JSON/text/SRT/VTT-Formate.
Machine-lesbares Schema: GET https://api.empiriolabs.ai/v1/models/whisper-large-v3-turbo.
