Whisper Large v3 Turbo

Whisper Large v3 Turbo
OpenAI · Transcription
POST /v1/audio/transcriptions

Kontrollierte selbstgehostete Whisper Large v3 Turbo-Transkription mit mehrsprachigem ASR, Übersetzung, VAD, Zeitstempeln, Untertiteln, Hotwords und Decoder-Steuerungen.

Auf einen Blick

SpielfeldWert
Modell-IDwhisper-large-v3-turbo
Modell-Veröffentlichungsdatum2024-10-01
EingabemodalitätenAudio
AusgabemodalitätenText
Kontextfenster-
GewichtspräzisionFP16
MerkmaleTranskription, Übersetzung, mehrsprachige, word_timestamps, Hotwords srt_vtt
Native SchlussfolgerungJa
NeuJa
Unterstützte EndpunktePOST /v1/audio/transcriptions

Preisgestaltung

BerechnenSpezifikationZinssatz
Kontrollierte Transkriptionpro Minute Audio$0.005 (war $0.006)

Beispielanfrage

$curl https://api.empiriolabs.ai/v1/audio/transcriptions \
> -H 'Authorization: Bearer $EMPIRIOLABS_API_KEY' \
> -F model=whisper-large-v3-turbo \
> -F file=@meeting.mp3

Parameter

ParameterTypErforderlichDefaultBeschreibung
audio_urlStringNein-URL der zu transkribierenden Audiodatei. Gegenseitig ausschließend mit audio_base64.
audio_base64StringNein-Base64-codierte Audiobytes. Gegenseitig ausschließend mit audio_url.
audio_suffixStringNein".audio"Dateiendungshinweis (mp3, wav, m4a usw.), wenn die Audioquelle keine erkennbare Endung hat.
languageStringNein-ISO 639-1 Sprachcode (en, es, fr, usw.). Lassen Sie es für die automatische Erkennung leer.
taskENUMNein"transcribe"transkribieren = gleiche Sprache, übersetzen = ins Englische übersetzen. · Erlaubt: transcribe, translate
beam_sizeGanzzahlNein5Strahlsuchbreite. Höher = genauer, aber langsamer. · Reichweite: 1 – 32
best_ofGanzzahlNein5Anzahl der Kandidaten mit Temperatur > 0. · Reichweite: 1 – 32
patienceAnzahlNein1.0Beam-Search-Geduldsfaktor. Höher = mehr Kandidaten entdecken. · Reichweite: 0,0 – 10,0
length_penaltyAnzahlNein1.0Für längere Zeugnisse gibt es eine Strafe. Negativ fördert kürzere Produktionen. · Reichweite: -10,0 – 10,0
repetition_penaltyAnzahlNein1.0Strafe für das Wiederholen von Token. >1 reduziert die Wiederholung. · Reichweite: 0,1 – 5,0
no_repeat_ngram_sizeGanzzahlNein0Blockieren Sie jedes N-Gramm dieser Größe daran, sich im Ausgang zu wiederholen. · Reichweite: 0 – 20
temperatureStringNein"0,0.2,0.4,0.6,0.8,1"Temperatur wird geprochen. 0 = deterministisch, höher = mehr Variation.
compression_ratio_thresholdAnzahlNein2.4Behandle den Ausgang mit einem Kompressionsverhältnis darüber als fehlgeschlagen und versuche es erneut.
log_prob_thresholdAnzahlNein-1.0Behandeln Sie Segmente mit durchschnittlicher logaritmischer Wahrscheinlichkeit darunter als gescheitert und versuchen Sie es erneut.
no_speech_thresholdAnzahlNein0.6Markiere ein Segment als stumm, wenn die Redefreiheit diese überschreitet UND log-wahrscheinlich unter dem Schwellenwert liegt.
condition_on_previous_textBooleanNeinStimmtNutze das vorherige Transkript als Konditionierung für das nächste Segment.
prompt_reset_on_temperatureAnzahlNein0.5Setze die Konditionierungsaufforderung zurück, wenn die Temperatur beim erneuten Versuch zurückfällt. · Reichweite: 0,0 – 1,0
initial_promptStringNein-Anfängliche Textaufforderung, um Vokabeln und Stil zu leiten.
prefixStringNein-Text als Vorstufe zum Transkript des ersten Abschnitts.
suppress_blankBooleanNeinStimmtUnterdrücken Sie leere Ausgänge zu Beginn jedes Segments.
suppress_tokensStringNein"-1"Komma-getrennte Token-IDs sollen während der Dekodierung unterdrückt werden.
without_timestampsBooleanNeinfalschEntfernen Sie die Zeitstempel pro Segment aus der Antwort.
word_timestampsBooleanNeinfalschFügen Sie in die Antwort Zeitstempel pro Wort hinzu.
prepend_punctuationsStringNein-Zeichenzeichen, um mit dem folgenden Wort zu verschmelzen.
append_punctuationsStringNein-Zeichenzeichen, um mit dem vorangegangenen Wort zu verschmelzen.
max_initial_timestampAnzahlNein1.0Begrenze die Startzeit des ersten Segments auf diese Anzahl von Sekunden. · Reichweite: 0,0 – 30,0
multilingualBooleanNeinfalschErlaubt Sprachwechsel innerhalb einer einzigen Audiodatei.
vad_filterBooleanNeinStimmtWenden Sie Silero VAD an, um die Stille zu entfernen, bevor Sie dekodieren.
vad_parametersGegenstandNein-VAD-Konfiguration als JSON (Schwellenwert, min_speech_duration_ms usw.).
max_new_tokensGanzzahlNein-Obergrenze für dekodierte Token pro Segment.
chunk_lengthGanzzahlNein-Länge jedes Audioabschnitts in Sekunden vor der Dekodierung.
clip_timestampsStringNein"0"Dekodiere nur innerhalb dieser (Start-, End-)Sekundenbereiche. Format: “0.5,12.3,15.0,30.0”.
hallucination_silence_thresholdAnzahlNein-Behandle lange stille Abschnitte über diese Sekunden als Halluzinationen und überspringe sie.
hotwordsStringNein-Komma-getrennte Hotwords, zu denen die Dekodierung voreingenommen wird (Eigennamen, Fachjargon).
language_detection_thresholdAnzahlNein0.5Konfidenzschwelle für automatische Spracherkennung.
language_detection_segmentsGanzzahlNein1Anzahl der führenden Segmente zur Spracherkennung. · Reichweite: 1 – 20
include_tokensBooleanNeinfalschFügen Sie rohe Token-IDs neben jedes word/segment hinzu.
response_formatENUMNein"verbose_json"JSON | verbose_json | Text | srt | VTT. · Erlaubt: verbose_json, json, text, srt, vtt

Anmerkungen

Unterstützt URL/base64 Audio-, language/task-, Strahl- und Temperaturrückfallkontrollen, VAD/chunking, Hotwords, Prompts, Wortzeitstempel, Satzzeichen, Token-Debug-Ausgabe und JSON/text/SRT/VTT-Formate.


Machine-lesbares Schema: GET https://api.empiriolabs.ai/v1/models/whisper-large-v3-turbo.