Whisper Large v3 Turbo | EmpirioLabs AI Docs

OpenAI · Transcription

POST /v1/audio/transcriptions

Kontrollierte selbstgehostete Whisper Large v3 Turbo-Transkription mit mehrsprachigem ASR, Übersetzung, VAD, Zeitstempeln, Untertiteln, Hotwords und Decoder-Steuerungen.

Auf einen Blick

Spielfeld	Wert
Modell-ID	`whisper-large-v3-turbo`
Modell-Veröffentlichungsdatum	2024-10-01
Eingabemodalitäten	Audio
Ausgabemodalitäten	Text
Kontextfenster	-
Gewichtspräzision	FP16
Merkmale	Transkription, Übersetzung, mehrsprachige, word_timestamps, Hotwords srt_vtt
Native Schlussfolgerung	Ja
Neu	Ja
Unterstützte Endpunkte	`POST /v1/audio/transcriptions`

Preisgestaltung

Berechnen	Spezifikation	Zinssatz
Kontrollierte Transkription	pro Minute Audio	$0.005 (war $0.006)

Beispielanfrage

$ curl https://api.empiriolabs.ai/v1/audio/transcriptions \
>   -H 'Authorization: Bearer $EMPIRIOLABS_API_KEY' \
>   -F model=whisper-large-v3-turbo \
>   -F file=@meeting.mp3

Parameter

Parameter	Typ	Erforderlich	Default	Beschreibung
`audio_url`	String	Nein	-	URL der zu transkribierenden Audiodatei. Gegenseitig ausschließend mit audio_base64.
`audio_base64`	String	Nein	-	Base64-codierte Audiobytes. Gegenseitig ausschließend mit audio_url.
`audio_suffix`	String	Nein	`".audio"`	Dateiendungshinweis (mp3, wav, m4a usw.), wenn die Audioquelle keine erkennbare Endung hat.
`language`	String	Nein	-	ISO 639-1 Sprachcode (en, es, fr, usw.). Lassen Sie es für die automatische Erkennung leer.
`task`	ENUM	Nein	`"transcribe"`	transkribieren = gleiche Sprache, übersetzen = ins Englische übersetzen. · Erlaubt: `transcribe`, `translate`
`beam_size`	Ganzzahl	Nein	`5`	Strahlsuchbreite. Höher = genauer, aber langsamer. · Reichweite: 1 – 32
`best_of`	Ganzzahl	Nein	`5`	Anzahl der Kandidaten mit Temperatur > 0. · Reichweite: 1 – 32
`patience`	Anzahl	Nein	`1.0`	Beam-Search-Geduldsfaktor. Höher = mehr Kandidaten entdecken. · Reichweite: 0,0 – 10,0
`length_penalty`	Anzahl	Nein	`1.0`	Für längere Zeugnisse gibt es eine Strafe. Negativ fördert kürzere Produktionen. · Reichweite: -10,0 – 10,0
`repetition_penalty`	Anzahl	Nein	`1.0`	Strafe für das Wiederholen von Token. >1 reduziert die Wiederholung. · Reichweite: 0,1 – 5,0
`no_repeat_ngram_size`	Ganzzahl	Nein	`0`	Blockieren Sie jedes N-Gramm dieser Größe daran, sich im Ausgang zu wiederholen. · Reichweite: 0 – 20
`temperature`	String	Nein	`"0,0.2,0.4,0.6,0.8,1"`	Temperatur wird geprochen. 0 = deterministisch, höher = mehr Variation.
`compression_ratio_threshold`	Anzahl	Nein	`2.4`	Behandle den Ausgang mit einem Kompressionsverhältnis darüber als fehlgeschlagen und versuche es erneut.
`log_prob_threshold`	Anzahl	Nein	`-1.0`	Behandeln Sie Segmente mit durchschnittlicher logaritmischer Wahrscheinlichkeit darunter als gescheitert und versuchen Sie es erneut.
`no_speech_threshold`	Anzahl	Nein	`0.6`	Markiere ein Segment als stumm, wenn die Redefreiheit diese überschreitet UND log-wahrscheinlich unter dem Schwellenwert liegt.
`condition_on_previous_text`	Boolean	Nein	Stimmt	Nutze das vorherige Transkript als Konditionierung für das nächste Segment.
`prompt_reset_on_temperature`	Anzahl	Nein	`0.5`	Setze die Konditionierungsaufforderung zurück, wenn die Temperatur beim erneuten Versuch zurückfällt. · Reichweite: 0,0 – 1,0
`initial_prompt`	String	Nein	-	Anfängliche Textaufforderung, um Vokabeln und Stil zu leiten.
`prefix`	String	Nein	-	Text als Vorstufe zum Transkript des ersten Abschnitts.
`suppress_blank`	Boolean	Nein	Stimmt	Unterdrücken Sie leere Ausgänge zu Beginn jedes Segments.
`suppress_tokens`	String	Nein	`"-1"`	Komma-getrennte Token-IDs sollen während der Dekodierung unterdrückt werden.
`without_timestamps`	Boolean	Nein	falsch	Entfernen Sie die Zeitstempel pro Segment aus der Antwort.
`word_timestamps`	Boolean	Nein	falsch	Fügen Sie in die Antwort Zeitstempel pro Wort hinzu.
`prepend_punctuations`	String	Nein	-	Zeichenzeichen, um mit dem folgenden Wort zu verschmelzen.
`append_punctuations`	String	Nein	-	Zeichenzeichen, um mit dem vorangegangenen Wort zu verschmelzen.
`max_initial_timestamp`	Anzahl	Nein	`1.0`	Begrenze die Startzeit des ersten Segments auf diese Anzahl von Sekunden. · Reichweite: 0,0 – 30,0
`multilingual`	Boolean	Nein	falsch	Erlaubt Sprachwechsel innerhalb einer einzigen Audiodatei.
`vad_filter`	Boolean	Nein	Stimmt	Wenden Sie Silero VAD an, um die Stille zu entfernen, bevor Sie dekodieren.
`vad_parameters`	Gegenstand	Nein	-	VAD-Konfiguration als JSON (Schwellenwert, min_speech_duration_ms usw.).
`max_new_tokens`	Ganzzahl	Nein	-	Obergrenze für dekodierte Token pro Segment.
`chunk_length`	Ganzzahl	Nein	-	Länge jedes Audioabschnitts in Sekunden vor der Dekodierung.
`clip_timestamps`	String	Nein	`"0"`	Dekodiere nur innerhalb dieser (Start-, End-)Sekundenbereiche. Format: “0.5,12.3,15.0,30.0”.
`hallucination_silence_threshold`	Anzahl	Nein	-	Behandle lange stille Abschnitte über diese Sekunden als Halluzinationen und überspringe sie.
`hotwords`	String	Nein	-	Komma-getrennte Hotwords, zu denen die Dekodierung voreingenommen wird (Eigennamen, Fachjargon).
`language_detection_threshold`	Anzahl	Nein	`0.5`	Konfidenzschwelle für automatische Spracherkennung.
`language_detection_segments`	Ganzzahl	Nein	`1`	Anzahl der führenden Segmente zur Spracherkennung. · Reichweite: 1 – 20
`include_tokens`	Boolean	Nein	falsch	Fügen Sie rohe Token-IDs neben jedes word/segment hinzu.
`response_format`	ENUM	Nein	`"verbose_json"`	JSON \| verbose_json \| Text \| srt \| VTT. · Erlaubt: `verbose_json`, `json`, `text`, `srt`, `vtt`

Anmerkungen

Unterstützt URL/base64 Audio-, language/task-, Strahl- und Temperaturrückfallkontrollen, VAD/chunking, Hotwords, Prompts, Wortzeitstempel, Satzzeichen, Token-Debug-Ausgabe und JSON/text/SRT/VTT-Formate.

Machine-lesbares Schema: GET https://api.empiriolabs.ai/v1/models/whisper-large-v3-turbo.