Whisper Large v3 Turbo | EmpirioLabs AI Docs

OpenAI · Transcription

POST /v1/audio/transcriptions

Transcription Whisper Large v3 Turbo auto-hébergée avec ASR multilingue, traduction, VAD, horodatages, sous-titres, hotwords et contrôles de décodeur exposés.

En un coup d’œil

Terrain	Valeur
Identifiant de modèle	`whisper-large-v3-turbo`
Date de sortie du modèle	2024-10-01
Modalités d’entrée	Audio
Modalités de sortie	Texte
Fenêtre de contexte	-
Précision du poids	FP16
Caractéristiques	transcription, traduction, multilingue, word_timestamps, hotwords, srt_vtt
Inférence autochtone	Oui
Nouveau	Oui
Points de terminaison pris en charge	`POST /v1/audio/transcriptions`

Tarification

Charge	Spec	Taux
Transcription contrôlée	par minute d’audio	$0.005 (était $0.006)

Exemple de demande

$ curl https://api.empiriolabs.ai/v1/audio/transcriptions \
>   -H 'Authorization: Bearer $EMPIRIOLABS_API_KEY' \
>   -F model=whisper-large-v3-turbo \
>   -F file=@meeting.mp3

Paramètres

Paramètre	Type	Obligatoire	Par défaut	Description
`audio_url`	Corde	non	-	URL du fichier audio à transcrire. Mutuellement exclusif avec audio_base64.
`audio_base64`	Corde	non	-	Octets audio codés en base64. Incompatibles avec audio_url.
`audio_suffix`	Corde	non	`".audio"`	Indice d’extension de fichier (mp3, wav, m4a, etc.) lorsque la source audio n’a pas d’extension reconnaissable.
`language`	Corde	non	-	Code linguistique ISO 639-1 (en, es, fr, etc.). Laissez le bouton vide pour l’auto-détection.
`task`	enum	non	`"transcribe"`	transcrire = même langue, traduire = traduire en anglais. · Autorisé: `transcribe`, `translate`
`beam_size`	entier	non	`5`	Largeur de recherche du faisceau. Plus haut = plus précis mais plus lent. · Répartition: 1 – 32 ans
`best_of`	entier	non	`5`	Nombre de candidats à échantillonner avec une température > 0. · Répartition: 1 – 32 ans
`patience`	Nombre	non	`1.0`	Faisceau de recherche: patience. Plus haut = explorer plus de candidats. · Plage: 0,0 – 10,0
`length_penalty`	Nombre	non	`1.0`	Pénalité appliquée aux relevés de notes plus longs. Le négatif encourage une production plus courte. · Plage: -10,0 – 10,0
`repetition_penalty`	Nombre	non	`1.0`	Pénalité pour répétition des jetons. >1 réduit la répétition. · Portée: 0,1 – 5,0
`no_repeat_ngram_size`	entier	non	`0`	Bloquez tout n-gramme de cette taille pour qu’il ne se répète pas dans la sortie. · Plage: 0 – 20
`temperature`	Corde	non	`"0,0.2,0.4,0.6,0.8,1"`	Température d’échantillonnage. 0 = déterministe, plus élevé = plus grande variation.
`compression_ratio_threshold`	Nombre	non	`2.4`	Considérez la sortie avec un taux de compression supérieur à celui-ci comme un échec et réessayez.
`log_prob_threshold`	Nombre	non	`-1.0`	Considérez les segments avec une probabilité logaritmique moyenne inférieure à ce taux comme échoués et réessayez.
`no_speech_threshold`	Nombre	non	`0.6`	Marquez un segment comme silencieux lorsque la probabilité de non-parole dépasse ce seuil ET que log-prob est en dessous du seuil.
`condition_on_previous_text`	Booléen	non	Vrai	Utilisez la transcription antérieure comme conditionnement pour le segment suivant.
`prompt_reset_on_temperature`	Nombre	non	`0.5`	Réinitialisez l’invite de conditionnement lorsque la température rechute lors de la réessaie. · Plage: 0,0 – 1,0
`initial_prompt`	Corde	non	-	Prompt texte initial pour guider le vocabulaire et le style.
`prefix`	Corde	non	-	Texte à ajouter à la transcription du premier segment.
`suppress_blank`	Booléen	non	Vrai	Supprimer les sorties vides au début de chaque segment.
`suppress_tokens`	Corde	non	`"-1"`	Identifiants de jetons séparés par virgules à supprimer lors du décodage.
`without_timestamps`	Booléen	non	faux	Retirez les horodatages par segment de la réponse.
`word_timestamps`	Booléen	non	faux	Incluez les horodatages par mot dans la réponse.
`prepend_punctuations`	Corde	non	-	Les caractères de ponctuation se fusionnent avec le mot suivant.
`append_punctuations`	Corde	non	-	Les caractères de ponctuation fusionnent avec le mot précédent.
`max_initial_timestamp`	Nombre	non	`1.0`	Limitez le temps de début du premier segment à ce nombre de secondes. · Plage: 0,0 – 30,0
`multilingual`	Booléen	non	faux	Autoriser le changement de langue au sein d’un seul fichier audio.
`vad_filter`	Booléen	non	Vrai	Appliquer le VAD Silero pour supprimer le silence avant de décoder.
`vad_parameters`	Objet	non	-	Configuration VAD en JSON (seuil, min_speech_duration_ms, etc.).
`max_new_tokens`	entier	non	-	Plafonnez les jetons décodés par segment.
`chunk_length`	entier	non	-	Durée de chaque morceau audio en quelques secondes avant le décodage.
`clip_timestamps`	Corde	non	`"0"`	Ne décodez que dans ces plages de secondes (début, fin). Format: « 0.5,12.3,15.0,30.0 ».
`hallucination_silence_threshold`	Nombre	non	-	Traitez les longues sections silencieuses au-dessus de ce nombre de secondes comme des hallucinations et passez-les.
`hotwords`	Corde	non	-	Des hotwords séparés par des virgules pour favoriser le décodage (noms propres, jargon).
`language_detection_threshold`	Nombre	non	`0.5`	Seuil de confiance pour la détection automatique du langage.
`language_detection_segments`	entier	non	`1`	Nombre de segments principaux à utiliser pour la détection de langage. · Plage: 1 – 20
`include_tokens`	Booléen	non	faux	Incluez les identifiants bruts des tokens à côté de chaque word/segment.
`response_format`	enum	non	`"verbose_json"`	json \| verbose_json \| texte \| srt \| VTT. · Autorisé: `verbose_json`, `json`, `text`, `srt`, `vtt`

Notes

Prend en charge URL/base64 les contrôles audio, language/task, faisceau et de température, VAD/chunking, hotwords, invites, timestamps de mots, contrôles de ponctuation, sortie de débogage de jetons, et formats JSON/text/SRT/VTT.

_Machine schéma lisible: _ GET https://api.empiriolabs.ai/v1/models/whisper-large-v3-turbo.