Whisper Large v3 Turbo

Whisper Large v3 Turbo
OpenAI · Transcription
POST /v1/audio/transcriptions

Transcription Whisper Large v3 Turbo auto-hébergée avec ASR multilingue, traduction, VAD, horodatages, sous-titres, hotwords et contrôles de décodeur exposés.

En un coup d’œil

TerrainValeur
Identifiant de modèlewhisper-large-v3-turbo
Date de sortie du modèle2024-10-01
Modalités d’entréeAudio
Modalités de sortieTexte
Fenêtre de contexte-
Précision du poidsFP16
Caractéristiquestranscription, traduction, multilingue, word_timestamps, hotwords, srt_vtt
Inférence autochtoneOui
NouveauOui
Points de terminaison pris en chargePOST /v1/audio/transcriptions

Tarification

ChargeSpecTaux
Transcription contrôléepar minute d’audio$0.005 (était $0.006)

Exemple de demande

$curl https://api.empiriolabs.ai/v1/audio/transcriptions \
> -H 'Authorization: Bearer $EMPIRIOLABS_API_KEY' \
> -F model=whisper-large-v3-turbo \
> -F file=@meeting.mp3

Paramètres

ParamètreTypeObligatoirePar défautDescription
audio_urlCordenon-URL du fichier audio à transcrire. Mutuellement exclusif avec audio_base64.
audio_base64Cordenon-Octets audio codés en base64. Incompatibles avec audio_url.
audio_suffixCordenon".audio"Indice d’extension de fichier (mp3, wav, m4a, etc.) lorsque la source audio n’a pas d’extension reconnaissable.
languageCordenon-Code linguistique ISO 639-1 (en, es, fr, etc.). Laissez le bouton vide pour l’auto-détection.
taskenumnon"transcribe"transcrire = même langue, traduire = traduire en anglais. · Autorisé: transcribe, translate
beam_sizeentiernon5Largeur de recherche du faisceau. Plus haut = plus précis mais plus lent. · Répartition: 1 – 32 ans
best_ofentiernon5Nombre de candidats à échantillonner avec une température > 0. · Répartition: 1 – 32 ans
patienceNombrenon1.0Faisceau de recherche: patience. Plus haut = explorer plus de candidats. · Plage: 0,0 – 10,0
length_penaltyNombrenon1.0Pénalité appliquée aux relevés de notes plus longs. Le négatif encourage une production plus courte. · Plage: -10,0 – 10,0
repetition_penaltyNombrenon1.0Pénalité pour répétition des jetons. >1 réduit la répétition. · Portée: 0,1 – 5,0
no_repeat_ngram_sizeentiernon0Bloquez tout n-gramme de cette taille pour qu’il ne se répète pas dans la sortie. · Plage: 0 – 20
temperatureCordenon"0,0.2,0.4,0.6,0.8,1"Température d’échantillonnage. 0 = déterministe, plus élevé = plus grande variation.
compression_ratio_thresholdNombrenon2.4Considérez la sortie avec un taux de compression supérieur à celui-ci comme un échec et réessayez.
log_prob_thresholdNombrenon-1.0Considérez les segments avec une probabilité logaritmique moyenne inférieure à ce taux comme échoués et réessayez.
no_speech_thresholdNombrenon0.6Marquez un segment comme silencieux lorsque la probabilité de non-parole dépasse ce seuil ET que log-prob est en dessous du seuil.
condition_on_previous_textBooléennonVraiUtilisez la transcription antérieure comme conditionnement pour le segment suivant.
prompt_reset_on_temperatureNombrenon0.5Réinitialisez l’invite de conditionnement lorsque la température rechute lors de la réessaie. · Plage: 0,0 – 1,0
initial_promptCordenon-Prompt texte initial pour guider le vocabulaire et le style.
prefixCordenon-Texte à ajouter à la transcription du premier segment.
suppress_blankBooléennonVraiSupprimer les sorties vides au début de chaque segment.
suppress_tokensCordenon"-1"Identifiants de jetons séparés par virgules à supprimer lors du décodage.
without_timestampsBooléennonfauxRetirez les horodatages par segment de la réponse.
word_timestampsBooléennonfauxIncluez les horodatages par mot dans la réponse.
prepend_punctuationsCordenon-Les caractères de ponctuation se fusionnent avec le mot suivant.
append_punctuationsCordenon-Les caractères de ponctuation fusionnent avec le mot précédent.
max_initial_timestampNombrenon1.0Limitez le temps de début du premier segment à ce nombre de secondes. · Plage: 0,0 – 30,0
multilingualBooléennonfauxAutoriser le changement de langue au sein d’un seul fichier audio.
vad_filterBooléennonVraiAppliquer le VAD Silero pour supprimer le silence avant de décoder.
vad_parametersObjetnon-Configuration VAD en JSON (seuil, min_speech_duration_ms, etc.).
max_new_tokensentiernon-Plafonnez les jetons décodés par segment.
chunk_lengthentiernon-Durée de chaque morceau audio en quelques secondes avant le décodage.
clip_timestampsCordenon"0"Ne décodez que dans ces plages de secondes (début, fin). Format: « 0.5,12.3,15.0,30.0 ».
hallucination_silence_thresholdNombrenon-Traitez les longues sections silencieuses au-dessus de ce nombre de secondes comme des hallucinations et passez-les.
hotwordsCordenon-Des hotwords séparés par des virgules pour favoriser le décodage (noms propres, jargon).
language_detection_thresholdNombrenon0.5Seuil de confiance pour la détection automatique du langage.
language_detection_segmentsentiernon1Nombre de segments principaux à utiliser pour la détection de langage. · Plage: 1 – 20
include_tokensBooléennonfauxIncluez les identifiants bruts des tokens à côté de chaque word/segment.
response_formatenumnon"verbose_json"json | verbose_json | texte | srt | VTT. · Autorisé: verbose_json, json, text, srt, vtt

Notes

Prend en charge URL/base64 les contrôles audio, language/task, faisceau et de température, VAD/chunking, hotwords, invites, timestamps de mots, contrôles de ponctuation, sortie de débogage de jetons, et formats JSON/text/SRT/VTT.


_Machine schéma lisible: _ GET https://api.empiriolabs.ai/v1/models/whisper-large-v3-turbo.