Whisper Large v3 Turbo

OpenAI · Transcription
POST /v1/audio/transcriptionsTranscription Whisper Large v3 Turbo auto-hébergée avec ASR multilingue, traduction, VAD, horodatages, sous-titres, hotwords et contrôles de décodeur exposés.
En un coup d’œil
| Terrain | Valeur |
|---|---|
| Identifiant de modèle | whisper-large-v3-turbo |
| Date de sortie du modèle | 2024-10-01 |
| Modalités d’entrée | Audio |
| Modalités de sortie | Texte |
| Fenêtre de contexte | - |
| Précision du poids | FP16 |
| Caractéristiques | transcription, traduction, multilingue, word_timestamps, hotwords, srt_vtt |
| Inférence autochtone | Oui |
| Nouveau | Oui |
| Points de terminaison pris en charge | POST /v1/audio/transcriptions |
Tarification
| Charge | Spec | Taux |
|---|---|---|
| Transcription contrôlée | par minute d’audio | $0.005 (était $0.006) |
Exemple de demande
$ curl https://api.empiriolabs.ai/v1/audio/transcriptions \ > -H 'Authorization: Bearer $EMPIRIOLABS_API_KEY' \ > -F model=whisper-large-v3-turbo \ > -F file=@meeting.mp3
Paramètres
| Paramètre | Type | Obligatoire | Par défaut | Description |
|---|---|---|---|---|
audio_url | Corde | non | - | URL du fichier audio à transcrire. Mutuellement exclusif avec audio_base64. |
audio_base64 | Corde | non | - | Octets audio codés en base64. Incompatibles avec audio_url. |
audio_suffix | Corde | non | ".audio" | Indice d’extension de fichier (mp3, wav, m4a, etc.) lorsque la source audio n’a pas d’extension reconnaissable. |
language | Corde | non | - | Code linguistique ISO 639-1 (en, es, fr, etc.). Laissez le bouton vide pour l’auto-détection. |
task | enum | non | "transcribe" | transcrire = même langue, traduire = traduire en anglais. · Autorisé: transcribe, translate |
beam_size | entier | non | 5 | Largeur de recherche du faisceau. Plus haut = plus précis mais plus lent. · Répartition: 1 – 32 ans |
best_of | entier | non | 5 | Nombre de candidats à échantillonner avec une température > 0. · Répartition: 1 – 32 ans |
patience | Nombre | non | 1.0 | Faisceau de recherche: patience. Plus haut = explorer plus de candidats. · Plage: 0,0 – 10,0 |
length_penalty | Nombre | non | 1.0 | Pénalité appliquée aux relevés de notes plus longs. Le négatif encourage une production plus courte. · Plage: -10,0 – 10,0 |
repetition_penalty | Nombre | non | 1.0 | Pénalité pour répétition des jetons. >1 réduit la répétition. · Portée: 0,1 – 5,0 |
no_repeat_ngram_size | entier | non | 0 | Bloquez tout n-gramme de cette taille pour qu’il ne se répète pas dans la sortie. · Plage: 0 – 20 |
temperature | Corde | non | "0,0.2,0.4,0.6,0.8,1" | Température d’échantillonnage. 0 = déterministe, plus élevé = plus grande variation. |
compression_ratio_threshold | Nombre | non | 2.4 | Considérez la sortie avec un taux de compression supérieur à celui-ci comme un échec et réessayez. |
log_prob_threshold | Nombre | non | -1.0 | Considérez les segments avec une probabilité logaritmique moyenne inférieure à ce taux comme échoués et réessayez. |
no_speech_threshold | Nombre | non | 0.6 | Marquez un segment comme silencieux lorsque la probabilité de non-parole dépasse ce seuil ET que log-prob est en dessous du seuil. |
condition_on_previous_text | Booléen | non | Vrai | Utilisez la transcription antérieure comme conditionnement pour le segment suivant. |
prompt_reset_on_temperature | Nombre | non | 0.5 | Réinitialisez l’invite de conditionnement lorsque la température rechute lors de la réessaie. · Plage: 0,0 – 1,0 |
initial_prompt | Corde | non | - | Prompt texte initial pour guider le vocabulaire et le style. |
prefix | Corde | non | - | Texte à ajouter à la transcription du premier segment. |
suppress_blank | Booléen | non | Vrai | Supprimer les sorties vides au début de chaque segment. |
suppress_tokens | Corde | non | "-1" | Identifiants de jetons séparés par virgules à supprimer lors du décodage. |
without_timestamps | Booléen | non | faux | Retirez les horodatages par segment de la réponse. |
word_timestamps | Booléen | non | faux | Incluez les horodatages par mot dans la réponse. |
prepend_punctuations | Corde | non | - | Les caractères de ponctuation se fusionnent avec le mot suivant. |
append_punctuations | Corde | non | - | Les caractères de ponctuation fusionnent avec le mot précédent. |
max_initial_timestamp | Nombre | non | 1.0 | Limitez le temps de début du premier segment à ce nombre de secondes. · Plage: 0,0 – 30,0 |
multilingual | Booléen | non | faux | Autoriser le changement de langue au sein d’un seul fichier audio. |
vad_filter | Booléen | non | Vrai | Appliquer le VAD Silero pour supprimer le silence avant de décoder. |
vad_parameters | Objet | non | - | Configuration VAD en JSON (seuil, min_speech_duration_ms, etc.). |
max_new_tokens | entier | non | - | Plafonnez les jetons décodés par segment. |
chunk_length | entier | non | - | Durée de chaque morceau audio en quelques secondes avant le décodage. |
clip_timestamps | Corde | non | "0" | Ne décodez que dans ces plages de secondes (début, fin). Format: « 0.5,12.3,15.0,30.0 ». |
hallucination_silence_threshold | Nombre | non | - | Traitez les longues sections silencieuses au-dessus de ce nombre de secondes comme des hallucinations et passez-les. |
hotwords | Corde | non | - | Des hotwords séparés par des virgules pour favoriser le décodage (noms propres, jargon). |
language_detection_threshold | Nombre | non | 0.5 | Seuil de confiance pour la détection automatique du langage. |
language_detection_segments | entier | non | 1 | Nombre de segments principaux à utiliser pour la détection de langage. · Plage: 1 – 20 |
include_tokens | Booléen | non | faux | Incluez les identifiants bruts des tokens à côté de chaque word/segment. |
response_format | enum | non | "verbose_json" | json | verbose_json | texte | srt | VTT. · Autorisé: verbose_json, json, text, srt, vtt |
Notes
Prend en charge URL/base64 les contrôles audio, language/task, faisceau et de température, VAD/chunking, hotwords, invites, timestamps de mots, contrôles de ponctuation, sortie de débogage de jetons, et formats JSON/text/SRT/VTT.
_Machine schéma lisible: _ GET https://api.empiriolabs.ai/v1/models/whisper-large-v3-turbo.
