Whisper Large v3 Turbo

OpenAI · Transcription
POST /v1/audio/transcriptionsTranscripción autoalojada Whisper Large v3 Turbo con ASR multilingüe, traducción, VAD, marcas de tiempo, subtítulos, palabras calientes y controles de decodificador expuestos.
A simple vista
| Campo | Valor |
|---|---|
| ID de modelo | whisper-large-v3-turbo |
| Fecha de lanzamiento del modelo | 2024-10-01 |
| Modalidades de entrada | Audio |
| Modalidades de salida | Texto |
| Ventana de contexto | - |
| Precisión del peso | FP16 |
| Características | transcripción, traducción, multilingüe, word_timestamps, palabras calientes, srt_vtt |
| Inferencia nativa | Sí |
| Nuevo | Sí |
| Puntos finales soportados | POST /v1/audio/transcriptions |
Precios
| Carga | Especificaciones | Tarifa |
|---|---|---|
| Transcripción controlada | por minuto de audio | $0.005 (era $0.006) |
Solicitud de ejemplo
$ curl https://api.empiriolabs.ai/v1/audio/transcriptions \ > -H 'Authorization: Bearer $EMPIRIOLABS_API_KEY' \ > -F model=whisper-large-v3-turbo \ > -F file=@meeting.mp3
Parámetros
| Parámetro | Tipo | Obligatorio | Default | Descripción |
|---|---|---|---|---|
audio_url | Cuerda | no | - | URL del archivo de audio para transcribir. Excluyentes con audio_base64. |
audio_base64 | Cuerda | no | - | Bytes de audio codificados en base64. Excluyentes con audio_url. |
audio_suffix | Cuerda | no | ".audio" | Hint de extensión de archivo (mp3, wav, m4a, etc.) cuando la fuente de audio no tiene extensión reconocible. |
language | Cuerda | no | - | Código de idioma ISO 639-1 (en, es, fr, etc.). Deja en blanco para la detección automática. |
task | enum | no | "transcribe" | transcribe = mismo idioma, translate = translate al inglés. · Permitidos: transcribe, translate |
beam_size | enteros | no | 5 | Ancho de búsqueda del haz. Más alto = más preciso pero más lento. · Rango: 1 – 32 |
best_of | enteros | no | 5 | Número de candidatos a muestrear con temperatura > 0. · Rango: 1 – 32 |
patience | Número | no | 1.0 | Haz de búsqueda y paciencia. Más alto = explorar más candidatos. · Rango: 0,0 – 10,0 |
length_penalty | Número | no | 1.0 | Se aplica penalización a expedientes más largos. El negativo fomenta una producción más corta. · Rango: -10,0 – 10,0 |
repetition_penalty | Número | no | 1.0 | Penalización por repetir fichas. >1 reduce la repetición. · Rango: 0,1 – 5,0 |
no_repeat_ngram_size | enteros | no | 0 | Bloquea cualquier n-gramo de este tamaño para que no se repita en la salida. · Rango: 0 – 20 |
temperature | Cuerda | no | "0,0.2,0.4,0.6,0.8,1" | Temperatura de muestreo. 0 = determinista, mayor = más variación. |
compression_ratio_threshold | Número | no | 2.4 | Trata la salida con una relación de compresión superior a esta como fallida y vuelve a intentarlo. |
log_prob_threshold | Número | no | -1.0 | Trata los segmentos con probabilidad logarítmica media inferior a esto como fallidos y vuelve a intentarlo. |
no_speech_threshold | Número | no | 0.6 | Marca un segmento como silencioso cuando la probabilidad de no hablar supera esto Y log-prob está por debajo del umbral. |
condition_on_previous_text | Booleano | no | Cierto | Utiliza transcripciones previas como condicionamiento para el siguiente segmento. |
prompt_reset_on_temperature | Número | no | 0.5 | Reinicia el aviso de acondicionamiento cuando la temperatura baje durante el intento de nuevo. · Rango: 0,0 – 1,0 |
initial_prompt | Cuerda | no | - | Prompt inicial de texto para guiar vocabulario y estilo. |
prefix | Cuerda | no | - | Texto para adelantar a la transcripción del primer segmento. |
suppress_blank | Booleano | no | Cierto | Suprime las salidas vacías al inicio de cada segmento. |
suppress_tokens | Cuerda | no | "-1" | IDs de token separados por comas para suprimir durante la decodificación. |
without_timestamps | Booleano | no | falso | Elimina las marcas de tiempo por segmento de la respuesta. |
word_timestamps | Booleano | no | falso | Incluye marcas de tiempo por palabra en la respuesta. |
prepend_punctuations | Cuerda | no | - | Los caracteres de puntuación se fusionan con la siguiente palabra. |
append_punctuations | Cuerda | no | - | Los caracteres de puntuación se fusionan con la palabra anterior. |
max_initial_timestamp | Número | no | 1.0 | Limita la hora de inicio del primer segmento a estos segundos. · Rango: 0,0 – 30,0 |
multilingual | Booleano | no | falso | Permite cambiar de idioma dentro de un solo archivo de audio. |
vad_filter | Booleano | no | Cierto | Aplica Silero VAD para eliminar el silencio antes de decodificar. |
vad_parameters | Objeto | no | - | Configuración VAD como JSON (umbral, min_speech_duration_ms, etc.). |
max_new_tokens | enteros | no | - | Límite en tokens decodificados por segmento. |
chunk_length | enteros | no | - | Duración de cada fragmento de audio en segundos antes de decodificar. |
clip_timestamps | Cuerda | no | "0" | Solo decodifica dentro de estos rangos de segundos (inicio, final). Formato: “0.5,12.3,15.0,30.0”. |
hallucination_silence_threshold | Número | no | - | Trata las largas secciones silenciosas por encima de esos segundos como alucinaciones y sáltalas. |
hotwords | Cuerda | no | - | Palabras calientes separadas por comas para sesgar la decodificación hacia (nombres propios, jerga). |
language_detection_threshold | Número | no | 0.5 | Umbral de confianza para la detección automática de lenguaje. |
language_detection_segments | enteros | no | 1 | Número de segmentos principales para usar para la detección del lenguaje. · Rango: 1 – 20 |
include_tokens | Booleano | no | falso | Incluye los IDs de tokens en bruto junto a cada word/segment. |
response_format | enum | no | "verbose_json" | json | verbose_json | texto | srt | VTT. · Permitidos: verbose_json, json, text, srt, vtt |
Notas
Soporta controles de audio URL/base64, language/task, haz y de temperatura, VAD/chunking, hotwords, prompts, marcas de tiempo de palabras, controles de puntuación, salida de depuración de tokens y formatos JSON/text/SRT/VTT.
Machine-legible esquema: GET https://api.empiriolabs.ai/v1/models/whisper-large-v3-turbo.
