Whisper Large v3 Turbo | EmpirioLabs AI Docs

OpenAI · Transcription

POST /v1/audio/transcriptions

Transcripción autoalojada Whisper Large v3 Turbo con ASR multilingüe, traducción, VAD, marcas de tiempo, subtítulos, palabras calientes y controles de decodificador expuestos.

A simple vista

Campo	Valor
ID de modelo	`whisper-large-v3-turbo`
Fecha de lanzamiento del modelo	2024-10-01
Modalidades de entrada	Audio
Modalidades de salida	Texto
Ventana de contexto	-
Precisión del peso	FP16
Características	transcripción, traducción, multilingüe, word_timestamps, palabras calientes, srt_vtt
Inferencia nativa	Sí
Nuevo	Sí
Puntos finales soportados	`POST /v1/audio/transcriptions`

Precios

Carga	Especificaciones	Tarifa
Transcripción controlada	por minuto de audio	$0.005 (era $0.006)

Solicitud de ejemplo

$ curl https://api.empiriolabs.ai/v1/audio/transcriptions \
>   -H 'Authorization: Bearer $EMPIRIOLABS_API_KEY' \
>   -F model=whisper-large-v3-turbo \
>   -F file=@meeting.mp3

Parámetros

Parámetro	Tipo	Obligatorio	Default	Descripción
`audio_url`	Cuerda	no	-	URL del archivo de audio para transcribir. Excluyentes con audio_base64.
`audio_base64`	Cuerda	no	-	Bytes de audio codificados en base64. Excluyentes con audio_url.
`audio_suffix`	Cuerda	no	`".audio"`	Hint de extensión de archivo (mp3, wav, m4a, etc.) cuando la fuente de audio no tiene extensión reconocible.
`language`	Cuerda	no	-	Código de idioma ISO 639-1 (en, es, fr, etc.). Deja en blanco para la detección automática.
`task`	enum	no	`"transcribe"`	transcribe = mismo idioma, translate = translate al inglés. · Permitidos: `transcribe`, `translate`
`beam_size`	enteros	no	`5`	Ancho de búsqueda del haz. Más alto = más preciso pero más lento. · Rango: 1 – 32
`best_of`	enteros	no	`5`	Número de candidatos a muestrear con temperatura > 0. · Rango: 1 – 32
`patience`	Número	no	`1.0`	Haz de búsqueda y paciencia. Más alto = explorar más candidatos. · Rango: 0,0 – 10,0
`length_penalty`	Número	no	`1.0`	Se aplica penalización a expedientes más largos. El negativo fomenta una producción más corta. · Rango: -10,0 – 10,0
`repetition_penalty`	Número	no	`1.0`	Penalización por repetir fichas. >1 reduce la repetición. · Rango: 0,1 – 5,0
`no_repeat_ngram_size`	enteros	no	`0`	Bloquea cualquier n-gramo de este tamaño para que no se repita en la salida. · Rango: 0 – 20
`temperature`	Cuerda	no	`"0,0.2,0.4,0.6,0.8,1"`	Temperatura de muestreo. 0 = determinista, mayor = más variación.
`compression_ratio_threshold`	Número	no	`2.4`	Trata la salida con una relación de compresión superior a esta como fallida y vuelve a intentarlo.
`log_prob_threshold`	Número	no	`-1.0`	Trata los segmentos con probabilidad logarítmica media inferior a esto como fallidos y vuelve a intentarlo.
`no_speech_threshold`	Número	no	`0.6`	Marca un segmento como silencioso cuando la probabilidad de no hablar supera esto Y log-prob está por debajo del umbral.
`condition_on_previous_text`	Booleano	no	Cierto	Utiliza transcripciones previas como condicionamiento para el siguiente segmento.
`prompt_reset_on_temperature`	Número	no	`0.5`	Reinicia el aviso de acondicionamiento cuando la temperatura baje durante el intento de nuevo. · Rango: 0,0 – 1,0
`initial_prompt`	Cuerda	no	-	Prompt inicial de texto para guiar vocabulario y estilo.
`prefix`	Cuerda	no	-	Texto para adelantar a la transcripción del primer segmento.
`suppress_blank`	Booleano	no	Cierto	Suprime las salidas vacías al inicio de cada segmento.
`suppress_tokens`	Cuerda	no	`"-1"`	IDs de token separados por comas para suprimir durante la decodificación.
`without_timestamps`	Booleano	no	falso	Elimina las marcas de tiempo por segmento de la respuesta.
`word_timestamps`	Booleano	no	falso	Incluye marcas de tiempo por palabra en la respuesta.
`prepend_punctuations`	Cuerda	no	-	Los caracteres de puntuación se fusionan con la siguiente palabra.
`append_punctuations`	Cuerda	no	-	Los caracteres de puntuación se fusionan con la palabra anterior.
`max_initial_timestamp`	Número	no	`1.0`	Limita la hora de inicio del primer segmento a estos segundos. · Rango: 0,0 – 30,0
`multilingual`	Booleano	no	falso	Permite cambiar de idioma dentro de un solo archivo de audio.
`vad_filter`	Booleano	no	Cierto	Aplica Silero VAD para eliminar el silencio antes de decodificar.
`vad_parameters`	Objeto	no	-	Configuración VAD como JSON (umbral, min_speech_duration_ms, etc.).
`max_new_tokens`	enteros	no	-	Límite en tokens decodificados por segmento.
`chunk_length`	enteros	no	-	Duración de cada fragmento de audio en segundos antes de decodificar.
`clip_timestamps`	Cuerda	no	`"0"`	Solo decodifica dentro de estos rangos de segundos (inicio, final). Formato: “0.5,12.3,15.0,30.0”.
`hallucination_silence_threshold`	Número	no	-	Trata las largas secciones silenciosas por encima de esos segundos como alucinaciones y sáltalas.
`hotwords`	Cuerda	no	-	Palabras calientes separadas por comas para sesgar la decodificación hacia (nombres propios, jerga).
`language_detection_threshold`	Número	no	`0.5`	Umbral de confianza para la detección automática de lenguaje.
`language_detection_segments`	enteros	no	`1`	Número de segmentos principales para usar para la detección del lenguaje. · Rango: 1 – 20
`include_tokens`	Booleano	no	falso	Incluye los IDs de tokens en bruto junto a cada word/segment.
`response_format`	enum	no	`"verbose_json"`	json \| verbose_json \| texto \| srt \| VTT. · Permitidos: `verbose_json`, `json`, `text`, `srt`, `vtt`

Notas

Soporta controles de audio URL/base64, language/task, haz y de temperatura, VAD/chunking, hotwords, prompts, marcas de tiempo de palabras, controles de puntuación, salida de depuración de tokens y formatos JSON/text/SRT/VTT.

Machine-legible esquema: GET https://api.empiriolabs.ai/v1/models/whisper-large-v3-turbo.