Whisper Large v3 Turbo

Whisper Large v3 Turbo
OpenAI · Transcription
POST /v1/audio/transcriptions

Transcripción autoalojada Whisper Large v3 Turbo con ASR multilingüe, traducción, VAD, marcas de tiempo, subtítulos, palabras calientes y controles de decodificador expuestos.

A simple vista

CampoValor
ID de modelowhisper-large-v3-turbo
Fecha de lanzamiento del modelo2024-10-01
Modalidades de entradaAudio
Modalidades de salidaTexto
Ventana de contexto-
Precisión del pesoFP16
Característicastranscripción, traducción, multilingüe, word_timestamps, palabras calientes, srt_vtt
Inferencia nativa
Nuevo
Puntos finales soportadosPOST /v1/audio/transcriptions

Precios

CargaEspecificacionesTarifa
Transcripción controladapor minuto de audio$0.005 (era $0.006)

Solicitud de ejemplo

$curl https://api.empiriolabs.ai/v1/audio/transcriptions \
> -H 'Authorization: Bearer $EMPIRIOLABS_API_KEY' \
> -F model=whisper-large-v3-turbo \
> -F file=@meeting.mp3

Parámetros

ParámetroTipoObligatorioDefaultDescripción
audio_urlCuerdano-URL del archivo de audio para transcribir. Excluyentes con audio_base64.
audio_base64Cuerdano-Bytes de audio codificados en base64. Excluyentes con audio_url.
audio_suffixCuerdano".audio"Hint de extensión de archivo (mp3, wav, m4a, etc.) cuando la fuente de audio no tiene extensión reconocible.
languageCuerdano-Código de idioma ISO 639-1 (en, es, fr, etc.). Deja en blanco para la detección automática.
taskenumno"transcribe"transcribe = mismo idioma, translate = translate al inglés. · Permitidos: transcribe, translate
beam_sizeenterosno5Ancho de búsqueda del haz. Más alto = más preciso pero más lento. · Rango: 1 – 32
best_ofenterosno5Número de candidatos a muestrear con temperatura > 0. · Rango: 1 – 32
patienceNúmerono1.0Haz de búsqueda y paciencia. Más alto = explorar más candidatos. · Rango: 0,0 – 10,0
length_penaltyNúmerono1.0Se aplica penalización a expedientes más largos. El negativo fomenta una producción más corta. · Rango: -10,0 – 10,0
repetition_penaltyNúmerono1.0Penalización por repetir fichas. >1 reduce la repetición. · Rango: 0,1 – 5,0
no_repeat_ngram_sizeenterosno0Bloquea cualquier n-gramo de este tamaño para que no se repita en la salida. · Rango: 0 – 20
temperatureCuerdano"0,0.2,0.4,0.6,0.8,1"Temperatura de muestreo. 0 = determinista, mayor = más variación.
compression_ratio_thresholdNúmerono2.4Trata la salida con una relación de compresión superior a esta como fallida y vuelve a intentarlo.
log_prob_thresholdNúmerono-1.0Trata los segmentos con probabilidad logarítmica media inferior a esto como fallidos y vuelve a intentarlo.
no_speech_thresholdNúmerono0.6Marca un segmento como silencioso cuando la probabilidad de no hablar supera esto Y log-prob está por debajo del umbral.
condition_on_previous_textBooleanonoCiertoUtiliza transcripciones previas como condicionamiento para el siguiente segmento.
prompt_reset_on_temperatureNúmerono0.5Reinicia el aviso de acondicionamiento cuando la temperatura baje durante el intento de nuevo. · Rango: 0,0 – 1,0
initial_promptCuerdano-Prompt inicial de texto para guiar vocabulario y estilo.
prefixCuerdano-Texto para adelantar a la transcripción del primer segmento.
suppress_blankBooleanonoCiertoSuprime las salidas vacías al inicio de cada segmento.
suppress_tokensCuerdano"-1"IDs de token separados por comas para suprimir durante la decodificación.
without_timestampsBooleanonofalsoElimina las marcas de tiempo por segmento de la respuesta.
word_timestampsBooleanonofalsoIncluye marcas de tiempo por palabra en la respuesta.
prepend_punctuationsCuerdano-Los caracteres de puntuación se fusionan con la siguiente palabra.
append_punctuationsCuerdano-Los caracteres de puntuación se fusionan con la palabra anterior.
max_initial_timestampNúmerono1.0Limita la hora de inicio del primer segmento a estos segundos. · Rango: 0,0 – 30,0
multilingualBooleanonofalsoPermite cambiar de idioma dentro de un solo archivo de audio.
vad_filterBooleanonoCiertoAplica Silero VAD para eliminar el silencio antes de decodificar.
vad_parametersObjetono-Configuración VAD como JSON (umbral, min_speech_duration_ms, etc.).
max_new_tokensenterosno-Límite en tokens decodificados por segmento.
chunk_lengthenterosno-Duración de cada fragmento de audio en segundos antes de decodificar.
clip_timestampsCuerdano"0"Solo decodifica dentro de estos rangos de segundos (inicio, final). Formato: “0.5,12.3,15.0,30.0”.
hallucination_silence_thresholdNúmerono-Trata las largas secciones silenciosas por encima de esos segundos como alucinaciones y sáltalas.
hotwordsCuerdano-Palabras calientes separadas por comas para sesgar la decodificación hacia (nombres propios, jerga).
language_detection_thresholdNúmerono0.5Umbral de confianza para la detección automática de lenguaje.
language_detection_segmentsenterosno1Número de segmentos principales para usar para la detección del lenguaje. · Rango: 1 – 20
include_tokensBooleanonofalsoIncluye los IDs de tokens en bruto junto a cada word/segment.
response_formatenumno"verbose_json"json | verbose_json | texto | srt | VTT. · Permitidos: verbose_json, json, text, srt, vtt

Notas

Soporta controles de audio URL/base64, language/task, haz y de temperatura, VAD/chunking, hotwords, prompts, marcas de tiempo de palabras, controles de puntuación, salida de depuración de tokens y formatos JSON/text/SRT/VTT.


Machine-legible esquema: GET https://api.empiriolabs.ai/v1/models/whisper-large-v3-turbo.