OpenAI Whisper 1

OpenAI Whisper 1
OpenAI · Transcription
POST /v1/audio/transcriptions

Whisper-1 speech-to-text transcripción entrenada con audio supervisado multilingüe, con un límite de subida de 25 MB por archivo.

A simple vista

CampoValor
ID de modeloopenai-whisper-1
Fecha de lanzamiento del modelo2022-09-21
Modalidades de entradaAudio
Modalidades de salidaTexto
Ventana de contexto-
Precisión del peso-
Característicastranscripción, speech_to_text
Inferencia nativaNo
NuevoNo
Puntos finales soportadosPOST /v1/audio/transcriptions

Precios

CargaEspecificacionesTarifa
Por minuto de audiopor minuto$0.030

Solicitud de ejemplo

$curl https://api.empiriolabs.ai/v1/audio/transcriptions \
> -H 'Authorization: Bearer $EMPIRIOLABS_API_KEY' \
> -F model=openai-whisper-1 \
> -F file=@meeting.mp3

Parámetros

ParámetroTipoObligatorioDefaultDescripción
fileCuerda-Audio (subida multiparte) O usar file_url para la ruta JSON.
file_urlCuerdano-URL pública para obtener audio (alternativa a la subida de archivos).
translateBooleanonofalsoSi es cierto, enruta a /audio/translations y traduce al inglés en lugar de transcribir en el idioma fuente.
timestampsBooleanonofalsoInterruptor de conveniencia. Si es cierto, se establece response_format=verbose_json e incluye timestamp_granularities a nivel de palabra.
languageCuerdano-Código opcional de idioma ISO-639-1. Se detecta automáticamente si se omite. Ignorado cuando translate=true.
promptCuerdano-Glosario o contexto previo para sesgar el modelo.
response_formatenumno"json"Se sobrescribe para verbose_json cuando marcas de tiempo=verdadero. · Permitidos: json, text, srt, verbose_json, vtt
temperatureNúmerono0.0Temperatura de muestreo. · Rango: 0 – 1
timestamp_granularitiesCuerdano-Lista separada por comas: palabra, segmento. Se usa cuando response_format=verbose_json.

Machine-legible esquema: GET https://api.empiriolabs.ai/v1/models/openai-whisper-1.