OpenAI Whisper 1 | EmpirioLabs AI Docs

OpenAI · Transcription

POST /v1/audio/transcriptions

Whisper-1 speech-to-text transcripción entrenada con audio supervisado multilingüe, con un límite de subida de 25 MB por archivo.

A simple vista

Campo	Valor
ID de modelo	`openai-whisper-1`
Fecha de lanzamiento del modelo	2022-09-21
Modalidades de entrada	Audio
Modalidades de salida	Texto
Ventana de contexto	-
Precisión del peso	-
Características	transcripción, speech_to_text
Inferencia nativa	No
Nuevo	No
Puntos finales soportados	`POST /v1/audio/transcriptions`

Precios

Carga	Especificaciones	Tarifa
Por minuto de audio	por minuto	$0.030

Solicitud de ejemplo

$ curl https://api.empiriolabs.ai/v1/audio/transcriptions \
>   -H 'Authorization: Bearer $EMPIRIOLABS_API_KEY' \
>   -F model=openai-whisper-1 \
>   -F file=@meeting.mp3

Parámetros

Parámetro	Tipo	Obligatorio	Default	Descripción
`file`	Cuerda	Sí	-	Audio (subida multiparte) O usar file_url para la ruta JSON.
`file_url`	Cuerda	no	-	URL pública para obtener audio (alternativa a la subida de archivos).
`translate`	Booleano	no	falso	Si es cierto, enruta a /audio/translations y traduce al inglés en lugar de transcribir en el idioma fuente.
`timestamps`	Booleano	no	falso	Interruptor de conveniencia. Si es cierto, se establece response_format=verbose_json e incluye timestamp_granularities a nivel de palabra.
`language`	Cuerda	no	-	Código opcional de idioma ISO-639-1. Se detecta automáticamente si se omite. Ignorado cuando translate=true.
`prompt`	Cuerda	no	-	Glosario o contexto previo para sesgar el modelo.
`response_format`	enum	no	`"json"`	Se sobrescribe para verbose_json cuando marcas de tiempo=verdadero. · Permitidos: `json`, `text`, `srt`, `verbose_json`, `vtt`
`temperature`	Número	no	`0.0`	Temperatura de muestreo. · Rango: 0 – 1
`timestamp_granularities`	Cuerda	no	-	Lista separada por comas: palabra, segmento. Se usa cuando response_format=verbose_json.

Machine-legible esquema: GET https://api.empiriolabs.ai/v1/models/openai-whisper-1.