OpenAI Whisper 1 | EmpirioLabs AI Docs

OpenAI · Transcription

POST /v1/audio/transcriptions

Whisper-1 speech-to-text transcrição treinada com áudio supervisionado multilíngue, com limite de upload de 25 MB por arquivo.

De um olhar

Campo	Valor
ID do modelo	`openai-whisper-1`
Data de lançamento do modelo	2022-09-21
Modalidades de entrada	Áudio
Modalidades de saída	Texto
Janela de contexto	-
Precisão do peso	-
Características	transcrição, speech_to_text
Inferência nativa	Não
Novo	Não
Endpoints suportados	`POST /v1/audio/transcriptions`

Precificação

Carga	Especificação	Taxa
Por minuto de áudio	por minuto	$0.030

Exemplo de pedido

$ curl https://api.empiriolabs.ai/v1/audio/transcriptions \
>   -H 'Authorization: Bearer $EMPIRIOLABS_API_KEY' \
>   -F model=openai-whisper-1 \
>   -F file=@meeting.mp3

Parâmetros

Parâmetro	Tipo	Obrigatório	Padrão	Descrição
`file`	String	sim	-	Arquivo de áudio (upload em múltiplas partes) OU usar file_url para o caminho JSON.
`file_url`	String	Não	-	URL pública para buscar áudio (alternativa ao upload de arquivo).
`translate`	Booleano	Não	falso	Se for verdade, faça roteamento para /audio/translations e traduza para o inglês em vez de transcrever na língua de origem.
`timestamps`	Booleano	Não	falso	Opção de conveniência. Se for verdadeiro, estabelece response_format=verbose_json e inclui timestamp_granularities em nível de palavra.
`language`	String	Não	-	Código opcional da língua ISO-639-1. Detectado automaticamente se for omitido. Ignorado quando traduz=verdadeiro.
`prompt`	String	Não	-	Glossário ou contexto prévio para viesar o modelo.
`response_format`	enum	Não	`"json"`	Sobrescrito para verbose_json quando timestamps=true. · Permitido: `json`, `text`, `srt`, `verbose_json`, `vtt`
`temperature`	Número	Não	`0.0`	Temperatura de amostragem. · Intervalo: 0 – 1
`timestamp_granularities`	String	Não	-	Lista separada por vírgula: palavra, segmento. Usado quando response_format=verbose_json.

Machine esquema legível: GET https://api.empiriolabs.ai/v1/models/openai-whisper-1.