Whisper Large v3 Turbo | EmpirioLabs AI Docs

OpenAI · Transcription

POST /v1/audio/transcriptions

Transcrição Whisper Large v3 Turbo auto-hospedada com ASR multilíngue, tradução, VAD, carimbos de tempo, legendas, hotwords e controles de decodificador expostos.

De um olhar

Campo	Valor
ID do modelo	`whisper-large-v3-turbo`
Data de lançamento do modelo	2024-10-01
Modalidades de entrada	Áudio
Modalidades de saída	Texto
Janela de contexto	-
Precisão do peso	FP16
Características	transcrição, tradução, multilíngue, word_timestamps, hotwords, srt_vtt
Inferência nativa	Sim
Novo	Sim
Endpoints suportados	`POST /v1/audio/transcriptions`

Precificação

Carga	Especificação	Taxa
Transcrição controlada	por minuto de áudio	$0.005 (era $0.006)

Exemplo de pedido

$ curl https://api.empiriolabs.ai/v1/audio/transcriptions \
>   -H 'Authorization: Bearer $EMPIRIOLABS_API_KEY' \
>   -F model=whisper-large-v3-turbo \
>   -F file=@meeting.mp3

Parâmetros

Parâmetro	Tipo	Obrigatório	Padrão	Descrição
`audio_url`	String	Não	-	URL do arquivo de áudio para transcrever. É mutuamente exclusivo com audio_base64.
`audio_base64`	String	Não	-	Bytes de áudio codificados em base64. Mutuamente exclusivo com audio_url.
`audio_suffix`	String	Não	`".audio"`	Dica de extensão de arquivo (mp3, wav, m4a, etc.) quando a fonte de áudio não tem extensão reconhecível.
`language`	String	Não	-	Código da língua ISO 639-1 (en, es, fr, etc.). Deixe em branco para auto-detecção.
`task`	enum	Não	`"transcribe"`	transcribe = mesmo idioma, traduz = traduz para o inglês. · Permitido: `transcribe`, `translate`
`beam_size`	inteiro	Não	`5`	Largura de busca do feixe. Mais alto = mais preciso, mas mais lento. · Faixa de alcance: 1 – 32
`best_of`	inteiro	Não	`5`	Número de candidatos a amostrar com temperatura > 0. · Faixa de alcance: 1 – 32
`patience`	Número	Não	`1.0`	Fator de paciência para a busca do feixe. Maior = explorar mais candidatos. · Intervalo: 0,0 – 10,0
`length_penalty`	Número	Não	`1.0`	Penalidade aplicada a históricos escolares mais longos. Negativo incentiva uma produção mais curta. · Intervalo: -10,0 – 10,0
`repetition_penalty`	Número	Não	`1.0`	Penalidade por repetir fichas. >1 reduz a repetição. · Alcance: 0,1 – 5,0
`no_repeat_ngram_size`	inteiro	Não	`0`	Bloqueie qualquer n-grama desse tamanho para que não se repita na saída. · Intervalo: 0 – 20
`temperature`	String	Não	`"0,0.2,0.4,0.6,0.8,1"`	Temperatura de amostragem. 0 = determinístico, maior = mais variação.
`compression_ratio_threshold`	Número	Não	`2.4`	Trate a saída com taxa de compressão acima disso como falha e tente novamente.
`log_prob_threshold`	Número	Não	`-1.0`	Trate segmentos com probabilidade logarítmica média abaixo disso como falhada e tente novamente.
`no_speech_threshold`	Número	Não	`0.6`	Marque um segmento como silencioso quando a probabilidade de não falar ultrapassa isso E log-probabilidade estiver abaixo do limiar.
`condition_on_previous_text`	Booleano	Não	Verdade	Use a transcrição anterior como condicionamento para o próximo segmento.
`prompt_reset_on_temperature`	Número	Não	`0.5`	Reinicie o prompt de condicionamento quando a temperatura cair durante a tentativa novamente. · Alcance: 0,0 – 1,0
`initial_prompt`	String	Não	-	Prompt inicial de texto para guiar vocabulário e estilo.
`prefix`	String	Não	-	Texto para anteceder à transcrição do primeiro segmento.
`suppress_blank`	Booleano	Não	Verdade	Suprima as saídas vazias no início de cada segmento.
`suppress_tokens`	String	Não	`"-1"`	IDs de token separados por vírgulas para suprimir durante a decodificação.
`without_timestamps`	Booleano	Não	falso	Retire os carimbos de tempo por segmento da resposta.
`word_timestamps`	Booleano	Não	falso	Inclua carimbos de data por palavra na resposta.
`prepend_punctuations`	String	Não	-	Caracteres de pontuação para se fundir com a palavra seguinte.
`append_punctuations`	String	Não	-	Caracteres de pontuação para se fundir com a palavra anterior.
`max_initial_timestamp`	Número	Não	`1.0`	Limite o tempo de início do primeiro segmento a esse número de segundos. · Alcance: 0,0 – 30,0
`multilingual`	Booleano	Não	falso	Permita a troca de idioma dentro de um único arquivo de áudio.
`vad_filter`	Booleano	Não	Verdade	Aplique o Silero VAD para remover o silêncio antes de decodificar.
`vad_parameters`	Objeto	Não	-	Configuração do VAD como JSON (limiar, min_speech_duration_ms, etc.).
`max_new_tokens`	inteiro	Não	-	Limite para tokens decodificados por segmento.
`chunk_length`	inteiro	Não	-	Duração de cada bloco de áudio em segundos antes da decodificação.
`clip_timestamps`	String	Não	`"0"`	Decodifica apenas dentro desses intervalos (inicial, final) de segundos. Formato: “0.5,12.3,15.0,30.0”.
`hallucination_silence_threshold`	Número	Não	-	Trate as longas seções silenciosas acima desses segundos como alucinações e pule-as.
`hotwords`	String	Não	-	Palavras rápidas separadas por vírgulas para a decodificação de viés para (nomes próprios, jargão).
`language_detection_threshold`	Número	Não	`0.5`	Limiar de confiança para detecção automática de linguagem.
`language_detection_segments`	inteiro	Não	`1`	Número de segmentos principais para usar na detecção de idiomas. · Alcance: 1 – 20
`include_tokens`	Booleano	Não	falso	Inclua IDs brutos de token junto a cada word/segment.
`response_format`	enum	Não	`"verbose_json"`	json \| verbose_json \| texto \| SRT \| VTT. · Permitido: `verbose_json`, `json`, `text`, `srt`, `vtt`

Notas

Suporta controles de URL/base64 áudio, language/task, feixe e de temperatura, VAD/chunking, hotwords, prompts, timestamps de palavras, controles de pontuação, saída de depuração de tokens e formatos JSON/text/SRT/VTT.

Machine esquema legível: GET https://api.empiriolabs.ai/v1/models/whisper-large-v3-turbo.