Whisper Large v3 Turbo

Whisper Large v3 Turbo
OpenAI · Transcription
POST /v1/audio/transcriptions

Transcrição Whisper Large v3 Turbo auto-hospedada com ASR multilíngue, tradução, VAD, carimbos de tempo, legendas, hotwords e controles de decodificador expostos.

De um olhar

CampoValor
ID do modelowhisper-large-v3-turbo
Data de lançamento do modelo2024-10-01
Modalidades de entradaÁudio
Modalidades de saídaTexto
Janela de contexto-
Precisão do pesoFP16
Característicastranscrição, tradução, multilíngue, word_timestamps, hotwords, srt_vtt
Inferência nativaSim
NovoSim
Endpoints suportadosPOST /v1/audio/transcriptions

Precificação

CargaEspecificaçãoTaxa
Transcrição controladapor minuto de áudio$0.005 (era $0.006)

Exemplo de pedido

$curl https://api.empiriolabs.ai/v1/audio/transcriptions \
> -H 'Authorization: Bearer $EMPIRIOLABS_API_KEY' \
> -F model=whisper-large-v3-turbo \
> -F file=@meeting.mp3

Parâmetros

ParâmetroTipoObrigatórioPadrãoDescrição
audio_urlStringNão-URL do arquivo de áudio para transcrever. É mutuamente exclusivo com audio_base64.
audio_base64StringNão-Bytes de áudio codificados em base64. Mutuamente exclusivo com audio_url.
audio_suffixStringNão".audio"Dica de extensão de arquivo (mp3, wav, m4a, etc.) quando a fonte de áudio não tem extensão reconhecível.
languageStringNão-Código da língua ISO 639-1 (en, es, fr, etc.). Deixe em branco para auto-detecção.
taskenumNão"transcribe"transcribe = mesmo idioma, traduz = traduz para o inglês. · Permitido: transcribe, translate
beam_sizeinteiroNão5Largura de busca do feixe. Mais alto = mais preciso, mas mais lento. · Faixa de alcance: 1 – 32
best_ofinteiroNão5Número de candidatos a amostrar com temperatura > 0. · Faixa de alcance: 1 – 32
patienceNúmeroNão1.0Fator de paciência para a busca do feixe. Maior = explorar mais candidatos. · Intervalo: 0,0 – 10,0
length_penaltyNúmeroNão1.0Penalidade aplicada a históricos escolares mais longos. Negativo incentiva uma produção mais curta. · Intervalo: -10,0 – 10,0
repetition_penaltyNúmeroNão1.0Penalidade por repetir fichas. >1 reduz a repetição. · Alcance: 0,1 – 5,0
no_repeat_ngram_sizeinteiroNão0Bloqueie qualquer n-grama desse tamanho para que não se repita na saída. · Intervalo: 0 – 20
temperatureStringNão"0,0.2,0.4,0.6,0.8,1"Temperatura de amostragem. 0 = determinístico, maior = mais variação.
compression_ratio_thresholdNúmeroNão2.4Trate a saída com taxa de compressão acima disso como falha e tente novamente.
log_prob_thresholdNúmeroNão-1.0Trate segmentos com probabilidade logarítmica média abaixo disso como falhada e tente novamente.
no_speech_thresholdNúmeroNão0.6Marque um segmento como silencioso quando a probabilidade de não falar ultrapassa isso E log-probabilidade estiver abaixo do limiar.
condition_on_previous_textBooleanoNãoVerdadeUse a transcrição anterior como condicionamento para o próximo segmento.
prompt_reset_on_temperatureNúmeroNão0.5Reinicie o prompt de condicionamento quando a temperatura cair durante a tentativa novamente. · Alcance: 0,0 – 1,0
initial_promptStringNão-Prompt inicial de texto para guiar vocabulário e estilo.
prefixStringNão-Texto para anteceder à transcrição do primeiro segmento.
suppress_blankBooleanoNãoVerdadeSuprima as saídas vazias no início de cada segmento.
suppress_tokensStringNão"-1"IDs de token separados por vírgulas para suprimir durante a decodificação.
without_timestampsBooleanoNãofalsoRetire os carimbos de tempo por segmento da resposta.
word_timestampsBooleanoNãofalsoInclua carimbos de data por palavra na resposta.
prepend_punctuationsStringNão-Caracteres de pontuação para se fundir com a palavra seguinte.
append_punctuationsStringNão-Caracteres de pontuação para se fundir com a palavra anterior.
max_initial_timestampNúmeroNão1.0Limite o tempo de início do primeiro segmento a esse número de segundos. · Alcance: 0,0 – 30,0
multilingualBooleanoNãofalsoPermita a troca de idioma dentro de um único arquivo de áudio.
vad_filterBooleanoNãoVerdadeAplique o Silero VAD para remover o silêncio antes de decodificar.
vad_parametersObjetoNão-Configuração do VAD como JSON (limiar, min_speech_duration_ms, etc.).
max_new_tokensinteiroNão-Limite para tokens decodificados por segmento.
chunk_lengthinteiroNão-Duração de cada bloco de áudio em segundos antes da decodificação.
clip_timestampsStringNão"0"Decodifica apenas dentro desses intervalos (inicial, final) de segundos. Formato: “0.5,12.3,15.0,30.0”.
hallucination_silence_thresholdNúmeroNão-Trate as longas seções silenciosas acima desses segundos como alucinações e pule-as.
hotwordsStringNão-Palavras rápidas separadas por vírgulas para a decodificação de viés para (nomes próprios, jargão).
language_detection_thresholdNúmeroNão0.5Limiar de confiança para detecção automática de linguagem.
language_detection_segmentsinteiroNão1Número de segmentos principais para usar na detecção de idiomas. · Alcance: 1 – 20
include_tokensBooleanoNãofalsoInclua IDs brutos de token junto a cada word/segment.
response_formatenumNão"verbose_json"json | verbose_json | texto | SRT | VTT. · Permitido: verbose_json, json, text, srt, vtt

Notas

Suporta controles de URL/base64 áudio, language/task, feixe e de temperatura, VAD/chunking, hotwords, prompts, timestamps de palavras, controles de pontuação, saída de depuração de tokens e formatos JSON/text/SRT/VTT.


Machine esquema legível: GET https://api.empiriolabs.ai/v1/models/whisper-large-v3-turbo.