Whisper Large v3 Turbo

OpenAI · Transcription
POST /v1/audio/transcriptionsTranscrição Whisper Large v3 Turbo auto-hospedada com ASR multilíngue, tradução, VAD, carimbos de tempo, legendas, hotwords e controles de decodificador expostos.
De um olhar
| Campo | Valor |
|---|---|
| ID do modelo | whisper-large-v3-turbo |
| Data de lançamento do modelo | 2024-10-01 |
| Modalidades de entrada | Áudio |
| Modalidades de saída | Texto |
| Janela de contexto | - |
| Precisão do peso | FP16 |
| Características | transcrição, tradução, multilíngue, word_timestamps, hotwords, srt_vtt |
| Inferência nativa | Sim |
| Novo | Sim |
| Endpoints suportados | POST /v1/audio/transcriptions |
Precificação
| Carga | Especificação | Taxa |
|---|---|---|
| Transcrição controlada | por minuto de áudio | $0.005 (era $0.006) |
Exemplo de pedido
$ curl https://api.empiriolabs.ai/v1/audio/transcriptions \ > -H 'Authorization: Bearer $EMPIRIOLABS_API_KEY' \ > -F model=whisper-large-v3-turbo \ > -F file=@meeting.mp3
Parâmetros
| Parâmetro | Tipo | Obrigatório | Padrão | Descrição |
|---|---|---|---|---|
audio_url | String | Não | - | URL do arquivo de áudio para transcrever. É mutuamente exclusivo com audio_base64. |
audio_base64 | String | Não | - | Bytes de áudio codificados em base64. Mutuamente exclusivo com audio_url. |
audio_suffix | String | Não | ".audio" | Dica de extensão de arquivo (mp3, wav, m4a, etc.) quando a fonte de áudio não tem extensão reconhecível. |
language | String | Não | - | Código da língua ISO 639-1 (en, es, fr, etc.). Deixe em branco para auto-detecção. |
task | enum | Não | "transcribe" | transcribe = mesmo idioma, traduz = traduz para o inglês. · Permitido: transcribe, translate |
beam_size | inteiro | Não | 5 | Largura de busca do feixe. Mais alto = mais preciso, mas mais lento. · Faixa de alcance: 1 – 32 |
best_of | inteiro | Não | 5 | Número de candidatos a amostrar com temperatura > 0. · Faixa de alcance: 1 – 32 |
patience | Número | Não | 1.0 | Fator de paciência para a busca do feixe. Maior = explorar mais candidatos. · Intervalo: 0,0 – 10,0 |
length_penalty | Número | Não | 1.0 | Penalidade aplicada a históricos escolares mais longos. Negativo incentiva uma produção mais curta. · Intervalo: -10,0 – 10,0 |
repetition_penalty | Número | Não | 1.0 | Penalidade por repetir fichas. >1 reduz a repetição. · Alcance: 0,1 – 5,0 |
no_repeat_ngram_size | inteiro | Não | 0 | Bloqueie qualquer n-grama desse tamanho para que não se repita na saída. · Intervalo: 0 – 20 |
temperature | String | Não | "0,0.2,0.4,0.6,0.8,1" | Temperatura de amostragem. 0 = determinístico, maior = mais variação. |
compression_ratio_threshold | Número | Não | 2.4 | Trate a saída com taxa de compressão acima disso como falha e tente novamente. |
log_prob_threshold | Número | Não | -1.0 | Trate segmentos com probabilidade logarítmica média abaixo disso como falhada e tente novamente. |
no_speech_threshold | Número | Não | 0.6 | Marque um segmento como silencioso quando a probabilidade de não falar ultrapassa isso E log-probabilidade estiver abaixo do limiar. |
condition_on_previous_text | Booleano | Não | Verdade | Use a transcrição anterior como condicionamento para o próximo segmento. |
prompt_reset_on_temperature | Número | Não | 0.5 | Reinicie o prompt de condicionamento quando a temperatura cair durante a tentativa novamente. · Alcance: 0,0 – 1,0 |
initial_prompt | String | Não | - | Prompt inicial de texto para guiar vocabulário e estilo. |
prefix | String | Não | - | Texto para anteceder à transcrição do primeiro segmento. |
suppress_blank | Booleano | Não | Verdade | Suprima as saídas vazias no início de cada segmento. |
suppress_tokens | String | Não | "-1" | IDs de token separados por vírgulas para suprimir durante a decodificação. |
without_timestamps | Booleano | Não | falso | Retire os carimbos de tempo por segmento da resposta. |
word_timestamps | Booleano | Não | falso | Inclua carimbos de data por palavra na resposta. |
prepend_punctuations | String | Não | - | Caracteres de pontuação para se fundir com a palavra seguinte. |
append_punctuations | String | Não | - | Caracteres de pontuação para se fundir com a palavra anterior. |
max_initial_timestamp | Número | Não | 1.0 | Limite o tempo de início do primeiro segmento a esse número de segundos. · Alcance: 0,0 – 30,0 |
multilingual | Booleano | Não | falso | Permita a troca de idioma dentro de um único arquivo de áudio. |
vad_filter | Booleano | Não | Verdade | Aplique o Silero VAD para remover o silêncio antes de decodificar. |
vad_parameters | Objeto | Não | - | Configuração do VAD como JSON (limiar, min_speech_duration_ms, etc.). |
max_new_tokens | inteiro | Não | - | Limite para tokens decodificados por segmento. |
chunk_length | inteiro | Não | - | Duração de cada bloco de áudio em segundos antes da decodificação. |
clip_timestamps | String | Não | "0" | Decodifica apenas dentro desses intervalos (inicial, final) de segundos. Formato: “0.5,12.3,15.0,30.0”. |
hallucination_silence_threshold | Número | Não | - | Trate as longas seções silenciosas acima desses segundos como alucinações e pule-as. |
hotwords | String | Não | - | Palavras rápidas separadas por vírgulas para a decodificação de viés para (nomes próprios, jargão). |
language_detection_threshold | Número | Não | 0.5 | Limiar de confiança para detecção automática de linguagem. |
language_detection_segments | inteiro | Não | 1 | Número de segmentos principais para usar na detecção de idiomas. · Alcance: 1 – 20 |
include_tokens | Booleano | Não | falso | Inclua IDs brutos de token junto a cada word/segment. |
response_format | enum | Não | "verbose_json" | json | verbose_json | texto | SRT | VTT. · Permitido: verbose_json, json, text, srt, vtt |
Notas
Suporta controles de URL/base64 áudio, language/task, feixe e de temperatura, VAD/chunking, hotwords, prompts, timestamps de palavras, controles de pontuação, saída de depuração de tokens e formatos JSON/text/SRT/VTT.
Machine esquema legível: GET https://api.empiriolabs.ai/v1/models/whisper-large-v3-turbo.
