Whisper Large v3 Turbo

Whisper Large v3 Turbo
OpenAI · Transcription
POST /v1/audio/transcriptions

可控自托管的Whisper Large v3 Turbo转录,包含多语言ASR、翻译、VAD、时间戳、字幕、热词和解码器控制。

一眼看

场地价值
型号IDwhisper-large-v3-turbo
车型发布日期2024-10-01
输入模态音频
输出模态正文
上下文窗口-
重量精度FP16
特色转录、翻译、多语言、word_timestamps、热词等srt_vtt
本土推断是的
是的
支持的端点POST /v1/audio/transcriptions

定价

冲锋规格速率
受控转录每分钟音频$0.005(曾经$0.006)

示例请求

$curl https://api.empiriolabs.ai/v1/audio/transcriptions \
> -H 'Authorization: Bearer $EMPIRIOLABS_API_KEY' \
> -F model=whisper-large-v3-turbo \
> -F file=@meeting.mp3

参数

参数类型必修默认描述
audio_url-音频文件的网址以便转录。和audio_base64互斥。
audio_base64-Base64编码的音频字节。和audio_url互斥。
audio_suffix".audio"当音频源没有可识别的扩展名时,可以提示文件扩展名(mp3、wav、m4a等)。
language-ISO 639-1语言代码(如英文、英文、法文等)。留空以供自动检测。
task枚举"transcribe"转录=同一种语言,翻译=翻译成英文。·允许:transcribetranslate
beam_size整数5波束搜索宽度。更高=更准确但更慢。·射程:1 – 32
best_of整数5在温度>时,需采样的候选人数为0。·射程:1 – 32
patience人数1.0光束搜索耐力因子。更高 = 探索更多候选人。·范围:0.0 – 10.0
length_penalty人数1.0较长成绩单将被处罚。负片则会促使输出更短。·范围:-10.0 – 10.0
repetition_penalty人数1.0重复使用标记会被惩罚。>1减少重复。·范围:0.1 – 5.0
no_repeat_ngram_size整数0阻止任何如此大小的n克在输出中重复出现。·射程:0 – 20
temperature"0,0.2,0.4,0.6,0.8,1"采样温度。0 = 确定性,较高 = 变异更多。
compression_ratio_threshold人数2.4将压缩比超过此值的输出视为失败,然后重新尝试。
log_prob_threshold人数-1.0将平均对数概率低于此的段视为失败并重试。
no_speech_threshold人数0.6当无语音概率超过此阈值且对数概率低于阈值时,将该段标记为静音。
condition_on_previous_text布尔值确实如此用之前的文字记录作为下一个环节的条件。
prompt_reset_on_temperature人数0.5当重试时温度回落时,重置调节提示。·范围:0.0 – 1.0
initial_prompt-初始文本提示,指导词汇和风格。
prefix-第一段文字前的文字。
suppress_blank布尔值确实如此在每个段开始时抑制空输出。
suppress_tokens"-1"解码时可屏蔽逗号分隔的令牌ID。
without_timestamps布尔值错误从响应中剔除每个段的时间戳。
word_timestamps布尔值错误在回复中包含每字的时间戳。
prepend_punctuations-标点符号与下一个单词合并。
append_punctuations-标点符号与前一个单词合并。
max_initial_timestamp人数1.0第一段的开始时间限制在这几秒。·范围:0.0 – 30.0
multilingual布尔值错误允许在单个音频文件内切换语言。
vad_filter布尔值确实如此在解码前使用Silero VAD去除静音。
vad_parameters对象-VAD配置为JSON(阈值、min_speech_duration_ms等)。
max_new_tokens整数-每个段的解码令牌数量限制。
chunk_length整数-每个音频片段在解码前的秒数长度。
clip_timestamps"0"只在这(开始、结束)的第二秒范围内解码。格式:“0.5,12.3,15.0,30.0”。
hallucination_silence_threshold人数-把超过这几秒钟的长时间静默视为幻觉,跳过它们。
hotwords-逗号分隔的热词倾向于(专有名词、行话)。
language_detection_threshold人数0.5自动语言检测的置信阈值。
language_detection_segments整数1用于语言检测的前导段数量。·范围:1 – 20
include_tokens布尔值错误在每个word/segment旁边附上原始代币ID。
response_format枚举"verbose_json"JSON | verbose_json | 文本 | SRT | VTT。·允许:verbose_jsonjsontextsrtvtt

注释

支持URL/base64音频、音language/task、光束和温度回退控制、VAD/chunking、热词、提示词、单词时间戳、标点控制、令牌调试输出以及JSON/text/SRT/VTT格式。


Machine可读模式: GET https://api.empiriolabs.ai/v1/models/whisper-large-v3-turbo