Whisper Large v3 Turbo

OpenAI · Transcription
POST /v1/audio/transcriptions可控自托管的Whisper Large v3 Turbo转录,包含多语言ASR、翻译、VAD、时间戳、字幕、热词和解码器控制。
一眼看
| 场地 | 价值 |
|---|---|
| 型号ID | whisper-large-v3-turbo |
| 车型发布日期 | 2024-10-01 |
| 输入模态 | 音频 |
| 输出模态 | 正文 |
| 上下文窗口 | - |
| 重量精度 | FP16 |
| 特色 | 转录、翻译、多语言、word_timestamps、热词等srt_vtt |
| 本土推断 | 是的 |
| 新 | 是的 |
| 支持的端点 | POST /v1/audio/transcriptions |
定价
| 冲锋 | 规格 | 速率 |
|---|---|---|
| 受控转录 | 每分钟音频 | $0.005(曾经$0.006) |
示例请求
$ curl https://api.empiriolabs.ai/v1/audio/transcriptions \ > -H 'Authorization: Bearer $EMPIRIOLABS_API_KEY' \ > -F model=whisper-large-v3-turbo \ > -F file=@meeting.mp3
参数
| 参数 | 类型 | 必修 | 默认 | 描述 |
|---|---|---|---|---|
audio_url | 弦 | 不 | - | 音频文件的网址以便转录。和audio_base64互斥。 |
audio_base64 | 弦 | 不 | - | Base64编码的音频字节。和audio_url互斥。 |
audio_suffix | 弦 | 不 | ".audio" | 当音频源没有可识别的扩展名时,可以提示文件扩展名(mp3、wav、m4a等)。 |
language | 弦 | 不 | - | ISO 639-1语言代码(如英文、英文、法文等)。留空以供自动检测。 |
task | 枚举 | 不 | "transcribe" | 转录=同一种语言,翻译=翻译成英文。·允许:transcribe,translate |
beam_size | 整数 | 不 | 5 | 波束搜索宽度。更高=更准确但更慢。·射程:1 – 32 |
best_of | 整数 | 不 | 5 | 在温度>时,需采样的候选人数为0。·射程:1 – 32 |
patience | 人数 | 不 | 1.0 | 光束搜索耐力因子。更高 = 探索更多候选人。·范围:0.0 – 10.0 |
length_penalty | 人数 | 不 | 1.0 | 较长成绩单将被处罚。负片则会促使输出更短。·范围:-10.0 – 10.0 |
repetition_penalty | 人数 | 不 | 1.0 | 重复使用标记会被惩罚。>1减少重复。·范围:0.1 – 5.0 |
no_repeat_ngram_size | 整数 | 不 | 0 | 阻止任何如此大小的n克在输出中重复出现。·射程:0 – 20 |
temperature | 弦 | 不 | "0,0.2,0.4,0.6,0.8,1" | 采样温度。0 = 确定性,较高 = 变异更多。 |
compression_ratio_threshold | 人数 | 不 | 2.4 | 将压缩比超过此值的输出视为失败,然后重新尝试。 |
log_prob_threshold | 人数 | 不 | -1.0 | 将平均对数概率低于此的段视为失败并重试。 |
no_speech_threshold | 人数 | 不 | 0.6 | 当无语音概率超过此阈值且对数概率低于阈值时,将该段标记为静音。 |
condition_on_previous_text | 布尔值 | 不 | 确实如此 | 用之前的文字记录作为下一个环节的条件。 |
prompt_reset_on_temperature | 人数 | 不 | 0.5 | 当重试时温度回落时,重置调节提示。·范围:0.0 – 1.0 |
initial_prompt | 弦 | 不 | - | 初始文本提示,指导词汇和风格。 |
prefix | 弦 | 不 | - | 第一段文字前的文字。 |
suppress_blank | 布尔值 | 不 | 确实如此 | 在每个段开始时抑制空输出。 |
suppress_tokens | 弦 | 不 | "-1" | 解码时可屏蔽逗号分隔的令牌ID。 |
without_timestamps | 布尔值 | 不 | 错误 | 从响应中剔除每个段的时间戳。 |
word_timestamps | 布尔值 | 不 | 错误 | 在回复中包含每字的时间戳。 |
prepend_punctuations | 弦 | 不 | - | 标点符号与下一个单词合并。 |
append_punctuations | 弦 | 不 | - | 标点符号与前一个单词合并。 |
max_initial_timestamp | 人数 | 不 | 1.0 | 第一段的开始时间限制在这几秒。·范围:0.0 – 30.0 |
multilingual | 布尔值 | 不 | 错误 | 允许在单个音频文件内切换语言。 |
vad_filter | 布尔值 | 不 | 确实如此 | 在解码前使用Silero VAD去除静音。 |
vad_parameters | 对象 | 不 | - | VAD配置为JSON(阈值、min_speech_duration_ms等)。 |
max_new_tokens | 整数 | 不 | - | 每个段的解码令牌数量限制。 |
chunk_length | 整数 | 不 | - | 每个音频片段在解码前的秒数长度。 |
clip_timestamps | 弦 | 不 | "0" | 只在这(开始、结束)的第二秒范围内解码。格式:“0.5,12.3,15.0,30.0”。 |
hallucination_silence_threshold | 人数 | 不 | - | 把超过这几秒钟的长时间静默视为幻觉,跳过它们。 |
hotwords | 弦 | 不 | - | 逗号分隔的热词倾向于(专有名词、行话)。 |
language_detection_threshold | 人数 | 不 | 0.5 | 自动语言检测的置信阈值。 |
language_detection_segments | 整数 | 不 | 1 | 用于语言检测的前导段数量。·范围:1 – 20 |
include_tokens | 布尔值 | 不 | 错误 | 在每个word/segment旁边附上原始代币ID。 |
response_format | 枚举 | 不 | "verbose_json" | JSON | verbose_json | 文本 | SRT | VTT。·允许:verbose_json、json、text、srt、vtt |
注释
支持URL/base64音频、音language/task、光束和温度回退控制、VAD/chunking、热词、提示词、单词时间戳、标点控制、令牌调试输出以及JSON/text/SRT/VTT格式。
Machine可读模式: GET https://api.empiriolabs.ai/v1/models/whisper-large-v3-turbo。
