Whisper Large v3 Turbo | EmpirioLabs AI Docs

OpenAI · Transcription

POST /v1/audio/transcriptions

可控自托管的Whisper Large v3 Turbo转录，包含多语言ASR、翻译、VAD、时间戳、字幕、热词和解码器控制。

一眼看

场地	价值
型号ID	`whisper-large-v3-turbo`
车型发布日期	2024-10-01
输入模态	音频
输出模态	正文
上下文窗口	-
重量精度	FP16
特色	转录、翻译、多语言、word_timestamps、热词等srt_vtt
本土推断	是的
新	是的
支持的端点	`POST /v1/audio/transcriptions`

定价

冲锋	规格	速率
受控转录	每分钟音频	$0.005（曾经$0.006）

示例请求

$ curl https://api.empiriolabs.ai/v1/audio/transcriptions \
>   -H 'Authorization: Bearer $EMPIRIOLABS_API_KEY' \
>   -F model=whisper-large-v3-turbo \
>   -F file=@meeting.mp3

参数

参数	类型	必修	默认	描述
`audio_url`	弦	不	-	音频文件的网址以便转录。和audio_base64互斥。
`audio_base64`	弦	不	-	Base64编码的音频字节。和audio_url互斥。
`audio_suffix`	弦	不	`".audio"`	当音频源没有可识别的扩展名时，可以提示文件扩展名（mp3、wav、m4a等）。
`language`	弦	不	-	ISO 639-1语言代码（如英文、英文、法文等）。留空以供自动检测。
`task`	枚举	不	`"transcribe"`	转录=同一种语言，翻译=翻译成英文。·允许：`transcribe`，`translate`
`beam_size`	整数	不	`5`	波束搜索宽度。更高=更准确但更慢。·射程：1 – 32
`best_of`	整数	不	`5`	在温度>时，需采样的候选人数为0。·射程：1 – 32
`patience`	人数	不	`1.0`	光束搜索耐力因子。更高 = 探索更多候选人。·范围：0.0 – 10.0
`length_penalty`	人数	不	`1.0`	较长成绩单将被处罚。负片则会促使输出更短。·范围：-10.0 – 10.0
`repetition_penalty`	人数	不	`1.0`	重复使用标记会被惩罚。>1减少重复。·范围：0.1 – 5.0
`no_repeat_ngram_size`	整数	不	`0`	阻止任何如此大小的n克在输出中重复出现。·射程：0 – 20
`temperature`	弦	不	`"0,0.2,0.4,0.6,0.8,1"`	采样温度。0 = 确定性，较高 = 变异更多。
`compression_ratio_threshold`	人数	不	`2.4`	将压缩比超过此值的输出视为失败，然后重新尝试。
`log_prob_threshold`	人数	不	`-1.0`	将平均对数概率低于此的段视为失败并重试。
`no_speech_threshold`	人数	不	`0.6`	当无语音概率超过此阈值且对数概率低于阈值时，将该段标记为静音。
`condition_on_previous_text`	布尔值	不	确实如此	用之前的文字记录作为下一个环节的条件。
`prompt_reset_on_temperature`	人数	不	`0.5`	当重试时温度回落时，重置调节提示。·范围：0.0 – 1.0
`initial_prompt`	弦	不	-	初始文本提示，指导词汇和风格。
`prefix`	弦	不	-	第一段文字前的文字。
`suppress_blank`	布尔值	不	确实如此	在每个段开始时抑制空输出。
`suppress_tokens`	弦	不	`"-1"`	解码时可屏蔽逗号分隔的令牌ID。
`without_timestamps`	布尔值	不	错误	从响应中剔除每个段的时间戳。
`word_timestamps`	布尔值	不	错误	在回复中包含每字的时间戳。
`prepend_punctuations`	弦	不	-	标点符号与下一个单词合并。
`append_punctuations`	弦	不	-	标点符号与前一个单词合并。
`max_initial_timestamp`	人数	不	`1.0`	第一段的开始时间限制在这几秒。·范围：0.0 – 30.0
`multilingual`	布尔值	不	错误	允许在单个音频文件内切换语言。
`vad_filter`	布尔值	不	确实如此	在解码前使用Silero VAD去除静音。
`vad_parameters`	对象	不	-	VAD配置为JSON（阈值、min_speech_duration_ms等）。
`max_new_tokens`	整数	不	-	每个段的解码令牌数量限制。
`chunk_length`	整数	不	-	每个音频片段在解码前的秒数长度。
`clip_timestamps`	弦	不	`"0"`	只在这（开始、结束）的第二秒范围内解码。格式：“0.5,12.3,15.0,30.0”。
`hallucination_silence_threshold`	人数	不	-	把超过这几秒钟的长时间静默视为幻觉，跳过它们。
`hotwords`	弦	不	-	逗号分隔的热词倾向于（专有名词、行话）。
`language_detection_threshold`	人数	不	`0.5`	自动语言检测的置信阈值。
`language_detection_segments`	整数	不	`1`	用于语言检测的前导段数量。·范围：1 – 20
`include_tokens`	布尔值	不	错误	在每个word/segment旁边附上原始代币ID。
`response_format`	枚举	不	`"verbose_json"`	JSON \| verbose_json \| 文本 \| SRT \| VTT。·允许：`verbose_json`、`json`、`text`、`srt`、`vtt`

注释

支持URL/base64音频、音language/task、光束和温度回退控制、VAD/chunking、热词、提示词、单词时间戳、标点控制、令牌调试输出以及JSON/text/SRT/VTT格式。

Machine可读模式： GET https://api.empiriolabs.ai/v1/models/whisper-large-v3-turbo。