Whisper Large v3 Turbo | EmpirioLabs AI Docs

OpenAI · Transcription

POST /v1/audio/transcriptions

制御されたセルフホスト型Whisper Large v3 Turbo文字起こしを、多言語ASR、翻訳、VAD、タイムスタンプ、字幕、ホットワード、デコーダー制御を公開しています。

一目で

フィールド	価値
モデルID	`whisper-large-v3-turbo`
モデル発売日	2024-10-01
入力モダリティ	音声
出力モダリティ	本文
コンテキストウィンドウ	-
重量精度	FP16
特徴	文字起こし、翻訳、多言語、word_timestamps、ホットワード、srt_vtt
ネイティブ推論	はい
新作	はい
サポート端末	`POST /v1/audio/transcriptions`

価格設定

チャージ	スペック	レート
制御転写	音声の1分あたり	$0.005(だった$0.006)

例示リクエスト

$ curl https://api.empiriolabs.ai/v1/audio/transcriptions \
>   -H 'Authorization: Bearer $EMPIRIOLABS_API_KEY' \
>   -F model=whisper-large-v3-turbo \
>   -F file=@meeting.mp3

パラメータ

パラメータ	種類	必須	デフォルト	概要
`audio_url`	ストリング	いいえ	-	音声ファイルのURLを文字起こししてください。audio_base64とは相互排他的です。
`audio_base64`	ストリング	いいえ	-	Base64でエンコードされたオーディオバイト。audio_urlと相互排他的です。
`audio_suffix`	ストリング	いいえ	`".audio"`	音声ソースに認識可能な拡張子がない場合のファイル拡張子のヒント(mp3、wav、m4aなど)。
`language`	ストリング	いいえ	-	ISO 639-1の言語コード(英語、英語、フランス語など)。自動検出用に空欄を残してください。
`task`	エヌム	いいえ	`"transcribe"`	転写=同じ言語、翻訳=英語に翻訳。·許可:`transcribe`、`translate`
`beam_size`	整数	いいえ	`5`	ビームサーチ幅。高い方=より正確ですが遅くなります。·射程:1 – 32
`best_of`	整数	いいえ	`5`	温度>0でサンプリングする候補者数。·射程:1 – 32
`patience`	番号	いいえ	`1.0`	ビームサーチの忍耐力。高い方=より多くの候補者を探求します。·範囲:0.0 – 10.0
`length_penalty`	番号	いいえ	`1.0`	より長い成績証明書にはペナルティが適用されます。ネガティブは出力を短く促します。·範囲:-10.0 – 10.0
`repetition_penalty`	番号	いいえ	`1.0`	トークンを繰り返すとペナルティが発生します。>1は繰り返しを減らす。·射程:0.1 – 5.0
`no_repeat_ngram_size`	整数	いいえ	`0`	このサイズのnグラムは出力で繰り返されるのをブロックします。·範囲:0 – 20
`temperature`	ストリング	いいえ	`"0,0.2,0.4,0.6,0.8,1"`	サンプリング温度。0 = 決定論的、より大きい方が = 変動が大きい。
`compression_ratio_threshold`	番号	いいえ	`2.4`	圧縮比がこれ以上になる出力は失敗とみなし、再試行してください。
`log_prob_threshold`	番号	いいえ	`-1.0`	平均ログ確率がこの以下のセグメントは失敗とみなし、再試行します。
`no_speech_threshold`	番号	いいえ	`0.6`	無発言確率がこれを超え、かつログ確率が閾値以下であれば、セグメントを無音としてマークします。
`condition_on_previous_text`	ブール値	いいえ	確かに	前のトランスクリプトを次のセグメントの条件として使ってください。
`prompt_reset_on_temperature`	番号	いいえ	`0.5`	再試行中に温度が戻ったらコンディショニングプロンプトをリセットしてください。·範囲:0.0 – 1.0
`initial_prompt`	ストリング	いいえ	-	語彙とスタイルを導くための最初のテキストプロンプト。
`prefix`	ストリング	いいえ	-	最初のセグメントの書き起こしの前置きテキスト。
`suppress_blank`	ブール値	いいえ	確かに	各セグメントの開始時に空の出力を抑制します。
`suppress_tokens`	ストリング	いいえ	`"-1"`	復号時に抑制するカンマ区切られたトークンID。
`without_timestamps`	ブール値	いいえ	偽り	レスポンスからセグメントごとのタイムスタンプを除外します。
`word_timestamps`	ブール値	いいえ	偽り	回答には単語ごとのタイムスタンプを含めてください。
`prepend_punctuations`	ストリング	いいえ	-	句読点文字を次の単語と統合します。
`append_punctuations`	ストリング	いいえ	-	句読点文字は前の単語と統合されます。
`max_initial_timestamp`	番号	いいえ	`1.0`	最初のセグメントの開始時間をこの数秒に制限します。·範囲:0.0 – 30.0
`multilingual`	ブール値	いいえ	偽り	単一の音声ファイル内で言語切り替えを許可します。
`vad_filter`	ブール値	いいえ	確かに	デコード前にサイレロVADを塗ってサイレンスを除去してください。
`vad_parameters`	目的	いいえ	-	VADの設定はJSON(しきい値、min_speech_duration_msなど)です。
`max_new_tokens`	整数	いいえ	-	セグメントごとのデコードトークン数に上限を設けましょう。
`chunk_length`	整数	いいえ	-	各オーディオチャンクの長さをデコード前の秒単位で示します。
`clip_timestamps`	ストリング	いいえ	`"0"`	これらの(開始・終了)2秒帯内のみを復号します。フォーマット:「0.5,12.3,15.0,30.0」。
`hallucination_silence_threshold`	番号	いいえ	-	これ以上続く長い沈黙の部分は幻覚とみなし、スキップしてください。
`hotwords`	ストリング	いいえ	-	カンマ区切られたホットワードが(固有名詞、専門用語)に偏る。
`language_detection_threshold`	番号	いいえ	`0.5`	自動言語検出の信頼度閾値。
`language_detection_segments`	整数	いいえ	`1`	言語検出に使うリードセグメントの数。·射程:1 – 20
`include_tokens`	ブール値	いいえ	偽り	各word/segmentの横に生のトークンIDを含めてください。
`response_format`	エヌム	いいえ	`"verbose_json"`	JSON \| verbose_json \| テキスト \| SRT \| VTT。·許可:`verbose_json`、`json`、`text`、`srt`、`vtt`

注記

URL/base64オーディオ、language/task、ビーム、温度のフォールバック制御、VAD/chunking、ホットワード、プロンプト、ワードタイムスタンプ、句読点制御、トークンデバッグ出力、JSON/text/SRT/VTTフォーマットをサポートしています。

Machine-readable schema: GET https://api.empiriolabs.ai/v1/models/whisper-large-v3-turbo。