Whisper Large v3 Turbo

Whisper Large v3 Turbo
OpenAI · Transcription
POST /v1/audio/transcriptions

制御されたセルフホスト型Whisper Large v3 Turbo文字起こしを、多言語ASR、翻訳、VAD、タイムスタンプ、字幕、ホットワード、デコーダー制御を公開しています。

一目で

フィールド価値
モデルIDwhisper-large-v3-turbo
モデル発売日2024-10-01
入力モダリティ音声
出力モダリティ本文
コンテキストウィンドウ-
重量精度FP16
特徴文字起こし、翻訳、多言語、word_timestamps、ホットワード、srt_vtt
ネイティブ推論はい
新作はい
サポート端末POST /v1/audio/transcriptions

価格設定

チャージスペックレート
制御転写音声の1分あたり$0.005(だった$0.006)

例示リクエスト

$curl https://api.empiriolabs.ai/v1/audio/transcriptions \
> -H 'Authorization: Bearer $EMPIRIOLABS_API_KEY' \
> -F model=whisper-large-v3-turbo \
> -F file=@meeting.mp3

パラメータ

パラメータ種類必須デフォルト概要
audio_urlストリングいいえ-音声ファイルのURLを文字起こししてください。audio_base64とは相互排他的です。
audio_base64ストリングいいえ-Base64でエンコードされたオーディオバイト。audio_urlと相互排他的です。
audio_suffixストリングいいえ".audio"音声ソースに認識可能な拡張子がない場合のファイル拡張子のヒント(mp3、wav、m4aなど)。
languageストリングいいえ-ISO 639-1の言語コード(英語、英語、フランス語など)。自動検出用に空欄を残してください。
taskエヌムいいえ"transcribe"転写=同じ言語、翻訳=英語に翻訳。·許可:transcribetranslate
beam_size整数いいえ5ビームサーチ幅。高い方=より正確ですが遅くなります。·射程:1 – 32
best_of整数いいえ5温度>0でサンプリングする候補者数。·射程:1 – 32
patience番号いいえ1.0ビームサーチの忍耐力。高い方=より多くの候補者を探求します。·範囲:0.0 – 10.0
length_penalty番号いいえ1.0より長い成績証明書にはペナルティが適用されます。ネガティブは出力を短く促します。·範囲:-10.0 – 10.0
repetition_penalty番号いいえ1.0トークンを繰り返すとペナルティが発生します。>1は繰り返しを減らす。·射程:0.1 – 5.0
no_repeat_ngram_size整数いいえ0このサイズのnグラムは出力で繰り返されるのをブロックします。·範囲:0 – 20
temperatureストリングいいえ"0,0.2,0.4,0.6,0.8,1"サンプリング温度。0 = 決定論的、より大きい方が = 変動が大きい。
compression_ratio_threshold番号いいえ2.4圧縮比がこれ以上になる出力は失敗とみなし、再試行してください。
log_prob_threshold番号いいえ-1.0平均ログ確率がこの以下のセグメントは失敗とみなし、再試行します。
no_speech_threshold番号いいえ0.6無発言確率がこれを超え、かつログ確率が閾値以下であれば、セグメントを無音としてマークします。
condition_on_previous_textブール値いいえ確かに前のトランスクリプトを次のセグメントの条件として使ってください。
prompt_reset_on_temperature番号いいえ0.5再試行中に温度が戻ったらコンディショニングプロンプトをリセットしてください。·範囲:0.0 – 1.0
initial_promptストリングいいえ-語彙とスタイルを導くための最初のテキストプロンプト。
prefixストリングいいえ-最初のセグメントの書き起こしの前置きテキスト。
suppress_blankブール値いいえ確かに各セグメントの開始時に空の出力を抑制します。
suppress_tokensストリングいいえ"-1"復号時に抑制するカンマ区切られたトークンID。
without_timestampsブール値いいえ偽りレスポンスからセグメントごとのタイムスタンプを除外します。
word_timestampsブール値いいえ偽り回答には単語ごとのタイムスタンプを含めてください。
prepend_punctuationsストリングいいえ-句読点文字を次の単語と統合します。
append_punctuationsストリングいいえ-句読点文字は前の単語と統合されます。
max_initial_timestamp番号いいえ1.0最初のセグメントの開始時間をこの数秒に制限します。·範囲:0.0 – 30.0
multilingualブール値いいえ偽り単一の音声ファイル内で言語切り替えを許可します。
vad_filterブール値いいえ確かにデコード前にサイレロVADを塗ってサイレンスを除去してください。
vad_parameters目的いいえ-VADの設定はJSON(しきい値、min_speech_duration_msなど)です。
max_new_tokens整数いいえ-セグメントごとのデコードトークン数に上限を設けましょう。
chunk_length整数いいえ-各オーディオチャンクの長さをデコード前の秒単位で示します。
clip_timestampsストリングいいえ"0"これらの(開始・終了)2秒帯内のみを復号します。フォーマット:「0.5,12.3,15.0,30.0」。
hallucination_silence_threshold番号いいえ-これ以上続く長い沈黙の部分は幻覚とみなし、スキップしてください。
hotwordsストリングいいえ-カンマ区切られたホットワードが(固有名詞、専門用語)に偏る。
language_detection_threshold番号いいえ0.5自動言語検出の信頼度閾値。
language_detection_segments整数いいえ1言語検出に使うリードセグメントの数。·射程:1 – 20
include_tokensブール値いいえ偽り各word/segmentの横に生のトークンIDを含めてください。
response_formatエヌムいいえ"verbose_json"JSON | verbose_json | テキスト | SRT | VTT。·許可:verbose_jsonjsontextsrtvtt

注記

URL/base64オーディオ、language/task、ビーム、温度のフォールバック制御、VAD/chunking、ホットワード、プロンプト、ワードタイムスタンプ、句読点制御、トークンデバッグ出力、JSON/text/SRT/VTTフォーマットをサポートしています。


Machine-readable schema: GET https://api.empiriolabs.ai/v1/models/whisper-large-v3-turbo