OpenAI Whisper 1 | EmpirioLabs AI Docs

OpenAI · Transcription

POST /v1/audio/transcriptions

Whisper-1speech-to-text多言語監督付き音声で学習された文字起こしで、ファイルあたりアップロード制限は25MBです。

一目で

フィールド	価値
モデルID	`openai-whisper-1`
モデル発売日	2022-09-21
入力モダリティ	音声
出力モダリティ	本文
コンテキストウィンドウ	-
重量精度	-
特徴	書き起こし、speech_to_text
ネイティブ推論	いいえ
新作	いいえ
サポート端末	`POST /v1/audio/transcriptions`

価格設定

チャージ	スペック	レート
音声1分あたり	毎分	$0.030

例示リクエスト

$ curl https://api.empiriolabs.ai/v1/audio/transcriptions \
>   -H 'Authorization: Bearer $EMPIRIOLABS_API_KEY' \
>   -F model=openai-whisper-1 \
>   -F file=@meeting.mp3

パラメータ

パラメータ	種類	必須	デフォルト	概要
`file`	ストリング	はい	-	オーディオファイル(マルチパートアップロード)またはJSONパスにfile_urlを使う方法もあります。
`file_url`	ストリング	いいえ	-	音声取得用のパブリックURL(ファイルアップロードの代替)。
`translate`	ブール値	いいえ	偽り	もしそうなら、/audio/translationsにルーティングして英語に翻訳し、元の言語で文字を書き起こすのではなく、
`timestamps`	ブール値	いいえ	偽り	便利性の切り替え。もし真の場合、response_format=verbose_json を設定し、単語レベルのtimestamp_granularitiesも含みます。
`language`	ストリング	いいえ	-	オプションのISO-639-1言語コード。省略の場合は自動検出。translate=trueの場合は無視されます。
`prompt`	ストリング	いいえ	-	用語集や事前の文脈を参考にしてモデルに偏りをつけてください。
`response_format`	エヌム	いいえ	`"json"`	タイムスタンプ=trueのときにverbose_jsonに上書きされます。·許可:`json`、`text`、`srt`、`verbose_json`、`vtt`
`temperature`	番号	いいえ	`0.0`	サンプリング温度。·射程:0 – 1
`timestamp_granularities`	ストリング	いいえ	-	カンマ区切りリスト:単語、セグメント。response_format=verbose_jsonの時に使用されます。

Machine-readable schema: GET https://api.empiriolabs.ai/v1/models/openai-whisper-1。