Whisper Large v3 Turbo

OpenAI · Transcription
POST /v1/audio/transcriptions다국어 ASR, 번역, VAD, 타임스탬프, 자막, 핫워드, 디코더 제어 기능을 포함한 제어된 자체 호스팅 Whisper Large v3 Turbo 전사.
한눈에
| 필드 | 가치 |
|---|---|
| 모델 ID | whisper-large-v3-turbo |
| 모델 출시일 | 2024-10-01 |
| 입력 양상 | 오디오 |
| 출력 방식 | 본문 |
| 컨텍스트 윈도우 | - |
| 무게 정밀도 | FP16 |
| 특징 | 전사, 번역, 다국어 구체, word_timestamps, 핫워즈 등srt_vtt |
| 원주민 추론 | 네 |
| 신규 | 네 |
| 지원되는 엔드포인트 | POST /v1/audio/transcriptions |
가격
| 돌격 | 사양 | 요금 |
|---|---|---|
| 통제된 전사 | 오디오 분당 | $0.005 ($0.006였다) |
예시 요청
$ curl https://api.empiriolabs.ai/v1/audio/transcriptions \ > -H 'Authorization: Bearer $EMPIRIOLABS_API_KEY' \ > -F model=whisper-large-v3-turbo \ > -F file=@meeting.mp3
매개변수
| 매개변수 | 유형 | 필수 | 기본 설정 | 설명 |
|---|---|---|---|---|
audio_url | 스트링 | 아니 | - | 오디오 파일의 URL을 전사할 수 있습니다. audio_base64와 상호 배타적이에요. |
audio_base64 | 스트링 | 아니 | - | Base64로 인코딩된 오디오 바이트. audio_url와 상호 배타적이다. |
audio_suffix | 스트링 | 아니 | ".audio" | 오디오 소스에 인식 가능한 확장자가 없을 때 파일 확장자 힌트(mp3, wav, m4a 등)를 알려줍니다. |
language | 스트링 | 아니 | - | ISO 639-1 언어 코드(en, es, fr 등). 자동 감지를 위해 빈칸을 남겨두세요. |
task | 열거 | 아니 | "transcribe" | 전사 = 같은 언어, 번역 = 영어로 번역. · 허용: transcribe, translate |
beam_size | 정수 | 아니 | 5 | 빔 탐색 폭. 높을수록 = 더 정확하지만 느립니다. · 사거리: 1 – 32 |
best_of | 정수 | 아니 | 5 | 온도가 > 0인 채취 후보자 수. · 사거리: 1 – 32 |
patience | 번호 | 아니 | 1.0 | 빔 탐색 인내심 계수. 더 높음 = 더 많은 후보자를 탐색합니다. · 범위: 0.0 – 10.0 |
length_penalty | 번호 | 아니 | 1.0 | 더 긴 성적표에는 벌금이 적용되었습니다. 음수는 출력량을 짧게 유도합니다. · 범위: -10.0 – 10.0 |
repetition_penalty | 번호 | 아니 | 1.0 | 토큰을 반복하면 벌칙이 있습니다. >1은 반복을 줄여줍니다. · 범위: 0.1 – 5.0 |
no_repeat_ngram_size | 정수 | 아니 | 0 | 이 크기의 n그램이 출력에서 반복되는 것을 차단하세요. · 범위: 0 – 20 |
temperature | 스트링 | 아니 | "0,0.2,0.4,0.6,0.8,1" | 샘플링 온도. 0 = 결정론적, 더 높을수록 = 더 많은 변동. |
compression_ratio_threshold | 번호 | 아니 | 2.4 | 압축비가 이 이상인 출력은 실패로 간주하고 재시도하세요. |
log_prob_threshold | 번호 | 아니 | -1.0 | 평균 로그 확률이 이 이하인 구간은 실패로 간주하고 재시도하세요. |
no_speech_threshold | 번호 | 아니 | 0.6 | 음성 없음 확률이 이 확률을 초과하고 로그 확률이 임계값 이하일 때 구간을 무음으로 표시하세요. |
condition_on_previous_text | 불리언 | 아니 | 맞아요 | 이전 대본을 다음 세그먼트를 위한 조건으로 활용하세요. |
prompt_reset_on_temperature | 번호 | 아니 | 0.5 | 재시도 중 온도가 다시 떨어지면 컨디셔닝 프롬프트를 초기화하세요. · 범위: 0.0 – 1.0 |
initial_prompt | 스트링 | 아니 | - | 어휘와 스타일을 안내하는 초기 텍스트 프롬프트. |
prefix | 스트링 | 아니 | - | 첫 번째 세그먼트의 대본을 앞두고 텍스트를 첨부합니다. |
suppress_blank | 불리언 | 아니 | 맞아요 | 각 세그먼트 시작 시 빈 출력을 억제하세요. |
suppress_tokens | 스트링 | 아니 | "-1" | 디코딩 시 억제할 쉼표 구분 토큰 ID. |
without_timestamps | 불리언 | 아니 | 거짓 | 응답에서 세그먼트별 타임스탬프를 제거하세요. |
word_timestamps | 불리언 | 아니 | 거짓 | 답변에는 단어별 타임스탬프를 포함하세요. |
prepend_punctuations | 스트링 | 아니 | - | 구두점 문자를 다음 단어와 합치게 합니다. |
append_punctuations | 스트링 | 아니 | - | 문장 부호 문자가 앞 단어와 합쳐지도록 하는 것. |
max_initial_timestamp | 번호 | 아니 | 1.0 | 첫 번째 구간의 시작 시간을 이 시간으로 제한하세요. · 범위: 0.0 – 30.0 |
multilingual | 불리언 | 아니 | 거짓 | 단일 오디오 파일 내에서 언어 전환을 허용하세요. |
vad_filter | 불리언 | 아니 | 맞아요 | 디코딩 전에 실레로 VAD를 발라서 무음을 제거하세요. |
vad_parameters | 목적 | 아니 | - | VAD 구성은 JSON(임계값, min_speech_duration_ms 등)으로 제공됩니다. |
max_new_tokens | 정수 | 아니 | - | 세그먼트당 디코딩된 토큰 수를 제한하세요. |
chunk_length | 정수 | 아니 | - | 디코딩 전 각 오디오 청크의 길이(초 단위)입니다. |
clip_timestamps | 스트링 | 아니 | "0" | 디코딩은 이 (시작, 끝) 2차 범위 내에서만 하세요. 형식: “0.5,12.3,15.0,30.0”. |
hallucination_silence_threshold | 번호 | 아니 | - | 이 이상 긴 침묵 구간은 환각으로 간주하고 건너뛰세요. |
hotwords | 스트링 | 아니 | - | 쉼표로 구분된 핫워드가 (고유명사, 전문 용어) 쪽으로 편향되는 경우. |
language_detection_threshold | 번호 | 아니 | 0.5 | 자동 언어 탐지의 신뢰도 임계값. |
language_detection_segments | 정수 | 아니 | 1 | 언어 탐지에 사용할 선두 세그먼트의 수. · 사거리: 1 – 20 |
include_tokens | 불리언 | 아니 | 거짓 | 각 word/segment 옆에 원시 토큰 ID를 포함하세요. |
response_format | 열거 | 아니 | "verbose_json" | json | verbose_json | 텍스트 | SRT | VTT. · 허용: verbose_json, json, text, srt, vtt |
주석
오디오, language/task, 빔 및 온도 백업 제어, VAD/chunking, 핫워드, 프롬프트, 단어 타임스탬프, 구두점 제어, 토큰 디버그 출력, JSON/text/SRT/VTT 포맷 URL/base64 지원합니다.
Machine-읽기 가능한 스키마: GET https://api.empiriolabs.ai/v1/models/whisper-large-v3-turbo.
