Whisper Large v3 Turbo

Whisper Large v3 Turbo
OpenAI · Transcription
POST /v1/audio/transcriptions

다국어 ASR, 번역, VAD, 타임스탬프, 자막, 핫워드, 디코더 제어 기능을 포함한 제어된 자체 호스팅 Whisper Large v3 Turbo 전사.

한눈에

필드가치
모델 IDwhisper-large-v3-turbo
모델 출시일2024-10-01
입력 양상오디오
출력 방식본문
컨텍스트 윈도우-
무게 정밀도FP16
특징전사, 번역, 다국어 구체, word_timestamps, 핫워즈 등srt_vtt
원주민 추론
신규
지원되는 엔드포인트POST /v1/audio/transcriptions

가격

돌격사양요금
통제된 전사오디오 분당$0.005 ($0.006였다)

예시 요청

$curl https://api.empiriolabs.ai/v1/audio/transcriptions \
> -H 'Authorization: Bearer $EMPIRIOLABS_API_KEY' \
> -F model=whisper-large-v3-turbo \
> -F file=@meeting.mp3

매개변수

매개변수유형필수기본 설정설명
audio_url스트링아니-오디오 파일의 URL을 전사할 수 있습니다. audio_base64와 상호 배타적이에요.
audio_base64스트링아니-Base64로 인코딩된 오디오 바이트. audio_url와 상호 배타적이다.
audio_suffix스트링아니".audio"오디오 소스에 인식 가능한 확장자가 없을 때 파일 확장자 힌트(mp3, wav, m4a 등)를 알려줍니다.
language스트링아니-ISO 639-1 언어 코드(en, es, fr 등). 자동 감지를 위해 빈칸을 남겨두세요.
task열거아니"transcribe"전사 = 같은 언어, 번역 = 영어로 번역. · 허용: transcribe, translate
beam_size정수아니5빔 탐색 폭. 높을수록 = 더 정확하지만 느립니다. · 사거리: 1 – 32
best_of정수아니5온도가 > 0인 채취 후보자 수. · 사거리: 1 – 32
patience번호아니1.0빔 탐색 인내심 계수. 더 높음 = 더 많은 후보자를 탐색합니다. · 범위: 0.0 – 10.0
length_penalty번호아니1.0더 긴 성적표에는 벌금이 적용되었습니다. 음수는 출력량을 짧게 유도합니다. · 범위: -10.0 – 10.0
repetition_penalty번호아니1.0토큰을 반복하면 벌칙이 있습니다. >1은 반복을 줄여줍니다. · 범위: 0.1 – 5.0
no_repeat_ngram_size정수아니0이 크기의 n그램이 출력에서 반복되는 것을 차단하세요. · 범위: 0 – 20
temperature스트링아니"0,0.2,0.4,0.6,0.8,1"샘플링 온도. 0 = 결정론적, 더 높을수록 = 더 많은 변동.
compression_ratio_threshold번호아니2.4압축비가 이 이상인 출력은 실패로 간주하고 재시도하세요.
log_prob_threshold번호아니-1.0평균 로그 확률이 이 이하인 구간은 실패로 간주하고 재시도하세요.
no_speech_threshold번호아니0.6음성 없음 확률이 이 확률을 초과하고 로그 확률이 임계값 이하일 때 구간을 무음으로 표시하세요.
condition_on_previous_text불리언아니맞아요이전 대본을 다음 세그먼트를 위한 조건으로 활용하세요.
prompt_reset_on_temperature번호아니0.5재시도 중 온도가 다시 떨어지면 컨디셔닝 프롬프트를 초기화하세요. · 범위: 0.0 – 1.0
initial_prompt스트링아니-어휘와 스타일을 안내하는 초기 텍스트 프롬프트.
prefix스트링아니-첫 번째 세그먼트의 대본을 앞두고 텍스트를 첨부합니다.
suppress_blank불리언아니맞아요각 세그먼트 시작 시 빈 출력을 억제하세요.
suppress_tokens스트링아니"-1"디코딩 시 억제할 쉼표 구분 토큰 ID.
without_timestamps불리언아니거짓응답에서 세그먼트별 타임스탬프를 제거하세요.
word_timestamps불리언아니거짓답변에는 단어별 타임스탬프를 포함하세요.
prepend_punctuations스트링아니-구두점 문자를 다음 단어와 합치게 합니다.
append_punctuations스트링아니-문장 부호 문자가 앞 단어와 합쳐지도록 하는 것.
max_initial_timestamp번호아니1.0첫 번째 구간의 시작 시간을 이 시간으로 제한하세요. · 범위: 0.0 – 30.0
multilingual불리언아니거짓단일 오디오 파일 내에서 언어 전환을 허용하세요.
vad_filter불리언아니맞아요디코딩 전에 실레로 VAD를 발라서 무음을 제거하세요.
vad_parameters목적아니-VAD 구성은 JSON(임계값, min_speech_duration_ms 등)으로 제공됩니다.
max_new_tokens정수아니-세그먼트당 디코딩된 토큰 수를 제한하세요.
chunk_length정수아니-디코딩 전 각 오디오 청크의 길이(초 단위)입니다.
clip_timestamps스트링아니"0"디코딩은 이 (시작, 끝) 2차 범위 내에서만 하세요. 형식: “0.5,12.3,15.0,30.0”.
hallucination_silence_threshold번호아니-이 이상 긴 침묵 구간은 환각으로 간주하고 건너뛰세요.
hotwords스트링아니-쉼표로 구분된 핫워드가 (고유명사, 전문 용어) 쪽으로 편향되는 경우.
language_detection_threshold번호아니0.5자동 언어 탐지의 신뢰도 임계값.
language_detection_segments정수아니1언어 탐지에 사용할 선두 세그먼트의 수. · 사거리: 1 – 20
include_tokens불리언아니거짓각 word/segment 옆에 원시 토큰 ID를 포함하세요.
response_format열거아니"verbose_json"json | verbose_json | 텍스트 | SRT | VTT. · 허용: verbose_json, json, text, srt, vtt

주석

오디오, language/task, 빔 및 온도 백업 제어, VAD/chunking, 핫워드, 프롬프트, 단어 타임스탬프, 구두점 제어, 토큰 디버그 출력, JSON/text/SRT/VTT 포맷 URL/base64 지원합니다.


Machine-읽기 가능한 스키마: GET https://api.empiriolabs.ai/v1/models/whisper-large-v3-turbo.