Whisper Large v3 Turbo | EmpirioLabs AI Docs

OpenAI · Transcription

POST /v1/audio/transcriptions

다국어 ASR, 번역, VAD, 타임스탬프, 자막, 핫워드, 디코더 제어 기능을 포함한 제어된 자체 호스팅 Whisper Large v3 Turbo 전사.

한눈에

필드	가치
모델 ID	`whisper-large-v3-turbo`
모델 출시일	2024-10-01
입력 양상	오디오
출력 방식	본문
컨텍스트 윈도우	-
무게 정밀도	FP16
특징	전사, 번역, 다국어 구체, word_timestamps, 핫워즈 등srt_vtt
원주민 추론	네
신규	네
지원되는 엔드포인트	`POST /v1/audio/transcriptions`

가격

돌격	사양	요금
통제된 전사	오디오 분당	$0.005 ($0.006였다)

예시 요청

$ curl https://api.empiriolabs.ai/v1/audio/transcriptions \
>   -H 'Authorization: Bearer $EMPIRIOLABS_API_KEY' \
>   -F model=whisper-large-v3-turbo \
>   -F file=@meeting.mp3

매개변수

매개변수	유형	필수	기본 설정	설명
`audio_url`	스트링	아니	-	오디오 파일의 URL을 전사할 수 있습니다. audio_base64와 상호 배타적이에요.
`audio_base64`	스트링	아니	-	Base64로 인코딩된 오디오 바이트. audio_url와 상호 배타적이다.
`audio_suffix`	스트링	아니	`".audio"`	오디오 소스에 인식 가능한 확장자가 없을 때 파일 확장자 힌트(mp3, wav, m4a 등)를 알려줍니다.
`language`	스트링	아니	-	ISO 639-1 언어 코드(en, es, fr 등). 자동 감지를 위해 빈칸을 남겨두세요.
`task`	열거	아니	`"transcribe"`	전사 = 같은 언어, 번역 = 영어로 번역. · 허용: `transcribe`, `translate`
`beam_size`	정수	아니	`5`	빔 탐색 폭. 높을수록 = 더 정확하지만 느립니다. · 사거리: 1 – 32
`best_of`	정수	아니	`5`	온도가 > 0인 채취 후보자 수. · 사거리: 1 – 32
`patience`	번호	아니	`1.0`	빔 탐색 인내심 계수. 더 높음 = 더 많은 후보자를 탐색합니다. · 범위: 0.0 – 10.0
`length_penalty`	번호	아니	`1.0`	더 긴 성적표에는 벌금이 적용되었습니다. 음수는 출력량을 짧게 유도합니다. · 범위: -10.0 – 10.0
`repetition_penalty`	번호	아니	`1.0`	토큰을 반복하면 벌칙이 있습니다. >1은 반복을 줄여줍니다. · 범위: 0.1 – 5.0
`no_repeat_ngram_size`	정수	아니	`0`	이 크기의 n그램이 출력에서 반복되는 것을 차단하세요. · 범위: 0 – 20
`temperature`	스트링	아니	`"0,0.2,0.4,0.6,0.8,1"`	샘플링 온도. 0 = 결정론적, 더 높을수록 = 더 많은 변동.
`compression_ratio_threshold`	번호	아니	`2.4`	압축비가 이 이상인 출력은 실패로 간주하고 재시도하세요.
`log_prob_threshold`	번호	아니	`-1.0`	평균 로그 확률이 이 이하인 구간은 실패로 간주하고 재시도하세요.
`no_speech_threshold`	번호	아니	`0.6`	음성 없음 확률이 이 확률을 초과하고 로그 확률이 임계값 이하일 때 구간을 무음으로 표시하세요.
`condition_on_previous_text`	불리언	아니	맞아요	이전 대본을 다음 세그먼트를 위한 조건으로 활용하세요.
`prompt_reset_on_temperature`	번호	아니	`0.5`	재시도 중 온도가 다시 떨어지면 컨디셔닝 프롬프트를 초기화하세요. · 범위: 0.0 – 1.0
`initial_prompt`	스트링	아니	-	어휘와 스타일을 안내하는 초기 텍스트 프롬프트.
`prefix`	스트링	아니	-	첫 번째 세그먼트의 대본을 앞두고 텍스트를 첨부합니다.
`suppress_blank`	불리언	아니	맞아요	각 세그먼트 시작 시 빈 출력을 억제하세요.
`suppress_tokens`	스트링	아니	`"-1"`	디코딩 시 억제할 쉼표 구분 토큰 ID.
`without_timestamps`	불리언	아니	거짓	응답에서 세그먼트별 타임스탬프를 제거하세요.
`word_timestamps`	불리언	아니	거짓	답변에는 단어별 타임스탬프를 포함하세요.
`prepend_punctuations`	스트링	아니	-	구두점 문자를 다음 단어와 합치게 합니다.
`append_punctuations`	스트링	아니	-	문장 부호 문자가 앞 단어와 합쳐지도록 하는 것.
`max_initial_timestamp`	번호	아니	`1.0`	첫 번째 구간의 시작 시간을 이 시간으로 제한하세요. · 범위: 0.0 – 30.0
`multilingual`	불리언	아니	거짓	단일 오디오 파일 내에서 언어 전환을 허용하세요.
`vad_filter`	불리언	아니	맞아요	디코딩 전에 실레로 VAD를 발라서 무음을 제거하세요.
`vad_parameters`	목적	아니	-	VAD 구성은 JSON(임계값, min_speech_duration_ms 등)으로 제공됩니다.
`max_new_tokens`	정수	아니	-	세그먼트당 디코딩된 토큰 수를 제한하세요.
`chunk_length`	정수	아니	-	디코딩 전 각 오디오 청크의 길이(초 단위)입니다.
`clip_timestamps`	스트링	아니	`"0"`	디코딩은 이 (시작, 끝) 2차 범위 내에서만 하세요. 형식: “0.5,12.3,15.0,30.0”.
`hallucination_silence_threshold`	번호	아니	-	이 이상 긴 침묵 구간은 환각으로 간주하고 건너뛰세요.
`hotwords`	스트링	아니	-	쉼표로 구분된 핫워드가 (고유명사, 전문 용어) 쪽으로 편향되는 경우.
`language_detection_threshold`	번호	아니	`0.5`	자동 언어 탐지의 신뢰도 임계값.
`language_detection_segments`	정수	아니	`1`	언어 탐지에 사용할 선두 세그먼트의 수. · 사거리: 1 – 20
`include_tokens`	불리언	아니	거짓	각 word/segment 옆에 원시 토큰 ID를 포함하세요.
`response_format`	열거	아니	`"verbose_json"`	json \| verbose_json \| 텍스트 \| SRT \| VTT. · 허용: `verbose_json`, `json`, `text`, `srt`, `vtt`

주석

오디오, language/task, 빔 및 온도 백업 제어, VAD/chunking, 핫워드, 프롬프트, 단어 타임스탬프, 구두점 제어, 토큰 디버그 출력, JSON/text/SRT/VTT 포맷 URL/base64 지원합니다.

Machine-읽기 가능한 스키마: GET https://api.empiriolabs.ai/v1/models/whisper-large-v3-turbo.