TTS 1.5 Max | EmpirioLabs AI Docs

Inworld · Audio Generation

POST /v1/audio/speech

풍부한 표현력 있는 운율을 가진 방송 품질의 음성 합성, 15개 언어에 걸친 271+ 음성 지원, 그리고 단어당 타임스탬프가 포함된 실시간 SSE 스트리밍.

한눈에

필드	가치
모델 ID	`tts-1-5-max`
모델 출시일	2026-05-05
입력 양상	본문
출력 방식	오디오
컨텍스트 윈도우	-
무게 정밀도	-
특징	multi_speaker, real_time, 스트리밍, word_timestamps, character_timestamps, 다국어, expressive_prosody, broadcast_quality
원주민 추론	아니
신규	네
지원되는 엔드포인트	`POST /v1/audio/speech`, `POST /v1/audio/speech:stream`, `GET /v1/voices`

가격

돌격	사양	요금
합성	100만 자당	$29.75 ($35.00였다)

예시 요청

$ curl https://api.empiriolabs.ai/v1/audio/speech \
>   -H 'Authorization: Bearer $EMPIRIOLABS_API_KEY' \
>   -H 'Content-Type: application/json' \
>   -d '{"model": "tts-1-5-max", "input": "Hello from EmpirioLabs."}'

매개변수

매개변수	유형	필수	기본 설정	설명
`input`	스트링	네	-	합성할 텍스트. 요청당 최대 2,000자 - 클라이언트의 문장 경계에서 더 긴 복사본. · 최대: 2000
`voice`	열거	아니	`"Sarah"`	음성 프리셋. 영어 + 스페인어 + 포르투갈어 + 힌디어 + 다양한 억양을 포함한 20명의 엄선된 목소리. 전체 271음 카탈로그(복제 음성 포함)를 원하시면 voice_id 사용하세요. · 허용: `Sarah`, `Olivia`, `Elizabeth`, `Ashley`, `Wendy`, `Julia`, `Priya`, `Pixie`, `Deborah`, `Alex`, `Mark`, `Edward`, `Theodore`, `Ronald`, `Dennis`, `Timothy`, `Shaun`, `Craig`, `Hades`, `Heitor`
`voice_id`	스트링	아니	-	자유 음성 ID. 설정되면 음성 제어를 무시합니다. 이 자료를 활용해 큐레이션된 20개 프리셋 리스트 밖의 목소리를 다룰 수 있습니다 - Inworld TTS 1.5는 15개 언어(지역 억양, 성별 변형)에서 271+개의 이름 있는 목소리를 제공합니다. 예시: 마이테, 올리비아, 또는 GET /v1/voices.의 어떤 성우 이름이든
`language`	열거	아니	`"en-US"`	BCP-47 언어 코드. Inworld TTS 1.5는 15개 언어를 다룹니다. · 허용: `en-US`, `en-GB`, `es-ES`, `es-MX`, `fr-FR`, `de-DE`, `it-IT`, `pt-BR`, `pt-PT`, `nl-NL`, `pl-PL`, `ru-RU`, `ja-JP`, `ko-KR`, `zh-CN`, `hi-IN`, `ar-EG`, `he-IL`
`output_format`	열거	아니	`"WAV"`	오디오 container/codec. WAV = RIFF 내부에서 LINEAR16 (어디에나 있음). MP3 / OGG = 압축됨. PCM = 헤더 없는 원본 - chunked-real-time 재생에 유용합니다. FLAC = 무손실. · 허용: `MP3`, `WAV`, `OGG`, `FLAC`, `PCM`, `ALAW`, `MULAW`
`sample_rate`	열거	아니	`"24000"`	출력 샘플레이트는 Hz 기준입니다. 24000은 Inworld의 기본 설정이자 음성 모델이 훈련하는 기준입니다; 방송 품질을 위해 48000으로 올립니다. · 허용: `8000`, `16000`, `22050`, `24000`, `32000`, `44100`, `48000`
`speed`	번호	아니	`1.0`	말하는 속도 배수. 0.5 = 절반 속도, 1.5 = 50% 더 빠릅니다. · 범위: 0.5 – 1.5
`temperature`	번호	아니	`1.0`	목소리 표현력/변이성. Lower = 더 일관성 있고 “평평한”; 더 높을수록 = 표현력이 풍부하지만 렌더링 간 차이가 더 큽니다. · 범위: 0.1 – 2.0
`bit_rate`	번호	아니	`128000`	MP3 / OGG_OPUS의 비트레이트는 BPS로 설정해야 합니다. 다른 인코딩은 무시합니다. · 거리: 32000 – 320000
`apply_text_normalization`	열거	아니	`"ON"`	Inworld가 켜지면 숫자 / 약어/날짜를 음성 형태로 확장합니다 (“USD 5” → “5달러”). · 허용: `ON`, `OFF`
`timestamp_type`	열거	아니	`"NONE"`	NONE이 아닌 경우, 응답에는 단어별 또는 문자당 타임스탬프가 포함된다timestamp_info. 캡션/하이라이트 UI에 유용합니다. · 허용: `NONE`, `WORD`, `CHARACTER`

주석

한계

최대 입력: 요청당 2,000자 (문장 경계에서 더 긴 텍스트 단위)
WebSocket: 동시 연결 20개, contexts/connection 5개
WP 메시지: 1,000자

지연

p90 TTFB: 250ms 미만 (Inworld 벤치마크)

목소리들

15개 언어에 걸쳐 271+ 이름 프리셋
드롭다운에 표시된 20개의 직접 선별된 프리셋; 다른 음성 ID는 voice_id로 전달합니다

Machine-읽기 가능한 스키마: GET https://api.empiriolabs.ai/v1/models/tts-1-5-max.