TTS 1.5 Max

TTS 1.5 Max
Inworld · Audio Generation
POST /v1/audio/speech

풍부한 표현력 있는 운율을 가진 방송 품질의 음성 합성, 15개 언어에 걸친 271+ 음성 지원, 그리고 단어당 타임스탬프가 포함된 실시간 SSE 스트리밍.

한눈에

필드가치
모델 IDtts-1-5-max
모델 출시일2026-05-05
입력 양상본문
출력 방식오디오
컨텍스트 윈도우-
무게 정밀도-
특징multi_speaker, real_time, 스트리밍, word_timestamps, character_timestamps, 다국어, expressive_prosody, broadcast_quality
원주민 추론아니
신규
지원되는 엔드포인트POST /v1/audio/speech, POST /v1/audio/speech:stream, GET /v1/voices

가격

돌격사양요금
합성100만 자당$29.75 ($35.00였다)

예시 요청

$curl https://api.empiriolabs.ai/v1/audio/speech \
> -H 'Authorization: Bearer $EMPIRIOLABS_API_KEY' \
> -H 'Content-Type: application/json' \
> -d '{"model": "tts-1-5-max", "input": "Hello from EmpirioLabs."}'

매개변수

매개변수유형필수기본 설정설명
input스트링-합성할 텍스트. 요청당 최대 2,000자 - 클라이언트의 문장 경계에서 더 긴 복사본. · 최대: 2000
voice열거아니"Sarah"음성 프리셋. 영어 + 스페인어 + 포르투갈어 + 힌디어 + 다양한 억양을 포함한 20명의 엄선된 목소리. 전체 271음 카탈로그(복제 음성 포함)를 원하시면 voice_id 사용하세요. · 허용: Sarah, Olivia, Elizabeth, Ashley, Wendy, Julia, Priya, Pixie, Deborah, Alex, Mark, Edward, Theodore, Ronald, Dennis, Timothy, Shaun, Craig, Hades, Heitor
voice_id스트링아니-자유 음성 ID. 설정되면 음성 제어를 무시합니다. 이 자료를 활용해 큐레이션된 20개 프리셋 리스트 밖의 목소리를 다룰 수 있습니다 - Inworld TTS 1.5는 15개 언어(지역 억양, 성별 변형)에서 271+개의 이름 있는 목소리를 제공합니다. 예시: 마이테, 올리비아, 또는 GET /v1/voices.의 어떤 성우 이름이든
language열거아니"en-US"BCP-47 언어 코드. Inworld TTS 1.5는 15개 언어를 다룹니다. · 허용: en-US, en-GB, es-ES, es-MX, fr-FR, de-DE, it-IT, pt-BR, pt-PT, nl-NL, pl-PL, ru-RU, ja-JP, ko-KR, zh-CN, hi-IN, ar-EG, he-IL
output_format열거아니"WAV"오디오 container/codec. WAV = RIFF 내부에서 LINEAR16 (어디에나 있음). MP3 / OGG = 압축됨. PCM = 헤더 없는 원본 - chunked-real-time 재생에 유용합니다. FLAC = 무손실. · 허용: MP3, WAV, OGG, FLAC, PCM, ALAW, MULAW
sample_rate열거아니"24000"출력 샘플레이트는 Hz 기준입니다. 24000은 Inworld의 기본 설정이자 음성 모델이 훈련하는 기준입니다; 방송 품질을 위해 48000으로 올립니다. · 허용: 8000, 16000, 22050, 24000, 32000, 44100, 48000
speed번호아니1.0말하는 속도 배수. 0.5 = 절반 속도, 1.5 = 50% 더 빠릅니다. · 범위: 0.5 – 1.5
temperature번호아니1.0목소리 표현력/변이성. Lower = 더 일관성 있고 “평평한”; 더 높을수록 = 표현력이 풍부하지만 렌더링 간 차이가 더 큽니다. · 범위: 0.1 – 2.0
bit_rate번호아니128000MP3 / OGG_OPUS의 비트레이트는 BPS로 설정해야 합니다. 다른 인코딩은 무시합니다. · 거리: 32000 – 320000
apply_text_normalization열거아니"ON"Inworld가 켜지면 숫자 / 약어/날짜를 음성 형태로 확장합니다 (“USD 5” → “5달러”). · 허용: ON, OFF
timestamp_type열거아니"NONE"NONE이 아닌 경우, 응답에는 단어별 또는 문자당 타임스탬프가 포함된다timestamp_info. 캡션/하이라이트 UI에 유용합니다. · 허용: NONE, WORD, CHARACTER

주석

한계

  • 최대 입력: 요청당 2,000자 (문장 경계에서 더 긴 텍스트 단위)
  • WebSocket: 동시 연결 20개, contexts/connection 5개
  • WP 메시지: 1,000자

지연

  • p90 TTFB: 250ms 미만 (Inworld 벤치마크)

목소리들

  • 15개 언어에 걸쳐 271+ 이름 프리셋
  • 드롭다운에 표시된 20개의 직접 선별된 프리셋; 다른 음성 ID는 voice_id로 전달합니다

Machine-읽기 가능한 스키마: GET https://api.empiriolabs.ai/v1/models/tts-1-5-max.