input | 스트링 | 네 | - | 합성할 텍스트. 요청당 최대 2,000자 - 클라이언트의 문장 경계에서 더 긴 복사본. · 최대: 2000 |
voice | 열거 | 아니 | "Sarah" | 음성 프리셋. 영어 + 스페인어 + 포르투갈어 + 힌디어 + 다양한 억양을 포함한 20명의 엄선된 목소리. 전체 271음 카탈로그(복제 음성 포함)를 원하시면 voice_id 사용하세요. · 허용: Sarah, Olivia, Elizabeth, Ashley, Wendy, Julia, Priya, Pixie, Deborah, Alex, Mark, Edward, Theodore, Ronald, Dennis, Timothy, Shaun, Craig, Hades, Heitor |
voice_id | 스트링 | 아니 | - | 자유 음성 ID. 설정되면 음성 제어를 무시합니다. 이 자료를 활용해 큐레이션된 20개 프리셋 리스트 밖의 목소리를 다룰 수 있습니다 - Inworld TTS 1.5는 15개 언어(지역 억양, 성별 변형)에서 271+개의 이름 있는 목소리를 제공합니다. 예시: 마이테, 올리비아, 또는 GET /v1/voices.의 어떤 성우 이름이든 |
language | 열거 | 아니 | "en-US" | BCP-47 언어 코드. Inworld TTS 1.5는 15개 언어를 다룹니다. · 허용: en-US, en-GB, es-ES, es-MX, fr-FR, de-DE, it-IT, pt-BR, pt-PT, nl-NL, pl-PL, ru-RU, ja-JP, ko-KR, zh-CN, hi-IN, ar-EG, he-IL |
output_format | 열거 | 아니 | "WAV" | 오디오 container/codec. WAV = RIFF 내부에서 LINEAR16 (어디에나 있음). MP3 / OGG = 압축됨. PCM = 헤더 없는 원본 - chunked-real-time 재생에 유용합니다. FLAC = 무손실. · 허용: MP3, WAV, OGG, FLAC, PCM, ALAW, MULAW |
sample_rate | 열거 | 아니 | "24000" | 출력 샘플레이트는 Hz 기준입니다. 24000은 Inworld의 기본 설정이자 음성 모델이 훈련하는 기준입니다; 방송 품질을 위해 48000으로 올립니다. · 허용: 8000, 16000, 22050, 24000, 32000, 44100, 48000 |
speed | 번호 | 아니 | 1.0 | 말하는 속도 배수. 0.5 = 절반 속도, 1.5 = 50% 더 빠릅니다. · 범위: 0.5 – 1.5 |
temperature | 번호 | 아니 | 1.0 | 목소리 표현력/변이성. Lower = 더 일관성 있고 “평평한”; 더 높을수록 = 표현력이 풍부하지만 렌더링 간 차이가 더 큽니다. · 범위: 0.1 – 2.0 |
bit_rate | 번호 | 아니 | 128000 | MP3 / OGG_OPUS의 비트레이트는 BPS로 설정해야 합니다. 다른 인코딩은 무시합니다. · 거리: 32000 – 320000 |
apply_text_normalization | 열거 | 아니 | "ON" | Inworld가 켜지면 숫자 / 약어/날짜를 음성 형태로 확장합니다 (“USD 5” → “5달러”). · 허용: ON, OFF |
timestamp_type | 열거 | 아니 | "NONE" | NONE이 아닌 경우, 응답에는 단어별 또는 문자당 타임스탬프가 포함된다timestamp_info. 캡션/하이라이트 UI에 유용합니다. · 허용: NONE, WORD, CHARACTER |