input | String | Ja | - | Podcast-Skript. Verwenden Sie [S1] / [S2] / [S3] / [S4]-Tags oder ‘Speaker N:’-Zeilen für Multi-Speaker-Leitungen. Paralinguistische Tags werden unterstützt: <|Lachen|>, <|Seufz|>, <|atmen|>, <|Husten|>. |
voice_model | ENUM | Nein | "base" | Basis: Englisch + Mandarin. Dialekt: fügt Sichuan, Henan und Kantonesisch hinzu. · Erlaubt: base, dialect |
voice_s1 | ENUM | Nein | "arthur" | Stimme für [S1]. lj = Emma. custom_s1 erfordert voice_s1_audio_url. · Erlaubt: arthur, james, lj, xiaomei, zhigang, custom_s1 |
voice_s2 | ENUM | Nein | "lj" | Stimme für [S2]. lj = Emma. · Erlaubt: arthur, james, lj, xiaomei, zhigang, custom_s2 |
voice_s3 | ENUM | Nein | "james" | Stimme für [S3]. · Erlaubt: arthur, james, lj, xiaomei, zhigang, custom_s3 |
voice_s4 | ENUM | Nein | "xiaomei" | Stimme für [S4]. · Erlaubt: arthur, james, lj, xiaomei, zhigang, custom_s4 |
voice_s1_audio_url | String | Nein | - | Referenz auf Audio-URL für [S1] benutzerdefiniertes Sprachklonen. Der Sprecher muss die Einverständnisphrase laut aussprechen. |
voice_s2_audio_url | String | Nein | - | Referenz auf Audio-URL für [S2] benutzerdefiniertes Sprachklonen. |
voice_s3_audio_url | String | Nein | - | Referenz auf Audio-URL für [S3] benutzerdefiniertes Sprachklonen. |
voice_s4_audio_url | String | Nein | - | Referenz auf Audio-URL für [S4] benutzerdefiniertes Sprachklonen. |
temperature | Anzahl | Nein | 0.6 | Temperatur wird geprochen. · Reichweite: 0,1 – 2,0 |
top_k | Anzahl | Nein | 100 | Top-K-Stichprobenobergrenze. · Reichweite: 1 – 500 |
top_p | Anzahl | Nein | 0.9 | Kernprobenahme. · Reichweite: 0,1 – 1,0 |
repetition_penalty | Anzahl | Nein | 1.25 | Höhere Werte entmutigen wiederholte Formulierungen. · Reichweite: 1,0 – 2,0 |
seed | String | Nein | "42" | Reproduzierbarkeitsseed (String pro Upstream). |
output_format | ENUM | Nein | "mp3" | Ausgabe des Mediendateiformats (mp3, wav, mp4, png, jpg usw., je nach Endpunkt). · Erlaubt: mp3, wav |
language | String | Nein | "" | Weitergeleitet an Upstream (Passthrough), damit das Podcast-Modell die richtige voice/dialect Tier auswählen kann. |