input | String | Ja | - | Text zur Synthese. Für die Nutzung mit mehreren Lautsprechern [S1] / [S2]-Tags oder ‘Speaker N:’-Zeilen. |
voice | ENUM | Nein | "emma" | emma=Englisch weiblich, james=US männlich, arthur=US männlich alt, xiaomei=chinesisch weiblich, zhigang=chinesisch männlich, benutzerdefiniert=Referenz hochladen über voice_audio_url. · Erlaubt: emma, james, arthur, xiaomei, zhigang, custom |
voice_audio_url | String | Nein | - | Referenz auf Audio-URL für benutzerdefiniertes Sprachklonen. Die Referenzaufnahme muss zeigen, dass der Sprecher genau diese Einwilligungsphrase laut in seiner eigenen Stimme vorliest: “Ich stimme dem Klonen meiner Stimme durch Empirio Labs zu, um synthetische Sprache zu erzeugen. Ich verstehe, dass meine Sprachprobe verwendet wird, um personalisierte Audioinhalte zu erstellen.” Referenzaudio ohne Phrase wird abgelehnt. |
output_format | ENUM | Nein | "mp3" | Ausgabe des Mediendateiformats (mp3, wav, mp4, png, jpg usw., je nach Endpunkt). · Erlaubt: mp3, wav |
speed | Anzahl | Nein | 1.0 | Sprechratemultiplikator. · Reichweite: 0,5 – 2,0 |
model_quality | ENUM | Nein | "quality" | quality=FP16 (besser), schnell=INT8 (schneller) · Erlaubt: quality, fast |
sample_rate | ENUM | Nein | "24000" | Ausgabe-Abtastrate in Hz. · Erlaubt: 24000, 16000 |
volume | Anzahl | Nein | 1.0 | Ausgangsverstärkungsmultiplikator. · Reichweite: 0,1 – 2,0 |
use_cache | Boolean | Nein | Stimmt | Beschleunigt wiederholte identische Generationen. |
optimize_input | Boolean | Nein | Stimmt | Autofix-Aussprache von Fachbegriffen, Abkürzungen und Sonderzeichen. |
seed | Anzahl | Nein | - | Reproduzierbarkeitssamen. |