Wan 2.6

Wan 2.6
Alibaba Cloud · Video Generation
POST /v1/videos/generations

Multimodales Videoerzeugungsmodell für filmatische, mehrfach aufgenommene Geschichten mit nativer Audio-Visual-Synchronisation (Lippensynchronisation, Dialog, Musik, SFX).

Auf einen Blick

SpielfeldWert
Modell-IDwan-2-6
Modell-Veröffentlichungsdatum2026-01-12
EingabemodalitätenText, Bild, Video, Audio
AusgabemodalitätenVideo
Kontextfenster-
Gewichtspräzision-
RegionSingapur
Merkmaleaudio_sync, character_consistency, multi_shot
Native SchlussfolgerungNein
NeuNein
Unterstützte EndpunktePOST /v1/videos/generations

Preisgestaltung

BerechnenSpezifikationZinssatz
Standard 720Ppro Sekunde$0.09 (war $0.10)
Standard 1080Ppro Sekunde$0.138 (war $0.15)
Flash 720P (Audio)pro Sekunde$0.045 (war $0.050)
Flash 720P (kein Ton)pro Sekunde$0.0225 (war $0.0250)
Flash 1080P (Audio)pro Sekunde$0.069 (war $0.0750)
Flash 1080P (kein Ton)pro Sekunde$0.0345 (war $0.03750)

Beispielanfrage

$curl https://api.empiriolabs.ai/v1/videos/generations \
> -H 'Authorization: Bearer $EMPIRIOLABS_API_KEY' \
> -H 'Content-Type: application/json' \
> -d '{"model": "wan-2-6", "prompt": "sunrise over the ocean", "duration": 6}'

Parameter

ParameterTypErforderlichDefaultBeschreibung
promptStringJa-Szenenbeschreibung.
modeENUMNein"auto"T2V: text-to-video. i2v: Animiere das angehängte Bild. R2V: reference-to-video - Generiere aus einem Referenzbild. · Erlaubt: auto, t2v, i2v, r2v
resolutionENUMNein"1080p"Ausgangsauflösung. Größer = höhere Genauigkeit, aber langsamer / teurer. · Erlaubt: 720p, 1080p
durationAnzahlNein5Cliplänge in Sekunden. · Reichweite: 5 – 15
aspect_ratioENUMNein"16:9"Ausgabe-Seitenverhältnis (1:1, 16:9, 9:16, 4:3, 3:2 usw.). · Erlaubt: 16:9, 9:16, 1:1, 4:3, 3:4
shot_typeENUMNein"multi"Einzel: Eine durchgehende Aufnahme. MEHRFACH: Mehrfach-Aufnahme-Erzählung. · Erlaubt: single, multi
imageStringNein-Referenz auf Bild-URL. Erforderlich für i2v / r2v.
negative_promptStringNein""Was man vermeiden sollte.
seedAnzahlNein-Reproduzierbarkeitssamen.
audioBooleanNeinStimmtErzeugen Sie natives Audio mit dem Video.
flash_modeBooleanNeinfalschSchnellere Erzeugung zu geringeren Kosten. Gilt nur für i2v und r2v.
prompt_extendBooleanNeinStimmtErweitern und verfeinern Sie den Prompt automatisch für bessere Ergebnisse.

Anmerkungen

Die Erzeugung kann 5+ Minuten dauern. Modi: t2v, i2v (image-to-video), r2v (reference-to-video). Flash-Modus (nur i2v/r2v) - schnellere Erzeugung zu reduzierten Kosten.

Bildeingaben

  • Automatisch verkleinert: i2v 360-2000px, r2v 240-5000px
  • HEIC/HEIF automatisch konvertiert

Referenzvideos

  • MP4 oder MOV
  • 1-30er
  • Maximal 100 MB
  • R2V-Ausgang begrenzt auf 10 Sekunden

Optionales Audio (nur t2v / i2v)

  • 3-30 Sekunden, maximal 15 MB,.mp3 oder.wav
  • Still ignoriert in r2v (Audio wird stattdessen aus dem Referenzvideo extrahiert)

Vorverarbeitung hochgeladener Medien

  • Referenz- und Bearbeitungsvideos werden bei Bedarf auf anbieterkompatible MP4-Dateien normalisiert.
  • Die Referenzvideo-Dauer folgt den oben gezeigten Modusgrenzen.

Machine-lesbares Schema: GET https://api.empiriolabs.ai/v1/models/wan-2-6.