Qwen3.5 Omni Plus

Qwen3.5 Omni Plus
Alibaba Cloud · Text Generation
POST /v1/chat/completions

Modèle omni-modal phare pour le texte, l’image, l’audio et la vidéo. 3 heures audio, 1 main vidéo, 90+ entrées et 30+ sorties, 55 timbres vocaux.

En un coup d’œil

TerrainValeur
Identifiant de modèleqwen3-5-omni-plus
Date de sortie du modèle2026-03-30
Modalités d’entréeTexte, Image, Vidéo, Audio
Modalités de sortieTexte, Audio
Fenêtre de contexte256K
Précision du poids-
Jetons de sortie max32,768
RégionSingapour
Caractéristiquesvision, audio_in, audio_out, multilingue
Inférence autochtoneNon
NouveauNon
Points de terminaison pris en chargePOST /v1/chat/completions, POST /v1/responses, POST /v1/messages, POST /v1/audio/speech

Tarification

ChargeSpecTaux
Entréepar 1M de jetons d’invitepar 1M de jetons d’invite $1.40; par 1M de jetons d’invite $11.00
Productionpar 1M de jetons généréspar 1 million de jetons générés $8.30; par 1M de jetons générés $44.00
Recherche Webà la demande$0.015

Exemple de demande

$curl https://api.empiriolabs.ai/v1/chat/completions \
> -H 'Authorization: Bearer $EMPIRIOLABS_API_KEY' \
> -H 'Content-Type: application/json' \
> -d '{"model": "qwen3-5-omni-plus", "messages": [{"role":"user","content":"Hello"}]}'

Paramètres

ParamètreTypeObligatoirePar défautDescription
temperatureNombrenon0.7Température d’échantillonnage. 0 = déterministe, 2 = aléatoire maximal. · Plage: 0 – 2
top_pNombrenon0.9Probabilité d’échantillonnage du noyau, masse. Plus bas = plus concentré. · Répartition: 0 – 1
max_tokensNombrenon4096Maximum de jetons dans la réponse. · Répartition: 1 – 32768
output_modeenumnon"text"Mode format de sortie. Texte = texte uniquement, audio = inclure la parole synthétisée. · Autorisé: text, text_audio
voiceCordenon"Tina"Nom vocal pour la sortie audio (quand output_mode = audio).
tool_web_searchBooléennonfauxPermettre au modèle d’effectuer des recherches web lorsque cela est nécessaire.
video_fpsNombrenon2Images par seconde échantillonnées à partir de la vidéo d’entrée pour analyse. · Plage: 0,1 – 10
vl_high_resolution_imagesBooléennonVraiUtilisez une résolution plus élevée pour les images d’entrée. Un meilleur détail à un coût plus élevé.
max_pixelsNombrenon2621440Nombre maximal de pixels par image d’entrée. Plus grand = plus de détails mais plus lent / plus de jetons. · Répartition: 1 – 99999999

Notes

Facturation audio

  • L’audio est facturé à un débit de jeton plus élevé que text/image/vidéo
  • Lorsque la sortie audio est activée, le texte de sortie n’est PAS facturé - seulement les jetons audio

Voix et langage

  • 55 timbres vocaux disponibles
  • La sortie audio supporte 29 langues, 7 dialectes

Facturation par outil (usage.tool_usage)

Lorsque ce modèle invoque des outils (recherche web, interpréteur de code, etc.) dans une seule requête, la réponse porte une carte de usage.tool_usage normalisée à côté des comptes de tokens. L’exemple ci-dessous montre la forme - les noms exacts des champs, les unités et les outils qui apparaissent peuvent varier légèrement selon le fournisseur:

1"usage": {
2 "prompt_tokens": 123,
3 "completion_tokens": 456,
4 "cost_usd": 0.0042,
5 "tool_usage": {"web_search": 3, "code_interpreter": 1}
6}

Le nombre d’outils est déjà pris en compte dans cost_usd - ils sont présentés pour la transparence afin que vous puissiez auditer la facturation par outil. Le champ est omis lorsqu’aucun outil n’a été invoqué.


_Machine schéma lisible: _ GET https://api.empiriolabs.ai/v1/models/qwen3-5-omni-plus.