Tongyi Embedding Vision Plus

Tongyi Embedding Vision Plus
Alibaba Cloud · Embeddings
POST /v1/embeddings

L’intégration multimodale produisant des vecteurs indépendants pour le texte, l’image et les entrées vidéo.

En un coup d’œil

TerrainValeur
Identifiant de modèletongyi-embedding-vision-plus
Date de sortie du modèle2025-09-23
Modalités d’entréeTexte, Image, Vidéo
Modalités de sortieIntégration
Fenêtre de contexte1024
Précision du poids-
RégionSingapour
CaractéristiquesVecteurs multimodaux et indépendants
Inférence autochtoneNon
NouveauOui
Points de terminaison pris en chargePOST /v1/embeddings

Tarification

ChargeSpecTaux
Saisie de textepar 1M de jetons$0.09
Entrée image / vidéopar 1M de jetons$0.09

Exemple de demande

$curl https://api.empiriolabs.ai/v1/embeddings \
> -H 'Authorization: Bearer $EMPIRIOLABS_API_KEY' \
> -H 'Content-Type: application/json' \
> -d '{"model": "tongyi-embedding-vision-plus", "input": [{"type":"text","text":"Embed me."},{"type":"image","url":"https://media.empiriolabs.ai/example.jpg"}]}'

Paramètres

ParamètreTypeObligatoirePar défautDescription
inputCordeOui-Soit un [{type:'image',url:...},{type:'text',text:...}] de pièces à la manière OpenAI, soit une liste native de pièces {contents:[{image:'...'},{text:'...'}]}. Jusqu’à 8 images à 3 Mo chacune, la vidéo jusqu’à 10 Mo, le texte jusqu’à 1024 jetons.
userCordenon-Identifiant d’appelant optionnel.

Notes

Sortie

  • Vecteur fixe 1152-dim par entrée (pas de fusion entre modalités)

Limites par entrée

  • Texte: jusqu’à 1 024 jetons
  • Image: jusqu’à 8 par requête, 3 Mo chacun (JPG, PNG, BMP)
  • Vidéo: jusqu’à 10 Mo par fichier (MP4, MPEG, MOV, MPG, WEBM, AVI, FLV, MKV)

Langues

  • Chinois, anglais

_Machine schéma lisible: _ GET https://api.empiriolabs.ai/v1/models/tongyi-embedding-vision-plus.