Tongyi Embedding Vision Plus

Tongyi Embedding Vision Plus
Alibaba Cloud · Embeddings
POST /v1/embeddings

Multimodale Einbettung erzeugt unabhängige Vektoren für Text-, Bild- und Videoeingänge.

Auf einen Blick

SpielfeldWert
Modell-IDtongyi-embedding-vision-plus
Modell-Veröffentlichungsdatum2025-09-23
EingabemodalitätenText, Bild, Video
AusgabemodalitätenEinbettung
Kontextfenster1024
Gewichtspräzision-
RegionSingapur
MerkmaleMultimodale, unabhängige Vektoren
Native SchlussfolgerungNein
NeuJa
Unterstützte EndpunktePOST /v1/embeddings

Preisgestaltung

BerechnenSpezifikationZinssatz
Texteingabepro 1Million Token$0.09
Bild-/Videoeingangpro 1Million Token$0.09

Beispielanfrage

$curl https://api.empiriolabs.ai/v1/embeddings \
> -H 'Authorization: Bearer $EMPIRIOLABS_API_KEY' \
> -H 'Content-Type: application/json' \
> -d '{"model": "tongyi-embedding-vision-plus", "input": [{"type":"text","text":"Embed me."},{"type":"image","url":"https://media.empiriolabs.ai/example.jpg"}]}'

Parameter

ParameterTypErforderlichDefaultBeschreibung
inputStringJa-Entweder ein OpenAI-ähnliches Teile-Array [{type:'image',url:...},{type:'text',text:...}] oder eine native Teileliste {contents:[{image:'...'},{text:'...'}]}. Bis zu 8 Bilder mit jeweils 3 MB, Video bis zu 10 MB, Text bis zu 1024 Tokens.
userStringNein-Optionale Anruferkennung.

Anmerkungen

Ausgabe

  • Fester Vektor mit 1152 Dim pro Eingang (keine Fusion zwischen den Modalitäten)

Grenzwerte pro Eingang

  • Text: bis zu 1.024 Token
  • Bild: bis zu 8 pro Anfrage, jeweils 3 MB (JPG, PNG, BMP)
  • Video: bis zu 10 MB pro Datei (MP4, MPEG, MOV, MPG, WEBM, AVI, FLV, MKV)

Sprachen

  • Chinesisch, Englisch

Machine-lesbares Schema: GET https://api.empiriolabs.ai/v1/models/tongyi-embedding-vision-plus.