Tongyi Embedding Vision Plus | EmpirioLabs AI Docs

POST /v1/embeddings

Multimodale Einbettung erzeugt unabhängige Vektoren für Text-, Bild- und Videoeingänge.

Auf einen Blick

Spielfeld	Wert
Modell-ID	`tongyi-embedding-vision-plus`
Modell-Veröffentlichungsdatum	2025-09-23
Eingabemodalitäten	Text, Bild, Video
Ausgabemodalitäten	Einbettung
Kontextfenster	1024
Gewichtspräzision	-
Region	Singapur
Merkmale	Multimodale, unabhängige Vektoren
Native Schlussfolgerung	Nein
Neu	Ja
Unterstützte Endpunkte	`POST /v1/embeddings`

Preisgestaltung

Berechnen	Spezifikation	Zinssatz
Texteingabe	pro 1Million Token	$0.09
Bild-/Videoeingang	pro 1Million Token	$0.09

Beispielanfrage

$ curl https://api.empiriolabs.ai/v1/embeddings \
>   -H 'Authorization: Bearer $EMPIRIOLABS_API_KEY' \
>   -H 'Content-Type: application/json' \
>   -d '{"model": "tongyi-embedding-vision-plus", "input": [{"type":"text","text":"Embed me."},{"type":"image","url":"https://media.empiriolabs.ai/example.jpg"}]}'

Parameter

Parameter	Typ	Erforderlich	Default	Beschreibung
`input`	String	Ja	-	Entweder ein OpenAI-ähnliches Teile-Array `[{type:'image',url:...},{type:'text',text:...}]` oder eine native Teileliste `{contents:[{image:'...'},{text:'...'}]}`. Bis zu 8 Bilder mit jeweils 3 MB, Video bis zu 10 MB, Text bis zu 1024 Tokens.
`user`	String	Nein	-	Optionale Anruferkennung.

Anmerkungen

Ausgabe

Fester Vektor mit 1152 Dim pro Eingang (keine Fusion zwischen den Modalitäten)

Grenzwerte pro Eingang

Text: bis zu 1.024 Token
Bild: bis zu 8 pro Anfrage, jeweils 3 MB (JPG, PNG, BMP)
Video: bis zu 10 MB pro Datei (MP4, MPEG, MOV, MPG, WEBM, AVI, FLV, MKV)

Sprachen

Chinesisch, Englisch

Machine-lesbares Schema: GET https://api.empiriolabs.ai/v1/models/tongyi-embedding-vision-plus.