Tongyi Embedding Vision Flash

Tongyi Embedding Vision Flash
Alibaba Cloud · Embeddings
POST /v1/embeddings

Geschwindigkeitsoptimierte multimodale Einbettung – gleiche Form wie Vision-Plus, 3× günstigere image/video Token.

Auf einen Blick

SpielfeldWert
Modell-IDtongyi-embedding-vision-flash
Modell-Veröffentlichungsdatum2025-09-23
EingabemodalitätenText, Bild, Video
AusgabemodalitätenEinbettung
Kontextfenster1024
Gewichtspräzision-
RegionSingapur
MerkmaleMultimodale, unabhängige Vektoren, niedrige Kosten
Native SchlussfolgerungNein
NeuJa
Unterstützte EndpunktePOST /v1/embeddings

Preisgestaltung

BerechnenSpezifikationZinssatz
Texteingabepro 1Million Token$0.09
Bild-/Videoeingangpro 1Million Token$0.03

Beispielanfrage

$curl https://api.empiriolabs.ai/v1/embeddings \
> -H 'Authorization: Bearer $EMPIRIOLABS_API_KEY' \
> -H 'Content-Type: application/json' \
> -d '{"model": "tongyi-embedding-vision-flash", "input": [{"type":"text","text":"Embed me."},{"type":"image","url":"https://media.empiriolabs.ai/example.jpg"}]}'

Parameter

ParameterTypErforderlichDefaultBeschreibung
inputStringJa-Entweder ein OpenAI-ähnliches Teile-Array [{type:'image',url:...},{type:'text',text:...}] oder eine native Teileliste {contents:[{image:'...'},{text:'...'}]}. Bis zu 8 Bilder mit jeweils 3 MB, Video bis zu 10 MB, Text bis zu 1024 Tokens.
userStringNein-Optionale Anruferkennung.

Anmerkungen

Ausgabe

  • Fester 768-Dim-Vektor pro Eingang

Grenzwerte pro Eingang

  • Text: bis zu 1.024 Token
  • Bild: bis zu 8 pro Anfrage, jeweils 3 MB (JPG, PNG, BMP)
  • Video: bis zu 10 MB pro Datei (MP4, MPEG, MOV, MPG, WEBM, AVI, FLV, MKV)

Sprachen

  • Chinesisch, Englisch

Machine-lesbares Schema: GET https://api.empiriolabs.ai/v1/models/tongyi-embedding-vision-flash.