Qwen3.5 Omni Flash | EmpirioLabs AI Docs

POST /v1/chat/completions

مناولة النصوص والصورة والصوت والفيديو ذات الكفاءة من حيث التكلفة، بما يصل إلى 3 ساعات من الصوت وساعة واحدة من الفيديو عبر 90 + اللغات.

في لمحة

الميدان	القيمة
النموذج	`qwen3-5-omni-flash`
تاريخ الإفراج النموذجي	2026-03-30
طرائق المدخلات	النص، التصوير، الفيديو، أوديو
طرائق النواتج	النص، أوديو
نافذة السياق	256K
دقة الوزن	-
الحد الأقصى للنواتج	32,768
المنطقة	سنغافورة
المعالم	رؤية، سمعية، سمعية
Native inference	لا
جديدة	لا
نقاط النهاية المدعومة	`POST /v1/chat/completions`, `POST /v1/responses`, `POST /v1/messages`, `POST /v1/audio/speech`

الطباعة

الرسم	Spec	المعدل
الناتج	1M	لكل 1M رموز المطالبة $0.40؛ لكل 1M رموز مطالبة $3.00
الناتج	1M المولدة	لكل مليون رمز مولد $2.20؛ لكل مليون رمز مولد $11.90
Web search	لكل طلب	$0.015

طلب مثال

$ curl https://api.empiriolabs.ai/v1/chat/completions \
>   -H 'Authorization: Bearer $EMPIRIOLABS_API_KEY' \
>   -H 'Content-Type: application/json' \
>   -d '{"model": "qwen3-5-omni-flash", "messages": [{"role":"user","content":"Hello"}]}'

البارامترات

البارامترات	النوع	المطلوبة	التقصير	الوصف
`temperature`	العدد	لا	`0.7`	درجة حرارة أخذ العينات صفر = محدد، 2 = أقصى عشوائي الرنج: صفر - 2
`top_p`	العدد	لا	`0.9`	نوكليوس أخذ عينات كتلة احتمالية أقل = أكثر تركيزا. الرنج: صفر - 1
`max_tokens`	العدد	لا	`4096`	الحد الأقصى للعلامات في الرد الرنج: 1-32768
`output_mode`	enum	لا	`"text"`	وضع تنسيق الإخراج. نص = نص فقط، الصوت = يشمل الكلام المركب الصناعي. · مسموح: `text`، `text_audio`
`voice`	سلسلة	لا	`"Tina"`	الاسم الصوتي للناتج الصوتي (عندما يكون الناتج - رقم الصوت = الصوت).
`tool_web_search`	boolean	لا	كاذب	السماح للنموذج بإجراء عمليات تفتيش على الشبكة عند الحاجة.
`video_fps`	العدد	لا	`2`	تم أخذ عينة من شريط فيديو من أجل التحليل الرنج: 0.1 - 10
`vl_high_resolution_images`	boolean	لا	صحيح	استعملوا حلاً أعلى لصور المدخلات تفاصيل أفضل بكلفة أعلى
`max_pixels`	العدد	لا	`2621440`	”أقصى ما يمكن” أكبر = المزيد من التفاصيل ولكن أبطأ/مزيد من الكسور الرنج: 1 - 99999999

الحواشي

** Audio billing**

Audio is billed at a higher token rate than text/image /video
عندما يُمكّن الناتج السمعي، لا يُحمّل نص الناتج - فقط مداخل صوتية

** صوت ولغة**

55 ممرات صوتية متاحة
دعم إنتاج المواد السمعية 29 لغة، 7 لهجات

الفوترة لكل أداة (usage.tool_usage)

When this model invokeds tools (web search, code interpreter, etc.) inside a single request, the response carries a normalized EL usage.tool_usage map along the token counts. ويوضح المثال الوارد أدناه الشكل - الاسمان الميدانيان الدقيقان، والوحدات، والأدوات التي تظهر يمكن أن تختلف اختلافا طفيفا لكل مقدم:

1 "usage": {
2   "prompt_tokens": 123,
3   "completion_tokens": 456,
4   "cost_usd": 0.0042,
5   "tool_usage": {"web_search": 3, "code_interpreter": 1}
6 }

يتم بالفعل احتساب عدد الأدوات في cost_usd - يتم إبراز الشفافية حتى تتمكن من تدقيق الفوترة لكل أداة. يتم حذف الحقل عندما لا يتم استدعاء أي أدوات.

مخطط Machine قابل للقراءة: GET https://api.empiriolabs.ai/v1/models/qwen3-5-omni-flash.