Qwen3.5 Omni Plus

Alibaba Cloud · Text Generation
POST /v1/chat/completions텍스트, 이미지, 오디오, 비디오를 위한 대표적인 옴니 모달 모델입니다. 3HD 오디오, 1시간 비디오, 90+ 입력 및 30+ 출력 언어, 55가지 음성 음색.
한눈에
가격
예시 요청
매개변수
주석
오디오 청구
- 오디오는 text/image/비디오보다 더 높은 토큰 요금으로 청구됩니다
- 오디오 출력이 활성화되면 출력 텍스트는 요금이 부과되지 않고 오디오 토큰만 부과됩니다
목소리와 언어
- 55가지 음성 음색 사용 가능
- 오디오 출력은 29개 언어, 7개 방언을 지원합니다
도구별 청구 (usage.tool_usage)
이 모델이 단일 요청 내에서 웹 검색, 코드 인터프리터 등 도구를 호출할 때, 응답은 토큰 수와 함께 정규화된 usage.tool_usage 맵을 포함합니다. 아래 예시는 그 형태를 보여줍니다 - 정확한 필드명, 단위, 그리고 나타나는 도구는 제공자마다 약간 다를 수 있습니다:
도구 수는 이미 cost_usd에 반영되어 있어 투명성을 위해 표면화되어 있어 도구별 청구를 감사할 수 있습니다. 도구가 호출되지 않았을 때는 필드가 생략됩니다.
Machine-읽기 가능한 스키마: GET https://api.empiriolabs.ai/v1/models/qwen3-5-omni-plus.
