Fugu Ultra

Fugu Ultra
Sakana AI · Text Generation
POST /v1/chat/completions

मल्टी-एजेंट कंडक्टर जो 1M संदर्भ, छवि इनपुट और वेब खोज के साथ कठिन तर्क, कोडिंग और अनुसंधान के लिए सीमांत विशेषज्ञ मॉडल का आयोजन करता है।

एक नजर में

फ़ील्डमूल्य
मॉडल आईडीfugu-ultra
मॉडल रिलीज की तारीख2026-06-21
इनपुट तौर-तरीकेपाठ, छवि
आउटपुट के तौर-तरीकेटेक्स्ट
संदर्भ विंडो1 मी
वजन परिशुद्धता-
अधिकतम आउटपुट टोकन131,072
सुविधाऐंरीजनिंग, मल्टीमोडल, web_search, function_calling, structured_output, agentic_coding, कैश
मूल अनुमाननहीं
नयाहाँ
समर्थित समापन बिंदुPOST /v1/chat/completions, POST /v1/responses, POST /v1/messages

मूल्य निर्धारण

आवेशित करनायुक्तिदर
इनपुटप्रति 1M प्रॉम्प्ट टोकन<=272K $7.50; >272K $15.00
उत्पादनप्रति 1M जेनरेट किए गए टोकन<=272K $45.00; >272K $67.50
अंतर्निहित कैश पढ़ा गयाप्रति 1M कैश्ड इनपुट टोकन<=272K $1.50; >272K $3.00

उदाहरण अनुरोध

$curl https://api.empiriolabs.ai/v1/chat/completions \
> -H 'Authorization: Bearer $EMPIRIOLABS_API_KEY' \
> -H 'Content-Type: application/json' \
> -d '{"model": "fugu-ultra", "messages": [{"role":"user","content":"Hello"}]}'

पैरामीटर

प्राचलप्रकारआवश्यकडिफ़ॉल्टया क़िस्‍म
max_tokensपूर्ण संख्‍यानहीं32768अंतिम उत्तर के लिए आउटपुट टोकन की अधिकतम संख्या। कंडक्टर को काम करने के लिए कमरे की आवश्यकता होती है, इसलिए बहुत छोटे मान खाली आउटपुट वापस कर सकते हैं। · रेंज: 1 - 131072
reasoning_effortएनमनहीं"high"कितने कठिन Fugu Ultra कारण हैं। रीजनिंग हमेशा चालू रहती है। डिफ़ॉल्ट उच्च है; Xhigh और MAX एक ही अधिकतम प्रयास के उपनाम हैं (उच्च की तुलना में अधिक गहन और धीमा)। · अनुमति: high, xhigh, max
tool_web_searchबूलियननहींगलतअंतर्निहित वेब खोज सक्षम करें। कोई अलग शुल्क नहीं है; खोज लागत अनुरोध के लिए बिल किए गए ऑर्केस्ट्रेशन टोकन में परिलक्षित होती है।
toolsसरणीनहीं[]OpenAI-संगत फ़ंक्शन कॉलिंग टूल परिभाषाएँ।
tool_choiceवस्तुनहीं-OpenAI-संगत उपकरण विकल्प नियंत्रण।
response_formatवस्तुनहीं-संरचित आउटपुट के लिए OpenAI-संगत JSON मोड।

टिप्पणियाँ

Fugu Ultra एक बहु-एजेंट कंडक्टर है: प्रत्येक अनुरोध विशेषज्ञ मॉडल के एक पूल का समन्वय करता है और उनके काम को एक ही उत्तर में लिखता है।

विलंबता और स्ट्रीमिंग

  • जटिल संकेतों पर प्रतिक्रियाओं में कुछ सेकंड से लेकर कुछ मिनट तक का समय लग सकता है।
  • मॉडल समाप्त होने पर पूरा उत्तर एक ही बार में वापस कर दिया जाता है, टोकन द्वारा टोकन नहीं। स्ट्रीमिंग स्वीकार की जाती है, लेकिन यह टोकन को स्ट्रीमिंग करने के बजाय अंत में पूरी प्रतिक्रिया प्रदान करता है क्योंकि वे उत्पन्न होते हैं।
  • उदार max_tokens हेडरूम छोड़ दें, क्योंकि बहुत छोटी सीमाएं उत्तर को छोटा या खाली कर सकती हैं।

क्षमताएं

  • पाठ और छवि इनपुट, 1M टोकन संदर्भ के साथ।
  • हमेशा तर्क पर। उच्च डिफ़ॉल्ट है; Xhigh और MAX एक ही अधिकतम प्रयास हैं।
  • फ़ंक्शन कॉलिंग, JSON मोड, और अंतर्निहित वेब खोज जो उपलब्ध होने पर अपने स्रोतों का हवाला देती है (कोई अलग शुल्क नहीं)।

बिलिंग

  • पूर्ण टोकन उपयोग पर बिल किया जाता है, जिसमें ऑर्केस्ट्रेशन टोकन भी शामिल है जो मॉडल आंतरिक रूप से उपयोग करता है, इसलिए छोटे संकेतों में भी कुछ लागत आती है।
  • संदर्भ-स्तरीय: 272K कुल इनपुट टोकन से ऊपर के अनुरोध दिखाई गई उच्च दर का उपयोग करते हैं।

Machine-पठनीय स्कीमा: GET https://api.empiriolabs.ai/v1/models/fugu-ultra