DeepSeek V4 Flash | EmpirioLabs AI Docs

DeepSeek · Text Generation

POST /v1/chat/completions

총 284B / 활성 매개변수 13B, 네이티브 1M 컨텍스트를 가진 경량 MoE 모델로, 저지연 시간과 비용 효율적인 고동시성 사용에 최적화되어 있습니다.

한눈에

필드	가치
모델 ID	`deepseek-v4-flash`
모델 출시일	2026-04-24
입력 양상	본문
출력 방식	본문
컨텍스트 윈도우	1M
무게 정밀도	-
최대 출력 토큰	393,216
지역	독일
특징	이유
원주민 추론	아니
신규	네
지원되는 엔드포인트	`POST /v1/chat/completions`, `POST /v1/responses`, `POST /v1/messages`

가격

돌격	사양	요금
입력	1M 프롬프트 토큰당	$0.14
출력	생성된 토큰 1M 단위	$0.28
웹 검색 (Linkup)	호출 시 통화당	$0.013

예시 요청

$ curl https://api.empiriolabs.ai/v1/chat/completions \
>   -H 'Authorization: Bearer $EMPIRIOLABS_API_KEY' \
>   -H 'Content-Type: application/json' \
>   -d '{"model": "deepseek-v4-flash", "messages": [{"role":"user","content":"Hello"}]}'

매개변수

매개변수	유형	필수	기본 설정	설명
`temperature`	번호	아니	`0.7`	샘플링 온도. 0 = 결정론적, 2 = 최대 무작위성. · 사거리: 0 – 2
`top_p`	번호	아니	`0.9`	핵 샘플링 확률 질량. 더 낮은 = 더 집중된 상태입니다. · 사거리: 0 – 1
`max_tokens`	번호	아니	`4096`	최대 출력 토큰. · 사거리: 1 – 393216
`stop`	스트링	아니	-	최대 4개의 문자열에서 모델이 더 이상 토큰 생성을 멈춥니다.
`enable_thinking`	불리언	아니	맞아요	답변하기 전에 step-by-step 추론을 가능하게 하세요.
`thinking_budget`	번호	아니	`32768`	추론 과정을 위해 최대 토큰을 예약했습니다. 393216까지. · 사거리: 1 – 393216
`reasoning_effort`	열거	아니	`"medium"`	추론 노력 수준. 어떤 것도 사고를 막지 못한다. 로우, 미디엄, 하이, 최대는 선택한 모델에 맞춘 제한된 사고 예산을 설정합니다. OpenAI 스타일의 reasoning_effort 필드로 전송되었고, 모델 서비스에 대한 enable_thinking와 thinking_budget로 번역되었습니다. · 허용: `none`, `low`, `medium`, `high`, `max`
`web_search_linkup`	불리언	아니	거짓	Linkup이 제공하는 선택적 웹 검색. 활성화되면 최신 웹 소스를 쿼리로 최신 사용자 메시지를 검색하여 모델에 추가 맥락으로 제공합니다. 모델의 일반 토큰 비용 외에 요청당 고정 $0.013을 추가합니다. 기본적으로 비활성화되어 있습니다.
`disable_formatting`	불리언	아니	거짓	활성화되면 게이트웨이는 Linkup 웹 검색을 사용한 어시스턴트 응답에 “Sources” 풋을 추가하지 않습니다. 모델 출력이 장식이 전혀 예상되지 않는 다른 시스템으로 전송될 때 유용합니다.

변형 모델

`:variant1`

필드	가치
모델 ID	`deepseek-v4-flash:variant1`
모델 출시일	2026-04-24
지역	싱가포르
컨텍스트 윈도우	1M
무게 정밀도	-
최대 출력 토큰	393,216
특징	이유가 web_search
원주민 추론	아니
지원되는 엔드포인트	`POST /v1/chat/completions`, `POST /v1/responses`, `POST /v1/messages`

가격 책정

돌격	사양	요금
입력	1M 프롬프트 토큰당	$0.20
출력	생성된 토큰 1M 단위	$0.40
웹 검색	활성화된 경우의 요청당	$0.02

매개변수

매개변수	유형	필수	기본 설정	설명
`temperature`	번호	아니	`0.7`	샘플링 온도. 0 = 결정론적, 2 = 최대 무작위성. · 사거리: 0 – 2
`top_p`	번호	아니	`0.9`	핵 샘플링 확률 질량. 더 낮은 = 더 집중된 상태입니다. · 사거리: 0 – 1
`max_tokens`	번호	아니	`4096`	최대 출력 토큰. · 사거리: 1 – 393216
`stop`	스트링	아니	-	최대 4개의 문자열에서 모델이 더 이상 토큰 생성을 멈춥니다.
`enable_thinking`	불리언	아니	맞아요	답변하기 전에 step-by-step 추론을 가능하게 하세요.
`thinking_budget`	번호	아니	`32768`	추론 과정을 위해 최대 토큰을 예약했습니다. 393216까지. · 사거리: 1 – 393216
`reasoning_effort`	열거	아니	`"medium"`	추론 노력 수준. 어떤 것도 사고를 막지 못한다. 로우, 미디엄, 하이, 최대는 선택한 모델에 맞춘 제한된 사고 예산을 설정합니다. OpenAI 스타일의 reasoning_effort 필드로 전송되었고, 모델 서비스에 대한 enable_thinking와 thinking_budget로 번역되었습니다. · 허용: `none`, `low`, `medium`, `high`, `max`
`tool_web_search`	불리언	아니	거짓	실시간 웹 검색을 활성화하세요. 활성화 시 요청 비용에 $0.02 추가 요금이 추가됩니다.

`:variant2`

필드	가치
모델 ID	`deepseek-v4-flash:variant2`
모델 출시일	2026-04-24
지역	중국
컨텍스트 윈도우	1M
무게 정밀도	-
최대 출력 토큰	384,000
특징	추론, function_calling, web_search, 캐시
원주민 추론	아니
지원되는 엔드포인트	`POST /v1/chat/completions`, `POST /v1/responses`, `POST /v1/messages`

가격 책정

돌격	사양	요금
입력	1M 프롬프트 토큰당	$0.138 ($0.14였다)
출력	생성된 토큰 1M 단위	$0.275 ($0.28였다)
암묵적 캐시 읽기	1M 캐시된 입력 토큰당	$0.028
웹 검색	활성화된 경우의 요청당	$0.01

매개변수

매개변수	유형	필수	기본 설정	설명
`temperature`	번호	아니	`0.7`	샘플링 온도. 0 = 결정론적, 2 = 최대 무작위성. · 사거리: 0 – 2
`top_p`	번호	아니	`0.9`	핵 샘플링 확률 질량. 더 낮은 = 더 집중된 상태입니다. · 사거리: 0 – 1
`max_tokens`	번호	아니	`4096`	최대 출력 토큰. · 사거리: 1 – 393216
`stop`	스트링	아니	-	최대 4개의 문자열에서 모델이 더 이상 토큰 생성을 멈춥니다.
`enable_thinking`	불리언	아니	맞아요	답변하기 전에 step-by-step 추론을 가능하게 하세요.
`thinking_budget`	번호	아니	`32768`	추론 과정을 위해 최대 토큰을 예약했습니다. 393216까지. · 사거리: 1 – 393216
`reasoning_effort`	열거	아니	`"medium"`	추론 노력 수준. 어떤 것도 사고를 막지 못한다. 로우, 미디엄, 하이, 최대는 선택한 모델에 맞춘 제한된 사고 예산을 설정합니다. OpenAI 스타일의 reasoning_effort 필드로 전송되었고, 모델 서비스에 대한 enable_thinking와 thinking_budget로 번역되었습니다. · 허용: `none`, `low`, `medium`, `high`, `max`
`tool_web_search`	불리언	아니	거짓	실시간 웹 검색을 활성화하세요. 활성화 시 요청 비용이 $0.01 증가합니다.

Machine-읽기 가능한 스키마: GET https://api.empiriolabs.ai/v1/models/deepseek-v4-flash.