Qwen3.5-9B - AirCloud

모델 ID: qwen/qwen3.5-9b | 파라미터: 9B | 출시일: 2026-03-10

개요

Qwen 3.5 9B는 성능과 효율성의 균형을 위해 설계된 컴팩트하면서도 뛰어난 오픈소스 언어 모델입니다. 다국어 이해 및 생성, 최대 131,072 토큰의 긴 컨텍스트 추론, 텍스트와 이미지를 지원하는 멀티모달 입력을 제공합니다. 대규모 모델 대비 낮은 서빙 비용과 빠른 추론 속도를 제공하여 채팅 어시스턴트, 코딩 지원, 문서 요약, 시각적 이해 등 실시간 AI 애플리케이션에 적합합니다.

Air API Playground

플레이그라운드에서 모델을 체험하세요.

AIR Container로 배포

AIR Container로 배포하세요.

API 사용 가이드

API 사용법을 알아보세요.

가격

입력	출력
$0.05 / 1M 토큰	$0.15 / 1M 토큰

주요 기능

비용 및 지연 시간에 민감한 배포에 적합한 효율적인 9B 모델
강력한 다국어 이해 및 생성
최대 131,072 토큰의 긴 컨텍스트 추론 지원
텍스트 및 이미지 입력, 텍스트 출력 지원 (요청당 최대 1장, 2장 이상 전송 시 400 에러)
reasoning, tools, streaming, vision, json_mode, logprobs 지원
성능, 지연 시간, 서빙 비용 간의 적절한 균형
vLLM 등 최적화된 추론 런타임과 호환
효율적인 배포를 위한 FP8 포맷 제공

활용 사례

일반 Q&A

효율적인 추론과 맥락 이해를 통한 범용 Q&A를 처리합니다.

Explain how transformers work in simple terms and give a real-world analogy.

Transformers process text by modeling relationships between tokens in parallel
rather than strictly one by one...

A simple analogy is a group discussion where each person listens to everyone
else to understand the full context before responding.

코드 생성 및 지원

실용적인 개발 작업을 위해 효율적으로 코드를 생성하고 설명합니다.

Write a Python function to check if a number is prime and explain the logic.

def is_prime(n):
    if n <= 1:
        return False
    for i in range(2, int(n ** 0.5) + 1):
        if n % i == 0:
            return False
    return True

# This function checks divisibility only up to the square root of n,
# which improves efficiency.

요약 및 분석

긴 문서에 대한 효율적인 요약 및 경량 분석 작업을 수행합니다.

시각적 이해

이미지 입력을 이해하고 텍스트 기반의 설명이나 인사이트를 생성합니다.

파라미터

파라미터	타입	필수	기본값	설명
`messages`	array	필수	-	채팅 기반 생성을 위한 입력 메시지 목록. 텍스트 및 이미지 콘텐츠를 지원합니다.
`max_tokens`	integer	선택	-	생성할 최대 출력 토큰 수
`temperature`	number	선택	1	샘플링 온도 (0.0-2.0)
`top_p`	number	선택	1	핵 샘플링 임계값
`top_k`	integer	선택	-	상위 k개의 가장 확률 높은 토큰으로 샘플링 제한
`min_p`	number	선택	-	토큰 샘플링을 위한 최소 확률 임계값
`frequency_penalty`	number	선택	0	토큰 빈도 페널티
`presence_penalty`	number	선택	0	토큰 존재 페널티
`repetition_penalty`	number	선택	-	반복 토큰 생성 페널티
`stop`	string \| array	선택	-	생성을 종료할 중지 시퀀스
`seed`	integer	선택	-	재현 가능한 샘플링을 위한 랜덤 시드
`stream`	boolean	선택	false	스트리밍 응답 활성화

모델 세부정보

속성	값
컨텍스트 길이	131,072
최대 출력 길이	131,072
양자화	fp8
입력 모달리티	text, image (요청당 최대 1장)
출력 모달리티	text
지원 기능	tools, reasoning, streaming, vision, json_mode, logprobs

시작하기

API 키 발급하기

AirCloud 계정에서 API 키를 발급받습니다.

코드 실행하기

아래 코드에서 YOUR_API_KEY 자리에 실제 발급받은 키를 넣어 실행하세요. 언어별(Python, cURL, Node.js) 코드 예시를 선택할 수 있습니다.

import requests

response = requests.post(
    "https://external.aieev.cloud:5007/ai/api/v1/chat/completions",
    headers={
        "Authorization": "Bearer YOUR_API_KEY",
        "Content-Type": "application/json"
    },
    json={
        "model": "qwen/qwen3.5-9b",
        "messages": [{"role": "user", "content": "Hello!"}],
        "temperature": 0.7
    }
)

result = response.json()
print(result["choices"][0]["message"]["content"])

curl --request POST \
  --url https://external.aieev.cloud:5007/ai/api/v1/chat/completions \
  --header 'Authorization: Bearer YOUR_API_KEY' \
  --header 'Content-Type: application/json' \
  --data '{
    "model": "qwen/qwen3.5-9b",
    "messages": [{"role": "user", "content": "Hello!"}],
    "temperature": 0.7
  }'

const response = await fetch(
  "https://external.aieev.cloud:5007/ai/api/v1/chat/completions",
  {
    method: "POST",
    headers: {
      "Authorization": "Bearer YOUR_API_KEY",
      "Content-Type": "application/json"
    },
    body: JSON.stringify({
      model: "qwen/qwen3.5-9b",
      messages: [{ role: "user", content: "Hello!" }],
      temperature: 0.7
    })
  }
);

const result = await response.json();
console.log(result.choices[0].message.content);

​개요

Air API Playground

AIR Container로 배포

API 사용 가이드

​가격

​주요 기능

​활용 사례

​일반 Q&A

​코드 생성 및 지원

​요약 및 분석

​시각적 이해

​파라미터

​모델 세부정보

​시작하기

​태그

개요

가격

주요 기능

활용 사례

일반 Q&A

코드 생성 및 지원

요약 및 분석

시각적 이해

파라미터

모델 세부정보

시작하기

태그