메인 콘텐츠로 건너뛰기
모델 ID: qwen/qwen3.5-9b | 파라미터: 9B | 출시일: 2026-03-10

개요

Qwen 3.5 9B는 성능과 효율성의 균형을 위해 설계된 컴팩트하면서도 뛰어난 오픈소스 언어 모델입니다. 다국어 이해 및 생성, 최대 131,072 토큰의 긴 컨텍스트 추론, 텍스트와 이미지를 지원하는 멀티모달 입력을 제공합니다. 대규모 모델 대비 낮은 서빙 비용과 빠른 추론 속도를 제공하여 채팅 어시스턴트, 코딩 지원, 문서 요약, 시각적 이해 등 실시간 AI 애플리케이션에 적합합니다.

Air API Playground

플레이그라운드에서 모델을 체험하세요.

AIR Container로 배포

AIR Container로 배포하세요.

API 사용 가이드

API 사용법을 알아보세요.

가격

입력출력
$0.05 / 1M 토큰$0.15 / 1M 토큰

주요 기능

  • 비용 및 지연 시간에 민감한 배포에 적합한 효율적인 9B 모델
  • 강력한 다국어 이해 및 생성
  • 최대 131,072 토큰의 긴 컨텍스트 추론 지원
  • 텍스트 및 이미지 입력, 텍스트 출력 지원 (요청당 최대 1장, 2장 이상 전송 시 400 에러)
  • reasoning, tools, streaming, vision, json_mode, logprobs 지원
  • 성능, 지연 시간, 서빙 비용 간의 적절한 균형
  • vLLM 등 최적화된 추론 런타임과 호환
  • 효율적인 배포를 위한 FP8 포맷 제공

활용 사례

일반 Q&A

효율적인 추론과 맥락 이해를 통한 범용 Q&A를 처리합니다.
Explain how transformers work in simple terms and give a real-world analogy.

코드 생성 및 지원

실용적인 개발 작업을 위해 효율적으로 코드를 생성하고 설명합니다.
Write a Python function to check if a number is prime and explain the logic.

요약 및 분석

긴 문서에 대한 효율적인 요약 및 경량 분석 작업을 수행합니다.

시각적 이해

이미지 입력을 이해하고 텍스트 기반의 설명이나 인사이트를 생성합니다.

파라미터

파라미터타입필수기본값설명
messagesarray필수-채팅 기반 생성을 위한 입력 메시지 목록. 텍스트 및 이미지 콘텐츠를 지원합니다.
max_tokensinteger선택-생성할 최대 출력 토큰 수
temperaturenumber선택1샘플링 온도 (0.0-2.0)
top_pnumber선택1핵 샘플링 임계값
top_kinteger선택-상위 k개의 가장 확률 높은 토큰으로 샘플링 제한
min_pnumber선택-토큰 샘플링을 위한 최소 확률 임계값
frequency_penaltynumber선택0토큰 빈도 페널티
presence_penaltynumber선택0토큰 존재 페널티
repetition_penaltynumber선택-반복 토큰 생성 페널티
stopstring | array선택-생성을 종료할 중지 시퀀스
seedinteger선택-재현 가능한 샘플링을 위한 랜덤 시드
streamboolean선택false스트리밍 응답 활성화

모델 세부정보

속성
컨텍스트 길이131,072
최대 출력 길이131,072
양자화fp8
입력 모달리티text, image (요청당 최대 1장)
출력 모달리티text
지원 기능tools, reasoning, streaming, vision, json_mode, logprobs

시작하기

1

API 키 발급하기

AirCloud 계정에서 API 키를 발급받습니다.
2

코드 실행하기

아래 코드에서 YOUR_API_KEY 자리에 실제 발급받은 키를 넣어 실행하세요. 언어별(Python, cURL, Node.js) 코드 예시를 선택할 수 있습니다.
import requests

response = requests.post(
    "https://external.aieev.cloud:5007/ai/api/v1/chat/completions",
    headers={
        "Authorization": "Bearer YOUR_API_KEY",
        "Content-Type": "application/json"
    },
    json={
        "model": "qwen/qwen3.5-9b",
        "messages": [{"role": "user", "content": "Hello!"}],
        "temperature": 0.7
    }
)

result = response.json()
print(result["choices"][0]["message"]["content"])

태그

open-source conversational 9B reasoning multilingual efficient vision