모델 ID:
qwen/qwen3.5-9b | 파라미터: 9B | 출시일: 2026-03-10개요
Qwen 3.5 9B는 성능과 효율성의 균형을 위해 설계된 컴팩트하면서도 뛰어난 오픈소스 언어 모델입니다. 다국어 이해 및 생성, 최대 131,072 토큰의 긴 컨텍스트 추론, 텍스트와 이미지를 지원하는 멀티모달 입력을 제공합니다. 대규모 모델 대비 낮은 서빙 비용과 빠른 추론 속도를 제공하여 채팅 어시스턴트, 코딩 지원, 문서 요약, 시각적 이해 등 실시간 AI 애플리케이션에 적합합니다.Air API Playground
플레이그라운드에서 모델을 체험하세요.
AIR Container로 배포
AIR Container로 배포하세요.
API 사용 가이드
API 사용법을 알아보세요.
가격
| 입력 | 출력 |
|---|---|
| $0.05 / 1M 토큰 | $0.15 / 1M 토큰 |
주요 기능
- 비용 및 지연 시간에 민감한 배포에 적합한 효율적인 9B 모델
- 강력한 다국어 이해 및 생성
- 최대 131,072 토큰의 긴 컨텍스트 추론 지원
- 텍스트 및 이미지 입력, 텍스트 출력 지원 (요청당 최대 1장, 2장 이상 전송 시 400 에러)
- reasoning, tools, streaming, vision, json_mode, logprobs 지원
- 성능, 지연 시간, 서빙 비용 간의 적절한 균형
- vLLM 등 최적화된 추론 런타임과 호환
- 효율적인 배포를 위한 FP8 포맷 제공
활용 사례
일반 Q&A
효율적인 추론과 맥락 이해를 통한 범용 Q&A를 처리합니다.코드 생성 및 지원
실용적인 개발 작업을 위해 효율적으로 코드를 생성하고 설명합니다.요약 및 분석
긴 문서에 대한 효율적인 요약 및 경량 분석 작업을 수행합니다.시각적 이해
이미지 입력을 이해하고 텍스트 기반의 설명이나 인사이트를 생성합니다.파라미터
| 파라미터 | 타입 | 필수 | 기본값 | 설명 |
|---|---|---|---|---|
messages | array | 필수 | - | 채팅 기반 생성을 위한 입력 메시지 목록. 텍스트 및 이미지 콘텐츠를 지원합니다. |
max_tokens | integer | 선택 | - | 생성할 최대 출력 토큰 수 |
temperature | number | 선택 | 1 | 샘플링 온도 (0.0-2.0) |
top_p | number | 선택 | 1 | 핵 샘플링 임계값 |
top_k | integer | 선택 | - | 상위 k개의 가장 확률 높은 토큰으로 샘플링 제한 |
min_p | number | 선택 | - | 토큰 샘플링을 위한 최소 확률 임계값 |
frequency_penalty | number | 선택 | 0 | 토큰 빈도 페널티 |
presence_penalty | number | 선택 | 0 | 토큰 존재 페널티 |
repetition_penalty | number | 선택 | - | 반복 토큰 생성 페널티 |
stop | string | array | 선택 | - | 생성을 종료할 중지 시퀀스 |
seed | integer | 선택 | - | 재현 가능한 샘플링을 위한 랜덤 시드 |
stream | boolean | 선택 | false | 스트리밍 응답 활성화 |
모델 세부정보
| 속성 | 값 |
|---|---|
| 컨텍스트 길이 | 131,072 |
| 최대 출력 길이 | 131,072 |
| 양자화 | fp8 |
| 입력 모달리티 | text, image (요청당 최대 1장) |
| 출력 모달리티 | text |
| 지원 기능 | tools, reasoning, streaming, vision, json_mode, logprobs |
시작하기
API 키 발급하기
AirCloud 계정에서 API 키를 발급받습니다.
태그
open-source conversational 9B reasoning multilingual efficient vision
