QwenLM/Qwen3-Coder

⭐ 8,965 🍴 640 Python📄 No license（各コンポーネントで個別に確認が必要） GitHubで見る →

主な特徴

256Kトークンのネイティブサポート（Yarnを使用して最大1Mトークンまで拡張可能）
358種類のプログラミング言語をサポート
エージェント型コーディングに特化し、Qwen Code、CLINEなどのプラットフォームに対応
Fill-in-the-Middle（FIM）機能による高度なコード補完
リポジトリレベルのコード理解と生成
数学と一般的な能力の強力な保持
特別に設計された関数呼び出しフォーマット

リポジトリ解析: QwenLM/Qwen3-Coder

基本情報

リポジトリ名: QwenLM/Qwen3-Coder
主要言語: Python
スター数: 8,965
フォーク数: 640
最終更新: アクティブに開発中
ライセンス: No license（各コンポーネントで個別に確認が必要）
トピックス: LLM、コード生成、エージェント型コーディング、Mixture-of-Experts

概要

一言で言うと

Alibaba Cloudが開発した最新のコード特化型大規模言語モデル（LLM）シリーズで、エージェント型コーディングタスクで最先端の性能を発揮する。

詳細説明

Qwen3-Coderは、Qwenチームが開発したQwen3の「コード版」として位置づけられる大規模言語モデルシリーズです。最も強力なバリアントであるQwen3-Coder-480B-A35B-Instructは、480Bパラメータを持つMixture-of-Expertsモデルで、35Bのアクティブパラメータを持ち、コーディングとエージェントタスクの両方で優れた性能を発揮します。このモデルは、エージェント型コーディング、エージェント型ブラウザ使用、エージェント型ツール使用において、オープンモデルの中で新たな最先端の結果を達成し、Claude Sonnetに匹敵する性能を示しています。

主な特徴

256Kトークンのネイティブサポート（Yarnを使用して最大1Mトークンまで拡張可能）
358種類のプログラミング言語をサポート
エージェント型コーディングに特化し、Qwen Code、CLINEなどのプラットフォームに対応
Fill-in-the-Middle（FIM）機能による高度なコード補完
リポジトリレベルのコード理解と生成
数学と一般的な能力の強力な保持
特別に設計された関数呼び出しフォーマット

使用方法

インストール

前提条件

Python 3.8以上
CUDA対応GPU（推奨）
十分なメモリ（モデルサイズに依存）

インストール手順

# 方法1: pip経由で必要なライブラリをインストール
pip install torch
pip install transformers==4.39.1
pip install accelerate
pip install safetensors
pip install vllm

# 方法2: requirements.txtを使用
pip install -r requirements.txt

基本的な使い方

Hello World相当の例

from transformers import AutoModelForCausalLM, AutoTokenizer

model_name = "Qwen/Qwen3-Coder-480B-A35B-Instruct"

model = AutoModelForCausalLM.from_pretrained(
    model_name,
    torch_dtype="auto",
    device_map="auto"
)
tokenizer = AutoTokenizer.from_pretrained(model_name)

prompt = "write a quick sort algorithm."
messages = [
    {"role": "user", "content": prompt}
]
text = tokenizer.apply_chat_template(
    messages,
    tokenize=False,
    add_generation_prompt=True
)
model_inputs = tokenizer([text], return_tensors="pt").to(model.device)

generated_ids = model.generate(
    **model_inputs,
    max_new_tokens=65536
)
generated_ids = [
    output_ids[len(input_ids):] for input_ids, output_ids in zip(model_inputs.input_ids, generated_ids)
]

response = tokenizer.batch_decode(generated_ids, skip_special_tokens=True)[0]

実践的な使用例

# Fill-in-the-Middle (FIM) コード補完の例
from transformers import AutoTokenizer, AutoModelForCausalLM

device = "cuda" # the device to load the model onto

TOKENIZER = AutoTokenizer.from_pretrained("Qwen/Qwen3-Coder-480B-A35B-Instruct")
MODEL = AutoModelForCausalLM.from_pretrained("Qwen/Qwen3-Coder-480B-A35B-Instruct", device_map="auto").eval()

input_text = """<|fim_prefix|>def quicksort(arr):
    if len(arr) <= 1:
        return arr
    pivot = arr[len(arr) // 2]
    <|fim_suffix|>
    middle = [x for x in arr if x == pivot]
    right = [x for x in arr if x > pivot]
    return quicksort(left) + middle + quicksort(right)<|fim_middle|>"""
            
messages = [
    {"role": "system", "content": "You are a code completion assistant."},
    {"role": "user", "content": input_text}
]

text = tokenizer.apply_chat_template(
    messages,
    tokenize=False,
    add_generation_prompt=True
)
model_inputs = TOKENIZER([text], return_tensors="pt").to(model.device)

generated_ids = MODEL.generate(model_inputs.input_ids, max_new_tokens=512, do_sample=False)[0]
output_text = TOKENIZER.decode(generated_ids[len(model_inputs.input_ids[0]):], skip_special_tokens=True)

高度な使い方

# ストリーミングモードでの使用
from transformers import TextStreamer

streamer = TextStreamer(tokenizer, skip_prompt=True, skip_special_tokens=True)

# ストリーミングモードで出力を表示
generated_ids = model.generate(
    model_inputs.input_ids,
    max_new_tokens=2048,
    streamer=streamer,
)

# YaRNを使用した長文処理（config.jsonに以下を追加）
# {
#   "rope_scaling": {
#     "factor": 4.0,
#     "original_max_position_embeddings": 32768,
#     "type": "yarn"
#   }
# }

ドキュメント・リソース

公式ドキュメント

README.md: モデルの概要、基本的な使用方法、デモ例を含む包括的なドキュメント
examples/Qwen2.5-Coder-Instruct.md: transformersライブラリを使用した詳細な使い方ガイド
finetuning/sft/README.md: Supervised Fine-Tuning (SFT)のセットアップと実行方法
qwencoder-eval/base/readme.md: ベースモデルの評価スイートとベンチマークの説明

サンプル・デモ

examples/Qwen2.5-Coder-Instruct.py: 基本的なチャット形式での使用例
examples/Qwen2.5-Coder-fim.py: Fill-in-the-Middle機能のデモ
examples/Qwen2.5-Coder-repolevel-fim.py: リポジトリレベルのコード補完例
examples/Qwen2.5-Coder-Instruct-stream.py: ストリーミング出力のデモ
demo/artifacts/: Dashscope統合デモアプリケーション
demo/chatbot/: チャットボットインターフェースの実装例

チュートリアル・ガイド

Qwen公式ブログ: https://qwenlm.github.io/blog/qwen3-coder
Qwenドキュメント: https://qwen.readthedocs.io/
Hugging Faceコレクション: https://huggingface.co/collections/Qwen/qwen3-coder-687fc861e53c939e52d52d10
ArXiv論文: https://arxiv.org/abs/2505.09388

技術的詳細

アーキテクチャ

全体構造

Qwen3-Coderは、Mixture-of-Experts (MoE)アーキテクチャを採用した大規模言語モデルです。480Bの総パラメータ数を持ちながら、推論時には35Bのアクティブパラメータのみを使用することで、効率的な計算を実現しています。モデルは、コード理解と生成に特化した事前学習を受けており、エージェント型タスクに最適化されています。

ディレクトリ構成

Qwen3-Coder/
├── assets/              # デモ画像やスクリーンショット
├── demo/                # デモアプリケーション
│   ├── artifacts/       # Dashscope統合デモ
│   └── chatbot/         # チャットボットインターフェース
├── examples/            # 使用例とサンプルコード
│   ├── *.py            # 各種機能のPythonサンプル
│   └── *.md            # ドキュメント
├── finetuning/          # ファインチューニング関連
│   ├── sft/            # Supervised Fine-Tuning
│   └── dpo/            # Direct Preference Optimization
├── qwencoder-eval/      # 評価スイート
│   ├── base/           # ベースモデル評価
│   ├── instruct/       # Instructモデル評価
│   └── reasoning/      # 推論能力評価
└── requirements.txt     # 依存関係

### 技術スタック
#### コア技術
- **言語**: Python 3.8以上、トランスフォーマーアーキテクチャの実装
- **フレームワーク**: 
  - Transformers (4.39.1) - モデルのロードと推論
  - PyTorch - ディープラーニングバックエンド
  - vLLM - 高速推論エンジン
- **主要ライブラリ**: 
  - accelerate - 分散学習とモデル並列化
  - safetensors - 安全なモデル重みの保存と読み込み
  - dashscope - Alibaba Cloudのモデルサービス統合
  - modelscope_studio (1.0.0b) - ModelScopeプラットフォーム統合

#### 開発・運用ツール
- **ファインチューニング**: LoRAサポート、アダプターマージ機能
- **テスト**: BigCodeBenchなどの複数のコードベンチマークによる評価
- **データ処理**: JSONLフォーマットのデータバイナリ化ツール
- **評価**: 専用の評価スイートによる包括的なベンチマーク

### 設計パターン・手法
- **Mixture-of-Experts (MoE)**: 480Bパラメータから35Bアクティブパラメータを動的に選択
- **ChatMLテンプレート**: システム、ユーザー、アシスタントロールを使用した対話形式
- **Fill-in-the-Middle (FIM)**: 特殊トークン（<|fim_prefix|>、<|fim_suffix|>、<|fim_middle|>）を使用したコード補完
- **YaRN (Yet another RoPE extensioN)**: 長文処理のための位置エンコーディング拡張技術

### データフロー・処理フロー
1. **入力処理**: ユーザープロンプトをChatMLフォーマットに変換
2. **トークン化**: AutoTokenizerによるテキストのトークン化
3. **モデル推論**: MoEアーキテクチャによる効率的な推論
4. **生成**: 自己回帰的なテキスト生成（最大65536トークン）
5. **デコード**: 生成されたトークンIDをテキストに変換
6. **後処理**: 特殊トークンの除去と出力フォーマット

## API・インターフェース
### 公開API
#### Transformers統合API
- 目的: Hugging Face Transformersライブラリを通じたモデルアクセス
- 使用例:
```python
# チャット形式での対話
messages = [
    {"role": "system", "content": "You are Qwen, created by Alibaba Cloud."},
    {"role": "user", "content": "Write a function to calculate fibonacci numbers"}
]
text = tokenizer.apply_chat_template(messages, tokenize=False, add_generation_prompt=True)

関数呼び出しインターフェース

目的: エージェント型タスクのための特別な関数呼び出しフォーマット
注意: 新しいツールパーサーqwen3coder_tool_parser.pyの使用が必要

設定・カスタマイズ

設定ファイル

// config.json でのYaRN設定例
{
  "rope_scaling": {
    "factor": 4.0,
    "original_max_position_embeddings": 32768,
    "type": "yarn"
  }
}

拡張・プラグイン開発

ファインチューニング: SFT（Supervised Fine-Tuning）とDPO（Direct Preference Optimization）をサポート
LoRAアダプター: 効率的なファインチューニングのためのLoRAサポート
カスタムトークナイザー: 新しい特殊トークンとトークンIDに対応

パフォーマンス・スケーラビリティ

パフォーマンス特性

ベンチマーク結果: エージェント型コーディング、ブラウザ使用、ツール使用でClaude Sonnetに匹敵する性能
最適化手法:
- MoEによる効率的な計算（480B→35Bアクティブパラメータ）
- vLLMによる高速推論
- FP8量子化版も提供（Qwen3-Coder-480B-A35B-Instruct-FP8）

スケーラビリティ

256Kトークンのネイティブサポート
YaRNによる最大1Mトークンまでの拡張
リポジトリスケールのコード理解に最適化
分散推論のサポート（device_map="auto"）

制限事項

大規模モデルのため、高性能GPU環境が必要
thinking modeはサポートされていない（<think></think>ブロックを生成しない）
ライセンスが明確でないため、商用利用時は要確認

評価・所感

技術的評価

強み

358種類のプログラミング言語をサポートする広範な対応
エージェント型タスクでの最先端性能（Claude Sonnetレベル）
リポジトリレベルのコード理解と長文処理能力（最大1Mトークン）
活発な開発とコミュニティ（8,965スター）
包括的な評価スイートと充実したサンプルコード
MoEアーキテクチャによる効率的な推論

改善の余地

ライセンスが明確でない（商用利用の際の制約が不明）
大規模モデルのため、実行には高性能なハードウェアが必要
ドキュメントの一部が中国語のみ
thinking modeがサポートされていない

向いている用途

エージェント型コーディングアシスタントの開発
大規模コードベースの理解と分析
複雑なコード生成タスク
IDE統合やコード補完ツール
教育用コーディングアシスタント
Webアプリケーション開発（デモ例が豊富）

向いていない用途

リソース制約のある環境での使用
リアルタイムコード補完（レイテンシが問題になる場合）
厳格なライセンス要件がある商用プロジェクト
thinking processの可視化が必要なタスク

総評

Qwen3-Coderは、Alibaba Cloudが開発した最新のコード特化型LLMとして、技術的に非常に高度な実装となっています。特にMoEアーキテクチャによる効率化と、エージェント型タスクでの優れた性能は注目に値します。358言語のサポートと長文処理能力により、実用的なコーディングアシスタントとしての可能性は高いです。一方で、ライセンスの不明確さと高いハードウェア要件は、採用時の懸念事項となる可能性があります。オープンソースコミュニティでの注目度は高く、今後の発展が期待されるプロジェクトです。