facebookresearch/segment-anything
主な特徴
- ポイント、ボックス、テキストなど様々なプロンプトに対応
- 1100万枚の画像と111億個のマスクで訓練された大規模モデル
- 強力なゼロショット性能
- 画像全体の自動セグメンテーション機能
- 3つのモデルサイズ(ViT-B、ViT-L、ViT-H)を提供
- ONNXエクスポート対応でブラウザ上でも動作可能
- Webデモアプリケーションの提供
- 高速な推論速度
- SA-1Bデータセットの公開
リポジトリ解析: facebookresearch/segment-anything
基本情報
- リポジトリ名: facebookresearch/segment-anything
- 主要言語: Jupyter Notebook
- スター数: 51,135
- フォーク数: 5,995
- 最終更新: 2024-09-18
- ライセンス: Apache License 2.0
- トピックス: 画像セグメンテーション、コンピュータビジョン、ゼロショット学習、Foundation Model
概要
一言で言うと
Segment Anything Model (SAM)は、ポイントやボックスなどのプロンプトから高品質なオブジェクトマスクを生成できる、Meta AI Researchが開発した汎用セグメンテーションのFoundation Modelです。
詳細説明
Segment Anything Model (SAM)は、Meta AI ResearchのFAIRチームが開発した画期的な画像セグメンテーションモデルです。1100万枚の画像と111億個のマスクで構成される大規模データセット(SA-1B)で訓練され、多様なセグメンテーションタスクにおいて強力なゼロショット性能を示します。ユーザーがポイント、ボックス、テキストなどのプロンプトを入力することで、対象オブジェクトの正確なセグメンテーションマスクを生成できます。また、画像全体のすべてのオブジェクトを自動的にセグメント化する機能も提供しています。
最新のアップデートでは、SAM 2がリリースされ、画像だけでなく動画にも対応したより高度なセグメンテーション機能を提供しています。
主な特徴
- ポイント、ボックス、テキストなど様々なプロンプトに対応
- 1100万枚の画像と111億個のマスクで訓練された大規模モデル
- 強力なゼロショット性能
- 画像全体の自動セグメンテーション機能
- 3つのモデルサイズ(ViT-B、ViT-L、ViT-H)を提供
- ONNXエクスポート対応でブラウザ上でも動作可能
- Webデモアプリケーションの提供
- 高速な推論速度
- SA-1Bデータセットの公開
使用方法
インストール
前提条件
- Python >= 3.8
- PyTorch >= 1.7
- TorchVision >= 0.8
- CUDAサポート付きのPyTorchを強く推奨
インストール手順
# 方法1: pipで直接インストール
pip install git+https://github.com/facebookresearch/segment-anything.git
# 方法2: ソースからインストール
git clone git@github.com:facebookresearch/segment-anything.git
cd segment-anything
pip install -e .
# オプショナル依存関係(マスク処理、可視化、ONNXエクスポート用)
pip install opencv-python pycocotools matplotlib onnxruntime onnx jupyter
基本的な使い方
Hello World相当の例
# プロンプトを使ったセグメンテーション
from segment_anything import SamPredictor, sam_model_registry
# モデルのロード
sam = sam_model_registry["vit_h"](checkpoint="sam_vit_h_4b8939.pth")
predictor = SamPredictor(sam)
# 画像を設定
predictor.set_image(image)
# ポイントプロンプトでマスクを生成
masks, scores, logits = predictor.predict(
point_coords=np.array([[100, 200]]),
point_labels=np.array([1]), # 1=前景, 0=背景
)
実践的な使用例
# 画像全体の自動セグメンテーション
from segment_anything import SamAutomaticMaskGenerator, sam_model_registry
sam = sam_model_registry["vit_h"](checkpoint="sam_vit_h_4b8939.pth")
mask_generator = SamAutomaticMaskGenerator(sam)
# 画像からすべてのマスクを生成
masks = mask_generator.generate(image)
# マスク情報を取得
for i, mask in enumerate(masks):
print(f"Mask {i}: area={mask['area']}, confidence={mask['predicted_iou']:.2f}")
高度な使い方
# 複数のプロンプトを組み合わせた使用例
from segment_anything import SamPredictor, sam_model_registry
sam = sam_model_registry["vit_h"](checkpoint="sam_vit_h_4b8939.pth")
predictor = SamPredictor(sam)
predictor.set_image(image)
# ポイントとボックスの組み合わせ
input_point = np.array([[500, 375]])
input_label = np.array([1])
input_box = np.array([425, 600, 700, 875])
masks, scores, logits = predictor.predict(
point_coords=input_point,
point_labels=input_label,
box=input_box,
multimask_output=True,
)
# 最もスコアの高いマスクを選択
best_mask_idx = np.argmax(scores)
best_mask = masks[best_mask_idx]
ドキュメント・リソース
公式ドキュメント
- README.md: プロジェクト概要、インストール方法、使用例
- 公式プロジェクトページ: https://segment-anything.com/
- 論文: https://ai.facebook.com/research/publications/segment-anything/
- ブログ: https://ai.facebook.com/blog/segment-anything-foundation-model-image-segmentation/
サンプル・デモ
- notebooks/predictor_example.ipynb: プロンプトを使ったSAMの使用例
- notebooks/automatic_mask_generator_example.ipynb: 自動マスク生成の例
- notebooks/onnx_model_example.ipynb: ONNXモデルの使用例
- demo/: Reactを使ったWebデモアプリケーション
- オンラインデモ: https://segment-anything.com/demo
チュートリアル・ガイド
- Jupyterノートブックによる詳細な使用例
- コマンドラインスクリプトの使用方法
- ONNXエクスポートとWebデプロイのガイド
技術的詳細
アーキテクチャ
全体構造
SAMは3つの主要コンポーネントから構成されています:
- Image Encoder: Vision Transformer (ViT)ベースの画像エンコーダー
- Prompt Encoder: ポイント、ボックス、マスクなどのプロンプトをエンコード
- Mask Decoder: 軽量なTransformerベースのデコーダー
これらのコンポーネントが連携して、入力プロンプトから高品質なセグメンテーションマスクを生成します。
ディレクトリ構成
segment-anything/
├── segment_anything/ # メインパッケージ
│ ├── modeling/ # モデルアーキテクチャ
│ │ ├── image_encoder.py # ViTベース画像エンコーダー
│ │ ├── prompt_encoder.py # プロンプトエンコーダー
│ │ ├── mask_decoder.py # マスクデコーダー
│ │ ├── sam.py # SAMモデル本体
│ │ └── transformer.py # Transformerブロック
│ ├── utils/ # ユーティリティ関数
│ ├── predictor.py # プロンプトベース予測
│ ├── automatic_mask_generator.py # 自動マスク生成
│ └── build_sam.py # モデル構築関数
├── notebooks/ # チュートリアルノートブック
├── scripts/ # コマンドラインツール
└── demo/ # Webデモアプリ
主要コンポーネント
-
ImageEncoderViT: Vision Transformerベースの画像エンコーダー
- 場所:
modeling/image_encoder.py - 依存: PyTorch、位置埋め込み
- インターフェース: forward()、パッチ埋め込み
- 場所:
-
PromptEncoder: 様々なプロンプトを統一形式にエンコード
- 場所:
modeling/prompt_encoder.py - 依存: 位置埋め込み、学習可能トークン
- インターフェース: _embed_points()、_embed_boxes()、_embed_masks()
- 場所:
-
MaskDecoder: マスク予測とIoUスコア予測
- 場所:
modeling/mask_decoder.py - 依存: TwoWayTransformer、MLP
- インターフェース: forward()、predict_masks()
- 場所:
技術スタック
コア技術
- 言語: Python 3.8以上
- フレームワーク: PyTorch >= 1.7、TorchVision >= 0.8
- 主要ライブラリ:
- PyTorch: ディープラーニングフレームワーク
- OpenCV: 画像処理とマスク操作
- pycocotools: COCO形式のマスク処理
- matplotlib: 可視化
- ONNX Runtime: ブラウザ実行用
開発・運用ツール
- ビルドツール: setuptools、pip
- テスト: flake8、mypy、black、isort
- CI/CD: Meta内部システム
- デプロイ: ONNXエクスポート、Webデモ、モデルチェックポイント配布
設計パターン・手法
- Encoder-Decoderアーキテクチャ: 画像とプロンプトを別々にエンコード
- Vision Transformer (ViT): 画像エンコーダーの基盤
- Attentionメカニズム: グローバルアテンションとウィンドウアテンションの組み合わせ
- マルチマスク出力: 曖昧なケースに対応するための複数マスク出力
- 効率的な推論: 画像エンコードは1回、プロンプト毎にデコード
データフロー・処理フロー
- 入力画像を正規化・リサイズ(1024x1024)
- Vision Transformerで画像エンコード(64x64の特徴マップ)
- プロンプト(ポイント、ボックス、マスク)をエンコード
- 画像特徴とプロンプト特徴を統合
- Two-Way Transformerで特徴を処理
- マスクデコーダーでセグメンテーションマスクを生成
- IoU予測ヘッドでマスクの品質スコアを予測
- 最終的な256x256マスクを元画像サイズにリサイズ
API・インターフェース
公開API
SamPredictor
- 目的: プロンプトベースのセグメンテーション
- 使用例:
predictor = SamPredictor(sam_model)
predictor.set_image(image) # 画像を一度エンコード
masks, scores, logits = predictor.predict(
point_coords=points,
point_labels=labels,
box=box,
mask_input=mask,
multimask_output=True,
return_logits=False,
)
SamAutomaticMaskGenerator
- 目的: 画像全体の自動セグメンテーション
- 使用例:
mask_generator = SamAutomaticMaskGenerator(
model=sam,
points_per_side=32,
pred_iou_thresh=0.86,
stability_score_thresh=0.92,
crop_n_layers=1,
crop_n_points_downscale_factor=2,
min_mask_region_area=100,
)
masks = mask_generator.generate(image)
設定・カスタマイズ
主要パラメータ
# 自動マスク生成の設定
points_per_side=32 # グリッドポイント数
pred_iou_thresh=0.86 # IoU闾値
stability_score_thresh=0.92 # 安定性スコア闾値
crop_n_layers=1 # クロップレイヤー数
min_mask_region_area=100 # 最小マスク面積
拡張・プラグイン開発
- カスタムプロンプトエンコーダーの実装
- 新しいデコーダーアーキテクチャの統合
- ポスト処理フィルターの追加
パフォーマンス・スケーラビリティ
パフォーマンス特性
- ベンチマーク結果:
- 画像エンコード時間: ~0.15秒(ViT-H、GPU)
- プロンプトあたりのマスク生成: ~50ms
- ゼロショットmIoU: 58.9 (COCO)
- 最適化手法:
- 画像エンコードのキャッシュ化
- 軽量マスクデコーダー
- ONNX変換による高速化
スケーラビリティ
- バッチ処理対応
- 複数GPUでの並列処理
- WebスケールでのONNXランタイム利用
- モデルサイズの選択(ViT-B/L/H)
制限事項
- 技術的な制限:
- 入力画像は1024x1024にリサイズされる
- ビデオのリアルタイム処理は別モデル(SAM 2)が必要
- セマンティックセグメンテーションではない
- 運用上の制限:
- モデルサイズが大きい(ViT-H: 2.4GB)
- GPUメモリ要件が高い
評価・所感
技術的評価
強み
- 卓越したゼロショット性能
- プロンプトの柔軟性(ポイント、ボックス、マスク)
- 高速な推論速度
- 大規模データセットによる汎化性能
- ONNX対応によるデプロイの容易さ
- Metaによる積極的なサポート
改善の余地
- セマンティック情報の不足
- ビデオ対応は別モデルが必要
- メモリ使用量の最適化
- 複雑なシーンでの精度
向いている用途
- インタラクティブな画像編集アプリケーション
- 医療画像解析
- 自動アノテーションツール
- AR/VRアプリケーション
- ロボティクスの視覚認識
向いていない用途
- リアルタイム動画処理(SAM 1の場合)
- クラス分類が必要なタスク
- エッジデバイスでの実行
- 3Dセグメンテーション
総評
Segment Anything Modelは、コンピュータビジョン分野における画期的なFoundation Modelです。その汎用性と柔軟性は、様々なアプリケーションにおいて新たな可能性を開きました。特に、ゼロショットでの高精度なセグメンテーションと、直感的なプロンプトインターフェースは、従来のセグメンテーション手法を大きく上回るものです。Metaの継続的な開発(SAM 2のリリースなど)により、今後もこの分野のスタンダードとして発展し続けることが期待されます。