Vision Transformer 入門
- 著者:
- 片岡 裕雄/山本 晋太郎/徳永 匡臣/箕浦 大晃/キュウゲツ(QIU YUE)/品川 政太朗
- 出版社:
- 技術評論社
- 出版日:
- 2022年09月17日頃
- ISBN:
- 9784297130589
- 価格:
- ¥3,520
- 在庫:
- 1
- 判型:
- 単行本
書籍紹介
自然言語処理分野におけるブレイクスルーとなった Transformer をコンピュータビジョンに応用したモデルが Vision Transformer (ViT) です。さまざまなコンピュータビジョンのタスクにおいて、ディープラーニングではスタンダードとなっている RNN 、 CNN 、および既存手法を用いた処理精度を上回ることが確認されています。 本書は注目の ViT の入門書です。 Transformer の成り立ちからはじめ、その理論と実装を解説していきます。今後の ViT の活用が期待される応用タスク、 ViT から派生したモデルを紹介したあと、 Transoformer と ViT を分析し、その謎を解明していきます。今後も普及が期待される ViT を盛りだくさんでお届けします。 目次 1 章 Transformer から Vision Transformer への進化 2 章 Vision Transformer の基礎と実装 3 章 実験と可視化による Vision Transformer の探求 4 章 コンピュータビジョンへの応用 5 章 Vision and Language への応用 6 章 Vision Transformer の派生手法 7 章 Transformer の謎を読み解く 8 章 Vision Transformer の謎を読み解く 第 1 章 Transformer から Vision Transformer への進化 ■ 1-1 自然言語処理における Transformer の登場 ■ 1-2 Vision and language への拡張 ■ 1-3 コンピュータビジョンにおける Transformer 第 2 章 Vision Transformer の基礎と実装 ■ 2-1 準備 ■ 2-2 ViT の全体像 ■ 2-3 Input Layer ■ 2-4 Self-Attention ■ 2-5 Encoder ■ 2-6 ViT の実装 第 3 章 実験と可視化による Vision Transformer の探求 ■ 3-1 実験の概要 ■ 3-2 使用するデータセット ■ 3-3 実験条件 ■ 3-4 既存手法との比較 ■ 3-5 データ拡張における比較 ■ 3-6 位置埋め込みの可視化 ■ 3-7 ViT における判断根拠の可視化 ■ 3-8 ViT が捉えているモノ 第 4 章 コンピュータビジョンタスクへの応用 ■ 4-1 コンピュータビジョンのサブタスク ■ 4-2 画像認識への応用 ■ 4-3 物体検出、セマンティックセグメンテーションへの応用 ■ 4-4 ビデオ認識への応用 ■ 4-5 オブジェクトトラッキングへの応用 ■ 4-6 3D ビジョンへの応用 ■ 4-7 その他のコンピュータビジョンサブタスクへの応用 ■ 4-8 Transformer 応用のまとめと展望 第 5 章 Vision and Language タスクへの応用 ■ 5-1 Vision and Language のサブタスク ■ 5-2 VQA への応用 ■ 5-3 Image Captioning への応用 ■ 5-4 Embodied AI への応用 ■ 5-5 その他の Vision and Language サブタスクへの応用 ■ 5-6 Vision and Language のまとめと展望 第 6 章 Vision Transformer の派生手法 ■ 6-1 ViT 派生手法の分類 ■ 6-2 Swin Transformer ■ 6-3 DeiT ■ 6-4 CvT ■ 6-5 SegFormer ■ 6-6 TimeSformer ■ 6-7 MAE 第 7 章 Transformer の謎を読み解く ■ 7-1 Transformer の謎に人々は驚き困惑した ■ 7-2 Positional embedding の謎 ■ 7-3 Multi-head Attention の謎 ■ 7-4 Layer Normalization の謎 第 8 章 Vision Transformer の謎を読み解く ■ 8-1 ViT vs CNN vs MLP の三国時代の到来 ■ 8-2 ViT は CNN と同じく局所特徴を学習する ■ 8-3 ViT はより形状に反応する? ■ 8-4 ViT は早期から大域的な領域も見ている ■ 8-5 ViT は CNN や MLP よりもノイズや敵対的攻撃に頑健? ■ 8-6 3 つのモデルの特性と使い分けの勘どころ ■ 8-7 ViT の新常識