Vision Transformer 入門(ビジョントランスフォーマーニュウモン)

Name: Vision Transformer入門
Author: 片岡 裕雄/山本 晋太郎/徳永 匡臣/箕浦 大晃/キュウゲツ（QIU YUE）/品川 政太朗
ISBN: 9784297130589

著者:: 片岡裕雄/山本晋太郎/徳永匡臣/箕浦大晃/キュウゲツ（QIU YUE）/品川政太朗(カタオカヒロカツ/ヤマモトシンタロウ/トクナガマサオミ/ミノウラヒロアキ/キュウゲツ/シナガワセイタロウ)
出版社:: 技術評論社
出版日:: 2022年09月17日頃
ISBN:: 9784297130589
在庫:: 在庫あり

中級者向け

深層学習コンピュータビジョン画像認識TransformerVision Transformer機械学習ディープラーニングモデル実装応用技術可視化

Amazon で見る楽天ブックスで見る

なぜ注目されているか

言及数

155位

総合

211位

↓ 2 ランクダウン16 件の言及

書籍紹介

自然言語処理分野におけるブレイクスルーとなった Transformer をコンピュータビジョンに応用したモデルが Vision Transformer (ViT) です。さまざまなコンピュータビジョンのタスクにおいて、ディープラーニングではスタンダードとなっている RNN 、 CNN 、および既存手法を用いた処理精度を上回ることが確認されています。

本書は注目の ViT の入門書です。 Transformer の成り立ちからはじめ、その理論と実装を解説していきます。今後の ViT の活用が期待される応用タスク、 ViT から派生したモデルを紹介したあと、 Transoformer と ViT を分析し、その謎を解明していきます。今後も普及が期待される ViT を盛りだくさんでお届けします。

目次
1 章 Transformer から Vision Transformer への進化
2 章 Vision Transformer の基礎と実装
3 章実験と可視化による Vision Transformer の探求
4 章コンピュータビジョンへの応用
5 章 Vision and Language への応用
6 章 Vision Transformer の派生手法
7 章 Transformer の謎を読み解く
8 章 Vision Transformer の謎を読み解く
第 1 章 Transformer から Vision Transformer への進化

■ 1-1 自然言語処理における Transformer の登場
■ 1-2 Vision and language への拡張
■ 1-3 コンピュータビジョンにおける Transformer

第 2 章 Vision Transformer の基礎と実装

■ 2-1 準備
■ 2-2 ViT の全体像
■ 2-3 Input Layer
■ 2-4 Self-Attention
■ 2-5 Encoder
■ 2-6 ViT の実装

第 3 章実験と可視化による Vision Transformer の探求

■ 3-1 実験の概要
■ 3-2 使用するデータセット
■ 3-3 実験条件
■ 3-4 既存手法との比較
■ 3-5 データ拡張における比較
■ 3-6 位置埋め込みの可視化
■ 3-7 ViT における判断根拠の可視化
■ 3-8 ViT が捉えているモノ

第 4 章コンピュータビジョンタスクへの応用

■ 4-1 コンピュータビジョンのサブタスク
■ 4-2 画像認識への応用
■ 4-3 物体検出、セマンティックセグメンテーションへの応用
■ 4-4 ビデオ認識への応用
■ 4-5 オブジェクトトラッキングへの応用
■ 4-6 3D ビジョンへの応用
■ 4-7 その他のコンピュータビジョンサブタスクへの応用
■ 4-8 Transformer 応用のまとめと展望

第 5 章 Vision and Language タスクへの応用

■ 5-1 Vision and Language のサブタスク
■ 5-2 VQA への応用
■ 5-3 Image Captioning への応用
■ 5-4 Embodied AI への応用
■ 5-5 その他の Vision and Language サブタスクへの応用
■ 5-6 Vision and Language のまとめと展望

第 6 章 Vision Transformer の派生手法

■ 6-1 ViT 派生手法の分類
■ 6-2 Swin Transformer
■ 6-3 DeiT
■ 6-4 CvT
■ 6-5 SegFormer
■ 6-6 TimeSformer
■ 6-7 MAE

第 7 章 Transformer の謎を読み解く

■ 7-1 Transformer の謎に人々は驚き困惑した
■ 7-2 Positional embedding の謎
■ 7-3 Multi-head Attention の謎
■ 7-4 Layer Normalization の謎

第 8 章 Vision Transformer の謎を読み解く

■ 8-1 ViT vs CNN vs MLP の三国時代の到来
■ 8-2 ViT は CNN と同じく局所特徴を学習する
■ 8-3 ViT はより形状に反応する?
■ 8-4 ViT は早期から大域的な領域も見ている
■ 8-5 ViT は CNN や MLP よりもノイズや敵対的攻撃に頑健?
■ 8-6 3 つのモデルの特性と使い分けの勘どころ
■ 8-7 ViT の新常識

技書の森解説

自然言語処理の世界を席巻した Transformer アーキテクチャが画像認識に持ち込まれたとき、 CNN 一強の構図に亀裂が入りました。本書は、その転換点となった Vision Transformer (ViT) を中心に、画像処理における Transformer 系モデルの原理と実装を解説する専門書です。著者の片岡裕雄氏らは産業技術総合研究所の研究者であり、学術的な正確さに裏打ちされた記述が特徴です。

想定読者は、 CNN を用いた画像分類の基礎をすでに理解している人です。 Self-Attention の仕組み、パッチ埋め込み、位置エンコーディングといった ViT の構成要素を数式とコードの両面から追い、 DeiT や Swin Transformer など後続の発展モデルにも触れます。深層学習の基礎知識 (損失関数、勾配降下法、バッチ正規化など) がないと途中で行き詰まるため、初学者がいきなり手に取る本ではありません。

CNN との比較でどこが違い、何が得意で何が苦手なのかを構造的に理解したいエンジニア・研究者にとって、 ViT 系を体系的に学ぶ足場になる一冊です。