Vision Transformer 入門(ビジョントランスフォーマーニュウモン)
- 著者:
- 片岡 裕雄/山本 晋太郎/徳永 匡臣/箕浦 大晃/キュウゲツ(QIU YUE)/品川 政太朗(カタオカ ヒロカツ/ヤマモト シンタロウ/トクナガ マサオミ/ミノウラ ヒロアキ/キュウゲツ/シナガワ セイタロウ)
- 出版社:
- 技術評論社
- 出版日:
- 2022年09月17日頃
- ISBN:
- 9784297130589
- 価格:
- ¥3,520
- 在庫:
- 1
- 判型:
- 単行本
書籍紹介
自然言語処理分野におけるブレイクスルーとなった Transformer をコンピュータビジョンに応用したモデルが Vision Transformer (ViT) です。さまざまなコンピュータビジョンのタスクにおいて、ディープラーニングではスタンダードとなっている RNN 、 CNN 、および既存手法を用いた処理精度を上回ることが確認されています。
本書は注目の ViT の入門書です。 Transformer の成り立ちからはじめ、その理論と実装を解説していきます。今後の ViT の活用が期待される応用タスク、 ViT から派生したモデルを紹介したあと、 Transoformer と ViT を分析し、その謎を解明していきます。今後も普及が期待される ViT を盛りだくさんでお届けします。
目次
1 章 Transformer から Vision Transformer への進化
2 章 Vision Transformer の基礎と実装
3 章 実験と可視化による Vision Transformer の探求
4 章 コンピュータビジョンへの応用
5 章 Vision and Language への応用
6 章 Vision Transformer の派生手法
7 章 Transformer の謎を読み解く
8 章 Vision Transformer の謎を読み解く
第 1 章 Transformer から Vision Transformer への進化
■ 1-1 自然言語処理における Transformer の登場
■ 1-2 Vision and language への拡張
■ 1-3 コンピュータビジョンにおける Transformer
第 2 章 Vision Transformer の基礎と実装
■ 2-1 準備
■ 2-2 ViT の全体像
■ 2-3 Input Layer
■ 2-4 Self-Attention
■ 2-5 Encoder
■ 2-6 ViT の実装
第 3 章 実験と可視化による Vision Transformer の探求
■ 3-1 実験の概要
■ 3-2 使用するデータセット
■ 3-3 実験条件
■ 3-4 既存手法との比較
■ 3-5 データ拡張における比較
■ 3-6 位置埋め込みの可視化
■ 3-7 ViT における判断根拠の可視化
■ 3-8 ViT が捉えているモノ
第 4 章 コンピュータビジョンタスクへの応用
■ 4-1 コンピュータビジョンのサブタスク
■ 4-2 画像認識への応用
■ 4-3 物体検出、セマンティックセグメンテーションへの応用
■ 4-4 ビデオ認識への応用
■ 4-5 オブジェクトトラッキングへの応用
■ 4-6 3D ビジョンへの応用
■ 4-7 その他のコンピュータビジョンサブタスクへの応用
■ 4-8 Transformer 応用のまとめと展望
第 5 章 Vision and Language タスクへの応用
■ 5-1 Vision and Language のサブタスク
■ 5-2 VQA への応用
■ 5-3 Image Captioning への応用
■ 5-4 Embodied AI への応用
■ 5-5 その他の Vision and Language サブタスクへの応用
■ 5-6 Vision and Language のまとめと展望
第 6 章 Vision Transformer の派生手法
■ 6-1 ViT 派生手法の分類
■ 6-2 Swin Transformer
■ 6-3 DeiT
■ 6-4 CvT
■ 6-5 SegFormer
■ 6-6 TimeSformer
■ 6-7 MAE
第 7 章 Transformer の謎を読み解く
■ 7-1 Transformer の謎に人々は驚き困惑した
■ 7-2 Positional embedding の謎
■ 7-3 Multi-head Attention の謎
■ 7-4 Layer Normalization の謎
第 8 章 Vision Transformer の謎を読み解く
■ 8-1 ViT vs CNN vs MLP の三国時代の到来
■ 8-2 ViT は CNN と同じく局所特徴を学習する
■ 8-3 ViT はより形状に反応する?
■ 8-4 ViT は早期から大域的な領域も見ている
■ 8-5 ViT は CNN や MLP よりもノイズや敵対的攻撃に頑健?
■ 8-6 3 つのモデルの特性と使い分けの勘どころ
■ 8-7 ViT の新常識
言及の推移
言及 Qiita 記事 (15 件)
図で理解するTransformer
♡ 589機械学習, MachineLearning, DeepLearning, 深層学習, Transformer【深層学習】図で理解するAttention機構
♡ 271DeepLearning, 解説, 深層学習, Attention, TransformerBERTの日本語事前学習済みモデルをGoogle Colaboratoryで手軽に試す方法
♡ 94自然言語処理, PyTorch, GoogleColaboratory, bert【機械学習他】【長期】Qiitaの今読んでおくべき記事100選【2021/8 更新停止】
♡ 83Qiita, 機械学習, 自動更新, 今読んでおくべき記事100選20211003分割 更新中止) 特許SDI用AI: 複数の自然言語深層学習モデルにおいて見られた個性とその解釈 および認知的観点に基づく知識構造の多様性を評価した価値共創の展望と、創造性
♡ 16自然言語処理, NLP, word2vec, 認知, bert【機械学習他】【短期】Qiitaの今読んでおくべき記事100選【2021/8 更新停止】
♡ 12Qiita, 機械学習, 自動更新, 今読んでおくべき記事100選「Python 3 エンジニア認定基礎試験」合格体験記
♡ 4Python, 試験, Python3, Python3エンジニア認定基礎試験, 合格体験記生成モデルを学習する際に役立つリンク集(2022年度版)
♡ 4生成モデル, GAN, VAE, StableDiffusion更新中 中) 特許SDI用AI: 複数の自然言語深層学習モデルにおいて見られた個性とその解釈 および認知的観点に基づく知識構造の多様性を評価した価値共創の展望と、創造性
♡ 4自然言語処理, NLP, word2vec, 認知, bert【図解】Vision Transformerの構造
♡ 3深層学習, PyTorch, VisionTransformer