生成AIアプリケーション評価入門の表紙

生成 AI アプリケーション評価入門(セイセイエーアイアプリケーションヒョウカニュウモン)

著者:
松木 晋祐(マツキ シンスケ)
出版社:
技術評論社
出版日:
2026年05月01日頃
ISBN:
9784297156145
価格:
¥2,640
在庫:
1
判型:
単行本
総合
17
1 ランクダウン5 件の言及
言及数
414

書籍紹介

生成 AI を活用したアプリケーションは、リサーチ、ソフトウェア開発、各種創作活動の補助等、さまざまな知的労働において、欠かせないパートナーとなりつつあります。従来の演繹的なロジックの積み重ねにより構築されたソフトウェアと構造的に異なる生成 AI アプリケーションは、その性質上、次の特徴を持ちます。

・確率的出力:同じ入力に対して、常に同じ出力が得られるとは限らない
・複雑な挙動:入力と出力の関係が明確ではなく、ブラックボックス的な側面がある

・文脈依存性:過去のやり取りや外部情報によって出力が変化する

これらの特徴から、生成 AI アプリケーションの品質を保証するためには、従来のソフトウェアテストとは異なる手法によるテストと評価が不可欠となります。
本書では、生成 AI を活用したアプリケーション、システムに焦点をあてて、そのテスト、評価のアプローチを紹介していきます。

第 1 章 生成 AI アプリケーションの評価の概要

1.1 生成 AI アプリケーションの特徴と評価の必要性

1.2 生成 AI アプリケーションの基本的な構造モデルと評価プロセスモデル

1.3 開発ライフサイクルにおける生成 AI アプリケーションの評価アプローチ

1.4 まとめ

第 2 章 生成 AI アプリケーションの評価基盤モデルと評価アプローチ
2.1 生成 AI アプリケーションの品質モデル

2.2 機械学習利用システムの外部品質特性レベル

2.3 品質モデルとテストタイプを組み合わせて

2.4 生成 AI アプリケーションの基盤評価モデル

2.5 評価観点基盤モデルにもとづく製品独自の評価観点モデルの構築とメトリクス設計

2.6 生成 AI アプリケーション開発における開発チームと QA チームの役割分担の例

2.7 まとめ

第 3 章 基本的な評価メトリクス
3.1 混同行列にもとづくメトリクス

3.2 検索・ RAG 向けの基本的なメトリクス

3.3 生成テキストの内容一致の基本的なメトリクス

3.4 各メトリクスを実際に運用する

3.5 まとめ

第 4 章 評価メトリクスのツールによる評価の実際
4.1 LLM を評価者として利用する「 LLM-as-a-Judge 」

4.2 メトリクスの評価環境の構築

4.3 評価の実行

4.4 pytest と統合した利用

4.5 まとめ

第 5 章 生成 AI アプリケーションのセキュリティ評価
5.1 OWASP LLM とは

5.2 OWASP LLM2025

5.3 生成 AI ・ LLM のセキュリティテスト・レッドチーミング

5.4 まとめ

第 6 章 AI エージェントの評価
6.1 AI エージェントとは

6.2 AI エージェントのパターンと構造・評価観点の例

6.3 AI エージェントの評価メトリクス

6.4 まとめ

第 7 章 生成 AI アプリケーションのテスト・評価のその他のトピック
7.1 プロパティベースドテスト

7.2 画像分析型の生成 AI アプリケーションの評価

7.3 AI 駆動開発のテスト・ QA

言及の推移

出版前出版日01220222023202420252026

言及 Qiita 記事 (5 件)

関連記事

関連用語

共有:Xはてブ