XAI（説明可能なAI）を用いた不良判定根拠の可視化と信頼性向上

「なぜ不良か」を語れぬAIは現場で使えない：XAIでブラックボックスを解き明かす実装アプローチ

2026年1月5日更新 2026年4月19日約13分で読めます

文字サイズ:

「なぜ不良か」を語れぬAIは現場で使えない：XAIでブラックボックスを解き明かす実装アプローチ

「精度99%の不良判定モデルが完成しました」

あなたがそう報告したとき、現場の熟練工や品質保証責任者は手放しで喜んだでしょうか。それとも、「1%の誤判定の理由は？」「AIがNGを出した根拠を説明できないならラインには乗せられない」と冷ややかな反応が返ってきたでしょうか。

製造業における「責任あるAI」の第一歩として、後者の反応は健全です。

私たちはディープラーニングモデルの精度（Accuracy）向上に躍起になりがちです。しかし、物理的なリスクとコストが直結する製造現場で最も重要な指標は「精度」ではなく「信頼（Trust）」です。中身の分からないブラックボックスに品質責任を委ねることはできません。

本コースのゴール：判定根拠をヒートマップで語る

本記事は単なるPythonライブラリの解説書ではなく、AIの判断「根拠」を可視化し、現場へ説明責任を果たすスキルセットの習得を目的とします。

以下のステップで学習を進めます。

概念理解: XAI（Explainable AI：説明可能なAI）の基礎と製造業に適した手法の選定。
環境構築: 再現性のあるPython環境とベースモデルの準備。
実装: Grad-CAM（Gradient-weighted Class Activation Mapping）を用いた判定根拠のヒートマップ生成。
運用: 可視化結果を現場改善につなげるための信頼性検証プロセス。

対象読者と推奨スキルセット

本記事は以下の方を対象としています。

製造業の生産技術または品質保証部門のエンジニア・リーダー。
外観検査AIのPoC（概念実証）を実施中で、現場への本格導入に壁を感じている方。
Pythonの基礎的な読み書き（ライブラリのインポート、簡単な関数定義）ができる方。

製造業における「説明可能性」の重要性

ディープラーニングが抱える「不透明性」は、製造業の「カイゼン」カルチャーと衝突するため、XAIが必要です。

従来のルールベース画像処理には「面積が閾値Xを超えたら不良」という明確なロジックがありました。しかし、ディープラーニングは数百万のパラメータが絡み合い、人間には理解不能な計算プロセスで結論を出します。

AIが誤判定（過検出や見逃し）をした際、理由がわからなければ対策できません。データを増やすか、照明を変えるか、モデル構造を変えるか。理由なき判断は改善サイクルを止めます。

倫理的観点からも説明可能性は重要です。作業員がAIの判断に納得できなければ、AIを「仕事を脅かす監視者」と見なし、DX（デジタルトランスフォーメーション）は成功しません。

本記事を通じ、AIを「魔法の箱」から「説明可能な道具」へ変えていきましょう。

Step 1：XAIの基礎と製造業向け手法の選定

XAI（説明可能なAI）の研究領域は広大ですが、実務適用には倫理的要請と現場ニーズの双方を満たす手法を選定する洞察力が求められます。

XAI（Explainable AI）とは何か

XAIとは、AIモデルの予測結果や内部動作を人間が解釈可能な形式で提示する技術体系です。AI倫理の観点から、システムの「透明性（Transparency）」や「説明責任（Accountability）」を担保する不可欠な要素と定義されます。

高度な深層学習モデルでは予測精度と説明可能性にトレードオフが存在します。複雑な非線形モデルの完全な透明化は困難なため、「近似的な説明」や「事後的な説明（Post-hoc Explanation）」を用いてブラックボックス問題に対処します。

大域的説明と局所的説明の違い

XAIのアプローチは説明のスコープにより2つに分類されます。

大域的説明（Global Explanation）
- モデル全体の挙動や傾向を俯瞰的に説明します。
- 例：「モデル全体として、画像の輝度情報を重視する傾向がある」「決定木のルートノードで温度変数が分岐条件となっている」
- 用途：モデルの公平性検証、バイアスの検出、全体的な健全性評価。
局所的説明（Local Explanation）
- 特定の入力インスタンスに対し、なぜその予測に至ったかを個別具体的に説明します。
- 例：「入力画像の右上の微細な傷が特徴量として抽出され、不良と判定された」「特定の時点における圧力値のスパイクが異常検知の要因となった」
- 用途：個別の判定根拠の提示、誤検知（False Positive）の原因分析。

製造業の外観検査において現場が求めるのは、圧倒的に「局所的説明」です。統計的な全体傾向より、「目の前の製品がなぜNG判定を受けたのか」という個別事象への因果的説明が不可欠です。

画像診断に強い「Grad-CAM」とテーブルデータ向きの「SHAP」

手法の選定では、扱うデータモダリティとの適合性が決定的要因となります。

SHAP (SHapley Additive exPlanations)
- 協力ゲーム理論に基づき、各特徴量が予測結果へどう寄与したか（正または負の影響）を算出します。
- 適性: センサーログや設備稼働データなどのテーブルデータ。「温度が閾値を超えたことが、故障確率を特定値押し上げた」といった定量的説明に優位性があります。
- 課題: 画像のような高次元データは計算コストが著しく高く、ピクセル単位の直感的な可視化には適応が必要です。
Grad-CAM (Gradient-weighted Class Activation Mapping)
- CNN（畳み込みニューラルネットワーク）の最終畳み込み層の勾配情報を利用し、判断に寄与した重要領域をヒートマップとして可視化します。
- 適性: 外観検査などの画像データ。「AIが画像のどの領域に着目したか」を空間的に提示でき、現場での解釈性が極めて高い手法です。
- 利点: モデルの再学習が不要で、既存のCNNアーキテクチャに後付け可能です。VGGやResNet（産業用バックボーンとして広く信頼されるResNet-50/101など）、EfficientNetといった標準モデルに対応します。
- 補足: 近年はVision Transformer（ViT）などの新アーキテクチャが台頭していますが、ResNetなどのCNNベースモデルは安定性と計算効率のバランスから、依然として製造現場の実装基盤として強固な地位を占めます。

本記事では、外観検査AIにおける「現場の納得感」と「実装の堅実性」を最優先し、Grad-CAMの実装アプローチに焦点を当てます。

Step 2：環境構築とベースモデルの準備

Step 1：XAIの基礎と製造業向け手法の選定 - Section Image

理論的枠組みの理解に続き、実践的な実装フェーズへ移行します。ここでは、説明可能なAI（XAI）を適用する技術的基盤を構築し、解析対象の画像分類モデルを準備するプロセスを解説します。

Python環境と必要なライブラリ

本ガイドでは、再現性とアクセスの容易さからGoogle Colab等のクラウドベースのJupyter Notebook環境を推奨します。環境構築では以下の主要ライブラリを使用します。

TensorFlow / Keras: 深層学習モデルの構築と操作に使用します。
OpenCV (cv2): 画像の前処理およびヒートマップの生成に不可欠です。
NumPy / Matplotlib: 数値計算および結果の可視化に使用します。

以下のコードは、必要なライブラリのインポートと環境確認を行うためのものです。

# 必要なライブラリのインポート
import tensorflow as tf
from tensorflow.keras.applications.vgg16 import VGG16, preprocess_input, decode_predictions
from tensorflow.keras.preprocessing import image
from tensorflow.keras.models import Model
import numpy as np
import matplotlib.pyplot as plt
import cv2
import requests
from io import BytesIO
from PIL import Image

# 環境の確認
# 最新の安定版（TensorFlow 2.x系以降）の使用を推奨します
print(f"TensorFlow Version: {tf.__version__}")

サンプルデータセットの準備

実務の外観検査では独自の「良品（OK）」および「不良品（NG）」データセットを用いた学習が必須です。しかし、本稿ではXAIのアルゴリズム（特にGrad-CAM）の動作原理を明確にするため、事前学習済みの重みを利用します。

VGG16モデルはImageNetデータセットで学習されており、一般的な物体の分類が可能です。製造現場での適用を想定する場合、このプロセスは「転移学習（Transfer Learning）」のベースライン確認に相当します。まずはモデルが画像を正しく認識できる環境を整え、その後に自社データへの適用（ファインチューニング）を行うアプローチが合理的です。

CNNベースの分類モデルの構築（VGG16）

XAIの手法、特にGrad-CAM（Gradient-weighted Class Activation Mapping）の理解には、構造が直列でシンプルなVGG16モデルが最適です。

産業界では、より層が深く精度の高いResNet（残差接続を持つモデル）やEfficientNetが標準的なバックボーンとして広く利用されています。公式情報によると、ResNetは初期の提案以降、基本アーキテクチャを維持しながら現在も多くの画像認識タスクで基盤技術として活用されています。しかし、これらのモデルは内部構造が複雑（スキップ接続や分岐など）であり、勾配の流れや特徴マップの抽出を初学者が追跡するには難易度が高い側面があります。

そのため、ここでは構造の透明性が高いVGG16を採用して実装を進めます。

# 事前学習済みのVGG16モデルをロード
# weights='imagenet' でImageNetで学習済みの重みを利用します
model = VGG16(weights='imagenet')

# モデルのアーキテクチャ概要を表示
# Grad-CAM適用において重要な「最後の畳み込み層」の名前を確認します
# VGG16の場合、通常は 'block5_conv3' が該当します
model.summary()

技術的視点からの注記:
Grad-CAM適用で最も重要なのは、「最後の畳み込み層（Last Convolutional Layer）」の特定です。CNN（畳み込みニューラルネットワーク）は層が深くなるにつれ、エッジやテクスチャなどの「低次特徴」から、物体のパーツや全体形状などの「高次意味情報」へと抽出対象を変化させます。

最後の畳み込み層は、入力画像の空間情報（位置関係）を保持しつつ最も高度な意味的特徴を含むため、判断根拠の可視化に最適なレイヤーです。この層の特定が次ステップでの可視化成功の鍵を握ります。

Step 3：【ハンズオン】Grad-CAMによる判定根拠の可視化

ここが本記事のハイライトです。ブラックボックスを開け、AIの視線を可視化します。

Grad-CAMの実装ステップ

Grad-CAMの仕組みは、「あるクラス（例：不良品）と判定するために、最後の畳み込み層のどの特徴マップが強く反応したか、その重要度（勾配）を重みとして足し合わせる」というものです。

以下に、コピー＆ペーストで動作する関数を定義します。

def make_gradcam_heatmap(img_array, model, last_conv_layer_name, pred_index=None):
    """
    Grad-CAMのヒートマップを生成する関数
    
    Args:
        img_array: 前処理済みの画像データ (batch_size, height, width, channels)
        model: 学習済みモデル
        last_conv_layer_name: ターゲットとする最終畳み込み層の名前
        pred_index: 可視化したいクラスのインデックス（Noneの場合は予測トップのクラス）
        
    Returns:
        heatmap: 生成されたヒートマップ
    """
    
    # 1. 勾配を取得するためのモデルを作成
    # 入力：元モデルの入力
    # 出力：[最終畳み込み層の出力, 元モデルの最終予測出力]
    grad_model = Model(
        inputs=model.inputs,
        outputs=[model.get_layer(last_conv_layer_name).output, model.output]
    )

    # 2. 勾配を記録しながら予測を実行
    with tf.GradientTape() as tape:
        last_conv_layer_output, preds = grad_model(img_array)
        if pred_index is None:
            pred_index = tf.argmax(preds[0])
        class_channel = preds[:, pred_index]

    # 3. ターゲットクラスの出力に対する、最終畳み込み層の勾配を計算
    grads = tape.gradient(class_channel, last_conv_layer_output)

    # 4. 各特徴マップの重要度（重み）を計算（勾配の大域平均プーリング）
    pooled_grads = tf.reduce_mean(grads, axis=(0, 1, 2))

    # 5. 特徴マップに重みを掛けて足し合わせる
    last_conv_layer_output = last_conv_layer_output[0]
    heatmap = last_conv_layer_output @ pooled_grads[..., tf.newaxis]
    heatmap = tf.squeeze(heatmap)

    # 6. ヒートマップの正規化（ReLUを適用し、0-1に収める）
    heatmap = tf.maximum(heatmap, 0) / tf.math.reduce_max(heatmap)
    return heatmap.numpy()

ヒートマップの生成と元画像への重ね合わせ

生成されたヒートマップは単なる数値配列のため、色付けして元画像に重ね合わせることで人間が見やすい形にします。

def display_gradcam(img_path, heatmap, alpha=0.4):
    """
    ヒートマップを元画像に重ねて表示・保存する関数
    """
    # 画像の読み込み
    img = cv2.imread(img_path)
    img = cv2.cvtColor(img, cv2.COLOR_BGR2RGB)

    # ヒートマップを元画像サイズにリサイズ
    heatmap = np.uint8(255 * heatmap)
    heatmap = cv2.applyColorMap(heatmap, cv2.COLORMAP_JET)
    heatmap = cv2.resize(heatmap, (img.shape[1], img.shape[0]))

    # 重ね合わせ
    superimposed_img = heatmap * alpha + img
    superimposed_img = np.clip(superimposed_img, 0, 255).astype('uint8')

    # 表示
    plt.figure(figsize=(10, 10))
    plt.imshow(superimposed_img)
    plt.axis('off')
    plt.title('Grad-CAM Result')
    plt.show()

# --- 実行例 ---
# 画像の準備（ここでは例としてネット上の画像をダウンロード）
# 実務ではローカルのパスを指定してください: img_path = 'local_image.jpg'
url = 'https://upload.wikimedia.org/wikipedia/commons/3/37/African_Bush_Elephant.jpg'
response = requests.get(url)
img = Image.open(BytesIO(response.content))
img_path = 'elephant.jpg'
img.save(img_path)

# 前処理
img_array = preprocess_input(get_img_array(img_path, size=(224, 224))) # get_img_arrayはkeras.preprocessing.image.load_img等で実装

# VGG16の最終畳み込み層を指定
last_conv_layer_name = 'block5_conv3'

# ヒートマップ生成
heatmap = make_gradcam_heatmap(img_array, model, last_conv_layer_name)

# 結果表示
display_gradcam(img_path, heatmap)

※ get_img_array 関数は、tf.keras.preprocessing.image.load_img を用いて画像を読み込み、配列化する標準的な処理を想定しています。

可視化結果の解釈：AIはどこを見て判断を下したか

上記の実行例では動作確認用のサンプル画像（象）を使用していますが、実際の製造現場で不良品（キズなど）の画像に適用した場合を想定して解説します。

出力された画像を確認します。赤くハイライトされた部分が、AIが判断を下す上で「重要だ」と認識した箇所です。現場の不良品検知モデルに適用した場合、以下のような視点で結果を評価します。

理想的な結果: 不良箇所（キズ、打痕、変色）が赤くハイライトされている。
危険な結果: 背景、照明の反射、製品のエッジ部分など、不良とは無関係な箇所が赤くハイライトされている。

後者の場合、AIが「ショートカット学習」をしている可能性があります。例えば、不良品画像の背景に映り込んだ治具を「不良の特徴」として学習しているケースです。これこそがXAI導入のメリットであり、精度の数値だけでは見抜けない「誤った学習」を発見できます。## Step 4：現場への提示と信頼性検証プロセス

Step 3：【ハンズオン】Grad-CAMによる判定根拠の可視化 - Section Image

技術的な実装が完了しても、そのまま現場に渡してはいけません。ヒートマップはあくまで「AIの着眼点」であり、「不良の原因」そのものではないからです。ここからは現場導入へのアプローチを解説します。

技術者以外に見せるためのUI/UXの工夫

エンジニアは生のヒートマップを分析できますが、ラインの作業員にとって真っ赤なヒートマップは「アラート」に見え、不安を煽ることがあります。

色の選択: 警告色の「赤」ではなく、注目点を示す「枠線」や「半透明のマスク」で表現する。
信頼度スコアの併記: 「判定：NG（確信度85%）」のように、AIの自信度を併せて表示する。
ワンクリック表示: 常にヒートマップを出すのではなく、作業員が「なぜ？」と思った時だけ詳細を表示できるUIにする。

「AIの間違い」を発見しモデル改善に活かすループ

XAIの真価はモデルのデバッグツールとして機能することにあります。以下のサイクル（Human-in-the-loop）を構築してください。

AIによる判定: 製品を検査し、結果とヒートマップを出力。
人間による確認: 作業員が結果を確認。特に「AIはNGと言ったが、人間が見るとOK（過検出）」なケースに注目。
ヒートマップの検証: 過検出時、AIがどこを見ていたかを確認。「光の反射」を「キズ」と誤認していることが判明。
フィードバックと再学習: 光の反射を含む良品データを追加学習（Data Augmentation）させる、あるいは照明環境を改善する。

XAIを共通言語とし、人間とAIが対話しながらシステムを育てるプロセスこそが、現場の信頼を勝ち取る道です。

現場フィードバックを用いたアノテーション修正

ヒートマップを見ることで「アノテーション（正解ラベル付け）のミス」に気づくこともあります。AIが不可解な場所を見ている場合、学習データのアノテーション領域がずれていたり、ノイズを含んで囲っていたりすることがあります。AIの視線は人間に「データの不備」を教えてくれる鏡でもあります。

次のステップと学習リソース

実務ではローカルのパスを指定してください: img_path = 'local_image.jpg' - Section Image 3

今回はVGG16とGrad-CAMを用いた基本的な可視化手法を紹介しました。AI技術は日々進化しているため、より高精度で信頼性の高いシステムを構築するために次のステップへ進みましょう。

さらなる精度向上：Score-CAMやAttention機構

Grad-CAMは強力ですが、勾配消失の問題や、複数物体がある場合にヒートマップが不正確になる弱点もあります。より高度な手法として以下があります。

Grad-CAM++: Grad-CAMの改良版。複数の同じ物体がある場合の可視化精度が向上。
Score-CAM: 勾配を使わず、マスク画像を用いた予測変化を見る手法。よりノイズの少ないヒートマップが得られる傾向にあります。
Attention Map: Transformerベースのモデル（ViTなど）を使用する場合、Attention機構そのものを可視化することで、より詳細な根拠が得られます。

実務適用へのチェックリスト

最後に、現場導入に向けた簡易チェックリストを提供します。

判定モデルの精度だけでなく、ヒートマップによる定性評価を行ったか？
ショートカット学習（背景や無関係な特徴への依存）がないか確認したか？
現場作業員に対し、ヒートマップの見方と「AIの限界」を説明したか？
誤判定時のフィードバックループ（人間による修正フロー）は設計されているか？

継続学習の重要性

AI倫理と技術は不可分です。技術的な実装力と、それを社会や現場に調和させる力。この両輪を回すことで、初めて「使えるAI」が生まれます。

実務ではローカルのパスを指定してください: img_path = 'local_image.jpg' - Section Image 3

コメントは1週間で消えます

コメントを読み込み中...