AIモデルのバージョン管理とA/Bテストによる精度改善サイクル

MLflowを活用したAIモデルの改善パイプラインの構築

この記事は急速に進化する技術について解説しています。最新情報は公式ドキュメントをご確認ください。

2026年1月5日更新 2026年2月23日約14分で読めます

文字サイズ:

1. セットアップ概要：脱・属人化のためのMLOps環境

「model_v1_final_rev2.h5」……皆さんのPCのフォルダにも、こんな名前のファイルが眠っていませんか？

AI開発において、精度が良かったはずのモデルが再現できない、どのパラメータで学習させたか記憶が曖昧、チームメンバーにモデルを渡したら「動かない」と言われる。これらは、AI開発における「属人化」と「管理不足」が招く典型的なリスクです。ビジネスの現場では、こうした技術的負債がプロジェクトのスピードを著しく低下させます。

本記事では、こうした問題から抜け出すためのMLOps環境の構築手順を解説します。目指すのは、単なるツール導入ではなく、「実験→評価→承認→デプロイ」という改善サイクルを、誰でも・いつでも・安全に回せる状態にすることです。まずは動くプロトタイプを作り、仮説を即座に形にして検証する基盤を整えましょう。

本ガイドのゴール：再現性とチーム連携の確保

今回構築するのは、オープンソースのMLflowを中心とした実験管理基盤です。以下の状態をゴールとします。

実験の透明化: 誰が、いつ、どんなパラメータで学習し、どんな結果が出たかが自動記録される。
モデルの一元管理: ファイル名ではなく、明確なバージョンとステージ（Staging/Production）でモデルを管理する。
デプロイの迅速化: ワンコマンドで推論APIを立ち上げ、A/Bテストへの接続を可能にする。

なぜファイル名でのバージョン管理は破綻するのか

Excelやスプレッドシートで実験結果を管理する方法は、初期のPoC（概念実証）フェーズでは機能するかもしれません。しかし、パラメータが数十個に増え、特徴量エンジニアリングの試行錯誤が始まると、手動入力のミスが必ずと言っていいほど発生します。

最大のリスクは「モデルファイル」と「学習コード」と「データセット」の紐付けが切れることです。高精度なモデルがあっても、それを生み出したコードが不明であれば、ビジネスでの継続的な運用は不可能です。これは単なる技術的負債というより、経営上の時限爆弾に近いと言えるでしょう。

構築するアーキテクチャ全体像

今回はシンプルかつ拡張性の高い構成を目指します。まずは小さく始め、必要に応じてスケールさせるのが鉄則です。

Tracking Server: 実験メタデータ（パラメータ、指標）を保存。
Artifact Store: 学習済みモデルの実体や図表を保存（ローカルまたはS3などを想定）。
Model Registry: モデルのバージョン管理と承認フロー。

2. 事前準備：ローカル環境の整備とツール選定

AIモデルの改善パイプラインを構築する際、環境の不整合やツールの選定ミスは、後のフェーズで大きな足かせとなります。システム全体を見据え、拡張性と再現性を担保できる基盤を初期段階で整えることが、ビジネスへの最短距離を描く鍵です。

必要なライブラリと環境要件

依存関係の衝突を防ぐため、Python環境はプロジェクトごとに分離することを強く推奨します。venv または conda を活用し、現行の安定版Python環境を構築してください。

# プロジェクト用ディレクトリの作成と移動
mkdir mlops-pilot
cd mlops-pilot

# 仮想環境の作成（venvの場合）
python -m venv venv
source venv/bin/activate  # Windowsの場合は venv\Scripts\activate

# 必須ライブラリのインストール
pip install mlflow pandas scikit-learn matplotlib

※ アーティファクトストア（成果物の保存先）としてAWS S3などのクラウドストレージを利用する場合は、追加でクラウドリソース操作用のライブラリ（AWSの場合は boto3 など）が必要になります。AWSでは継続的にAIワークフローやサーバーレス環境（Lambda Managed Instancesなど）の機能拡充が行われています。まずはローカルで完結させる場合でも、将来的なクラウドネイティブ環境への移行を見据え、クラウド連携を想定した設計にしておくと後々の拡張がスムーズです。

MLflowを選定する理由

市場には優れたSaaS型の実験管理ツールが多数存在しますが、本アプローチでMLflowを推奨するのには明確な理由があります。

オープンソースの利点: 特定のベンダーに依存するリスク（ベンダーロックイン）を回避できます。オンプレミス環境や厳格なデータガバナンスが求められる閉域網でも、セキュアに構築・運用が可能です。
広範なエコシステム: Pythonだけでなく、RやJava、REST APIからのアクセスに対応しています。また、主要なパブリッククラウドのマネージドサービスとの親和性も高く、検証段階から本番運用へのスケーリングが容易です。
軽量なアーキテクチャ: 複雑なインフラ設定を必要とせず、ローカルマシン一台から迅速に仮説検証のサイクルを回し始めることができます。「まず動くものを作る」アプローチに最適です。

Docker環境の準備（再現性の担保）

「開発者のローカル環境では動くが、本番環境では動かない」という問題を根本から排除するため、コンテナ技術を用いた学習・推論環境の構築は不可欠な要素です。

ここで注意すべき点として、Docker Engineは継続的にアップデートされており、最新バージョンでは一部の古い機能が非推奨・削除される変更が行われています。GitHub ActionsなどのCI/CDパイプライン上で稼働するランナー環境も、随時最新のDocker Engineへと更新されています。

そのため、ローカルにインストールするDocker Desktop等も常に最新の安定版に保ち、古い機能に依存した設定ファイル（Dockerfileやdocker-compose.yml）を見直すプロセスを組み込むことを推奨します。ローカル環境とCI/CDパイプラインでコンテナの仕様を一致させることで、後述するモデルサービング（API化）や自動デプロイへの移行において、予期せぬエラーを防ぐことができます。

3. ステップ1：トラッキングサーバーの構築と初期設定

事前準備：ローカル環境の整備とツール選定 - Section Image

MLflowは、デフォルト設定のままだとローカル環境の ./mlruns ディレクトリに実験データを保存します。個人の検証レベルであればこれでも問題ありませんが、複数のエンジニアやデータサイエンティストが連携するチーム開発においては、情報が分散してしまい非効率です。

全体像を把握し、再現性のあるAIモデル開発を進めるためには、一元管理の拠点となるトラッキングサーバーの構築が不可欠です。

MLflow Tracking Serverの立ち上げコマンド

まずは、チーム共有サーバーを構築する前段階のテストとして、ローカルホストでサーバーを起動してみましょう。手を動かして確認することが第一歩です。

# バックエンドストア（メタデータ）とアーティファクトストア（ファイル）を指定して起動
# ここでは簡易的にローカルファイルシステムを使用します
mlflow server \
    --backend-store-uri sqlite:///mlflow.db \
    --default-artifact-root ./mlruns \
    --host 0.0.0.0 \
    --port 5000

--backend-store-uri: 実験のパラメータや評価指標といった数値データを保存するデータベースです。今回は軽量なSQLiteを指定しています。
--default-artifact-root: 学習済みモデルや画像ファイルなどの重いデータ（アーティファクト）の保存先です。
--host 0.0.0.0: 外部からのアクセスを許可する設定です（本番環境では適切なファイアウォールやセキュリティグループの設定が必須となります）。

このコマンドを実行した後、ブラウザで http://localhost:5000 にアクセスしてください。MLflowのユーザーインターフェースが表示されれば、初期起動は成功です。

なお、実務でトラッキングサーバーをデプロイする際は、再現性と運用保守の観点からDockerコンテナを利用するアプローチをお勧めします。ただし、公式ブログ（2026年2月時点）の情報によると、Docker Engineの最新バージョンでは一部の古い機能が廃止されています。既存のデプロイメントパイプラインやCI/CDワークフローを最新環境へ移行する場合は、事前に公式ドキュメントで互換性を確認しておくことが重要です。

アーティファクトストアの設定について

本番運用を見据えた場合、ローカルのファイルシステムではなく、クラウド上のオブジェクトストレージをアーティファクトストアとして利用するのが一般的です。--default-artifact-root の指定先を、Amazon S3（s3://my-bucket/mlflow/）やGoogle Cloud Storage（GCS）に変更します。

これを実現するためには、サーバーを実行する環境に対して、適切なクラウド認証情報を付与する必要があります。

例えばAWS環境（S3）を利用する場合、かつてはアクセスキー（AWS_ACCESS_KEY_ID など）を環境変数として直接セットする手法がよく使われていました。しかし、AWSの公式ブログ（2026年2月時点）でもIAM Identity Centerの複数リージョン対応やSecurity Hubのコントロール追加など、セキュリティ強化の動きが顕著に報告されています。そのため、現在ではアクセスキーのハードコードを避け、EC2やEKSのIAMロール、あるいは一時的な認証情報を利用するセキュアな設計を強く推奨します。

チーム共有のためのリモート接続設定

トラッキングサーバーをネットワーク上に立てた後は、学習プロセスを実行するクライアント（各開発者のローカルPCや学習用インスタンス）側で、データの送信先をこのサーバーに向ける必要があります。

以下のコマンドのように、環境変数 MLFLOW_TRACKING_URI にサーバーのURLを設定してください。

# 学習実行側のターミナルで設定（チーム共有サーバーのIPやドメインに置き換えてください）
export MLFLOW_TRACKING_URI=http://localhost:5000

この設定をチーム全体で統一することで、誰がどの環境でモデルを学習させても、すべての実験結果がひとつのトラッキングサーバーに集約されるようになります。

4. ステップ2：実験コードへの組み込みとロギング

サーバーの準備ができたら、Pythonコードにロギング処理を追加します。既存のスパゲッティコードを大幅に書き換える必要はありません。最小限の変更で最大の効果を狙いましょう。

既存の学習コードへの数行の追加

以下は、scikit-learnを用いたシンプルな学習コードに、MLflowのロギングを組み込んだ例です。

import os
import mlflow
import mlflow.sklearn
from sklearn.ensemble import RandomForestRegressor
from sklearn.metrics import mean_squared_error
from sklearn.model_selection import train_test_split
from sklearn.datasets import load_diabetes

# 1. トラッキングサーバーの指定（環境変数で設定していない場合）
mlflow.set_tracking_uri("http://localhost:5000")

# 2. 実験グループの作成または設定
mlflow.set_experiment("diabetes_prediction_v1")

def train(n_estimators, max_depth):
    # データの準備
    db = load_diabetes()
    X_train, X_test, y_train, y_test = train_test_split(db.data, db.target)

    # 3. 実験の開始（コンテキストマネージャを使用）
    with mlflow.start_run():
        # ハイパーパラメータの記録
        mlflow.log_param("n_estimators", n_estimators)
        mlflow.log_param("max_depth", max_depth)

        # モデル学習
        rf = RandomForestRegressor(n_estimators=n_estimators, max_depth=max_depth)
        rf.fit(X_train, y_train)
        
        # 予測と評価
        predictions = rf.predict(X_test)
        mse = mean_squared_error(y_test, predictions)

        # メトリクスの記録
        mlflow.log_metric("mse", mse)

        # モデル自体の保存（バージョン管理付き）
        mlflow.sklearn.log_model(rf, "random_forest_model")
        
        print(f"Run ID: {mlflow.active_run().info.run_id} - MSE: {mse}")

if __name__ == "__main__":
    # パラメータを変えて複数回実行してみる
    train(100, 5)
    train(200, 10)

自動ロギング（autolog）の活用と注意点

上記のコードでは手動で log_param などを記述しましたが、主要なフレームワーク（Sklearn, TensorFlow, PyTorchなど）では mlflow.autolog() を一行書くだけで、パラメータやメトリクスを自動収集してくれます。

便利ですが、注意が必要です。autologは時に「記録しすぎる」ことがあります。不要なアーティファクトまで保存してストレージを圧迫したり、意図しないメトリクスがノイズになったりする場合があるため、本番に近い環境では手動ロギング（log_param等）で制御する方が安全です。技術の利便性と実用性のバランスを見極めることが重要です。

学習データ自体のバージョン記録

モデルの再現性には「データ」の固定も不可欠です。データのハッシュ値や、S3上のパス、あるいはDVC（Data Version Control）のリビジョン番号をタグとして記録しておきましょう。

# データのバージョン情報をタグ付け
mlflow.set_tag("data_version", "v20231025_cleaned")
mlflow.set_tag("commit_hash", "a1b2c3d4")

5. ステップ3：モデルレジストリによるステージ管理

ステップ2：実験コードへの組み込みとロギング - Section Image

実験を繰り返すと、MLflow上には大量のRun（実行履歴）が溜まります。その中から「これは使える！」というモデルを選定し、管理するのがModel Registryです。

モデルの登録とバージョン番号の自動採番

UI上で精度の良いRunを見つけたら、その詳細画面から「Register Model」ボタンを押すだけで登録できます。しかし、エンジニアであればコードやCLIで自動化したいところでしょう。

# 特定のRun IDのモデルをレジストリに登録
run_id = "<先ほどの実行で出力されたRun ID>"
model_uri = f"runs:/{run_id}/random_forest_model"

# モデル名 'DiabetesPredictor' として登録
result = mlflow.register_model(model_uri, "DiabetesPredictor")

これで、DiabetesPredictor という名前のモデルの Version 1 が生成されます。再度登録すれば自動的に Version 2 になります。

StagingからProductionへの昇格フロー

登録されたモデルには「Stage（ステージ）」を割り当てることができます。

None: 登録直後の状態。
Staging: 検証環境用。結合テストやA/Bテスト準備に使用。
Production: 本番環境用。
Archived: 過去の遺産。

from mlflow.tracking import MlflowClient
client = MlflowClient()

# 最新バージョンをStagingに昇格
client.transition_model_version_stage(
    name="DiabetesPredictor",
    version=1,
    stage="Staging"
)

この操作をCI/CDパイプラインに組み込むことで、「精度が閾値を超えたら自動でStagingへ」「人間が承認したらProductionへ」といったガバナンスを効かせることができます。誰かが勝手に本番モデルを差し替えるリスクを排除し、安全かつ迅速なデプロイを実現するのです。

6. ステップ4：A/Bテスト環境へのデプロイ準備

モデルができたら、いよいよデプロイです。MLflowはモデルを簡単にREST API化する機能を持っています。プロトタイプを素早く動かし、実際の環境で検証しましょう。

モデルサービング機能を使ったAPI化

以下のコマンド一つで、登録したモデルをAPIサーバーとして起動できます。

# Stagingステージにあるモデルをポート1234で起動
mlflow models serve -m "models:/DiabetesPredictor/Staging" -p 1234 --no-conda

起動したら、curl コマンドで予測リクエストを送ってみましょう。

curl -X POST -H "Content-Type: application/json" \
  --data '{"dataframe_split": {"columns":["age", "sex", "bmi", "bp", "s1", "s2", "s3", "s4", "s5", "s6"], "data":[[0.038, 0.05, 0.06, 0.02, -0.04, -0.002, -0.02, -0.002, 0.06, 0.03]]}}' \
  http://127.0.0.1:1234/invocations

APIゲートウェイでのトラフィック分割

A/Bテストを行う場合、MLflowのサーバー自体に振り分け機能はありません。前段にNGINXなどのリバースプロキシや、クラウドのAPI Gatewayを配置し、そこでトラフィックを制御します。

Model A (Production): ポート5000で稼働
Model B (Staging/Candidate): ポート5001で稼働
Gateway: ユーザーIDのハッシュ値などに基づいて、リクエストの90%をAへ、10%をBへルーティング。

この構成により、既存ユーザーへの影響を最小限に抑えながら、新モデル（Model B）の実戦パフォーマンス（KPI）を計測できます。ビジネス価値を直接検証できる強力なアプローチです。

7. よくあるトラブルと解決策

最後に、セットアップ時や初期運用時によく発生するエラーとその対処法を整理します。特に環境依存の問題やネットワーク・権限周りのトラブルは、導入の初期段階でつまずきやすいポイントです。

サーバーに接続できない場合のチェックリスト

Connection Refused: サーバー起動時に --host 0.0.0.0 を指定していますか？デフォルトの 127.0.0.1 では外部（別コンテナや別PC）からアクセスできません。
Firewallとネットワーク設定: AWS EC2などで構築する場合、セキュリティグループでポート5000（または指定ポート）を開放しているか確認が必要です。また、AWS Lambda Managed Instancesなどの新しいデプロイモデルを利用する際も、VPCやネットワークのルーティング設定が適切に行われているか、最新の公式ドキュメントで要件を確認してください。

依存ライブラリのバージョン不整合

推論サーバー起動時にエラーが出る典型的な原因として、学習環境と推論環境の乖離が挙げられます。MLflowは学習時の環境（conda.yaml や requirements.txt）を自動保存しますが、推論環境のPythonバージョンや依存パッケージのバージョンが異なると正常に動作しません。

対策: 学習環境と推論環境のDockerベースイメージを統一するのが最も確実なアプローチです。ただし、CI/CDパイプライン（GitHub Actionsなど）でDockerを使用する場合、Dockerの最新バージョンへのアップデートに伴い、一部の古い機能が廃止されることがあります。これに依存するワークフローは設定変更が必要になるため、定期的に互換性を確認してください。

Dockerを使わない場合は、--no-conda オプションで環境再現をスキップし、手動でインストールしたライブラリを使用することも可能ですが、本番環境での利用は推奨しません。

まとめ：ツール導入はゴールではなくスタート

5. ステップ3：モデルレジストリによるステージ管理 - Section Image 3

今回構築したパイプラインは、あくまでモデル改善を効率化するための「道具」に過ぎません。真の目的は、この仕組みをチームの文化として定着させ、ビジネスの成果に直結させることです。

実験は必ずMLflow経由で記録する（個人のローカルノートブックで完結させない）。
モデルの昇格に明確な基準を設ける（精度だけでなく、推論速度やモデルサイズ、インフラコストも考慮する）。
A/Bテストの結果を客観的に評価し、次の実験サイクルへフィードバックする。

このサイクルがチーム内で回り始めたとき、機械学習プロジェクトは個人の「職人芸」から、組織的な「エンジニアリング」へと進化します。まずは今週末、ローカル環境で mlflow server を起動し、小さな実験を記録するところから始めてみてはいかがでしょうか。

自社環境への適用を具体的に検討する際は、公式ドキュメントやベストプラクティスをまとめた技術資料の活用が効果的です。体系的なチェックリストを参照することで、導入時のリスクを軽減し、よりスムーズな本番移行が可能になります。

MLflowを活用したAIモデルの改善パイプラインの構築 - Conclusion Image

コメントは1週間で消えます

コメントを読み込み中...