機械学習の研究開発が急速な勢いで進んでいます。理論研究はもちろん、機械学習手法が実装されたオープンソースのパッケージ開発も進み、それらを実務で利用するためのノウハウも蓄積されてきています。結果として、機械学習をはじめたばかりの入門者でも比較的高い精度の予測モデルを構築できるようになりました。
Deep Learning, Gradient Boosting Decision Tree, Random Forestなどの機械学習モデルは高い予測精度を誇りますが、モデルの解釈性が低いという欠点があります。これらの複雑なブラックボックスモデルにおいて、モデルがなぜそのような予測を行っているのかを知ることは困難ですが、データ分析者自身がモデルの振る舞いを把握し、説明責任を果たすことを実務においては頻繁に求められます。
本書では、このような予測精度と解釈性のトレードオフを克服するための手法について、実務において特に有用と考えるものを厳選して紹介します。本書の構成は以下になります。
1章: 機械学習の解釈性とは
2章: 線形回帰モデルを通して「解釈性」を理解する
3章: 特徴量の重要度を知る Permutation Feature Importance
4章: 特徴量と予測値の関係を知る Partial Dependence
5章: インスタンスごとの異質性を捉える Individual Conditional Expectation
6章: 予測の理由を考える SHapley Additive exPlanations
付録A: R による分析例 tidymodelsとDALEXで機械学習モデルを解釈する~
付録B: 機械学習の解釈手法で線形回帰モデルを解釈する
2章では極めて高い解釈性を誇る線形回帰モデルを通して、予測モデルに求められる解釈性について説明します。以降の4つの章では、それらの解釈性をブラックボックスモデルに与えるPFI, PD, ICE, SHAPと呼ばれる手法について解説します。
本書は機械学習の解釈手法を実用して頂くことを目的としています。Pythonでゼロから手法を実装することを通じて解釈手法のアルゴリズムを理解し、実データの分析を通じて解釈手法の勘所を押さえて頂きます。機械学習の解釈手法は強力な反面、使い方を誤ると間違った結論を導いてしまう危険もあります。本書では解釈手法を実用する際の注意点についても丁寧に触れています。