この投稿は インタープリズムの面々が、普段の業務に役立つ記事を丹精込めて書き上げる！ Advent Calendar 2016 - Qiitaの20日目 の記事です。

前回のあらすじ

前回の記事

interprism.hatenablog.com

では、Deep LearningによるAIとそうでないAIをそれぞれ帰納的AI、演繹的AIとよびその違いを説明し、Deep Learningとは、すなわち大量の入出力データサンプルから適切な関数を作り出す技術であるという趣旨の説明をしました。この関数を如何に作り出すかについて説明を始めた所で普遍性定理というものが出てきて、普遍性定理の本格的説明をするところで、逃げるようにして、強引に文章を締めくくっていました。

文章の終わりでは、要望があれば、後編を書くといっており、その後、特に他人から要望があったわけではないのですが、自身からの要望、書きたいという欲求により後編を書くことにしました。

ちなみに、今回の記事は数式メインの話しになってしまう気がします。

普遍性定理(前回の復習)

前回の記事で、1次元1値関数 $y=f(x)$ の近似関数をサンプリングデータの数分だけステップ関数を用意すれば、作成することができるが、実行時(近似関数を求める時ではなく、使う時)の処理速度が問題になるため、この手法で作る近似関数は実用的ではないという話をしました。

そこで導入するのが以下の関数であるというところまでを話しました。

$y = \sum_{i=0}^{l-1} u_i \sigma(h_i) \qquad \mbox{ただし}\sigma(h_i) = \frac{1}{1 + e^{h_j}}$ $h_i = w_i x + b_i \qquad (i = 1, ... , l-1)$

まずは、この関数が、 $u_i, w_i, b_i$ を調整することで、どうして、任意の関数を表現できるかを、感覚的に 説明したいと思います。

シグモイド関数

$y = \sigma(x) = \frac{1}{1 + e^{x}}$

をシグモイド関数と呼びます。この関数は単調減少関数であり、 $\infty, 0, -\infty$ で、それぞれ

$\lim_{x\rightarrow-\infty}\sigma(x)=1$

$\sigma(0)=\frac{1}{2}$

$\lim_{x\rightarrow\infty}\sigma(x)=0$

という値をとり、

$\sigma(-x)-\sigma(0)=\frac{1}{1+e^{-x}}-\frac{1}{2}$ $=\frac{2-(1+e^{-x})}{2(1+e^{-x})}$ $=\frac{1-e^{-x}}{2(1+e^{-x})}\frac{e^{x}}{e^{x}}$ $=\frac{e^{x}-1}{2(e^{x}+1)}$ $=\frac{(1+e^{x})-2}{2(1+e^{x})}$ $=\frac{1}{2}-\frac{1}{1+e^{x}}$ $=\sigma(0)- \sigma(x)$

すなわち $(0, \sigma(0))$ で点対称なグラフとなる。

という特徴を持っている。

では、次に

$y = \sigma(w x + b)$

の関数について調べてみる。

$w$ が正の実数のとき、 $x \rightarrow \infty, -\infty$ の極限において

$\lim_{x \rightarrow -\infty} \sigma(wx + b) = 1$

$\lim_{x \rightarrow \infty} \sigma(wx + b) = 0$

にかわりはありませんが、点対称の中心となる点は　0から $\frac{-b}{w}$ に移動する。すなわち、 $w, b$ > $0$ の時、グラフ全体が $\sigma(x)$ と比較して全体的に左に移動するような形になる。また $|w|$ が1以上ならば、傾きはよりきつくなり、1以下ならばゆるくなるという特徴がある。

このシグモイド関数を線形結合させることで、任意のステップ関数が作れることを、この時点で気がついた人は数学的センスが抜群といえるのではないかと思います。

シグモイド関数の線形結合

いよいよシグモイド関数を使って、ステップ関数を作成してみましょう。

シグモイド関数を２つ線形結合させて以下のような関数をつくる。

$y = u_0 \sigma(w_0 x + b_0) + u_1 \sigma(w_1 x + b_1)$

さらに、 $w_0, w_1, b_0, b_1, u_0, u_1$ が次の条件を満たす場合を考える。

$|w_0|, |w_1| \mbox{が十分大きい}$ $u_0 = - u_1$ $\frac{-b_0}{w_0} \le \frac{-b_1}{w_1}$

この時、この関数は $\frac{-b_0}{w_0} \le x \le \frac{-b_1}{w_1}$ の間で $u_1 (=-u_0)$ の値を取るステップ関数(に近い関数)となる。

このことを感覚的に証明してみよう。

$x_0 = \frac{-b_0}{w_0}, x_1 = \frac{-b_1}{w_1}$ とするとシグモイド関数の特徴および $w_0, w_1$ が十分に大きいことにより $\sigma(w_0 x + b_0)$ および $\sigma(x_1 x + b_1)$ は $x_0, x_1$ を境に急激に1から0にその値を変える関数となる。従って、 $\delta x$ を十分に小さい正の数とすると、

$u_0 \sigma(w_0(x_0 - \delta x) + b_0) \simeq u_0$ $u_0 \sigma(w_0(x_0 + \delta x) + b_0) \simeq 0$ $u_1 \sigma(w_1(x_1 - \delta x) + b_1) \simeq u_1 = - u_0$ $u_1 \sigma(w_1(x_1 + \delta x) + b_1) \simeq 0$

これを表にすると以下のようになる。

$x$	$-\infty$	$x_0-\delta x$	$x_0+\delta x$	$x_1-\delta x$	$x_1+\delta x$	$\infty$
$u_0 \sigma(w_0 x + b_0)$	$u_0$	$u_0$	0	0	0	0
$u_1 \sigma(w_1 x + b_1)$	$-u_0$	$-u_0$	$-u_0$	$-u_0$	0	0

よって

$y = u_0 \sigma(w_0 x + b_0) + u_1 \sigma(w_1 x + b_1)$

は $x_0 \le x \le x_1$ でのみ $u_1(=-u_0)$ の値をとるステップ関数であることがわかる。

ステップ関数さえ作ることができてしまえば、あとはそれを足し合わせることで任意の形の関数を作ることができることは、前回の記事で説明したとおりである。

すなわち

$y = \sum _{i=0} ^{l-1} u_{i} \sigma(w_{i} x + b_{i}) \qquad$

は、 $u_i,w_i,b_i$ を調整することで、任意の１変数１値関数(の近似関数)を作り出せるのである。

言うまでもなく、これは数学的に厳密な証明でもなんでもない。前回も述べたように厳密な証明は

ハーン・バナッハの定理(関数解析学)
リースの表現定理(関数解析学)
フーリエ解析(解析学)

をつかえばできるとのことだ。

前回の記事でxの値を条件分岐で細かく分けることで得られるステップ関数を組み合わせて作る関数で近似関数を求める手法を紹介しましたが、シグモイド関数を線形結合させてつくる関数との違いはなんだろうか？

それはシグモイド関数を線形結合させてつくる関数は「ステップ関数を組み合わせる形によっても近似関数を作れる」だけであって、必ずしもその形にしなければならないというわけではない。

もし、与えられたサンプリングデータから、ステップ関数をつくりだして、それぞれのステップ関数をつくるための $u_i, w_i, b_i$ を求めるのであれば、シグモイド関数を線形結合させてつくる関数のメリットはあまり感じられない。

では、実際には、与えられた大量のサンプリングデータから、どのようにして、 $u_i, w_i, b_i$ を求めるのであろうか？

それには勾配降下法という手法を用いる。

勾配降下法

今までのディープラーニングの議論は一時忘れてもらって、勾配降下法について解説しようと思います。

この手法は、一般的な関数 $g$ に対し、その最適解(最小解) をボールが坂道を転げ落ちて最も低い位置に落ち着くのと同じような原理を用いて求める手法と思ってもらうとイメージがし易いのではないかと思います。

$g$ は何次元の関数でも問題ないが、イメージし易いように、3次元空間上の表面を表す2変数1値関数 $z = g(x,y)$ という関数で解説します。

まず、 $x-y$ 平面を地表にはり、地球の中心から遠ざかる向きに $z$ 軸をとる。

この座標上に

$z = g(x, y)$

という曲面をはり、任意の場所にボールをおいた場合、このボールは重力により、最も低い位置に向かおうとする。

これをプログラミング的にシミュレートする。まず、任意の位置 $(x_0,y_0)$ および $z_0=f(x_0,y_0)$ をとる。ここで、ここでの曲面の傾き( $z$ の微小変化)を偏微分を用いて求める。

$\delta z = \frac{\partial g}{\partial x} \delta x + \frac{\partial g}{\partial y} \delta y$

このとき $z$ を最小に向かう方向に $x,y$ を動かしていきたいので $\delta z \le 0$ となるように $\delta x, \delta y$ を選ばなければなりません。従って、 $\frac{\partial g}{\partial x}(x_0, y_0), \frac{\partial g}{\partial y}(x_0, y_0)$ の符号と逆になる方向にそれぞれ $\delta x, \delta y$ を選ぶようにして、次の点を $(x_1,y_1) = (x_0 + \delta x, y_0 + \delta y)$ と決める。 $\delta x, \delta y$ の符号の決め方は決まったとしても、 $|\delta x|,|\delta y|$ をどのように選ぶかが決まっていないと思うかもしれないが、実はこれは適当に選んでもらってかまわない。実際、ボールは連続的に低い方に動いていくわけだが、プログラミング的にはこれをコマ送りするような形になる。コマ送りの間隔をどのように選ぶかだが、これはトレードオフがある話であり、バランスのとれた適当なところとしか言いようがない。大きすぎると最小値に収束せずに、発散してしまい、小さすぎると、(最小値を求めるための)処理速度が著しく悪化するということになるためだ。あえて表現するならば、可能な限り小さく ということになる。

あとは、これを繰り返していけば、いずれ十分に大きな数 $n$ 回目には $\frac{\partial g}{\partial x}(x_n, y_n) = \frac{\partial g}{\partial y}(x_n,y_n) \simeq 0$ となり、その時の $z_n = g(x_n,y_n)$ が最小値となるという算段だ。

具体的に解を求める(＝深層学習により最適関数を求める)

勾配降下法を理解したところで、ディープラーニングに戻って、勾配降下法を用いて、関数 $f$ を求めてみよう。

n組の学習用サンプリングデータ(教師データとも言う)を

$(\mbox{入力},\mbox{出力}) = (x_j, y_j) \quad (0 \le j \le n-1)$

として

$y = f(x)$

という関数が、サンプリングデータから得られる最も適切な関数であるということは、いったいどのような状態のことであろうか。

それは

$z = \sum_{j=0}^{n-1} |y_{j} - f(x_{j})|$

が最も低い値( $\ge0$ )を取る時の $f$ である。

難しく聞こえそうな表現を使っているが、仮に $\forall j$ において

$y_j = f(x_j)$

となる場合(すなわち少なくともサンプリングデータと同じ入力に対しては、近似解ではなく、理想解を出力できる場合ということ)、この $f$ はこれ以上ない形で最適になるわけだが、実際

$z = \sum_{j=0}^{n-1} |y_j - f(x_j)| = \sum_{j=0}^{n-1} 0 = 0$

となることから想像すれば、 $f(x_j)$ が $y_j$ に近ければ近いほど $z$ が小さくなることも想像できると思うので、この関数の $z$ の最小値を求めるということが最適な $f$ を求めるということと同値であることは、なんとなく理解してもらえるのではないかと思う。

今、我々は

$f(x) = \sum_{i=0}^{l-1} u_i \sigma(w_i x + b_i) \qquad$

として、

$z = \sum_{j=0}^{n-1} |y_j - f(x_j)|$

の $z$ が最小となる時の $u_i,w_i,b_i$ を求めたいのだから、これは

$z = \sum_{j=0}^{n-1} |y_j - f(x_j)| = C(u_{0},...,u_{l-1},w_{0},...,w_{l-1},b_{0},...,b_{l-1})$

という $3 * l$ 個の変数の多変数一値関数の最小値およびその時の

$(u_{0},...,u_{l-1},w_{0},...,w_{l-1},b_{0},...,b_{l-1})$

を求めることと同義になるのである。

ちょっと混乱しそうなので、整理しておこう。

関数	変数	説明
$y=f(x) = \sum_{i=0}^{l-1} u_i \sigma(w_i x + b_i)$	$x,y$	求めたい関数。 $u_i,w_i,b_i$ は最終的には定数となる
$z = C(u_0,.,u_{l-1},w_0,.,w_{l-1},b_0,.,b_{l-1})$ $= \sum_{j=0}^{n-1} \|y_j - f(x_j)\|$	$u_i,w_i,b_i$ (3* $l$ 個),z	上段の $f$ を求めるために導入したコスト関数。 $x_j,y_j$ は定数

この関数 $C$ の最小値およびその時の $u_i,w_i,b_i$ を先に解説した勾配降下法により求めてやれば良いのだが、あまりに変数が多く、記述が煩雑になるため、 $l = 1, n = 1$ の場合(すなわち隠れ層のニューロンが1つ、サンプリングデータの数も１つ)を解説して、後は読者の数学的、プログラミング的センスでこれを適当に増やしてもらいたい。

さらに、計算を簡単にするために、コスト関数である $C$ の形を少し変形したい。 $C$ はサンプリングデータ $x_j$ を $f$ に代入して得られる値 $f(x_j)$ と $y_j$ の距離をサンプリング数分、合算して得られる値(>0) として定義されているが、この距離は一般的な(ユークリッド幾何学上の)距離である必要はなく、数学的な 距離関数 の定義を満たしていれば、なんでもよいのである。(学習速度を高めるためにはこの関数を適当に選ぶことが極めて重要になってくるが、ここでは原理を説明するために、最も微分がし易い距離関数を選びます)

ということで、以下のように設定を変更します。

関数	変数	説明
$y=f(x) = u \sigma(w x + b)$	$x,y$	求めたい関数。 $u,w,b$ は最終的には定数となる
$z = C(u,w,b) = \frac{1}{2}(y_0 - f(x_0))^{2}$	$u,w,b,z$	上段の $f$ を求めるために導入したコスト関数。 $x_0,y_0$ は定数
$z = C(u,w,b) = \frac{1}{2}(y_0 - u\frac{1}{1 + e^{w x_0 + b}})^{2}$	$u,w,b,z$	$C$ に $f,\sigma$ を代入して展開したもの

この時

$\frac{\partial C}{\partial u} = (y_0 - u\frac{1}{1 + e^{w x_0 + b}}) \cdot (-\frac{1}{1+e^{wx_0 + b}})$ $\frac{\partial C}{\partial w} = (y_0 - u\frac{1}{1 + e^{w x_0 + b}}) \cdot (\frac{u}{(1+e^{wx_0 + b})^{2}})\cdot (e^{wx_0 + b}) \cdot x_0$ $\frac{\partial C}{\partial b} = (y_0 - u\frac{1}{1 + e^{w x_0 + b}}) \cdot (\frac{u}{(1+e^{wx_0 + b})^{2}})\cdot (e^{wx_0 + b})$

となり、これらは、関数としてプログラミング可能であることがわかる。

では、実際にディープラーニングさせるためのプログラムを組んでみよう。まず、 $u,w,b$ はひとまとまりで扱っていきたいので構造体を定義する。

class UWB {
    double u;
    double w;
    double b;
}

また上記で示した偏微分関数を次のとおり定義する。

double partialCbyU(UWB uwb);
double partialCbyW(UWB uwb);
double partialCbyB(UWB uwb);

この時任意の点 $u,w,b$ からほんのすこし坂道を転げ落ちたときの点は、次の関数で求められる。

UWB next(UWB uwb, UWB delta) {
    UWB nextUWB = new UWB();
    nextUWB.u = uwb.u + ((partialCbyU(uwb) > 0)?-1:1)*delta.u;
    nextUWB.w = uwb.w + ((partialCbyU(uwb) > 0)?-1:1)*delta.w;
    nextUWB.b = uwb.b + ((partialCbyU(uwb) > 0)?-1:1)*delta.b;
    return newxtUWB;
}

この関数を繰り返し呼び出せばよいのだが、そのままでは永久ループしてしまうので、収束をプログラミング的に表現してあげなければならない。それは、次のようになる(はず！)。

static final double EPSILON = 0.0001;//適当な小さい値 
boolean isSmallEnough(UWB delta) {
    return (delta.u * delta.u + delta.w * delta.w + delta.b * delta.b) < EPSILON * EPSILON ;
}

UWB diff(UWB uwb0, UWB uwb1) {
    UWB uwb = new UWB();
    uwb.u = uwb0.u - uwb1.u;
    uwb.w = uwb0.w - uwb1.w;
    uwb.b = uwb0.b - uwb1.b;
    return uwb;
}

UWB nextDelta(UWB diff, UWB nextDiff) {
    UWB nextDelta = new UWB();
    //差の符号が逆向きになったということは、最下点を通り過ぎて振り子が帰ってきたということ。次の振れ幅を半分にする 
    nextDelta.u = (diff.u * nextDiff.u > 0)?nextDelta.u:nextDelta.u / 2;
    nextDelta.w = (diff.w * nextDiff.w > 0)?nextDelta.w:nextDelta.w / 2;
    nextDelta.b = (diff.b * nextDiff.b > 0)?nextDelta.b:nextDelta.b / 2;
}

UWB findMinimumC(UWB initialUWB, UWB initialDelta) {
    UWB uwb = initialUWB;
    UWB delta = initialDelta;
    UWB diff = delta;
    while (!isSmallEnough(delta)) {
        UWB nextUWB = next(uwb, delta);
        UWB nextDiff = diff(uwb, nextUWB);
        delta = nextDelta(diff, nextDiff);
        diff = nextDiff;
        uwb = nextUWB;
    }
    return uwb;
}

初期値として適当な $u,w,b$ を選びfindMinimumC関数を呼び出し、この時戻り値として戻ってくるUWBオブジェクトの $u,w,b$ を $f(x)$ に代入してあげれば、それが深層学習を終えた最適な関数となるのである！(時間の関係、および原理を説明するため、さらに自分の性格上の問題により、上記コードは動作確認はおろかコンパイルすらしていません。)

最後に

結局、ほとんど数式のオンパレードで、数学に関する記事のようになってしまったが、イメージしているのは、プログラマーがこの記事を読んで、「あ、おれにも、わたしにもディープラーニングのエンジンを実装することができる」と思ってもらうことである。

限られた時間で可能な限り丁寧に解説したつもりではあるが、今読み返してみても、まだまだ解説が飛躍していると感じる部分があることは否めない。

また、今回記事にしたのは、ディープラーニングの原理的な部分であって、最適なニューラルネットワーク関数を求める最新の手法については何一つ語っていない。

そして、さらにさらに注意書きを加えておきたいのは、自分自身のディープラーニングに関する勝手な理解を書いている点である。

間違った理解の可能性はあるものの、自分が得た理解からは、ディープラーニングというITにおける新しいパラダイムには大きな可能性を感じるし、それはディープラーニングがいろいろなニュースで取り上げら、もてはやされている現実とも合致する。

乗り遅れ感は強いものの、まだまだ進化の過程だと思うので、今後、さらにディープラーニングに関する知見を広げ、ビジネスに役立てていければと思う今日このごろです。

インタープリズムの面々が、普段の業務に役立つ記事を丹精込めて書き上げる！ Advent Calendar 2016 - Qiitaの21日目の記事

interprism's blog

インタープリズム株式会社の開発者ブログです。

Deep Learningを理解したつもりになったので書いてみる(後半)