『人工知能はどのようにして 「名人」を超えたのか?』の読書メモ

タイトル長いので省略

 

 

なにを知りたかったか

 

知能とか知性って?

コンピュータによる大量の計算結果に意思や感情を感じるのはなんだか不思議なものですが、これは私だけの感覚ではありません。のちのことですが、ポナンザやほかのコンピュータ将棋と戦ったプロ棋士たちも、「ここはコンピュータが焦ったのでしょう」というような、まるでコンピュータに意思や感性があるかのような発言をするようになるのです

 意識はあるように思える。

ここからは完全に私の想像ですが、さらに議論を進めると、もしかしたら「知能とは画像である」と言うことすらできるかもしれません

マルチモーダルで画像にて何かを判断できるようになれば、知能が宿ると言えるかも。

この局面でポナンザに検討させてみると、なんとわずか1秒で後手の王様が詰むことを発見できました。以前は3分かかっていたので、その効率は100倍以上です。 つまり、「将棋で勝つ」という、ある意味漠然とした目的よりも、より限定された適切な目的(Plan)を強制的に与えたことで、探索(Do)と評価(Check)がより効率的に運用されたのです。目的を設計するという力のすばらしさをわかってもらえたでしょうか

人間はPDCA(adjust)を回せるが、マシンはD,Cのみ。このマシンには知性があるとは言いにくい。

また現在、十分に学習したディープラーニングは、学習の効果が「転移」することが認められています。 学習の効果が「転移」するとは、ある程度将棋を勉強した人はチェスも強くなる、というようなものです(実際にはそううまくはいかないので、ちょっと乱暴なたとえですが)。何かの分野で獲得した知見を他の分野にも活かす、ということですね

あるジャンルのノウハウを、別 ジャンルに応用させてより良いPを導きだせるのであれば、知性といえるかもしれない。また、これは「何かを極めた人間は他の事柄に挑戦したときにも活躍できる」説と通底するものがある。

 

ponanzaで使われているアルゴリズムは?

・探索と評価→評価数は数千点

機械学習→後に強化学習。教師なし学習になった。ただし教師なし学習は雑巾絞り。

・複数コアCPU→「怠惰な並列化」((何か仕事のやり方で活かせそうで並列処理

 

 

AlphaGOで使われているアルゴリズムは?

ディープラーニングで「打ち手予測器」を作成し、その予測器同士の対戦結果からディープラーニングで「勝敗予測器」を作成した。

モンテカルロ法による勝敗予測

上記①+②を組み合わせてアンサンブル効果をうみだした。

 

将棋と他のボードゲームの違いは?

↑パターン少

|チェス…機動力が高い→コマをどれだけ盤面に残しているかが勝敗に直結

|将棋…コマが良い位置にあるか否かが勝敗に直結

囲碁…盤面の「評価」をどう捉えるかが難しい。画像として盤面を解釈できる。

↓パターン多

 

 

・評価の基準をどうするか

プロの対局した将棋の手順の記録を棋譜といいます。残念ながら、プロ棋士がその局面をよいと思っていたか、悪いと思っていたかの情報はありません。そういった情報があれば、現在の局面をプロ棋士がどれくらいよいと思っていたかの情報をもとに学習できるのですが……。

映画を見ている時の人間の感情を映画脚本化にフィードバックできたらいいのにって思った。それを基準に面白い映画を人間が作れるようになる。

 

・還元主義⇔黒魔術

ディープラーニングは還元主義として分析できないため、科学ではない。

以前の機械学習の現場では、数理的な数式を使った説明がたくさんありました。しかし最近の機械学習の文脈では、数式ではなく、「ディープラーニングの気持ち」について語る人が増えたと思います。 複雑過ぎて数理が見えないものに対して、人間は「気持ち」で推し量るしかないのでしょうね。私も将棋プログラムについて考えるときには、数理よりも「ポナンザの気持ちについて」推し量ることが多くなっています。 別分野の科学者にそうした状況を解説したところ、「人工知能は科学ではない」と言われたことがあります。私はその言葉に非常に納得しました。もちろん、その人は人工知能のことを批判する意味で言ったわけではありません。要素を切り分けて個別に理解していくという、還元主義的な科学の思想とは相容れないことを指摘したのです

 ・最初から教師なし学習はキツイ

しかし忘れてはいけないのは、将棋で強化学習が可能になったのは、すでに強化学習前のプログラムがある程度強かったからだ、ということです。つまり、プロ棋士棋譜で事前に教師あり学習をして十分強くなっていたことが強化学習が成功した大きな理由の1つだったのです。まったく知識がない状態からの強化学習も可能かもしれませんが、その場合はある程度強くなるのに途方もない時間がかかるでしょう。プロ棋士棋譜をもとにすることが、「強化学習」を現実的なレベルで可能にしたのです。 人工知能の開発においては、必ず大量のデータが必要になるのです。そのうえで、最初は「教師あり学習」。そしてその後は「強化学習」に移るはずです。この流れは今後人工知能が普及するなか、さまざまな場面で出てくると思います。ぜひ覚えておいてください

守破離A.I.にも存在する。 

 

ディープラーニング職人

チャネルは192個がいちばんいいのか、レイヤーは13層が最適なのか、それも最初はわからない。ディープマインド社ではチャネルを128、192、256……といくつか試してみていちばんよかったのを採用する、とかそういうことをしているようです。ディープラーニング職人は、そういうのを毎日地道に調整してるんですよ(笑)。ほかに、論文には書いていないこともいろいろ試しているはずです

21世紀にはそういう職人が居るらしい。

 ・漫画的な展開

現在世界トップの柯潔という中国の天才棋士がいるんですけど、彼は第1局でイ・セドルが負けたときは、「アルファ碁はイ・セドルに勝てても私には勝てない」とか言ってたんですよ。 山本 あ、その人知ってる。すごい強気発言だったよね。第2局が終わったときも「イ・セドルは人類を代表して戦う資格がない」とか言ってた。 大橋 まあ、本当にめちゃくちゃ強い棋士なんだけどね。それが、第3局が終わったら「自分の勝利の可能性は5%に落ちた」とか言い始めた(笑)

 ・初めはプロの打ち筋予測から始まった

加藤 DQNを使ったプログラムは、スペースインベーダーブロック崩しの画像とコントローラを与えたら、勝手に学んで、人間のプロに勝つまで強くなった、と記事で読んだことがあります。その会社をグーグルが買収して、アルファ碁を作ったんですよね

山本 そう、その方法でアルファ碁はプロの手を膨大な棋譜から学んだんですよ。そうしてある局面を与えたら、次にプロが打つ手を57%くらいの確率で予測できるようになった

 ここを作ることを目的に何かをスタートさせることは敷居が低くて楽しそう。最初から囲碁A.I.を作るのは疲れそう。