遅延報酬問題 ("distal reward problem", Hull 1943)、貢献度分配問題("credit assignment problem", Minsky 1963; Barto et al. 1983; Houk, Adams, Barto 1995; Sutton and Barto 1998)なんてのが出てきた。ドーパミン報酬によるSTDP則学習をごにょごにょやっていたら出てきた。また悩みの種が増えた。どちらも50年以上前から言われている問題だそうで、今頃ぼやくなと言われそうだが知らなかったんだよ。
遅延報酬問題ってのは、生物がなんか刺激を受けるとか行動をするとかした後、それが良かったときに報酬(ドーパミンが出る)をもらい、そのおかげでシナプス結合が長期的に強化される(シナプス可塑性)ことについての問題。報酬がもらえるのは刺激を受けてから数秒後くらいのオーダーなのに、高々100ミリ秒くらいで終わってしまうニューロン内のふるまいにどうして影響できるのか謎だってこと。
貢献度分配問題は、生物がなんか行動をしてそれが良かったときに、どの行動が貢献したのかが分からないという問題。直前の行動が良かったのかもしれないし、5秒前にした行動が良くて、4秒前から直前までした行動はどうでも良かったのかもしれない。貢献したのが直前の行動なのか、5秒前の行動なのかどうやって分かるのってこと。
いろいろ解決策は提案されているけど、生理学的もっともらしさ(plausibleか)がある決定的な方法はまだない。
0 件のコメント:
コメントを投稿