coding-blocks-archives
diff --git a/‎class_24/.ipynb_checkpoints/BasicRL-checkpoint.ipynb
+399 b/‎class_24/.ipynb_checkpoints/BasicRL-checkpoint.ipynb
+399
@@ -0,0 +1,399 @@
+{
+ "cells": [
+  {
+   "cell_type": "code",
+   "execution_count": 25,
+   "metadata": {
+    "collapsed": true
+   },
+   "outputs": [],
+   "source": [
+    "import random\n",
+    "import numpy as np\n",
+    "from matplotlib import pyplot as plt\n",
+    "%matplotlib inline"
+   ]
+  },
+  {
+   "cell_type": "code",
+   "execution_count": 33,
+   "metadata": {
+    "collapsed": true
+   },
+   "outputs": [],
+   "source": [
+    "NODES = 6\n",
+    "GOAL = 4\n",
+    "\n",
+    "ALPHA = 0.01\n",
+    "GAMMA = 0.9"
+   ]
+  },
+  {
+   "cell_type": "code",
+   "execution_count": 40,
+   "metadata": {
+    "collapsed": false
+   },
+   "outputs": [],
+   "source": [
+    "#for ix in range(6):\n",
+    "#    for iy in range(6):\n",
+    "#        print \"(\" + str(ix) + \", \" + str(iy) + \"): 0,\"\n",
+    "\n",
+    "# Reward function\n",
+    "R = {\n",
+    "(0, 1): 0,\n",
+    "(0, 2): 0,\n",
+    "(0, 5): -4,\n",
+    "(1, 0): -1,\n",
+    "(1, 2): 5,\n",
+    "(1, 3): 2,\n",
+    "(1, 5): 0,\n",
+    "(2, 0): -5,\n",
+    "(2, 1): 0,\n",
+    "(2, 3): 10,\n",
+    "(2, 5): 8,\n",
+    "(3, 0): 5,\n",
+    "(3, 1): -3,\n",
+    "(3, 2): 4,\n",
+    "(3, 4): 50,\n",
+    "(3, 5): 2,\n",
+    "(4, 0): -10,\n",
+    "(4, 1): -5,\n",
+    "(4, 2): -20,\n",
+    "(4, 3): 0,\n",
+    "(4, 4): 100,\n",
+    "(4, 5): -50,\n",
+    "(5, 0): -15,\n",
+    "(5, 1): 2,\n",
+    "(5, 2): 7,\n",
+    "(5, 3): 0,\n",
+    "(5, 4): 70,\n",
+    "}\n",
+    "\n",
+    "Q = {}"
+   ]
+  },
+  {
+   "cell_type": "code",
+   "execution_count": 41,
+   "metadata": {
+    "collapsed": false,
+    "scrolled": true
+   },
+   "outputs": [],
+   "source": [
+    "def get_actions(current):\n",
+    "    actions = []\n",
+    "    for rx in xrange(NODES):\n",
+    "        if (current, rx) in R:\n",
+    "            actions.append(rx)\n",
+    "    return actions\n",
+    "\n",
+    "# get_actions(4)"
+   ]
+  },
+  {
+   "cell_type": "code",
+   "execution_count": 42,
+   "metadata": {
+    "collapsed": false,
+    "scrolled": false
+   },
+   "outputs": [
+    {
+     "name": "stdout",
+     "output_type": "stream",
+     "text": [
+      "Episode: 0 | Reward: 53\n",
+      "Episode: 1 | Reward: 33\n",
+      "Episode: 2 | Reward: 29\n",
+      "Episode: 3 | Reward: 116\n",
+      "Episode: 4 | Reward: 84\n",
+      "Episode: 5 | Reward: 5\n",
+      "Episode: 6 | Reward: 25\n",
+      "Episode: 7 | Reward: 182\n",
+      "Episode: 8 | Reward: 145\n",
+      "Episode: 9 | Reward: 49\n",
+      "Episode: 10 | Reward: 165\n",
+      "Episode: 11 | Reward: 19\n",
+      "Episode: 12 | Reward: -5\n",
+      "Episode: 13 | Reward: -11\n",
+      "Episode: 14 | Reward: 10\n",
+      "Episode: 15 | Reward: 3\n",
+      "Episode: 16 | Reward: 59\n",
+      "Episode: 17 | Reward: -22\n",
+      "Episode: 18 | Reward: 11\n",
+      "Episode: 19 | Reward: 15\n",
+      "Episode: 20 | Reward: 7\n",
+      "Episode: 21 | Reward: 177\n",
+      "Episode: 22 | Reward: 70\n",
+      "Episode: 23 | Reward: 85\n",
+      "Episode: 24 | Reward: 69\n",
+      "Episode: 25 | Reward: 214\n",
+      "Episode: 26 | Reward: 4\n",
+      "Episode: 27 | Reward: 62\n",
+      "Episode: 28 | Reward: 18\n",
+      "Episode: 29 | Reward: 94\n",
+      "Episode: 30 | Reward: 51\n",
+      "Episode: 31 | Reward: 146\n",
+      "Episode: 32 | Reward: 4\n",
+      "Episode: 33 | Reward: 3\n",
+      "Episode: 34 | Reward: -5\n",
+      "Episode: 35 | Reward: 102\n",
+      "Episode: 36 | Reward: -4\n",
+      "Episode: 37 | Reward: 52\n",
+      "Episode: 38 | Reward: 1\n",
+      "Episode: 39 | Reward: -3\n",
+      "Episode: 40 | Reward: 203\n",
+      "Episode: 41 | Reward: 24\n",
+      "Episode: 42 | Reward: 6\n",
+      "Episode: 43 | Reward: -1\n",
+      "Episode: 44 | Reward: 210\n",
+      "Episode: 45 | Reward: 84\n",
+      "Episode: 46 | Reward: 127\n",
+      "Episode: 47 | Reward: 175\n",
+      "Episode: 48 | Reward: 11\n",
+      "Episode: 49 | Reward: 144\n",
+      "Episode: 50 | Reward: 26\n",
+      "Episode: 51 | Reward: 30\n",
+      "Episode: 52 | Reward: -19\n",
+      "Episode: 53 | Reward: 101\n",
+      "Episode: 54 | Reward: 0\n",
+      "Episode: 55 | Reward: 12\n",
+      "Episode: 56 | Reward: -4\n",
+      "Episode: 57 | Reward: 85\n",
+      "Episode: 58 | Reward: -5\n",
+      "Episode: 59 | Reward: -3\n",
+      "Episode: 60 | Reward: 52\n",
+      "Episode: 61 | Reward: 34\n",
+      "Episode: 62 | Reward: 1\n",
+      "Episode: 63 | Reward: 57\n",
+      "Episode: 64 | Reward: 69\n",
+      "Episode: 65 | Reward: 7\n",
+      "Episode: 66 | Reward: 7\n",
+      "Episode: 67 | Reward: 1\n",
+      "Episode: 68 | Reward: 11\n",
+      "Episode: 69 | Reward: 100\n",
+      "Episode: 70 | Reward: 47\n",
+      "Episode: 71 | Reward: 21\n",
+      "Episode: 72 | Reward: 168\n",
+      "Episode: 73 | Reward: 13\n",
+      "Episode: 74 | Reward: 78\n",
+      "Episode: 75 | Reward: -2\n",
+      "Episode: 76 | Reward: 301\n",
+      "Episode: 77 | Reward: 251\n",
+      "Episode: 78 | Reward: 28\n",
+      "Episode: 79 | Reward: 21\n",
+      "Episode: 80 | Reward: -13\n",
+      "Episode: 81 | Reward: 28\n",
+      "Episode: 82 | Reward: 31\n",
+      "Episode: 83 | Reward: -25\n",
+      "Episode: 84 | Reward: 10\n",
+      "Episode: 85 | Reward: 8\n",
+      "Episode: 86 | Reward: 81\n",
+      "Episode: 87 | Reward: 14\n",
+      "Episode: 88 | Reward: 15\n",
+      "Episode: 89 | Reward: 27\n",
+      "Episode: 90 | Reward: 16\n",
+      "Episode: 91 | Reward: 117\n",
+      "Episode: 92 | Reward: 21\n",
+      "Episode: 93 | Reward: 61\n",
+      "Episode: 94 | Reward: -12\n",
+      "Episode: 95 | Reward: 98\n",
+      "Episode: 96 | Reward: -15\n",
+      "Episode: 97 | Reward: 63\n",
+      "Episode: 98 | Reward: 37\n",
+      "Episode: 99 | Reward: 2\n"
+     ]
+    }
+   ],
+   "source": [
+    "N_ep = 100\n",
+    "\n",
+    "for ep in range(N_ep):\n",
+    "    pos = 0\n",
+    "    rew = 0\n",
+    "    \n",
+    "    # while not pos == GOAL:\n",
+    "    for kx in range(10):\n",
+    "        # print pos\n",
+    "        p_act = get_actions(pos)\n",
+    "        \n",
+    "        best_ac = []\n",
+    "        q_best = None\n",
+    "        \n",
+    "        for ac in p_act:\n",
+    "            rq = Q.setdefault((pos, ac), 0)\n",
+    "            if rq > q_best:\n",
+    "                q_best = rq\n",
+    "                best = [ac]\n",
+    "            elif rq == q_best:\n",
+    "                best.append(ac)\n",
+    "        \n",
+    "        nxt_pos = random.choice(p_act)\n",
+    "        nxt_p_ac = get_actions(nxt_pos)\n",
+    "        \n",
+    "        nq_best = None\n",
+    "        \n",
+    "        for ac in nxt_p_ac:\n",
+    "            rq = Q.setdefault((nxt_pos, ac), 0)\n",
+    "            nq_best = max(nq_best, rq)\n",
+    "        \n",
+    "        Q[(pos, nxt_pos)] = (1- ALPHA)*Q[(pos, nxt_pos)] + ALPHA*(R[(pos, nxt_pos)] + GAMMA*nq_best)\n",
+    "        rew += R[(pos, nxt_pos)]\n",
+    "        pos = nxt_pos\n",
+    "    print \"Episode:\", ep, \"| Reward:\", rew"
+   ]
+  },
+  {
+   "cell_type": "code",
+   "execution_count": 43,
+   "metadata": {
+    "collapsed": false
+   },
+   "outputs": [
+    {
+     "data": {
+      "text/plain": [
+       "{(0, 1): 1.0527522119424737,\n",
+       " (0, 2): 1.7765083795300343,\n",
+       " (0, 5): 5.210843889083548,\n",
+       " (1, 0): 0.0391664790275139,\n",
+       " (1, 2): 2.6955696115274415,\n",
+       " (1, 3): 3.156196226973814,\n",
+       " (1, 5): 4.963970280138251,\n",
+       " (2, 0): -1.3609407399152875,\n",
+       " (2, 1): 0.5589380241903006,\n",
+       " (2, 3): 5.812972573178521,\n",
+       " (2, 5): 7.301826243368765,\n",
+       " (3, 0): 1.4065845289178485,\n",
+       " (3, 1): -0.25803609254372506,\n",
+       " (3, 2): 1.7033928867280708,\n",
+       " (3, 4): 11.208298009811994,\n",
+       " (3, 5): 3.5555140878750735,\n",
+       " (4, 0): -1.0076784500262796,\n",
+       " (4, 1): -0.30127326885017214,\n",
+       " (4, 2): -2.017800766935019,\n",
+       " (4, 3): 0.5506222723837432,\n",
+       " (4, 4): 17.84781294854947,\n",
+       " (4, 5): -3.771335058692992,\n",
+       " (5, 0): -4.208275309248176,\n",
+       " (5, 1): 1.2881067744708923,\n",
+       " (5, 2): 2.852172356891487,\n",
+       " (5, 3): 1.9640566727660835,\n",
+       " (5, 4): 26.060782382076916}"
+      ]
+     },
+     "execution_count": 43,
+     "metadata": {},
+     "output_type": "execute_result"
+    }
+   ],
+   "source": [
+    "#plt.figure(0)\n",
+    "#for ix in range(NODES):\n",
+    "#    for iy in range(NODES):\n",
+    "#        plt.subplot(NODES, NODES)\n",
+    "Q"
+   ]
+  },
+  {
+   "cell_type": "code",
+   "execution_count": 39,
+   "metadata": {
+    "collapsed": false
+   },
+   "outputs": [
+    {
+     "name": "stdout",
+     "output_type": "stream",
+     "text": [
+      "0\n",
+      "5\n",
+      "Episode: 0 | Reward: 66\n",
+      "0\n",
+      "5\n",
+      "Episode: 1 | Reward: 66\n",
+      "0\n",
+      "5\n",
+      "Episode: 2 | Reward: 66\n",
+      "0\n",
+      "5\n",
+      "Episode: 3 | Reward: 66\n",
+      "0\n",
+      "5\n",
+      "Episode: 4 | Reward: 66\n"
+     ]
+    }
+   ],
+   "source": [
+    "N_ep = 5\n",
+    "\n",
+    "for ep in range(N_ep):\n",
+    "    pos = 0\n",
+    "    rew = 0\n",
+    "    \n",
+    "    while not pos == GOAL:\n",
+    "        print pos\n",
+    "        p_act = get_actions(pos)\n",
+    "        \n",
+    "        best_ac = []\n",
+    "        q_best = None\n",
+    "        \n",
+    "        for ac in p_act:\n",
+    "            rq = Q.setdefault((pos, ac), 0)\n",
+    "            if rq > q_best:\n",
+    "                q_best = rq\n",
+    "                best = [ac]\n",
+    "            elif rq == q_best:\n",
+    "                best.append(ac)\n",
+    "        \n",
+    "        nxt_pos = random.choice(best)\n",
+    "        nxt_p_ac = get_actions(nxt_pos)\n",
+    "        \n",
+    "        nq_best = None\n",
+    "        \n",
+    "        for ac in nxt_p_ac:\n",
+    "            rq = Q.setdefault((nxt_pos, ac), 0)\n",
+    "            nq_best = max(nq_best, rq)\n",
+    "        \n",
+    "        Q[(pos, nxt_pos)] = (1- ALPHA)*Q[(pos, nxt_pos)] + ALPHA*(R[(pos, nxt_pos)] + GAMMA*nq_best)\n",
+    "        rew += R[(pos, nxt_pos)]\n",
+    "        pos = nxt_pos\n",
+    "    print \"Episode:\", ep, \"| Reward:\", rew"
+   ]
+  },
+  {
+   "cell_type": "code",
+   "execution_count": null,
+   "metadata": {
+    "collapsed": true
+   },
+   "outputs": [],
+   "source": []
+  }
+ ],
+ "metadata": {
+  "kernelspec": {
+   "display_name": "Python 2",
+   "language": "python",
+   "name": "python2"
+  },
+  "language_info": {
+   "codemirror_mode": {
+    "name": "ipython",
+    "version": 2
+   },
+   "file_extension": ".py",
+   "mimetype": "text/x-python",
+   "name": "python",
+   "nbconvert_exporter": "python",
+   "pygments_lexer": "ipython2",
+   "version": "2.7.12"
+  }
+ },
+ "nbformat": 4,
+ "nbformat_minor": 2
+}