codingalzi
diff --git a/‎classification.ipynb‎
Lines changed: 71 additions & 86 deletions b/‎classification.ipynb‎
Lines changed: 71 additions & 86 deletions
@@ -330,7 +330,7 @@
    },
    "source": [
     "**혼동 행렬**<font size=\"2\">confusion matrix</font>은 클래스별 예측 결과를 정리한 행렬이다.\n",
-    "훈련이 완료된 이진 분류기인 숫자-5 감별기에 대한 혼동 행렬은 아래와 같은 (2, 2) 모양의 2차원 (넘파이) 어레이로 생성된다.\n",
+    "훈련이 완료된 이진 분류기인 숫자-5 감별기(`sgd_clf`)에 대한 혼동 행렬은 아래와 같은 (2, 2) 모양의 2차원 (넘파이) 어레이로 생성된다.\n",
     "\n",
     "```python\n",
     "array([[53892,   687],\n",
@@ -343,24 +343,28 @@
    "id": "c13a99d4",
    "metadata": {},
    "source": [
+    ":::{prf:example} 혼동 행렬 예제\n",
+    ":label: exp_confusion_matrix\n",
+    "\n",
     "아래 그림은 혼동 행렬에 포함된 각 정수의 의미를 설명하기 위해\n",
     "숫자-5 감별기의 판정 결과를 단순화해서 보여준다. \n",
     "\n",
     "<p><div align=\"center\"><img src=\"https://github.com/codingalzi/code-workout-ml/blob/master/images/ch03/homl03-02.png?raw=true\" width=\"500\"/></div></p>\n",
     "\n",
-    "아래 표는 위 그림에 포함된 용어와 각 칸에 포함된 손글씨 이미지들에 대한 설명을 담고 있다.\n",
+    "아래 표는 위 그림에 포함된 각 칸을 가리키는 용어와 칸에 포함된 손글씨 이미지들에 대해 설명한다.\n",
     "\n",
     "| 분류 | 예측: 음성 (5 아니라고 판정) | 예측: 양성 (5라고 판정) |\n",
     "| :--- | :--- | :--- |\n",
     "| 실제: 음성<br>(5가 아님) | TN (참 음성, True Negative)<br>5가 아닌 숫자를 5가 아니라고 정확히 예측<br>(예: 8, 3, 9, 7, 2) | FP (거짓 양성, False Positive)<br>5가 아닌 숫자를 5라고 잘못 예측<br>(예: 6) |\n",
     "| 실제: 양성<br>(5임) | FN (거짓 음성, False Negative)<br>실제 5인 숫자를 5가 아니라고 잘못 예측 | TP (참 양성, True Positive)<br>실제 5인 숫자를 5라고 정확히 예측 |\n",
     "\n",
-    "위 그림을 토대로한 혼동 행렬은 다음과 같이 작성된다.\n",
+    "위 단순화된 그림을 토대로한 혼동 행렬은 다음과 같이 작성된다.\n",
     "\n",
     "```python\n",
     "array([[5, 1],\n",
     "       [2, 3]])\n",
-    "```"
+    "```\n",
+    ":::"
    ]
   },
   {
@@ -377,12 +381,12 @@
    "metadata": {},
    "source": [
     "**정확도**<font size='2'>accuracy</font>는 라벨을 정확하기 맞힌 비율이다.\n",
-    "훈련된 SGD 분류기의 정확도는 다음과 같이 96% 정도로 매우 높게 계산된다.\n",
+    "훈련된 SGD 분류기(`sgd_clf`)의 정확도는 96% 정도로 매우 높게 계산된다.\n",
     "\n",
     "```\n",
-    "accuracy = (TP + TN)/(TP+FP+TN+FN)\n",
-    "         = (3530 + 53892)/(3530 + 687 + 53892 + 1891)\n",
-    "         = 0.957\n",
+    "sgd_clf_accuracy = (TP + TN)/(TP+FP+TN+FN)\n",
+    "                 = (3530 + 53892)/(3530 + 687 + 53892 + 1891)\n",
+    "                 = 0.957\n",
     "```"
    ]
   },
@@ -426,7 +430,7 @@
     "여기서는 숫자 5라고 예측된 값들 중에서 진짜로 5인 숫자들의 비율이다. \n",
     "\n",
     "```\n",
-    "precision = TP / (TP + FP) = 3530 / (3530 + 687) = 0.837\n",
+    "sgd_clf_precision = TP / (TP + FP) = 3530 / (3530 + 687) = 0.837\n",
     "```"
    ]
   },
@@ -444,7 +448,7 @@
     "**참 양성 비율**<font size=\"2\">true positive rate</font>로도 불린다.\n",
     "\n",
     "```\n",
-    "recall = TP / (TP + FN) = 3530 / (3530 + 1891) = 0.651\n",
+    "sgd_clf_recall = TP / (TP + FN) = 3530 / (3530 + 1891) = 0.651\n",
     "```"
    ]
   },
@@ -457,45 +461,76 @@
     }
    },
    "source": [
-    "**정밀도와 재현율의 상대적 중요도**"
+    "**정밀도와 재현율의 상대적 중요도**\n",
+    "\n",
+    "모델 사용의 목적에 따라 정밀도와 재현율의 중요도가 다를 수 있다.\n",
+    "\n",
+    "* 재현율이 보다 중요한 경우: 암진단. 예측이 틀리면 큰 책임이 따름.\n",
+    "    * 정밀도: 암이 있다고 진단된 경우 중에 실제로도 암이 있는 경우의 비율\n",
+    "    * 재현율: 암을 암으로 정확히 판정하는 비율\n",
+    "    * 다른 예제: 금융 사기 여부(금융 사기를 금융 사기라고 판정하는 비율이 높아야 함)\n",
+    "\n",
+    "* 정밀도가 보다 중요한 경우: 아이에게 보여줄 안전한 동영상 선택. \n",
+    "    * 정밀도: 안전하다고 판단된 동영상 중에서 실제로도 안전한 동영상의 비율.\n",
+    "        안전하지 않은 동영상이 잘못 안전하다고 판정되는 경우가 낮아야 함.\n",
+    "    * 재현율: 실제로 안전한 동영상 중에서 안전한 동영상이라고 판정되는 동영상의 비율\n",
+    "    * 다른 예제: 스팸 필터링 (스팸이 아닌 것을 스팸으로 판정하는 비율이 낮아야 함)"
    ]
   },
   {
    "cell_type": "markdown",
-   "id": "5252ed31-ce2e-48d1-a9b4-f4c9cfe7198b",
+   "id": "7a0488fb",
    "metadata": {},
    "source": [
-    "모델 사용의 목적에 따라 정밀도와 재현율의 중요도가 다를 수 있다.\n",
-    "\n",
-    "* 재현율이 보다 중요한 경우: 암진단처럼 예측이 틀렸을 경우 큰 책임이 따르는 경우. \n",
-    "    * 정밀도: 암이 있다고 진단된 경우 중에 실제로도 암이 있는 경우의 비율\n",
-    "    * 재현율: 암으로 판정해야 하는 경우 중에서 양성 암진단으로 결론내린 경우의 비율\n",
-    "    * 다른 예제: 금융 사기 여부, 태풍 예보\n",
-    "\n",
-    "* 정밀도가 보다 중요한 경우: 아이에게 보여줄 안전한 동영상 선택처럼 일부 양성 모델을 놓치더라도 음성이 양성으로 판정되는 경우가 적어야 하는 경우.\n",
-    "    * 정밀도: 안전하다고 판단된 동영상 중에서 실제로도 안전한 동영상의 비율\n",
-    "    * 재현율: 실제로 좋은 동영상 중에서 좋은 동영상이라고 판정되는 동영상 비율\n",
-    "    * 다른 예제: 스팸 필터링"
+    "### 정밀도와 재현율의 상호 반비례 관계"
    ]
   },
   {
    "cell_type": "markdown",
-   "id": "7a0488fb",
+   "id": "2033457c",
    "metadata": {},
    "source": [
-    "### 정밀도와 재현율의 상충관계"
+    "**결정 함수와 결정 임계값**"
    ]
   },
   {
    "cell_type": "markdown",
    "id": "f8d66bc2-144a-4887-bca2-f59852453003",
    "metadata": {},
    "source": [
-    "분류기의 **결정 함수**<font size=\"2\">decision function</font>는 각 샘플에 대해 점수를 계산하며\n",
-    "이 점수가 **결정 임계값**<font size=\"2\">decision threshold</font>보다\n",
+    "훈련된 이진 분류기는 각 샘플에 대해\n",
+    "범주를 구분하기 위한 용도의 점수를 계산하는\n",
+    "**결정 함수**<font size=\"2\">decision function</font>라는\n",
+    "메서드를 포함한다.\n",
+    "이진 분류기는 이 점수가 **결정 임계값**<font size=\"2\">decision threshold</font>보다\n",
     "같거나 크면 양성, 아니면 음성으로 판단한다.\n",
+    "\n",
     "예를 들어 `SGDClassifier`는 `decision_function()` 메서드를 결정 함수로 이용하며,\n",
-    "결정 함숫값이 0보다 작으면 음성, 0보다 같거나 크면 양성으로 판정한다."
+    "결정 함숫값이 0보다 작으면 음성, 0보다 같거나 크면 양성으로 판정한다.\n",
+    "처음 10개 샘플에 대한 `sgd_clf`의 결정 함숫값은 다음과 같이\n",
+    "첫째 샘플의 결정 함숫값만 양수이고 나머지 9개는 음수다.\n",
+    "따라서 첫째 샘플만 5로 판정되고 나머자 9개는 5가 아니다라고 판정된다.\n",
+    "\n",
+    "```python\n",
+    "array([1200.93051237,\n",
+    "       -26883.79202424,\n",
+    "       -33072.03475406,\n",
+    "       -15919.5480689,\n",
+    "       -20003.53970191,\n",
+    "       -16652.87731528,\n",
+    "       -14276.86944263,\n",
+    "       -23328.13728948,\n",
+    "       -5172.79611432,\n",
+    "       -13873.5025381  ])\n",
+    "```"
+   ]
+  },
+  {
+   "cell_type": "markdown",
+   "id": "64f327cf",
+   "metadata": {},
+   "source": [
+    "**트레이드오프 관계**"
    ]
   },
   {
@@ -509,7 +544,7 @@
    },
    "source": [
     "정밀도와 재현율은 상호 반비례 관계이다.\n",
-    "즉, 한쪽이 증가하면 다른쪽이 감소하는 상충 관계이다.\n",
+    "즉, 한쪽이 증가하면 다른쪽이 감소하는 tradeoff(트레이드오프) 관계이다.\n",
     "따라서 정밀도와 재현율 사이의 적절한 비율을 유지하는 분류기를 찾아야 한다. \n",
     "정밀도와 재현율의 비율은 모델이 사용하는 **결정 임곗값**에 따라 달라진다."
    ]
@@ -536,7 +571,7 @@
     }
    },
    "source": [
-    ":::{prf:example} 정밀도와 재현율의 트레이드오프\n",
+    ":::{prf:example} 정밀도와 재현율의 상충관계\n",
     ":label: exp_decision_threshold\n",
     "\n",
     "아래 그림에서 세 개의 화살표 (a), (b), (c)는 서로 다른 결정 임곗값을 가리키며, \n",
@@ -557,57 +592,6 @@
     ":::"
    ]
   },
-  {
-   "cell_type": "markdown",
-   "id": "0ea2d0ce",
-   "metadata": {},
-   "source": [
-    "**결정 함수와 결정 임곗값**"
-   ]
-  },
-  {
-   "cell_type": "markdown",
-   "id": "e37d737d",
-   "metadata": {},
-   "source": [
-    "결정 함수<font size='2'>decision function</font>는 \n",
-    "분류 모델이 주어진 데이터 샘플의 클래스를 판별하기 위해 내부적으로 \n",
-    "각 샘플에 대해 점수를 계산할 때 사용하는 메서드(함수)다. \n",
-    "양성 예측의 기준이 되는 **결정 임곗값**<font size='2'>decision threshold</font>과\n",
-    "이 점수를 비교하여, 결정 함숫값이 임곗값보다 같거나 크면 양성, 작으면 음성으로 판정한다.\n",
-    "\n",
-    "결정 임곗값을 높이면 양성으로 판정받기 어려워져 정밀도는 올라가고 재현율은 떨어집니다. 반대로 임곗값을 낮추면 양성 판정이 쉬워져 정밀도는 떨어지고 재현율은 올라가게 됩니다."
-   ]
-  },
-  {
-   "cell_type": "markdown",
-   "id": "a2a7b224-c8cc-4bcb-8ae4-21f57a901ab8",
-   "metadata": {},
-   "source": [
-    "예를 들어 처음 10개 샘플에 대한 결정 함숫값은 다음과 같다.\n",
-    "첫째 샘플의 결정 함숫값만 양수이고 나머지 9개는 음수다.\n",
-    "따라서 첫째 샘플만 5로 판정되고 나머자 9개는 5가 아니다라고 판정된다."
-   ]
-  },
-  {
-   "cell_type": "markdown",
-   "id": "fa57bc47-24cc-4906-a1de-5472d2af870f",
-   "metadata": {},
-   "source": [
-    "```\n",
-    "array([1200.93051237,\n",
-    "       -26883.79202424,\n",
-    "       -33072.03475406,\n",
-    "       -15919.5480689,\n",
-    "       -20003.53970191,\n",
-    "       -16652.87731528,\n",
-    "       -14276.86944263,\n",
-    "       -23328.13728948,\n",
-    "       -5172.79611432,\n",
-    "       -13873.5025381  ])\n",
-    "```"
-   ]
-  },
   {
    "cell_type": "markdown",
    "id": "daa6163e-4add-47e4-a24e-bddbc91614c0",
@@ -625,9 +609,11 @@
    "id": "f49d4346-6e7d-46b0-ad1f-432cb93a7459",
    "metadata": {},
    "source": [
-    "아래 그래프는 `SGDClassifier` 모델을 숫자-5 감별기로 훈련시킨 결과를 이용한다.\n",
-    "그래프는 x-축의 결정 임곗값에 따른 정밀도와 재현율의 변화를 보여준다.\n",
-    "결정 임곗값이 커질 때 정밀도가 순간적으로 떨어질 수 있지만 결국엔 계속해서 상승한다."
+    "아래 그래프는 훈련된 숫자-5 감별기 `sgd_clf`가 계산한\n",
+    "샘플들의 결정 함숫값을 활용하여\n",
+    "결정 임곗값에 따른 정밀도와 재현율의 변화를 보여준다.\n",
+    "결정 임곗값이 커질 때 정밀도가 순간 떨어질 수 있지만 결국엔 계속\n",
+    "상승해서 1.0에 다달한다."
    ]
   },
   {
@@ -643,8 +629,7 @@
    "id": "db03ad67-9773-4106-86d0-2257325f76ac",
    "metadata": {},
    "source": [
-    "`SGDClassifier` 는 0을 결정 임곗값으로 사용하기에 정밀도는 84% 정도, 재현율은 65% 정도다.\n",
-    "반면에 검정 수직 점선은 정밀도는 90%, 재현율은 50% 정도가 되게 하는 결정 임곗값을 보여준다.\n",
+    "위 그래프에서 검정 수직 점선은 정밀도는 90%, 재현율은 50% 정도가 되게 하는 결정 임곗값을 보여준다.\n",
     "결정 임곗값을 변경하여 원하는 정밀도와 재현율을 갖는 숫자-5 감별기를 구현하려면 \n",
     "수동으로 분류기를 구현해야 한다 ([90% 정밀도 분류기 구현](https://colab.research.google.com/github/codingalzi/handson-ml3/blob/master/notebooks/code_classification.ipynb#scrollTo=cKfpQLyuCHkf) 참고)."
    ]