다음 중 틀린 것을 모두 고르시오.
1. | KNN: 게으른 학습 또는 사례중심 학습이라고 한다. |
---|---|
2. | KNN: 데이터의 차원이 증가하면 차원의 저주 문제가 발생한다. |
3. | KNN: 탐색할 이웃의 수(K)가 클 수록 과적합이 발생한다. |
4. | KNN: 학습데이터 내에 끼어있는 노이즈의 영향을 크게 받지 않는다. |
5. | KNN: 최적 이웃의 수(K)와 거리 척도(distance metric)는 연구자가 실험 결과에 따라 임의로 선정한다. |
6. | 의사 결정 나무(DT): 모든 샘플이 한 클래스에 속한다면 지니 불순도는 0이다. |
7. | DT: 의사 결정 나무는 지니 불순도를 최대화하도록 학습한다. |
8. | DT: 샘플들의 클래스가 균등하게 분포되어 있다면 지니 불순도는 최대가 된다. |
9. | DT: 지니 불순도를 통해 의사 결정 나무가 변수 공간을 잘 나누었는지 평가할 수 있다. |
10. | DT: 전역 최적을 달성할 수 있는 모델이다. |
11. | DT: 나무의 깊이가 깊어질 수록 더욱 복잡한 관계를 표현 가능하다. |
12. | 새로운 관측 데이터에 대해 모델이 얼마나 잘 동작하는지를 의미하는 용어를 generalizability라고 한다. |
13. | regression 모델은 classification을 수행할 수 없다. |
14. | Training data는 feature vector를 포함한다. |
15. | precision과 recall을 더하면 항상 1이 된다. |
16. | precision과 recall을 산술평균한 값을 F1 score라고 부른다. |
17. | 모든 케이스를 positive로 예측하면 recall을 1로 만들 수 있다. |
18. | 모델이 랜덤으로 결과를 낸다면 ROC AUC는 0.5가 된다. |
19. | ROC AUC의 값이 클수록 일반적으로 더 좋은 분류 모델이다. |
20. | 서로 다른 분류 모델을 하나의 수치로 비교하기 위해 ROC AUC가 쓰일 수 있다. |
오차 +- 1개까지 정답으로 인정
아래 이미지에 대해 성능 지표 수치를 작성하라.
(1) sensitivity:
(2) specificity:
(3) negative predictive value:
(4) precision:
(5) F1 score:
각 0.2점