문제 1

다음 중 틀린 것을 모두 고르시오.

1. KNN: 게으른 학습 또는 사례중심 학습이라고 한다.
2. KNN: 데이터의 차원이 증가하면 차원의 저주 문제가 발생한다.
3. KNN: 탐색할 이웃의 수(K)가 클 수록 과적합이 발생한다.
4. KNN: 학습데이터 내에 끼어있는 노이즈의 영향을 크게 받지 않는다.
5. KNN: 최적 이웃의 수(K)와 거리 척도(distance metric)는 연구자가 실험 결과에 따라 임의로 선정한다.
6. 의사 결정 나무(DT): 모든 샘플이 한 클래스에 속한다면 지니 불순도는 0이다.
7. DT: 의사 결정 나무는 지니 불순도를 최대화하도록 학습한다.
8. DT: 샘플들의 클래스가 균등하게 분포되어 있다면 지니 불순도는 최대가 된다.
9. DT: 지니 불순도를 통해 의사 결정 나무가 변수 공간을 잘 나누었는지 평가할 수 있다.
10. DT: 전역 최적을 달성할 수 있는 모델이다.
11. DT: 나무의 깊이가 깊어질 수록 더욱 복잡한 관계를 표현 가능하다.
12. 새로운 관측 데이터에 대해 모델이 얼마나 잘 동작하는지를 의미하는 용어를 generalizability라고 한다.
13. regression 모델은 classification을 수행할 수 없다.
14. Training data는 feature vector를 포함한다.
15. precision과 recall을 더하면 항상 1이 된다.
16. precision과 recall을 산술평균한 값을 F1 score라고 부른다.
17. 모든 케이스를 positive로 예측하면 recall을 1로 만들 수 있다.
18. 모델이 랜덤으로 결과를 낸다면 ROC AUC는 0.5가 된다.
19. ROC AUC의 값이 클수록 일반적으로 더 좋은 분류 모델이다.
20. 서로 다른 분류 모델을 하나의 수치로 비교하기 위해 ROC AUC가 쓰일 수 있다.

오차 +- 1개까지 정답으로 인정

문제 2+3

문제 2

아래 이미지에 대해 성능 지표 수치를 작성하라.

Untitled

(1) sensitivity:

(2) specificity:

(3) negative predictive value:

(4) precision:

(5) F1 score:

각 0.2점