주먀
분류용 선형 모델 본문
* 복습 *
1. 회귀 : 정답이 연속적인 수치값 --> 예측값을 그대로 사용
분류 : 정답이 정해져 있어서 --> 연속적인 수치값을 사용할 수 없다.
2. 선형분류 모델 : 선형함수를 결정경계로
가중치들의 합 > 0 ==> 1
가중치들의 합 < 0 ==> 0
3. Logistic Regression
- Sigmoid ( S자형 곡선 ) 라는 선형 함수를 사용
- 결정경계가 곡선으로 그려짐
- sigmoid는 입력값이 0 ~1 까지의 범위로 변환 --> 확률값으로 사용한다.
- 개와 고양이를 분류 ==> 개 ( 80% ) , 고양이 ( 60% )
sigmoid 함수를 잘 그렸는지 확인 - 교차 엔트로피 오차 함수
선형회귀 : MSE , R2 score
4. SVM
- 결정경계와 가장 인접한 데이터를 서포트 벡터라 부름
- 결정경계와 서포트 벡터간의 거리를 마진이라 부름
- 마진이 가장 큰 결정경계가 가장 좋은 결정경계
- 결정경계가 데이터 ( N ) 가 가지고 있는 차원 ( N - 1 ) 으로 구성
1. 0보다 큰지 작은지에 따라서 분류한다.
1-1. , 0<양성 , 0> -> 음성
1-2. 결정 경계 역할 한다.
2. Logistic Regression
3. Sigmoid 함수를 사용한다. ( 10이상이어도 분류 가능 )
4. 함수를 외울필요는 없고 , 불러오면 된다.
5. 개념만 알고가자. ( sigmoid 함수를 잘 그렸는지 확인 )
6. 주요 매개변수 -> C , max_iter
6-1. L1 , L2 규제 시험문제 자주 나옴
7. SVM ( 마진을 기준으로 소프트웨어 , 두 데이터를 분류하는 기준 )
마진 : 서포트 벡터를 구해서 간격을 구하는 것 ( 마진이 클수록 데이터를 잘 분류했다. , 간격이 멀수록 데이터모델이 괜찮다. )
8. SVM 주요 매개변수
9. sparse -> 텍스트 데이터
9-1. 위에 3개는 장점 , 밑에 1개는 단점 ( 특성이 작을때는 DT , 앙상블을 사용할 수 있다. )
* 복습 *
분류 평가 지표
오차행렬도 :
y축 - 실제 정답 / x축 - 모델이 예측한 값
정확도 : 정확히 예측한 수를 전체 샘플의 수로 나눈 것
재현율 : 전체 양성 샘플 중에서 얼마나 많은 샘플이 양성 클래스로 분류되는가
정밀도 : 양성으로 예측된 것 중 얼마나 많은 샘플이 진짜 양성인지 측정하는 것 , 정확도에 비해 양성을 걸러내는 능력은 떨어짐
낮은 재현율 높은 정밀도 : 모델이 한번 예측할 때 비용이 많이 들 경우 적합 ( 의약실험 , 모델 예측의 리스크 / 예측 비용이 큰 경우 ) -> 아이에게 유익한 영상만을 보여주고 할 때
높은 재현율 낮은 정밀도 : 실제 사건 ( 상황 ) 에 대한 리스크가 클 경우 적합 -> 좀도둑을 걸러내는 감시카메라 , 암환자 판정