주먀

분류용 선형 모델 본문

카테고리 없음

분류용 선형 모델

주먀 2023. 6. 19. 09:50

* 복습 *

1. 회귀 : 정답이 연속적인 수치값 --> 예측값을 그대로 사용

분류 : 정답이 정해져 있어서 --> 연속적인 수치값을 사용할 수 없다.

 

2. 선형분류 모델 : 선형함수를 결정경계로

                          가중치들의 합 > 0 ==> 1

                          가중치들의 합 < 0 ==> 0

 

3. Logistic Regression

- Sigmoid ( S자형 곡선 ) 라는 선형 함수를 사용

- 결정경계가 곡선으로 그려짐

- sigmoid는 입력값이 0 ~1 까지의 범위로 변환 --> 확률값으로 사용한다.

- 개와 고양이를 분류 ==> 개 ( 80% ) , 고양이 ( 60% )

 

sigmoid 함수를 잘 그렸는지 확인 - 교차 엔트로피 오차 함수

선형회귀 :  MSE , R2 score

 

4. SVM

- 결정경계와 가장 인접한 데이터를 서포트 벡터라 부름

- 결정경계와 서포트 벡터간의 거리를 마진이라 부름

- 마진이 가장 큰 결정경계가 가장 좋은 결정경계

- 결정경계가 데이터 ( N ) 가 가지고 있는 차원 ( N - 1 ) 으로 구성

 

 

1. 0보다 큰지 작은지에 따라서 분류한다.

1-1. , 0<양성 , 0> -> 음성 

1-2. 결정 경계 역할 한다.

2. Logistic Regression

3. Sigmoid 함수를 사용한다. ( 10이상이어도 분류 가능 )

4. 함수를 외울필요는 없고 , 불러오면 된다.

5. 개념만 알고가자. ( sigmoid 함수를 잘 그렸는지 확인 )

6. 주요 매개변수 -> C , max_iter

6-1. L1 , L2 규제 시험문제 자주 나옴

7. SVM ( 마진을 기준으로 소프트웨어 , 두 데이터를 분류하는 기준 )

마진 : 서포트 벡터를 구해서 간격을 구하는 것 ( 마진이 클수록 데이터를 잘 분류했다. , 간격이 멀수록 데이터모델이 괜찮다. )

8. SVM 주요 매개변수

9. sparse -> 텍스트 데이터

9-1. 위에 3개는 장점 , 밑에 1개는 단점 ( 특성이 작을때는 DT , 앙상블을 사용할 수 있다. )

* 복습 *

분류 평가 지표

오차행렬도 :

y축 - 실제 정답 / x축 - 모델이 예측한 값

 

정확도 : 정확히 예측한 수를 전체 샘플의 수로 나눈 것

재현율 : 전체 양성 샘플 중에서 얼마나 많은 샘플이 양성 클래스로 분류되는가

정밀도 : 양성으로 예측된 것 중 얼마나 많은 샘플이 진짜 양성인지 측정하는 것 , 정확도에 비해 양성을 걸러내는 능력은 떨어짐

 

낮은 재현율 높은 정밀도 : 모델이 한번 예측할 때 비용이 많이 들 경우 적합 ( 의약실험 , 모델 예측의 리스크 / 예측 비용이 큰 경우 ) -> 아이에게 유익한 영상만을 보여주고 할 때

높은 재현율 낮은 정밀도 : 실제 사건 ( 상황 ) 에 대한 리스크가 클 경우 적합 -> 좀도둑을 걸러내는 감시카메라 , 암환자 판정