초봉5센티미터

TIL 18.머신러닝(2) 본문

교육/멋쟁이사자처럼 AI School 7기

TIL 18.머신러닝(2)

삶은돼지고기 2022. 10. 25. 20:52
728x90

지도학습
- 정답 == label == target

분류로 할 수 있는일
- 이미지분류, 스팸 메일 분류기, 이상유저탐지, 물건분류

회귀로 할 수 있는일
- 주식가격예측, 주택가격예측, 기온예측, 강수량예측


회귀 알고리즘 중에서 분류에서 사용할 수 있는것
-  로지스틱회귀


1) fit 학습
2) predict 예측
3) evaluate 모델평가

머신러닝분류
- 학습한 것을 바탕으로 실전 문제를 풀어봄

비지도학습
- 차원축소, 군집분석
fit, transform 주로사용

의사결정나무(스무고개)
- 분류,회귀 사용가능 
- 어떤 항목에 대한 관측값과 목표값을 연결시켜주는 예측 모델로서
결정트리를 사용(예측 모델링 방법 중 하나)

분류트리: 트리 모델 중 목표 변수가 유한한 수의 값을 가짐
회귀트리: 결정 트리 중 목표 변수가 연속하는 값, 일반적으로 실수를 가짐

학습과 예측 전체 과정
feature_names : 학습(훈련), 예측에 사용할 컬럼을 리스트 형태로 만들어서 변수에 담아줍니다.

label_name : 정답값

X_train : feature_names 에 해당되는 컬럼만 train에서 가져옵니다.
- 학습(훈련)에 사용할 데이터셋 예) 시험의 기출문제


X_test : feature_names 에 해당되는 컬럼만 test에서 가져옵니다.
- 예측에 사용할 데이터셋 예) 실전 시험문제


y_train : label_name 에 해당 되는 컬럼만 train에서 가져옵니다.
- 학습(훈련)에 사용할 정답 값 예) 기출문제의 정답


model : 학습, 예측에 사용할 머신러닝 알고리즘

model.fit(X_train, y_train) : 학습(훈련), 기출문제와 정답을 가지고 학습(훈련)하는 과정과 유사합니다.

model.predict(X_test) : 예측, 실제 시험을 보는 과정과 유사합니다. => 문제를 풀어서 정답을 구합니다.

score
- 시험을 봤다면 몇 문제를 맞고 틀렸는지 채점
metric
- 점수를 채점하는 공식

# from sklearn.tree import DecisionTreeClassifier 의사결정트리 불러오기
# plot_tree == 의사결정트리 시각화해주는것
# max_depth == 트리의 깊이를 어디까지 제한해서 시각화할지
# feature_names를 지정하지 않으면 x[1], x[2] 처럼 피처이름을 확인하기 어려움
# filled = 클래스 별로 색상을 구분해줌
from sklearn.tree import plot_tree

지니불순도: 집합에 이질적인 것이 얼마나 섞였는지 측정하는 지표,
값이 낮을수록 좋음, 0이되면 트리를 그리는것을 멈춘다. 최악은 0.5

과대적합: 학습데이터에는 높은정확도가 다른데이터로 평가했을 경우 정확도가 낮게 나오는 현상

과소적합: 데이터가 부족하거나 데이터의 특성 자체가 단순하여 기계가 제대로 학습이 되지 않은 상태

 


 

Comments