| 일 | 월 | 화 | 수 | 목 | 금 | 토 |
|---|---|---|---|---|---|---|
| 1 | 2 | 3 | 4 | 5 | 6 | |
| 7 | 8 | 9 | 10 | 11 | 12 | 13 |
| 14 | 15 | 16 | 17 | 18 | 19 | 20 |
| 21 | 22 | 23 | 24 | 25 | 26 | 27 |
| 28 | 29 | 30 | 31 |
- 데이터분석가
- AI 데이터 분석 트랙
- 멋쟁이사자처럼 ai school 7기
- 코딩테스트
- 2022 AI 온라인 실무 교육
- 딥러닝
- 코드업
- Python
- 파이썬
- 기초100제
- 고객데이터분석
- 코드업100제
- 멋사 ai
- OneHotEncoding
- 앨리스
- 코드업 기초100제
- 데이터마케팅분석
- RFM
- 시그모이드함수
- 데이터 분석
- 소프트맥스함수
- ai 스쿨 7기
- 데이터분석
- 캐글데이터분석
- 머신러닝
- Onehot인코딩
- ai school
- 고객세그먼트
- 멋쟁이사자처럼
- RFM분석
- Today
- Total
목록Machine Learning (10)
초봉5센티미터
머신러닝에서 문제가 될 수 있는 두가지가 있습니다. 바로 '나쁜 알고리즘'과 '나쁜 데이터'입니다. 오늘은 나쁜 데이터란 무엇이고 종류는 어떠한게 있는지 알아보겠습니다. 1) 충분하지 않은 양의 훈련 데이터 어린아이에게 사과에 대해 알려주려면 사과를 가리키면서 ‘사과’라고 하면 됩니다. 그렇다면 아이는 색상과 모양이 달라도 사과를 구별해낼 수 있을 것입니다. 하지만 대부분의 머신러닝 알고리즘이 잘 작동하려면 데이터가 많아야 합니다. 아주 간단한 문제에 조차도 수천개의 데이터가 필요하고 이미지, 음성인식 같은 복잡한 데이터라면 수백만개가 필요할 지도 모릅니다. 2) 대표성 없는 훈련 데이터 샘플이 작으면 샘플링 잡음(우연에 의한 대표성 없는 데이터) 매우 큰 샘플도 표본 추출 방법이 잘못되면 대표성을 띠지..
혼동행렬(Confusion Matrix)란? 모델의 성능을 평가할 때 사용되는 지표 예측값이 실제 관측값을 얼마나 정확히 예측했는지 보여주는 행렬 혼동행렬은 분류 모델을 평가하는 지표입니다. 일반적으로 분류모델은 정확도(Accuracy)로 평가됩니다. 하지만 정확도만으로 평가가 불가능한 문제들이 있습니다. 주어진 데이터의 클래스가 불균형이라고 가정할때 이 경우 하나의 클래스에 다른 클래스보다 더 많은 데이터 인스턴스가 있고 모델은 모든 경우에 대해 대다수 클래스를 예측하고 높은 정확도 점수를 가질 수 있습니다. 이렇게 된다면 소수 클래스를 예측하지 못하며 일상생활에서 큰 문제를 야기할 수 있습니다. ex) 국민건강보험공단에서 제공하는 데이터에 따르면 검사자 4,276,285명 중 6,473명이 유방암 의..
Support Vector Machine 선형이나 비선형 분류, 회귀, 이상치 탐색에도 사용 할 수 있는 머신러닝 방법론 딥러닝 이전 시대까지 널리 사용된 방법론 복잡한 분류 문제를 잘 해결, 상대적으로 작거나 중간 크기를 가진 데이터에 적합 최적화 모형으로 모델링 후 최적의 분류 경계 탐색 두 클래스 사이에 가장 넓이가 큰 분류 경계선을 찾기 때문에 Large margin classification이라고도 함 Support Vector라고 하는 것은 각각의 클래스에서 분류 경계선을 지지하는 관측치들을 Support Vector라고함 - SVM은 스케일에 민감하기 때문에 변수들 간의 스케일을 잘 맞춰주는 것이 중요하다 - Sklearn의 StandardScaler를 사용하면 스케일을 잘 맞출 수 있다. ..
랜덤포레스트란? 이미지출처: https://ko.wikipedia.org/wiki/%EB%9E%9C%EB%8D%A4_%ED%8F%AC%EB%A0%88%EC%8A%A4%ED%8A%B8 랜덤포레스트는 결정 트리를 배깅 방식으로 결합한 모델 나무(Tree)가 모여 숲(Forest)를 이루듯 결정 트리가 모여 랜덤 포레스트를 구성 결정 트리와 마친가지로 랜덤 포레스트도 분류와 회귀 문제에 모두 적용 가능 랜덤포레스트 과정 1. 결정 트리를 랜덤하게 만든다 랜덤 샘플 사용: 트리의 훈련 데이터는 부트스트랩 샘플이다. (복원추출) 랜덤 특성 사용: 무작위 특성을 기본적으로 sqrt(n)개 선택하여 최선의 분할을 찾는다 랜덤하게 뽑으므로 과대적합을 방지하며 검증/테스트 세트에서 안정적 성능 2. 랜덤 결정 트리들의 ..