Notice
Recent Posts
Recent Comments
Link
일 | 월 | 화 | 수 | 목 | 금 | 토 |
---|---|---|---|---|---|---|
1 | 2 | 3 | ||||
4 | 5 | 6 | 7 | 8 | 9 | 10 |
11 | 12 | 13 | 14 | 15 | 16 | 17 |
18 | 19 | 20 | 21 | 22 | 23 | 24 |
25 | 26 | 27 | 28 | 29 | 30 | 31 |
Tags
- 소프트맥스함수
- 멋쟁이사자처럼
- 코딩테스트
- OneHotEncoding
- Python
- Onehot인코딩
- 시그모이드함수
- 데이터 분석
- ai 스쿨 7기
- 딥러닝
- 고객세그먼트
- 데이터분석가
- 코드업100제
- 멋사 ai
- RFM
- 데이터마케팅분석
- 데이터분석
- 고객데이터분석
- 멋쟁이사자처럼 ai school 7기
- 앨리스
- 코드업
- 기초100제
- ai school
- 캐글데이터분석
- 코드업 기초100제
- 파이썬
- 머신러닝
- 2022 AI 온라인 실무 교육
- RFM분석
- AI 데이터 분석 트랙
Archives
- Today
- Total
목록과대적합 (1)
초봉5센티미터
머신러닝에서의 데이터 문제들
머신러닝에서 문제가 될 수 있는 두가지가 있습니다. 바로 '나쁜 알고리즘'과 '나쁜 데이터'입니다. 오늘은 나쁜 데이터란 무엇이고 종류는 어떠한게 있는지 알아보겠습니다. 1) 충분하지 않은 양의 훈련 데이터 어린아이에게 사과에 대해 알려주려면 사과를 가리키면서 ‘사과’라고 하면 됩니다. 그렇다면 아이는 색상과 모양이 달라도 사과를 구별해낼 수 있을 것입니다. 하지만 대부분의 머신러닝 알고리즘이 잘 작동하려면 데이터가 많아야 합니다. 아주 간단한 문제에 조차도 수천개의 데이터가 필요하고 이미지, 음성인식 같은 복잡한 데이터라면 수백만개가 필요할 지도 모릅니다. 2) 대표성 없는 훈련 데이터 샘플이 작으면 샘플링 잡음(우연에 의한 대표성 없는 데이터) 매우 큰 샘플도 표본 추출 방법이 잘못되면 대표성을 띠지..
Machine Learning
2023. 4. 5. 22:01