Notice
Recent Posts
Recent Comments
Link
일 | 월 | 화 | 수 | 목 | 금 | 토 |
---|---|---|---|---|---|---|
1 | 2 | 3 | ||||
4 | 5 | 6 | 7 | 8 | 9 | 10 |
11 | 12 | 13 | 14 | 15 | 16 | 17 |
18 | 19 | 20 | 21 | 22 | 23 | 24 |
25 | 26 | 27 | 28 | 29 | 30 | 31 |
Tags
- ai 스쿨 7기
- 코드업100제
- 파이썬
- 캐글데이터분석
- 코드업
- 기초100제
- RFM분석
- 소프트맥스함수
- 코딩테스트
- 데이터마케팅분석
- AI 데이터 분석 트랙
- 데이터분석
- 딥러닝
- 데이터분석가
- OneHotEncoding
- 시그모이드함수
- 머신러닝
- 데이터 분석
- 코드업 기초100제
- 멋쟁이사자처럼 ai school 7기
- 멋쟁이사자처럼
- RFM
- 멋사 ai
- Python
- 고객세그먼트
- 고객데이터분석
- 앨리스
- Onehot인코딩
- ai school
- 2022 AI 온라인 실무 교육
Archives
- Today
- Total
목록과적합 (1)
초봉5센티미터
머신러닝에서의 데이터 문제들
머신러닝에서 문제가 될 수 있는 두가지가 있습니다. 바로 '나쁜 알고리즘'과 '나쁜 데이터'입니다. 오늘은 나쁜 데이터란 무엇이고 종류는 어떠한게 있는지 알아보겠습니다. 1) 충분하지 않은 양의 훈련 데이터 어린아이에게 사과에 대해 알려주려면 사과를 가리키면서 ‘사과’라고 하면 됩니다. 그렇다면 아이는 색상과 모양이 달라도 사과를 구별해낼 수 있을 것입니다. 하지만 대부분의 머신러닝 알고리즘이 잘 작동하려면 데이터가 많아야 합니다. 아주 간단한 문제에 조차도 수천개의 데이터가 필요하고 이미지, 음성인식 같은 복잡한 데이터라면 수백만개가 필요할 지도 모릅니다. 2) 대표성 없는 훈련 데이터 샘플이 작으면 샘플링 잡음(우연에 의한 대표성 없는 데이터) 매우 큰 샘플도 표본 추출 방법이 잘못되면 대표성을 띠지..
Machine Learning
2023. 4. 5. 22:01