일 | 월 | 화 | 수 | 목 | 금 | 토 |
---|---|---|---|---|---|---|
1 | 2 | 3 | ||||
4 | 5 | 6 | 7 | 8 | 9 | 10 |
11 | 12 | 13 | 14 | 15 | 16 | 17 |
18 | 19 | 20 | 21 | 22 | 23 | 24 |
25 | 26 | 27 | 28 | 29 | 30 | 31 |
- 대학생
- 기하분포
- 신청
- ADSP
- 3ㅣ
- 방학
- 절사평균
- 연속확률분포
- 독학
- 데이터분석
- WISET
- dsa프로젝트
- 머신러닝
- 데이터분석프로젝트
- 정기시험
- r #데이터분석 #adsp #자격증 #대외활동 #여름방학 #취업준비
- 데이터독학
- 분위수
- 티스토리챌린지
- 평균
- 이항분포
- 베르누이
- 3과목
- 자격증
- 기술통계
- 파이썬
- 옻
- 인스타툰 #지식 #클래스101 #전자책 #인스타그램 #인스타 #만화 #웹툰 #아이패드드로잉
- R
- 오블완
- Today
- Total
목록2024-2학기/머신러닝 (3)
mmings_pring_day

0. Classificaition (분류)- 종속변수 (y) 가 범주형 값을 가질 때두 사건 간의 '연관성' 분석 (예: 기업의 연구개발 투자와 신제품 출시 비율 간의 관계, 광고비와 매출액 간의 관계, 한 나라의 일인당 GDP 와 국민의 기대수명 간의 관계 등)1. 분류 알고리즘 종류- KNN : 근접 거리를 기준으로 하는 알고리즘[특징] : 분류하려는 대상과 가장 가까운 k 개의 데이터를 찾은 뒤, label 들을 voting 하여 분류: 거리 척도가 다양하게 설정됨 (유클리디안 거리, 코사인 거리)[장점]: 간단한 모델/ 직관적[ 단점]: 검색 비용이 큼 (학습 데이터의 수만큼 거리 계산을 해야 함) - Decision Tree : 데이터 균일도에 따른 규칙 기반예) 독립변수(x): 날씨, 습도..

# 목적-> 캘리포니아 인구조사 데이터를 사용해 캘리포니아 주택 가격 모델 만들기 -> 학습시킨 모델에 다른 측정 데이터가 주어졌을 때 구역의 중간 주택 가격을 예측해야 함 -> 지도학습 중 '회귀' 1단계: 문제 정의[회귀분석의 종류]- 단변량 회귀: 하나의 특성을 기반으로 예측- 다변량 회귀: 여러 개의 특성을 기반으로 예측 (이 데이터셋은 '구역의 인구, 중간 소득 등 feature가 많으므로 다변량 회귀) 2단계: 성능 측정 지표 선택-> 회귀 분석의 대표적인 성능 측정 지표는 '평균 제곱근 오차 (RMSE; Root Mean Square Error)': 시스템이 하나의 샘플 데이터 x^(i) 를 받으면 예측 함수에 대입되어 예측 값이 출력됨. RMSE 가 회귀 문제에서 주로 선호되는 성능 측정 ..
1. 데이터 불러오기import numpy as npimport pandas as pddf= pd.read_csv('data/train.csv')df.head(3)2. 데이터프레임 변환하기(1) DataFrame 에서 새로운 column 생성 및 수정 1. Passenger Class(Pclass) 별로 생존 비율을 구하시오.-> 각 passenger class 별로 총 탑승객의 수를 구하고, 생존한 탑승객의 수를 구한 뒤 (생존한 탑승객 수)/ (총 탑승객 수)를 passenger class 별로 계산하면 됨df['survival_rate_per_class'] = df['Pclass_per_Survived']/ df['Pclass_per_Passenger']print(df['survival_rate_p..