Introducing Pages
Recent Projects
- plotly 연습 # 참고 데이터 import plotly.express as px data_canada = px.data.gapminder().query("country == 'Canada'") # 참고할 색상 표 colorscales: ['aggrnyl', 'agsunset', 'algae', 'amp', 'armyrose', 'balance', 'blackbody', 'bluered', 'blues', 'blugrn', 'bluyl', 'brbg', 'brwnyl', 'bugn', 'bupu', 'burg', 'burgyl', 'cividis', 'curl', 'darkmint', 'deep', 'delta', 'dense', 'earth', 'edge', 'electric', 'emrld', 'fall', 'gey.. 더보기
- 분류 (4) - LightGBM LightGBM XGBoost와 함께 Boosting 계열 알고리즘에서 가장 각광받고 있음. XGBoost는 학습 시간이 오래 걸리는 것이 단점 LightGBM의 가장 큰 장점: XGBoost보다 학습에 걸리는 시간이 훨씬 적다 + 메모리 사용량이 상대적으로 적다 예측 성능은 비슷하면서 기능은 LightGBM이 더 많음. LightGBM은 일반 GBM 계열의 트리 분할 방법(보통 Level Wise)과 다르게 리프 중심 트리 분할(Leaf Wise) 방식을 사용함 Level Wise : 최대한 균형 잡힌 트리를 유지하면서 분할하기 때문에 트리의 깊이가 최소화 될 수 있음. 균형잡힌 트리는 오버피팅에 보다 더 강함 균형을 맞추는 시간이 오래 걸림 Leaf Wise : 트리의 균형을 맞추지 않고, 최대 손실.. 더보기
- 분류 (3) - Xgboost XGBoost(eXtra Gradient Boost) tree 기반 앙상블 학습에서 가장 각광받고 있음. Kaggle Contest에서 다수 사용됨 GBM에 기반하고 있지만, GBM의 단점인 느린 수행시간, 과적합 규제(Regularization) 부재 를 해결한 모델 In [1]: # XGBoost 버전 확인 import xgboost print(xgboost.__version__) 1.1.1 파이썬 Native XGBoost 적용 – 위스콘신 Breast Cancer 데이터 셋 In [1]: import xgboost as xgb from xgboost import plot_importance import pandas as pd import numpy as np from sklearn.datasets.. 더보기
- 분류 (2) - 앙상블 학습 1. 앙상블 학습 개요 앙상블 학습을 통한 분류 : 여러개의 분류기를 생성하고 그 예측을 결합함으로써 보다 정확한 최종 예측을 도출함. 앙상블 학습의 목표 : 다양한 분류 기의 예측 결과를 결합함으로써 단일 분류기보다 신뢰성이 높은 예측값을 얻는 것. Voting 유형 : Hard Voting / Soft Voting 하드보팅 다수결의 원칙과 비슷함. 예측 결괏값들 중 다수의 분류기가 결정한 예측값을 최종 보팅 결괏값으로 선정함 소프트 보팅 (선호됨) 평균 분류기들의 레이블 값 결정 확률을 모두 더하고 이를 평균해서 이들 중 가장 확률이 높은 레이블 값을 최종 보팅 결괏값으로 선정함 In [1]: import pandas as pd from sklearn.ensemble import VotingClass.. 더보기