본문 바로가기
[머신러닝] 원핫인코딩이 트리 기반 모델의 성능을 저하시키는 이유 본 포스팅은 범주형 독립변수가 있을 때 원핫인코딩이 트리 기반 모델의 성능에 어떠한 악영향을 미치는지에 대한 칼럼을 번역한 글입니다. 현재 많이 사용하는 Scikit-learn 라이브러리에서 제공하는 트리 기반 모델을 사용할 때는 범주형 변수를 반드시 원핫인코딩 해줘야 합니다. 하지만 원핫인코딩은 트리 기반 모델의 성능을 저하시킵니다. 이에 대한 실험 내용을 잘 정리한 칼럼을 번역하여 소개합니다. 원본 포스팅은 아래 링크를 통해 확인할 수 있습니다. Are categorical variables getting lost in your random forests? https://deepnote.com/workspace/first-deepnote-workspace-0bca-0bbbab26-2537-4dc3-a.. 2023. 4. 5.
[머신러닝] 프로젝트 전략 (3): Train / Dev / Test set [Andrew Ng 교수님의 머신러닝 전략 시리즈] 2022.01.23 - [데이터과학] - [머신러닝] 프로젝트 전략 (1): Orthogonalization 2022.01.24 - [데이터과학] - [머신러닝] 프로젝트 전략 (2): Evaluation Metric 2022.02.09 - [데이터과학] - [머신러닝] 프로젝트 전략 (3): Train / Dev / Test set 본 포스팅에서는 앤드류 응 교수님의 세번째 머신러닝 전략을 소개한다. 이번에는 Train/Dev/Test set을 어떻게 효과적으로 나눌 것인가에 대해 다룬다. 하나씩 살펴보자. 1. Dev / Test Distribution Dev set과 Test set의 분포가 같아야 한다. Dev set과 Test set의 분포가 .. 2022. 2. 9.
[머신러닝] 프로젝트 전략 (2): Evaluation Metric [Andrew Ng 교수님의 머신러닝 전략 시리즈] 2022.01.23 - [데이터과학] - [머신러닝] 프로젝트 전략 (1): Orthogonalization 2022.01.24 - [데이터과학] - [머신러닝] 프로젝트 전략 (2): Evaluation Metric 2022.02.09 - [데이터과학] - [머신러닝] 프로젝트 전략 (3): Train / Dev / Test set 본 포스팅에서는 앤드류 응 교수님의 두번째 머신러닝 전략을 소개한다. 이번에는 평가 지표를 어떻게 설정할 것인가에 대해 다룬다. 여러 모델을 만든 다음, 그들 중 어떤 모델이 가장 성능이 좋은지를 판단하려면 비교할 수 있는 평가 지표가 있어야 한다. 이때 평가 지표는 단 하나의 수치값이어야 한다. 1. Single Numb.. 2022. 1. 24.
[머신러닝] 프로젝트 전략 (1): Orthogonalization [Andrew Ng 교수님의 머신러닝 전략 시리즈] 2022.01.23 - [데이터과학] - [머신러닝] 프로젝트 전략 (1): Orthogonalization 2022.01.24 - [데이터과학] - [머신러닝] 프로젝트 전략 (2): Evaluation Metric 2022.02.09 - [데이터과학] - [머신러닝] 프로젝트 전략 (3): Train / Dev / Test set 본 포스팅은 Coursera에 있는 Deep Learning Specialization 강의 중 세번째 섹션인 Structuring Machine Learning Projects의 내용을 정리한 글이다. 해당 섹션은 스탠포드 대학교의 교수이자 중국 바이두의 부사장인 앤드류 응(Andrew Ng) 교수님의 딥러닝 프로젝트 노.. 2022. 1. 23.
[추천시스템] Multi-Armed Bandit [추천시스템 시리즈] 2021.08.30 - [데이터과학] - [추천시스템] 비개인화 추천 알고리즘 - 인기도 기반 추천 2021.09.01 - [데이터과학] - [추천시스템] 성능 평가 방법 - Precision, Recall, NDCG, Hit Rate, MAE, RMSE 2021.09.08 - [데이터과학] - [추천 시스템] Matrix Factorization (SGD) 2021.09.28 - [데이터과학] - [추천시스템] Alternating Least Square (ALS)를 활용한 Matrix Factorization 2021.10.18 - [데이터과학] - [추천시스템] Multi-Armed Bandit MAB의 등장 배경은 카지노에 있는 슬롯머신과 관련있다. Bandit은 슬롯머신을,.. 2021. 10. 18.
[추천시스템] Alternating Least Square (ALS)를 활용한 Matrix Factorization [추천시스템 시리즈] 2021.08.30 - [데이터과학] - [추천시스템] 비개인화 추천 알고리즘 - 인기도 기반 추천 2021.09.01 - [데이터과학] - [추천시스템] 성능 평가 방법 - Precision, Recall, NDCG, Hit Rate, MAE, RMSE 2021.09.08 - [데이터과학] - [추천 시스템] Matrix Factorization (SGD) 2021.09.28 - [데이터과학] - [추천시스템] Alternating Least Square (ALS)를 활용한 Matrix Factorization 2021.10.18 - [데이터과학] - [추천시스템] Multi-Armed Bandit 본 포스팅에서는 Matrix Factorization의 학습 속도를 매우 향상시킨 .. 2021. 9. 28.