분류 전체보기
-
Decision TreeMachine learning 2024. 2. 8. 22:51
의사결정나무는 여러 트리 모델의 기반이 되는 모델이다. 복수의 의사결정나무를 배깅(Bagging) 이나 패이스팅(pasting) 방식으로 앙상블하면 Random forest, Extrea trees 등이 되고, 부스팅(Boosting) 방식으로 앙상블하면 Xgboostm, LGBM, Catboost와 같은 모델이 된다. 1. Decision Tree 데이터를 어떤 특성의 임곗값을 기준으로 분류하는 모델로, 가지를 뻗는 나무를 닮아 ‘결정 트리’라고 불린다. (스무 고개와 유사한 개념) 분류, 회귀에 모두 사용 가능하다. Decision Tree에서 분류 질문과 정답을 담은 상자를 노드(node)라고 정의하며 아래와 같이 구성된다. Root node: 깊이 0인 맨 꼭대기의 노드 Child node: 상위..
-
[VScode] SSH 연결실패 해결방법, Could not establish connection to hostetc 2024. 2. 7. 12:21
잘 쓰고 있던 VScode ssh가 갑가지 연결이 안되서 고생을 했다. 새로운 이슈라 공유를 해본다. 한줄 요약: VScode 버전이 1.86 이상이라면 서버에서 glibc 2.28, glibcxx 3.4.25 이상 버전인지 확인하고, 아니라면 VScode를 1.85 이하로 다운그레이드 해보라. 원인 파악 ssh 접속을 했는데 'Could not establish connection to host' 라는 메세지가 뜨면서 아래 로그가 나타났다. [11:42:10.491] Resolver error: Error: The VS Code Server failed to start at g.ServerInstallError (c:\Users\user\.vscode\extensions\ms-vscode-remote...
-
서포트 벡터 머신(Support Vector Machine, SVM)Machine learning 2024. 2. 7. 01:44
간단하게 정리하면, 데이터에서 최적의 결정 경계(Decision boundary)를 찾는 알고리즘이다. 비교적 작은 데이터에서도 높은 성능을 보여 많이 사용된다. 회귀, 분류, 이상치 탐색 등 다양한 용도로 사용 가능하다는 장점도 있다. 개요 Scikit-learn에서 sklearn.svm.SVC 로 사용할 수 있다. 주요 파라미터는 아래와 같다. C: Regularization 파라미터, 낮을수록 소프트하게 분류 Kernel: 사용할 커널, linaer, poly, rbf 등 Degree: 다항식 커널의 차수 Gamma: RBF 커널 계수 단일 훈련 포인트가 영향을 미치는 범위 결정 Gamma가 클수록 범위가 작아져서 경계선의 굴곡이 심해지고, 국소적인 경계선이 여러 개 생길 수 있다. 종류 종류에는 ..
-
데이터 전처리 (Data preprocessing)Machine learning 2024. 2. 7. 01:38
데이터를 분석 및 처리에 적합하게 만드는 과정, 또는 Raw data를 모델 학습에 맞게 변형하는 과정이다. 대략 4가지 과정이 포함된다. (정의가 제각각) 데이터 수집: 데이터 수집 과정 구축 데이터 정제: 이상치, 노이즈, 결측치 처리 데이터 통합: 다양한 Source에서 입력되는 데이터 통합 변수 처리: 불필요한 변수 제거, 파생 변수 생성, 정규화 등 대표적인 전처리에는 이상치 처리, 결측치 처리, 특성 스케일링(정규화,표준화)가 있다. 1. 이상치 처리 이상치는 정상적인 데이터 분포에서 지나치게 멀리 떨어져 있는 소수의 데이터를 의미한다. 전체 데이터의 일반적인 패턴을 학습해야 하는 모델 입장에서는 노이즈와 같으므로 제거가 필요하다. 제거하지 않으면, 이상치의 영향을 받아 모델의 예측 성능이 떨..
-
탐색적 데이터 분석(Exploratory data analysis, EDA) 알아보기Machine learning 2024. 2. 7. 00:53
머신러닝 프로젝트를 진행한다면, 탐색적 데이터 분석을 무조건 해야 한다. (보통 EDA라고 한다) 특히, 비정형보다 정형 데이터인 경우, 모델이 데이터 전처리의 영향을 많이 받으므로 더 중요한 편이다. 하지만 EDA는 데이터나 상황에 따라 방법이 달라지기 때문에 정해진 길이 없다. 다만 나름의 경험을 바탕으로 EDA의 필수요소들에 대한 글을 작성하려고 한다. EDA란 EDA란 데이터 이해를 위해 여러 측면에서 데이터를 확인하는 작업이다. 이러한 작업은 데이터에 대한 새로운 통찰을 주거나, 모델링 전략의 기초 정보가 된다. EDA의 목적 EDA의 목적은 아래 4가지 정도로 정리할 수 있다. 데이터 자체에 대한 이해 (프로젝트에 대한 감 잡기) 데이터 전처리를 위한 EDA (Target 예측에 방해되는 데이..
-
Visual Programming: Compositional visual reasoning without trainingVisual reasoning 2024. 2. 1. 00:23
핵심 아이디어 본 논문은 CVPR2023 Best paper로 선정된 논문입니다. 별도의 학습과정 없이 여러가지 Vison Task를 손쉽게 추론할 수 있는 방법을 제안했습니다. GPT-3와 같은 LLM을 활용하여 복잡한 비전 테스트를 학습 없이 수행하는 것이 핵심아이디어입니다. Introduction 저자의 문제의식은 다양한 Vision 태스크를 수행할 수 있는 시스템에 대한 니즈에서 시작합니다. 기존에 Supervised multitask training 모델이 있긴 했으나, 태스크가 다양해진 만큼 요구되는 데이터 규모는 커지고 퀄리티도 점점 까다로워졌습니다. 잘 레이블링된 데이터를 무한하게 얻을 수 없고, 이를 학습하는 것도 어렵기 때문에 결국 학습 기반 모델은 태스크 확장(long tail of ..