전체 글 7

[ECC 스터디]8.6-8.11장 텍스트분석

06 토픽 모델링(Topic Modeling) - 20 뉴스그룹 토픽 모델링(Topic Modeling): 문서 집합에 숨어 있는 주제를 찾아내는 것, 핵심 주제를 찾는 것은 많은 시간이 소모되므로, 머신러닝의 토픽 모델링 적용하여 숨어있는 중요 주제 찾아냄  사람: 더 함축적인 의미로 문장 요약 머신러닝 기반: 숨겨진 주제를 효과적으로 표현하기 위해 중심단어를 함축적으로 추출 대표적으로 사용되는 토픽 모델링 기법LSA(Latent Semantic Analysis)LDA(Latent Dirichlet Allocation) #fetch_20newgroups() API는 카테고리 파라미터를 통해 필요한 주제만 필터링 후 추출, 추출된 텍스트를 count 기반으로 벡터화 변환from sklearn.datas..

카테고리 없음 2024.12.28

[ECC 스터디] 7장 군집화

01. K-평균 알고리즘 이해k-평균은 군집화에서 가장 일반적으로 사용되는 알고리즘, 군집 중심(centroid)이라는 특정한 임의의 지점을 선택해 해당 중심에 가장 가까운 포인트를 선택하는 군집화 기법 과정: 군집 중심점은 선택된 포인트의 평균 지저으로 이동하고 이동된 중심점에서 다시 가가운 포인트를 선택 ,다시 중심점을 평균 지점으로 이동하는 프로세스를 반복적으로 수행, 모든 데이터 포인트에서 더이상 중심점의 이동이 없을 경우에 반복을 멈추고 해당 중심젖ㅁ에 속하는 데이터 포인트를 군집화 하는 기법.  K-평균의 장/단점 장점일반적인 군집화에서 가장 많이 활용되는 알고리즘쉽고 간결함단점거리기반 알고리즘으로 속성의 개수가 많을 경우, 군집의 정확도가 떨어짐반복을 수행하는데 있어 횟수가 많을 경우 수행시..

머신러닝 2024.11.29

[ECC 머신러닝 스터디] 6장 차원 축소

01 차원 축소 개요차원이 증가할수록 데이터 포인트 간의 거리가 기하급수적으로 멀어지면서 sparse한 구조를 가지게 됨. 수백 개 이상의 피처로 구성된 데이터 세트의 경우, 상대적으로 적은 차원에서 학습된 모델보다 예측 신뢰도가 떨어지며, 피처가 많을 경우 개별 피처간의 상관관계가 높을 가능성이 큼. 매우 많은 다차원의 피처를 차원 축소해 줄일 경우, 직관적으로 데이터 해석 가능. 차원 축소를 통해, 시각적으로 데이터를 압축해서 표현하고, 학습 크기가 줄어들어 학습에 필요한 처리 능력도 동시에 줄임. 차원축소: 1. 피처 선택 (feature selection) : 특정 피처에 종속성이 강한 불필요한 피처는 아에 제거하고, 데이터의 특징을 잘 나타내는 주요 피처만 선택2. 피처 추출 (feature e..

머신러닝 2024.11.22

[ECC 머신러닝 스터디] 5장 리뷰

01 회귀 소개통계학: 여러개의 독립변수와 한개의 종속 변수 간의 상관관계를 리모델링하는 기법을 통칭Y=W1*X1+W2*X2.....+Wn*Xn 일 경우 Y는 종속변수, 아파트 가격, X1, X2는 독립변수를 의미하며 W1, W1..Wn은 독립변수의 값에 영향을 미치는 회귀 계수(Regression coefficients)를 나타냅니다. 머신러닝 회귀 예측의 핵심은 주어진 피처와 결정값 데이터 기반에서 학습을 통해 최적의 회귀 계수를 찾아내는 것 지도학습은 크게 classification - 예측값이 카테고리와 같은 이산형 클래스와 regression- 예측값이 연속형 숫자값으로 나뉘어짐.선형회귀는 실제값과 예측값의 차이를 최소화하는 직선형 회귀선을 최적화하는 방식, Regularization 방법에 따..

머신러닝 2024.11.15

[ECC 파이썬 머신러닝 완벽가이드] 4.7-4.11

4.7 LightBGMLightBGM의 가장 큰 장점: XGBoost보다 학습에 걸리는 시간이 훨씬 적고, 메모리 사용량도 상대적으로 적음. XGBoost의 예측 성능과 별 차이는 없음.LightBGM의 단점: 적은 데이터 세트에 적용시 과적합이 발생하기 쉬움, 적은 데이터 세트의 기준은 일반적으로 10,000건 이하.LightBGM은 일반 GBM과 다르게 리프중심 트리분할(Leaf Wise) 방식을 사용.대부분은 균형 트리분할 방식을 사용하나, 균형잡힌 트리를 유지하면서 깊이를 최소화함. -> 균형을 맞추기 위한 시간소요의 단점 존재.  Light BGM의 경우, 중심 트리 분할 방식으로 균형을 맞추지 않고, 최대 손실값을 가지는 리프 노드를 지속적으로 분할하면서 트리의 깊이와 비대칭적인 규칙 트리 생..

머신러닝 2024.11.09

[파이썬 머신러닝 완벽 가이드] 3장 평가

1. 정확도정확도 = 예측 결과가 동일한 데이터 건수 / 전체 예측 데이터 건수정확도는 직관적으로 모델 예측 성능을 나타내는 평가 지표입니다. 하지만 이진 분류의 경우 데이터의 구성에 따라 ML 모델의 성능을 왜곡할 수 있기에 정확도 수치 하나만 가지고 성능을 평가하지 않음.아무런 학습을 하지않고, 성별에 따라 생존자를 예측하는 단순한 Classifierimport numpy as npfrom sklearn.base import BaseEstimatorclass MyDummyClassifier(BaseEstimator): # fit( ) 메소드는 아무것도 학습하지 않음. def fit(self, X , y=None): pass # predict( ) 메소드는 단순히 ..

머신러닝 2024.10.10

1장 파이썬 기반의 머신러닝 생태계의 이해

01 머신러닝의 개념머신러닝: 어플리케이션을 수정하지 않고, 데이터 기반으로 패턴을 학습하며 결과를 예측하는 알고리즘 기법. 소스의 코드가 복잡해지면서 예측의 정확성 향상을 위해 데이터를 기반으로 패턴을 인지해 해결.통계적인 신뢰도 강화하며 예측 오류를 최소화하기 위해 데이터 분석 영역에 새로운 혁신을 가져다줌. 머신러닝의 분류1. 지도학습(Supervised Learning)분류(Classification), 회귀(Regression)이 대표적 2. 비지도학습(Unsupervised Learning)클러스터링, 차원 축소가 대표적 3. 강화학습(Reinforcement Learning) 데이터의 단점: 매우 의존적, 좋은 품질의 데이터를 갖추지 못하면 수행결과 또한 좋을 수 없음. 따라서 최적의 알고리..

머신러닝 2024.09.27