본문 바로가기

소프트웨어8

실전 데이터 분석 2주차 13장 텍스트 유사성 자연어 처리빠른 텍스트 분석에 중점을 둔 데이터 과학의한 분야일반적으로 대량의 텍스트 데이터셋에 적용되는 편텍스트 간 유사점과 차이점을 분석하는 데 의존적이다.  텍스트 비교텍스트 간 유사도를 비교하려면 텍스트 간 차이를 정량화 해야한다.기본 접근법 : 각 텍스트 쌍에 공유되는 단어 수를 단순히 계산하는 것.각 텍스트를 단어 단위로 분할하여 단어 리스트를 만들어야 한다.토큰화 : 텍스트를 개별 단어로 분할하는 과정 정확한 단어를 비교하는 것이 불가능한 이유일관성 없는 대문자일관성 없는 구두점(특수문자 등) 합집합 : 텍스트 간 겹치는 단어와 겹치지 않는 단어를 모두 결합할 때 사용    두 텍스트의 유사성을 평가하는 간단한 지표의 작동 방식( 자카드 유사도 혹은 자카드 지수 )두 텍.. 2025. 4. 8.
실전 데이터분석 1주차 7, 9장 바로가기 5장 사이파이를 사용한 기본 확률 및 통계 분석 예산이 제한된다면 데이터도 제한 될 수 밖에 없고, 데이터와 투입 가능한 자원 간 절충이 현대 통계의 핵심.통계의 목적 : 데이터 크기가 제한된 경우에서도 데이터에서 숨겨진 의미를 찾는 것 5.1 사이파이로 데이터와 확률 간 관계 탐색하기사이파이from scipy import stats과학적 파이썬의 줄인말과학적 분석에 유용한 여러 기능을 제공확률과 통계 문제 해결용으로 만들어진 전용 모듈 scipy.stats를 포함함 scipy.stats 모듈은 데이터의 임의성 평가에 매우 유용stats.binom_test 메서드 : 이항 분포, 확률을 측정할 수 있음. num_heads = 16num_flips = 20prob_head = 0.5pr.. 2025. 4. 2.
머신러닝 7주차 💡 사물을 감지하거나 음성을 인식하는 일 등을 인간이 쉽게 할 수 있는 이유는? - > 사람의 지각이 주로 의식의 영역 밖, 즉 뇌의 특별한 시각, 청각, 그리고 다른 감각 기관에서 일어난다는 사실  시각피질 구조시각 피질 안의 많은 뉴런이 작은 국부 수용장을 가짐 -> 뉴런들이 시야의 일부 범위 안에 있는 시각 자극에만 반응한다는 뜻  시각 피질 연구에서 합성곱 신경망으로 점진적으로 진화.LeNet-5 구조가 생김. 이 구조는 합성곱 층과 풀링 층이라는 새로운 구성 요소가 포함되어있음.  합성곱 층CNN의 가장 중요한 구성 요소첫 번째 합성곱 층의 뉴런은 합성곱 층 뉴런의 수용장 안에 있는 픽셀에만 연결두 번째 합성곱 층에 있는 각 뉴런은 첫 번째 층의 작은 사각 영역 안에 위치한 뉴런에 연결이런 구.. 2025. 3. 12.
머신러닝 6주차 인공 뉴런 : 단순히 입력이 일정 개수만큼 활성화되었을 때 출력을 내보냄  퍼셉트론 : 가장 간단한 인공 신경망 구조퍼셉트론에서 가장 널리 사용되는 계단 함수 -> 헤비사이드 계단함수퍼셉트론은 하나의 층 안에 놓은 하나 이상의 TLU로 구성각각의 TLU는 모든 입력에 연결됨 이러한 층을 완전 연결 층 / 밀집 층 이라고 함.입력은 입력층을 구성TLU의 층이 최종 출력을 생성하기 때문에 이를 출력 층 이라고 함!💡퍼셉트론의 훈련 알고리즘은 헤브의 규칙에서 영감을 받음.헤브의 규칙 : 두 뉴런이 동시에 활성화될 때마다 이들 사이의 연결 가중치가 증가하는 경향이 있다.퍼셉트론은 네트워크가 예측할 때 만드는 오차를 반영하도록 조금 변형된 규칙을 사용하여 훈련된다.퍼셉트론 수렴 이론 : 훈련 샘플이 선형적으로 .. 2025. 3. 5.
머신러닝 4주차 - 앙상블 학습과 랜덤 포레스트 앙상블 학습 : 일련의 예측기(= 분류나 회귀 모델)로부터 예측을 수집하면 가장 좋은 모델 하나보다 더 좋은 예측을 얻을 수 있을 것.일련의 예측기 = 앙상블앙상블 학습 알고리즘 = 앙상블 기법 앙상블 방법의 예 : 훈련 세트로부터 랜덤으로 각기 다른 서브셋을 만들어 일련의 결정 트리 분류기를 훈련시키기개별 트리의 예측을 모아 가장 많은 선택을 받은 클래스를 앙상블의 예측으로 삼는다. 랜덤 포레스트 : 결정트리의 앙상블, 오늘날 가장 강력한 머신러닝 알고리즘 7.1 투표 기반 분류기더 좋은 분류기를 만드는 매우 간단한 방법은 각 분류기의 예측을 집계하는 것.가장 많은 표를 얻은 클래스가 앙상블의 예측이 됨!직접 투표 분류기 : 다수결 투표로 정해지는 분류기이 다수결 투표 분류기가 앙상블에 포함된 개별 분.. 2025. 2. 10.
머신러닝 3주차 - 서포트 벡터 머신 , 결정트리 💡딥다이브 바로보기  서포트 벡터 머신 : 다목적 머신러닝 모델서포트 벡터 머신은 분류 작업에서 빛을 발함. 하지만 매우 큰 데이터셋으로는 확장되지 않음. 5.1 선형 SVM 분류라지 마진 분류 : SVM 분류기를 클래스 사이에 가장 폭이 넓은 도로를 찾는 것서포트 벡터 : 도로 경계에 위치한 샘플  5.1.1 소프트 마진 분류모든 샘플이 도로 바깥쪽에 올바르게 분류 돼 있다면 이를 하드 마진 분류라 함.하지만 문제점이 존재데이터가 선형적으로 구분 될수 있어야 제대로 작동함.이상치에 민감함.소프트 마진 분류 : 마진 오류 사이에 적절한 균형을 잡고 도로의 폭을 가능한 넓게 유지하는 것. 규제 하이퍼 파라미터 C를 줄이면 도로가 더 커지지만 더 많은 오류가 발생한다. 또한 과대적합의 위험이 줄어든다. 5.. 2025. 2. 4.