본문 바로가기

소프트웨어/데이터 분석2

실전 데이터 분석 2주차 13장 텍스트 유사성 자연어 처리빠른 텍스트 분석에 중점을 둔 데이터 과학의한 분야일반적으로 대량의 텍스트 데이터셋에 적용되는 편텍스트 간 유사점과 차이점을 분석하는 데 의존적이다.  텍스트 비교텍스트 간 유사도를 비교하려면 텍스트 간 차이를 정량화 해야한다.기본 접근법 : 각 텍스트 쌍에 공유되는 단어 수를 단순히 계산하는 것.각 텍스트를 단어 단위로 분할하여 단어 리스트를 만들어야 한다.토큰화 : 텍스트를 개별 단어로 분할하는 과정 정확한 단어를 비교하는 것이 불가능한 이유일관성 없는 대문자일관성 없는 구두점(특수문자 등) 합집합 : 텍스트 간 겹치는 단어와 겹치지 않는 단어를 모두 결합할 때 사용    두 텍스트의 유사성을 평가하는 간단한 지표의 작동 방식( 자카드 유사도 혹은 자카드 지수 )두 텍.. 2025. 4. 8.
실전 데이터분석 1주차 7, 9장 바로가기 5장 사이파이를 사용한 기본 확률 및 통계 분석 예산이 제한된다면 데이터도 제한 될 수 밖에 없고, 데이터와 투입 가능한 자원 간 절충이 현대 통계의 핵심.통계의 목적 : 데이터 크기가 제한된 경우에서도 데이터에서 숨겨진 의미를 찾는 것 5.1 사이파이로 데이터와 확률 간 관계 탐색하기사이파이from scipy import stats과학적 파이썬의 줄인말과학적 분석에 유용한 여러 기능을 제공확률과 통계 문제 해결용으로 만들어진 전용 모듈 scipy.stats를 포함함 scipy.stats 모듈은 데이터의 임의성 평가에 매우 유용stats.binom_test 메서드 : 이항 분포, 확률을 측정할 수 있음. num_heads = 16num_flips = 20prob_head = 0.5pr.. 2025. 4. 2.