TF-IDF (Term Frequency-Inverse Document Frequency)는 information retrieval (정보 검색) 및 text mining (텍스트 마이닝)에 사용되는 수치 통계로, 문서 모음 (일반적으로 corpus, 말뭉치)과 관련해 문서 내 용어(단어 또는 구문)의 중요성을 나타낸다. TF-IDF 벡터화는 텍스트 문서 모음을 해당 용어의 TF-IDF 점수를 기반으로 숫자 벡터로 변환하는 데 사용되는 기법이다. NLP 및 text analysis에 널리 사용된다. TF-IDF에 대해 하나하나 알아보자. TF (Term Frequency, 용어 빈도) : Term Frequency는 문서에서 용어가 얼마나 자주 나타나는지를 측정한다. 이는 문서에서 용어가 나타나는 횟수를..
Multinomial Naive Bayes는 classification tasks, 특히 NLP 및 text analysis에 널리 사용되는 머신 러닝 알고리즘이다. 이는 Bayes' theorem과 조건부 독립 가정의 특성에 기반한 Naive Bayes 알고리즘의 확장판이다. Multinomial Naive Bayes의 원리는 아래와 같다. Bayes' Theorem : 이 알고리즘의 핵심은 이벤트와 관련이 있을 수 있는 조건에 대한 사전 지식을 바탕으로 특정 이벤트가 발생할 확률을 계산하는 Bayes' Theorem에 의존한다. classification의 맥락에서 이 알고리즘은 주어진 입력이 특정 클래스에 속할 확률을 계산하는 데 도움이 된다. Multinomial Distribution (다항 분..
- Total
- Today
- Yesterday
- The Economist Espresso
- join
- 파이썬
- 소켓 프로그래밍
- Hash Map
- 리트코드
- socket programming
- machine learning
- 머신 러닝
- C++
- 안드로이드
- 딕셔너리
- ml
- tf-idf
- Python
- I2C
- Android
- defaultdict
- The Economist
- Computer Graphics
- leetcode
- 투 포인터
- DICTIONARY
- min heap
- vertex shader
- java
- 이코노미스트
- 오블완
- 티스토리챌린지
- 이코노미스트 에스프레소
| 일 | 월 | 화 | 수 | 목 | 금 | 토 |
|---|---|---|---|---|---|---|
| 1 | 2 | 3 | 4 | 5 | 6 | 7 |
| 8 | 9 | 10 | 11 | 12 | 13 | 14 |
| 15 | 16 | 17 | 18 | 19 | 20 | 21 |
| 22 | 23 | 24 | 25 | 26 | 27 | 28 |
| 29 | 30 | 31 |
