
Naive Bayes는 분류(classification) 작업에 특히 적합한 확률론적 머신 러닝 classfier로, 스팸 이메일 탐지, 감성 분석, 텍스트 분류와 같은 NLP (Natural Language Processing, 자연어 처리) 작업에 자주 적용된다. Naive Bayes의 기본 아이디어는 event와 관련이 있을 수 있는 조건에 대한 사전 지식을 바탕으로 event의 확률을 설명하는 Bayes' theorem (베이즈 정리)에 뿌리를 두고 있다. NLP에서 'event'는 종종 텍스트의 범주 또는 클래스 (class) (예를 들어, '스팸' 또는 '스팸 아님')을 의미하며, '조건 (condition)'은 텍스트에 특정 단어가 있는지 또는 없는지를 의미한다. Bayes' theorem은..
NLP에서 Data Cleaning은 중요한 preprocessing (전처리 단계) 로 아래와 같은 이유로 필요하다. Noise Reduction (노이즈 감소) : raw 테스트 데이터는 종종 많은 'noise'를 포함하고 있다. 여기에는 관련 없는 문자, HTML 태그, URL 또는 기타 필수적이지 않은 정보가 포함된다. cleaning은 이러한 noise를 제거해 알고리즘이 관련 기능에만 집중할 수 있도록 도와준다. Standarization (표준화) : 텍스트 데이터는 다양한 소스에서 가져올 수 있으면 대소문자 형식, 다양한 날짜 형식 또는 대체 철자법 등 불이치가 있을 수 있다. 텍스트를 cleaning하고 standaizing하면 동일한 용어나 문구가 균일하게 표현돼 모델의 정확도가 향상된..
- Total
- Today
- Yesterday
- DICTIONARY
- Hash Map
- Python
- Computer Graphics
- 오블완
- min heap
- The Economist
- The Economist Espresso
- 투 포인터
- 소켓 프로그래밍
- 머신 러닝
- I2C
- Android
- ml
- machine learning
- socket programming
- defaultdict
- java
- 리트코드
- 파이썬
- join
- tf-idf
- 딕셔너리
- vertex shader
- C++
- 안드로이드
- 이코노미스트 에스프레소
- 티스토리챌린지
- 이코노미스트
- leetcode
일 | 월 | 화 | 수 | 목 | 금 | 토 |
---|---|---|---|---|---|---|
1 | 2 | 3 | 4 | 5 | ||
6 | 7 | 8 | 9 | 10 | 11 | 12 |
13 | 14 | 15 | 16 | 17 | 18 | 19 |
20 | 21 | 22 | 23 | 24 | 25 | 26 |
27 | 28 | 29 | 30 |