Word Embeddings의 구체적인 예시와 어떻게 사용되는지를 알아보자. 구체적 예시 Word2Vec : "king", "queen", "man", "woman" 라는 단어가 있다고 가정해보자. 학습된 Word2Vec 모델에서 Embedding은 다음와 같이 나타낼 수 있다. "king": [0.2, -0.1, 0.4] "queen": [0.21, -0.09, 0.41] "man": [-0.4, 0.3, -0.1] "woman": [-0.39, 0.31, -0.09] "king"과 "queen"이 "man"과 "woman"과 마찬가지로 유사한 벡털르 가지고 있음을 알 수 있다. GloVe :"computer", "keyboard", "flower", "rose" 라는 단어가 있다고 가정해보자. 이는 ..
Word Embeddings은 비슷한 의미를 가진 단어들이 비슷한 표현을 갖도록 하는 단어 표현의 한 유형이다. 이는 ML 알고리즘이 처리할 수 있도록 텍스트 데이터를 숫자 형식으로 변환하는 NLP의 기본 테크닉이다. 설명 Numerical Represenatation (숫자 표현) : Word Embeddings은 단어를 실수 벡터로 변환한다. 어휘의 각 단어는 고차원 공간(일반적으로 수백 차원)의 벡터에 매핑된다. Capturing Semantic Meaning (의미론적 포착) : 이러한 벡터는 단어의 의미를 포착하도록 설계돼있다. 비슷한 문맥에서 사용되는 단어는 비슷한 Embedding을 갖는 경향이 있다. 예를 들어, "king"과 "queen"은 Embedding 공간에서 가깝다. Contex..
NLP에서 단어, 구문 또는 전체 문서를 벡터로 변화하는 대표적인 기술로 Count Vectorizer, TF-IDF, Word2Vec, GloVe가 있다. 각각에 대해 알아보자. Count Vectorizer (카운트 벡터라이저) 설명 : 텍스트 데이터를 표현하는 방법으로, 각 문서 (또는 텍스트 세그먼트)에 대해 각 단어의 발생 횟수를 계산해 각 요소가 어휘의 단어에 해당하는 벡터로 문서를 표현한다. 벡터의 길이는 어휘의 크기이며, 각 요소의 값은 문서에서 해당 단어의 개수다. 사용 사례 : 텍스트 분류, 클러스터링 등을 위한 고전적인 머신 러닝 모델에서 주로 사용된다. 특징 : 단어 간의 의미론적 의미나 관계를 포착하지 않고, 의미는 비슷하지만 형태가 다른 단어(예: run과 running)는 별개..
- Total
- Today
- Yesterday
- min heap
- 머신 러닝
- I2C
- 이코노미스트
- 리트코드
- Android
- 티스토리챌린지
- tf-idf
- The Economist
- 딕셔너리
- Hash Map
- Python
- 이코노미스트 에스프레소
- vertex shader
- 투 포인터
- The Economist Espresso
- Computer Graphics
- machine learning
- ml
- socket programming
- DICTIONARY
- 안드로이드
- leetcode
- 파이썬
- java
- C++
- join
- 소켓 프로그래밍
- defaultdict
- 오블완
일 | 월 | 화 | 수 | 목 | 금 | 토 |
---|---|---|---|---|---|---|
1 | 2 | 3 | 4 | |||
5 | 6 | 7 | 8 | 9 | 10 | 11 |
12 | 13 | 14 | 15 | 16 | 17 | 18 |
19 | 20 | 21 | 22 | 23 | 24 | 25 |
26 | 27 | 28 | 29 | 30 | 31 |