티스토리 뷰
Word Embeddings의 구체적인 예시와 어떻게 사용되는지를 알아보자.
- 구체적 예시
- Word2Vec
: "king", "queen", "man", "woman" 라는 단어가 있다고 가정해보자. 학습된 Word2Vec 모델에서 Embedding은 다음와 같이 나타낼 수 있다.
"king": [0.2, -0.1, 0.4]
"queen": [0.21, -0.09, 0.41]
"man": [-0.4, 0.3, -0.1]
"woman": [-0.39, 0.31, -0.09]
"king"과 "queen"이 "man"과 "woman"과 마찬가지로 유사한 벡털르 가지고 있음을 알 수 있다. - GloVe
:"computer", "keyboard", "flower", "rose" 라는 단어가 있다고 가정해보자. 이는 아래와 같은 Embedding으로 나타낼 수 있다.
"computer": [1.0, -0.5, 0.3]
"keyboard": [0.9, -0.43, 0.35]
"flower": [-0.3, 1.2, -0.4]
"rose": [-0.28, 1.18, -0.42]
"computer"와 "keyboard"는 "computer"와 "flower"에 비해 벡터 공간에서 더 가깝다.
- Word2Vec
- 사용되는 방법
- Semantic Similarity (의미적 유사성)
: Embedding은 단어 간의 의미적 유사성을 측정하는 데 자주 사용된다. 일반적으로 두 벡터 사이의 각도를 통한 Cosine 유사도를 사용해 측정하며, 이는 벡터의 크기와 무관하고 방향에만 초점을 맞추기 때문에 효과적이다. - Analogies (유추)
: Word Embeddings를 통해 유추가 가능하다. 예를 들어, Word2Vec를 생각해보면
("king" - "man" + "woman" ≈ "queen") 과 같은 유추가 가능하다. - Euclidean Distance (유클리드 거리)
: Cosine similarity가 더 일반적이지만 유클리드 거리는, 특히 크기와 관련이 있는 경우 사용이 가능하다. - Cluster Analysis (클러스터 분석)
: Word Embeddings은 벡터 공간에서 유사한 단어를 클러스터링하는 데 사용할 수 있으며, text classification이나 thematic analysis와 같은 작업에 유용하다. - Input for Deep Learning Models (딥 러닝 모델을 위한 입력)
: sentiment analysis, machine translation 또는 question-answering과 같은 작업에서 Word Embeddings는 Neural-Network에 text를 입력하는 방법을 제공한다. - Handling Out-of-Vocabulary Words (어휘에 없는 단어 처리)
: FastText와 같은 모델은 하위 단어 단위의 Embedding을 결합해 training 중에 보이지 않는 단어에 대한 Embedding을 생성해 unknown words에 대해서도 robust 한 Embedding을 만들 수 있다.
- Semantic Similarity (의미적 유사성)
반응형
'기술(Tech, IT) > 머신 러닝(Machine Learning)' 카테고리의 다른 글
[ML] Hidden Markov Model (HMM, 은닉 마르코프 모델) - 2 (0) | 2023.12.13 |
---|---|
[ML] N-Gram Language Models - 1 (Backoff, Interpolation) (0) | 2023.12.13 |
[ML] Word Embeddings - 1 (0) | 2023.11.28 |
[ML] RNN과 POS tagging (0) | 2023.11.03 |
[ML] RNN (Recurrent Neural Network) (0) | 2023.11.02 |
공지사항
최근에 올라온 글
최근에 달린 댓글
- Total
- Today
- Yesterday
링크
TAG
- Python
- I2C
- Computer Graphics
- 투 포인터
- The Economist
- 티스토리챌린지
- defaultdict
- 이코노미스트
- 오블완
- 소켓 프로그래밍
- Android
- ml
- 머신 러닝
- 리트코드
- DICTIONARY
- The Economist Espresso
- min heap
- 이코노미스트 에스프레소
- 안드로이드
- java
- 딕셔너리
- C++
- leetcode
- machine learning
- socket programming
- 파이썬
- vertex shader
- tf-idf
- Hash Map
- join
일 | 월 | 화 | 수 | 목 | 금 | 토 |
---|---|---|---|---|---|---|
1 | 2 | 3 | 4 | |||
5 | 6 | 7 | 8 | 9 | 10 | 11 |
12 | 13 | 14 | 15 | 16 | 17 | 18 |
19 | 20 | 21 | 22 | 23 | 24 | 25 |
26 | 27 | 28 | 29 | 30 | 31 |
글 보관함
반응형