[ML] TF-IDF

티스토리 뷰

기술(Tech, IT)/머신 러닝(Machine Learning)

[ML] TF-IDF - 1

Daniel803 2023. 10. 17. 06:52

TF-IDF (Term Frequency-Inverse Document Frequency)는 information retrieval (정보 검색) 및 text mining (텍스트 마이닝)에 사용되는 수치 통계로, 문서 모음 (일반적으로 corpus, 말뭉치)과 관련해 문서 내 용어(단어 또는 구문)의 중요성을 나타낸다. TF-IDF 벡터화는 텍스트 문서 모음을 해당 용어의 TF-IDF 점수를 기반으로 숫자 벡터로 변환하는 데 사용되는 기법이다. NLP 및 text analysis에 널리 사용된다.

TF-IDF에 대해 하나하나 알아보자.

TF (Term Frequency, 용어 빈도)
: Term Frequency는 문서에서 용어가 얼마나 자주 나타나는지를 측정한다. 이는 문서에서 용어가 나타나는 횟수를 계산한 것이다. 용어를 t라 하고 문서를 d라 했을 때,

TF (t, d) = (용어 t가 문서 d에 나타난 횟수) / (문서 d의 총 용어 횟수)
IDF (Inverse Document Frequency, 역 문서 빈도)
: Inverse Document Frequency는 문서 모음(a collection of documents)에서 용어의 중요도를 측정한다. 이는 전체 corpus에서 용어가 얼마나 고유하거나 희귀한지를 정량화하고, 계산은 아래와 같다.

IDF (t) = log ((corpus내 모든 문서 수) / (용어 t가 포함된 문서의 수))

log는 매우 흔하게 등장하는 용어가 점수를 지배하지 않기 위해 사용된다.
TF-IDF Score
: 용어 t와 문서 d에 대한 TF-IDF 점수는 TF와 IDF의 곱으로 정의한다.

TF-IDF (t, d) = TF (t, d) * IDF (t)
Vectorization (벡터화)
: 문서의 TF-IDF 벡터 표현을 생성하기 위해 문서의 각 용어에 TF-IDF 점수가 할당되고 이 점수는 벡터의 요소로 사용된다. 따라서 corpus의 각 문서는 고차원 공간에서 벡터로 표현되며, 각 차원은 고유한 용어에 해당하고 각 차원의 값은 문서에서 해당 용어의 TF-IDF 점수를 나타낸다.

TF-IDF 벡터화는 다음과 같이 NLP 및 text analysis에서 여러가지 용도로 사용된다:

Document retrieval (문서 검색)
: 주어진 query와 가장 관련성이 높은 문서 찾기
Text classification (텍스트 분류)
: 문서를 미리 정의된 카테고리로 분류
Information retrieval (정보 검색)
: 관련성에 따라 검색 결과의 순위를 매기기
Keyword extraction (키워드 추출)
: 문서에서 중요한 용어 또는 구문 식별
Text clusering (텍스트 클러스터링)
: 콘텐츠에 따라 유사한 문서를 함께 그룹

TF-IDF는 text data를 머신 러닝 알고리즘이 다양한 작업에 사용할 수 있는 수치 형식으로 변환하는 데 유용한 도구다.

'기술(Tech, IT) > 머신 러닝(Machine Learning)' 카테고리의 다른 글

[ML] Hidden Markov Model (HMM, 은닉 마르코프 모델) - 1 (0)	2023.10.22
[ML] NLP Data Cleaning의 필요성 (0)	2023.10.18
[ML] Multinomial Naive Bayes (다항 분포 나이브 베이즈) - 1 (0)	2023.10.17
[ML] Optimization method (최적화 알고리즘) (0)	2023.10.11
[ML] t-SNE (t-Stochastic Neighbor Embedding) - 2 (2)	2023.10.06

공지사항

최근에 올라온 글

최근에 달린 댓글

Total

Today

Yesterday

링크

TAG more

« 2026/06 »
일	월	화	수	목	금	토
	1	2	3	4	5	6
7	8	9	10	11	12	13
14	15	16	17	18	19	20
21	22	23	24	25	26	27
28	29	30

글 보관함

Daniel's blog

티스토리 뷰

[ML] TF-IDF - 1

'기술(Tech, IT) > 머신 러닝(Machine Learning)' 카테고리의 다른 글

티스토리툴바