기술(Tech, IT)/머신 러닝(Machine Learning) 43

[ML] SNE (Stochastic Neighbor Embedding)

고차원 데이터의 차원 축소 및 시각화를 위해 많이 사용되는 t-SNE (Machine Learning 알고리즘)을 살펴보기에 앞서, 이전 버전이라고 할 수 있는 SNE (Stochastic Neighbor Embedding)에 대해 알아보자. SNE는 t-SNE와 마찬가지로, 고차원 데이터의 차원 축소 및 시각화를 위한 기법으로, 주요 목표는 고차원 공간에서 저차원 공간으로 데이터를 매핑할 때 로컬 구조를 보존하는 것이다. 고차원 공간과 저차원 공간의 두 가지 확률 분포 사이의 차이를 최소화 하여 이를 수행한다. 동작 방식 : 고차원 공간의 각 데이터 포인트 쌍에 대해 SNE는 해당 포인트의 유사성을 나타내는 조건부 확률을 계산한다. 이 작업은 특정 지점을 중심으로 Gaussian centered을 사용..

[ML] TF-IDF (Terms Frequency-Inverse Document Frequency)

TF-IDF (Terms Frequency-Inverse Document Frequency) 는 흔히 "말뭉치"라고 불리는 문서 모음과 비교해 문서에서 단어의 중요도를 평가하는 데 사용되는 통계적 척더로, 한 문서에서는 흔하지만 전체 말뭉치에서는 드문 단어가 중요할 가능성이 높다는 것이 TF-IDF의 기본 개념이다. TF-IDF는 두 가지로 구성되는데 바로 TF (Terms Frequency, 용어 빈도) 와 IDF (Inverse Document Frequency, 역문서 빈도) 다. TF : 문서에서 용어가 얼마나 자주 나타나는지를 측정한다. IDF : 모든 문서에서 단어가 얼마나 드물거나 흔한지를 측정한다. 많은 문서에 나타나는 단어는 적은 문서에서 나타나는 단어보다 IDF가 낮다. TF-IDF =..

[ML] Corpus (코퍼스, 말뭉치)

NLP (Natural Language Processing, 자연어 처리) 연구를 위해 특정한 목적을 가지고 언어의 표본을 추출한 집합. 예를 들어, 아래의 Corpus가 사용되는 문맥을 살펴보자. TF-IDF (Terms Frequency-Inverse Document Frequency) 는 "Corpus (말뭉치)"라고 불리는 문서 모음과 비교해 문서에서 단어의 중요도를 평가하는 데 사용되는 통계적 척도다. 한 문서에서는 흔하지만 말뭉치 전체에서는 드물게 사용되는 단어가 중요할 가능성이 높다는 것이 기본 개념. TF-IDF stands for "Term Frequency-Inverse Document Frequency." It's a statistical measure used to evaluate ..

[ML] Log Likelihood (로그 가능도)

우선 Likelihood에 대해 되짚어보면 Likelihood (가능도) 는 특정 사건이 일어날 확률, 정성적 용어 (qualitative terms) 를 사용하면 백분율 확률 (percent probability) 또는 빈도 (frequency) 를 나타낸다. 연속된 확률 분포인 연속 확률 분포와 discrete한 이산 확률 분포 모두 수식으로 나타내면 흡사하며 해당 사건들이 발생할 확률은 곱한 것으로 아래와 같아 나타낼 수 있다. Maximum Likelihood 는 Likelihood 중 가장 높은 값을 말하며 수식은 아래와 같다. 여기에 Log를 취한 것이 Log Likelihood로 Log를 취하게 되면 곱셈이 덧셈으로 대체될 수 있기에 연산이 단조로워지고 이는 컴퓨터 역시 좀 더 단조로운 연산..

[ML] P-value (유의 확률, Probability value)

위키피디아에 따르면 P-value에 대한 정의는 아래와 같고, 다른 곳 역시 비슷하다. : In null-hypothesis significance testing, the p-value is the probability of obtaining test results at least as extreme as the result actually observed, under the assumption that the null hypothesis is correct. : 통계적 가설 검정에서 유의 확률 (significance probability, asymptotic significance) 또는 p-값 (p-value, probability value)은 귀무가설이 맞다고 가정할 때 얻은 결과보다 극단적인 ..

[ML] Marginal Probability (주변 확률)

Marginal probability refers to the probability of an event occurring without considering the outcomes of another related event. It's essentially the probability of a single event, disregarding the presence or absence of some other event. Marginal probability (주변 확률은) 관련된 다른 이벤트의 결과에 상관없이 특정 이벤트가 발생할 확률을 말한다. 아래 수식을 참고해 이해해보자. 확률 변수 X와 Y가 있을 때 X에서 a가 발생했을 때를 나타내는 P (X = a) 라는 단독 확률을 Marginal prob..

[ML] Joint Probability (결합 확률)

2개의 이상의 사건이 동시에 일어날 확률을 말한다. 서로 다른 사건 X와 Y가 있을 때 두 사건이 동시에 일어날 확률은 P(X, Y) 또는 P(X ∩ Y)로 나타낸다. 이 때, 사건 X와 Y는 독립 사건 (Independent)여야 한다. 종속 사건 (Dependent) 일 시엔 사용이 불가하다. 참고 - https://velog.io/@claude_ssim/%ED%99%95%EB%A5%A0%ED%86%B5%EA%B3%84-Joint-Probability-Marginal-Probability-Conditional-Probability - https://excelsior-cjh.tistory.com/193

[ML] Tesseract (테서랙트)

tesseract image.png output.txt Tesseract 공식 GitHub에 따르면 아래와 같다. : Tesseract는 오픈 소스 OCR 엔진으로 Apache 2.0 License 하에 이용이 가능하다. Tesseract는 command line을 통해 바로 사용이 가능하며, API를 사용해 이미지로부터 텍스트 추출도 가능하다. 광범위한 연어를 지원하고. Tesseract는 빌트인 GUI는 없지만, 여러 3rdParty에서 이용이 가능하다. Tesseract에 대한 외부 툴이나 래퍼, 트레이닝 프로젝트는 AddOns에 나열돼있다. Tesseract는 Aparche 2.0 License 하에 당신의 프로젝트에서도 사용이 가능하다. 모든 기능을 갖춘 API가 있으며, 안드로이드와 아이폰을 ..

[ML] OCR(Optical Character Recognition, 광학 문자 인식)

AWS에서 설명하는 OCR은 아래와 같다. : OCR은 이미지 파일의 텍스트를 기계가 읽을 수 있는 텍스트 포맷으로 변환하는 과정을 말한다. 예를 들어, 당신이 어떤 양식이나 영수증을 스캔한다면, 당신의 컴퓨터는 이를 이미지 파일로 저장할 것이다. 당신은 텍스트 에디터로 이 이미지 파일을 수정, 검색 또는 단어 개수 세기 등을 할 수 없다. 하지만 당신이 ocr을 이용해 이 이미지 파일을 텍스트 문서로 변환해 텍스트 데이터로 저장한다면 수정이나 검색 등이 가능하다. : Optical Character Recognition (OCR) is the process that converts an image of text into a machine-readable text format. For example, i..

[ML] Calinski-Harabasz Index (칼린스키-하라바츠 인덱스)

Calinski-Harabasz Index는 Variance Ration Criterion (VRC) 라고도 알려져 있으며 직역하자면 분산 비율 기준이다, 데이터에서 최적의 클러스터 수를 결정하기 위한 평가 지표로. 1974년 칼린스키와 하라바츠가 제안했다. 평가 지표는 Internal Validation 기법과 External Validation 기법이 있는데 데이터에 label이 없을 시 Internal Validaiton 기법을 사용할 수 있으며 여기에는 Calinski-Harabasz Index 외에 Silhoutte Score, Davies-Bouldin Index 등이 있다. 이 지표는 클러스터 간 분산 합계와 클러스터 내 분산 합계의 비율을 기반으로 한다. 직관적으로, 이 비율은 클러스터 내..