기술(Tech, IT)/컴퓨터 비전 (Computer Vision) 3

[CV] Multimodal (멀티모달)

AI 분야에서 Multimodal이란 텍스트, 이미지, 오디오, 비디오 또는 센서 데이터와 같은 여러 유형의 데이터 또는 'modes'의 정보를 처리하고 통합하는 시스템의 기능을 의미한다. Multimodal AI는 이러한 다양한 데이터 유형을 통합된 방식으로 이해하고 분석하여 여러 입력의 조합이 필요한 작업을 수행할 수 있다. Multimodal AI의 목표는 인간이 여러 감각을 사용하여 환경을 인식하고 이해하는 방식과 유사하게 세상과 상호작용할 수 있는 보다 포괄적이고 유연한 시스템을 만드는 것이다. 예시:텍스트 및 이미지: 이미지에 대한 캡션을 생성하거나 이미지에 대한 질문에 답하는 AI 시스템은 언어 이해(텍스트)와 시각적 이해(이미지)를 결합한다.텍스트 및 오디오: 음성 언어(오디오)를 이해하고..

[CV] Image Pyramid (이미지 피라미드)

컴퓨터 비전에서 Image Pyramid는 이미지를 반복적으로 다운샘플링 (일반적으로 2의 배수)하여 해상도가 점차 낮아지는 이미지 시퀀스를 생성하는 이미지의 다중 스케일 표현이다. 이 구조는 알고리즘이 다양한 수준의 디테일로 이미지를 처리할 수 있게 해주므로 object detection, image matching, texture analysis 같은 다양한 작업에 유용하다.  Pyramid에는 크게 두 가지 유형이 있다.Gaussian Pyramid:Pyramid의 각 레벨은 Gaussian Filter를 사용해 noise와 detail을 줄이기 위해 이전 레벨을 매끄럽게 하고(smoothed) 다운샘플링한 버전이다.주로 다양한 스케일로 글로벌 이미지의 특징을 캡처하는 것이 목표인 응용에 사용된다...

[CV] NCC (Normalized Cross-Correlation)

컴퓨터 비전에서 NCC는 두 이미지(또는 이미지 패치) 간의 유사성을 측정하는 Normalized Cross-Correlation (정규화된 교차 상관관계)의 약자다. 템플릿 매칭 (template matching) 및 이미지 정렬 (image alignment)  작업에서 일반적으로 사용되며, 템플릿과 이미지 섹션 간에 가장 잘 일치하는 것을 찾는 것이 목표다. NCC에 관련된 단계는 아래와 같다.Normalization: 비교 대상인 템플릿과 이미지 패치는 모두 평균을 빼고 표준편차로 나누어 정규화된다. 이렇게 하면 발기와 대비가 다른 효과가 제거된다.Cross-correlation: 템플릿과 이미지 패치의 정규화된 버전을 곱하고 합산해 상관 관계 점수를 계산한다. 그 결과는 유사성의 척도로서 점수가..