'멀티모달' 태그의 글 목록

[CV] Multimodal (멀티모달)

AI 분야에서 Multimodal이란 텍스트, 이미지, 오디오, 비디오 또는 센서 데이터와 같은 여러 유형의 데이터 또는 'modes'의 정보를 처리하고 통합하는 시스템의 기능을 의미한다. Multimodal AI는 이러한 다양한 데이터 유형을 통합된 방식으로 이해하고 분석하여 여러 입력의 조합이 필요한 작업을 수행할 수 있다. Multimodal AI의 목표는 인간이 여러 감각을 사용하여 환경을 인식하고 이해하는 방식과 유사하게 세상과 상호작용할 수 있는 보다 포괄적이고 유연한 시스템을 만드는 것이다. 예시:텍스트 및 이미지: 이미지에 대한 캡션을 생성하거나 이미지에 대한 질문에 답하는 AI 시스템은 언어 이해(텍스트)와 시각적 이해(이미지)를 결합한다.텍스트 및 오디오: 음성 언어(오디오)를 이해하고..

기술(Tech, IT)/컴퓨터 비전 (Computer Vision) 2024. 10. 8. 02:28

이전 1 다음

이전 다음

공지사항

최근에 올라온 글

최근에 달린 댓글

Total

Today

Yesterday

링크

TAG more

« 2025/01 »
일	월	화	수	목	금	토
			1	2	3	4
5	6	7	8	9	10	11
12	13	14	15	16	17	18
19	20	21	22	23	24	25
26	27	28	29	30	31

글 보관함

Daniel's blog

티스토리툴바