[CV] Multimodal (멀티모달)
AI 분야에서 Multimodal이란 텍스트, 이미지, 오디오, 비디오 또는 센서 데이터와 같은 여러 유형의 데이터 또는 'modes'의 정보를 처리하고 통합하는 시스템의 기능을 의미한다. Multimodal AI는 이러한 다양한 데이터 유형을 통합된 방식으로 이해하고 분석하여 여러 입력의 조합이 필요한 작업을 수행할 수 있다. Multimodal AI의 목표는 인간이 여러 감각을 사용하여 환경을 인식하고 이해하는 방식과 유사하게 세상과 상호작용할 수 있는 보다 포괄적이고 유연한 시스템을 만드는 것이다. 예시:텍스트 및 이미지: 이미지에 대한 캡션을 생성하거나 이미지에 대한 질문에 답하는 AI 시스템은 언어 이해(텍스트)와 시각적 이해(이미지)를 결합한다.텍스트 및 오디오: 음성 언어(오디오)를 이해하고..
기술(Tech, IT)/컴퓨터 비전 (Computer Vision)
2024. 10. 8. 02:28
공지사항
최근에 올라온 글
최근에 달린 댓글
- Total
- Today
- Yesterday
링크
TAG
- machine learning
- 리트코드
- Python
- defaultdict
- ml
- tf-idf
- java
- 머신 러닝
- 소켓 프로그래밍
- leetcode
- vertex shader
- I2C
- 이코노미스트 에스프레소
- 티스토리챌린지
- 오블완
- 안드로이드
- Computer Graphics
- socket programming
- 이코노미스트
- Hash Map
- The Economist
- The Economist Espresso
- 파이썬
- join
- Android
- C++
- 투 포인터
- DICTIONARY
- min heap
- 딕셔너리
일 | 월 | 화 | 수 | 목 | 금 | 토 |
---|---|---|---|---|---|---|
1 | 2 | 3 | 4 | |||
5 | 6 | 7 | 8 | 9 | 10 | 11 |
12 | 13 | 14 | 15 | 16 | 17 | 18 |
19 | 20 | 21 | 22 | 23 | 24 | 25 |
26 | 27 | 28 | 29 | 30 | 31 |
글 보관함
반응형