Мультимодальные модели (Multimodal Models) способные одновременно обрабатывать и понимать разные типы данных: текст, изображения, аудио и иногда видео.
Примеры задач:
✅ Описание изображения на естественном языке (image captioning).
✅ Поиск изображений по текстовому описанию и наоборот.
✅ Анализ видео с синхронизацией визуальной и звуковой дорожки.
✅ Ответ на вопрос, основываясь на тексте и диаграмме.
Подтипы и технологии: Гибридные архитектуры, которые объединяют компоненты для обработки разных типов данных (например, CNN для изображений и RNN/Transformer для текста).