Multimodální
Multimodální je schopnost modelů umělé inteligence pracovat s různými typy vstupních dat současně, jako jsou text, obraz, zvuk nebo video. Díky tomuto přístupu AI dokáže kombinovat informace z více modalit a lépe porozumět složitým kontextům.
Multimodální modely nacházejí uplatnění například v rozpoznávání obrazu s textem, automatickém titulkování nebo asistenčních technologiích, které integrují vizuální i zvukové informace. Spojením více modalit jsou multimodální AI systémy schopné reagovat na komplexní požadavky a lépe se přizpůsobovat rozmanitým uživatelským potřebám.