Hyra Start med Hyra AI

Modeller

Multimodal AI

AI der kan håndtere flere typer input: tekst, billeder, lyd, video.

Moderne modeller som GPT-5 og Gemini er natively multimodale: de kan 'læse' billeder og PDF'er, transskribere lyd, og forstå video. Det åbner for use cases der tidligere krævede separate computer vision-modeller: kvitterings-OCR, defektanalyse på fabriksgulv, undertekster på video.

Eksempler i praksis

Læs kvitteringer fra billede
Beskriv produktbillede til alt-tekst
Transskriber + opsummer Zoom-møde

Vil du anvende Multimodal AI i din virksomhed?

Tal med Hyra AI om jeres udfordring — så identificerer vi sammen om Multimodal AI er den rette tilgang, og finder den freelancer der kan bygge det.

Start med Hyra AI

Relaterede termer

Læs videre om begreber der hænger sammen med dette.

En stor sprogmodel trænet på enorme mængder tekst til at forstå og generere sprog.

AI der transskriberer talt sprog til tekst.

Computer Vision

AI der analyserer billeder og video.