Modeller
Multimodal AI
AI der kan håndtere flere typer input: tekst, billeder, lyd, video.
Moderne modeller som GPT-5 og Gemini er natively multimodale: de kan 'læse' billeder og PDF'er, transskribere lyd, og forstå video. Det åbner for use cases der tidligere krævede separate computer vision-modeller: kvitterings-OCR, defektanalyse på fabriksgulv, undertekster på video.
Eksempler i praksis
- Læs kvitteringer fra billede
- Beskriv produktbillede til alt-tekst
- Transskriber + opsummer Zoom-møde
Vil du anvende Multimodal AI i din virksomhed?
Tal med Hyra AI om jeres udfordring — så identificerer vi sammen om Multimodal AI er den rette tilgang, og finder den freelancer der kan bygge det.
Start med Hyra AIRelaterede termer
Læs videre om begreber der hænger sammen med dette.