Kvalitet
Evals
Systematisk test af om en AI-løsning virker godt nok.
Evals er det vigtigste man kan bygge tidligt: en samling af input + forventet output (eller scorings-kriterier) som man kører efter hver ændring. Uden evals optimerer man i blinde. Start småt — 20-50 håndskrevne cases dækker det meste — og lad systemet vokse.
Eksempler i praksis
- 100 testspørgsmål med korrekte svar
- LLM-as-judge til kvalitetsscoring
- A/B-test af prompt-varianter
Vil du anvende Evals i din virksomhed?
Tal med Hyra AI om jeres udfordring — så identificerer vi sammen om Evals er den rette tilgang, og finder den freelancer der kan bygge det.
Start med Hyra AIRelaterede termer
Læs videre om begreber der hænger sammen med dette.