Kvalitet
LLM-as-judge
Brug en sprogmodel til at bedømme output fra en anden.
Skalérbar måde at evaluere AI-svar når menneske-vurdering er for dyr. Modellen får svaret + kriterier (præcision, tone, faktualitet) og giver en score. Virker overraskende godt for nuancerede vurderinger, men kan bias'e mod sin egen stil — kombiner med stikprøve af mennesker.
Eksempler i praksis
- Bedøm 1000 supportsvar nat over
- Sammenlign A/B-prompts
- Auto-godkend tilbudsudkast
Vil du anvende LLM-as-judge i din virksomhed?
Tal med Hyra AI om jeres udfordring — så identificerer vi sammen om LLM-as-judge er den rette tilgang, og finder den freelancer der kan bygge det.
Start med Hyra AIRelaterede termer
Læs videre om begreber der hænger sammen med dette.