Kvalitet

LLM-as-judge

Brug en sprogmodel til at bedømme output fra en anden.

Skalérbar måde at evaluere AI-svar når menneske-vurdering er for dyr. Modellen får svaret + kriterier (præcision, tone, faktualitet) og giver en score. Virker overraskende godt for nuancerede vurderinger, men kan bias'e mod sin egen stil — kombiner med stikprøve af mennesker.

Eksempler i praksis

  • Bedøm 1000 supportsvar nat over
  • Sammenlign A/B-prompts
  • Auto-godkend tilbudsudkast

Vil du anvende LLM-as-judge i din virksomhed?

Tal med Hyra AI om jeres udfordring — så identificerer vi sammen om LLM-as-judge er den rette tilgang, og finder den freelancer der kan bygge det.

Start med Hyra AI

Relaterede termer

Læs videre om begreber der hænger sammen med dette.