Evaluering af platforme
Evaluering af platforme
Fem punkter til at evaluere din anvendelse
- 1
Omfanget af kilder platformen omfatter
Afhængig af din konkrete anvendelse, kan det være mere eller mindre relevant at have et rigtigt, troværdigt og fuldstændigt svar. Er der f.eks. tale om opgaver, hvor det er nødvendigt at kende det præcise omfang af kilder, ja så kan platforme som eksempelvis ChatGPT have svært ved at leve op til kravet og kan ikke oplyse andet, end at "den har høstet og læst al offentlig tilgængelig information på internettet". Men hvis du "blot" bruger generativ AI til at finde inspiration, så er det måske mindre vigtigt.
Andre platforme kan muligvis give mere præcise oplysninger om de data, der ligger til grund for deres sprogmodel, inklusive hvordan materialet er blevet behandlet for at blive en del af en sprogmodel. Ofte er træningsmaterialet set som en forretningshemmelighed.
- 2
Skæringsdato for indhold
Mange platforme har en skæringsdato for hvortil, de har inkluderet indhold til deres sprogmodel. Det kan have betydning for en vurdering af, hvor opdateret resultatet er. Det kan det være relevant, at vurdere, om du kan få en form for tidsmæssig opfattelse af udviklingen inden for et område. Det kan betyde, at nyere antagelser og resultater ikke tages i betragtning. Drukner nye opfattelser og resultater eksempelvis, fordi tidligere dominerer i træningsdata?
Andre platforme har implementeret Retrieval-Augmented Generation (forkortes RAG) og kompenserer for dette ved f.eks. at inddrage internetsøgning som input til sine svar.
- 3
Normer og værdier
Platforme danner deres svar (hvad enten det er tekst eller eksempelvis billeder) på baggrund af det træningsdata, der udgør basis for deres sprogmodel. Der kan være flere faktorer der gør, at et givet resultat har bias - altså har en indbygget skævhed. Denne kan komme til udtryk på flere måder:
- Sprogmodellen er trænet på data der repræsenterer et bestemt synspunkt, kultur, stereotypiske opfattelser, værdigrundlag eller tilsvarende. Eller at data er renset forud i henhold til etiske normer defineret af platformen?
- Platformen er kodet til at undertrykke udvalgte udsagn i kildematerialet, hvis disse går mod de etiske og moralske normer. Undersøger du eksempelvis skepsis over klimaforandringer, vil en given platform så rent faktisk lade disse synspunkter komme frem?
Du kan læse mere om dette i Assessing Cross-Cultural Alignment between ChatGPT and Human Societies: An Empirical Study (Cao et al., C3NLP 2023).
- 4
Kan platformen opdigte indhold?
Platforme benytter som oftest sprogmodeller og algoritmer, hvor huller i viden kan blive fyldt ud med nyt "kreativt" indhold, der ikke har hold i virkeligheden. Dette fænomen kaldes også for "hallucinationer" og er et biprodukt af modellernes probabilistiske fremfor faktuelle tilgang samt den måde, de fleste modeller trænes på. Der kan være forskel tjenesterne imellem på graden af evnen til at hallucinere. Du skal være særdeles opmærksom på hallucinationer, for de kan være svære at spotte.
- 5
Har du viden nok til at vurdere resultatet?
Man bør altid spørge sig selv: Har jeg nok viden til at vurdere, om et output fra en generativ AI-platform er korrekt? Hvis ens viden om et emne er begrænset, kan det være fristende at anvende generativ AI til at få en introduktion eller lignende. Men i lyset af de udfordringer, der er nævnt ovenfor, er det ikke uden risiko. Derfor er det vigtigt altid at søge andre kilder til at bekræfte de resultater, som generativ AI producerer.
Websider i temaet om generativ AI
Generativ AI med Microsoft Copilot
Studerende og ansatte på AAU har adgang til Microsofts Copilot AI platform i en med kommerciel databeskyttelse. Hermed sikrer du at dit indhold ikke bliver gemt eller brugt til træningsdata. Vi har lavet en side om hvordan du kan bruge Copilot og hvad, du skal være opmærksom på.