3 metoder för att motverka AI-hallucinationer

Vad är AI-hallucinationer? Här är 3 metoder för att motverka dem.

Generativ AI är mer än bara ett buzzword – det kommer att förändra hur vi interagerar med teknologi och data framöver. Potentialen i generativ AI, oavsett om det gäller språkförståelse, generering av bilder, text och video, har möjlighet att transformera hur olika branscher arbetar och vilka verktyg de har tillgängliga.

Men låt oss vara realistiska: Det finns fortfarande utmaningar att övervinna för företag att känna sig trygga med teknologin.

Vad är AI-hallucinationer?

Många företag idag känner pressen att hänga med där fokus ligger. Möjligheterna som generativ AI skapar är frestande, men att implementera och förstå ny teknologi kräver tid och resurser. Minsta osäkerhet är därför en stor fråga för företag, samtidigt som man inte har råd att halka efter om de utlovade värden som kan skapas blir en realitet.

Språkmodeller, eller Large Language Models (LLM) såsom GPT-4, är den del av generativ AI flest företag har börjat lära känna, och ett av de problem många företag behöver hantera är risken för faktafel, bias i svar eller okontrollerat beteende i modellens output.

Ett vanligare begrepp för att beskriva detta är: AI-hallucinationer.

Hur kan du motverka dem?

Denna faktor kan inte ignoreras – den rör potentiella hinder som kan få projekt att fastna i prototypstadiet istället för att de tas i produktion. I grunden handlar det om förtroende för tekniken.

Så har det ofta varit, teknologins adoption går långsammare än förväntat men fortare än vad man tror och insikter kring värdeskapande och förtroende byggs stegvis. Vad det gäller utvecklingen inom generativ AI går det dock rasande fort.

Ett exempel är att OpenAI’s modell GPT-4 är väldigt mycket bättre på att förstå och följa sina instruktioner än föregångaren GPT-3.5, och i nästa version kommer vi säkerligen se ytterligare ett väldigt stort steg framåt kring detta.

Eftersom språkmodellens beteende är probabilistiskt går det inte att kontrollera all output till 100%, men det finns effektiva metoder för att teknologin ska fungera väldigt väl i en kontrollerad miljö, och bidrar alltså till att motverka AI-hallucinationer.

Det finns en lång rad tekniker och åtgärder som behöver användas i kombination och löpande. Bland dessa är Prompt Engineering, RAG (Retrieval Augmented Generation) och löpande Monitorering tre centrala komponenter.

Prompt Engineering

Till skillnad från t.ex. traditionella chatt- och röstgränssnitt, där varje interaktion är hårdkodad, genererar LLM sina egna svar baserat på den data den är tränad på. Enkelt förklarat är en LLM en statistisk modell som genererar ord och meningar baserat på sannolikhet.

Se Gustav Söderströms briljanta föreläsning om AI och LLM för en fördjupning.

De svar som genereras kan effektivt styras via Prompt Engineering, användning av en eller flera promptar som kan variera i komplexitet och som bör itereras och utvecklas löpande.

Prompten fungerar som en instruktion för LLM. Denna instruktion kan användas för att styra modellens tonalitet och delvis även dess “värderingar”.

Vi rekommenderar t.ex. att utveckla en standardiserad varumärkesprompt (Brand Prompt) som tar utgångspunkt i företagets grundläggande värderingar och policies kring hur man vill att automatiserade gränssnitt ska upplevas.

Denna Brand Prompt (kan vara flera baserat på modalitet etc) bör i den bästa av världar ligga som grundmall för samtliga produkter eller lösningar som använder Generativ AI.

Utöver Brand Prompt så behövs diverse promptar i systemet för att mer granulärt styra dess beteende samt styra den kontext eller data som systemet ska basera sitt svar på. Promptarbetet kombineras med fördel med en teknik som kallas RAG (Retrieval Augmented Generation).

Genom att filtrera och begränsa den datamängd som systemet använder som bas för sitt svar minimeras risken för faktafel och modellens beteende är mer kontrollerat. Här gäller det förstås att datan är i gott skick vilket också behöver säkerställas för bästa kvalitet i output.

Retrieval Augmented Generation (RAG)

RAG är en metod som låter LLM:s skapa svar baserat på en avgränsad kontext eller informationskälla.

Hur fungerar det? Genom att analysera frågan kan språkmodellen användas för att avgöra vilken data som är mest lämplig för att besvara den. Systemet kan då hämta rätt data ur en databas med dokument (till exempel en samling PDF:er) för att hämta relevant information/data innan textgenereringen startar.

Denna metod kombinerar element från både ”informationshämtning” (retrieval) och textgenerering (generation) för att ge mer informerade svar. Det finns ett antal varianter av RAG som passar olika väl beroende på användarfallet. En metod är att använda semantisk sökning.

Med hjälp av den här metoden genomförs en sökning semantiskt i databasen för att hitta dokument eller textstycken som kan vara relevanta för svaret. Semantisk sökning är viktig i detta sammanhang eftersom det innebär att man söker efter en matchning i betydelse, inte bara nyckelord.

Kombinationen av Prompt Engineering och RAG gör att LLM:s kan generera output som enbart baseras på data kopplat till ditt företags data eller annan specifik information som man angivit för den. Metoderna fungerar väldigt väl och vi har kunnat uppmäta goda resultat i de egna tester vi genomför löpande.

Monitorering

Att säkerställa kvalitet i output för generativ AI är förstås en grundförutsättning för att börja skapa stora affärsvärden med LLM. Exempelvis kan tekniken användas för att tillgängliggöra information och data på ett avsevärt enklare och mer naturligt sätt.

I de flesta fall idag krävs det antingen specialistkompetens för att omvandla data till insikter, eller plattformsspecialister för att navigera verktyg för att göra detsamma.

Med generativ AI, och dess förmåga att “förstå” naturligt språk, har vi plötsligt ett enklare och mer effektivt gränssnitt för att extrahera och bearbeta data och information.

En tredje central komponent för hantering av output är Monitorering. Exempelvis används tekniker såsom mätning av “Groundedness” i output. Den jämför output från LLM med vad som ursprungligen finns i datakällan och ger dig ett värde på hur nära (eller långt ifrån) och hur ofta dessa överensstämmer.

Uppföljning av Groundedness i svar, liksom uppföljning och monitorering av dess kompatibilitet med företagets varumärkesriktlinjer, värderingar och policies ökar säkerheten i systemen kraftigt.

Det finns fler metoder vi rekommenderar – såsom Red Team testing och även Semantisk monitorering – men det kan vi återkomma till i en kommande artikel.

Kompetensutveckla din organisation

För tillfället diskuteras många risker kring AI inom företag och riskerar tyvärr att bli flaskhalsar för innovation. Vi vill betona att det är viktigt att diskutera och lyfta fram dessa risker.

Samtidigt bör det balanseras med information kring teknologins utveckling och de framsteg som görs för att hantera dem.

Exempelvis OpenAIMicrosoftGoogle och AWS tar samtliga stora kliv för att hantera och minska dessa risker i takt med att branschen utvecklas. Framsteg som på grund av den snabba utvecklingen inte nått ut till alla.

Att lära sig hantera risker med ny teknologi kan skapa stora fördelar för företag, eftersom det kan bidra till konkurrensfördelar och skapa möjligheter att realisera värde över hela organisationen.

Det bästa är naturligtvis att påbörja sin AI-resa och lära sig.