Gör din chatbot röststyrd

Konversationsgränssnitt är på god väg att etableras som en standard som vi stöter på dagligen i form av röstassistenter och chattbotar.

I takt med att vi blir mer och mer bekväma i att interagera i dialogform med teknik så ökar våra förväntningar.

Som användare så förväntar vi oss att de företag vi kontaktar skall vara tillgängliga i någon form 24-7, inte bara via ett chattfönster på webbplatsen – utan i den kanal och via den enhet som passar oss vid just det specifika tillfället. Det kan vara i bilen, i mobilen, ibland via text, ibland via röst genom smart högtalare eller telefoni.

Tidigare i år så inledde vi, i samarbete med Softronic och Boost.ai, ett projekt för Södertälje Kommun. Syftet med projektet var att:

(a) utforska kvaliteten på tal-till-text när man interagerar med en digital assistent via telefoni,
(b) att bidra till ökad förståelse för Voice Designprocessen (i jämförelse med designprocess för visuella gränssnitt såsom text/bild) och
(c) att testa detta specifikt genom att anpassa delar av Södertäljes befintliga chattbot – ’Kommun-Kim’ – för röstinteraktion.

Genom att utgå ifrån befintlig chattbot kan man återanvända tidigare investeringar i samband med att man utvidgar till fler kanaler, samtidigt som man möjliggör hantering och administration av innehåll på ett ställe (’one source of truth’).

Att “Conversational AI” numera innefattar röst ser jag som en ’game changer’. Tänk hur vi kan öka tillgänglighet till grupper som har svårt att läsa och skriva. Tillgänglighet är en av Södertäljes utpekade strategiska och övergripande utvecklingsområden.”, säger Tony McCarrick, digitaliseringsstrateg på Södertälje Kommun.

Vad gäller kvaliteten på tal-till-text (i det här fallet på svenska och genom en lösning utvecklad av det tyska företaget Lindenbaum), så visar vårt test på mycket tillfredsställande resultat även om ett fullskaligt test inte var inom scope för den här fasen av projektet. Vissa aspekter, exempelvis kopplat till förståelse av vissa dialekter, kan fortfarande vara en utmaning för teknologin men är generellt sett inte något som innebär en större begränsning numera.

När det kommer till specifika aspekter kring att design för röst (’Voice Design’) så har Talking to me utvecklat en specifik designprocess för detta;  TALKS ™. Processen innefattar att identifiera och genomföra anpassningar (’Voice Design Adaptions’) vilket t ex innefattar anpassning av svar som innehåller visuella element såsom knappar, bilder och länkar. Det kan även handla om att säkerställa konversationsflödet (t ex genom att avsluta botyttranden med en fråga). Ytterligare en central aspekt är att anpassa innehållet (’Voice Content Adaptions’) som kan handla om att dela upp innehållet i mindre delar som är bättre anpassade för tal, samt att ta fram nya s k intents för att säkerställa användarupplevelsen.

Det tredje momentet i projektet innefattade att genomföra en konkret implementering inom ett specifikt delområde hos chattboten som får motta stora mängder frågor och svar – i det här fallet kopplat till friluftsområdet Torekällberget i Södertälje Kommun.

”Jag är mycket nöjd med processen, samarbetet och utfallet av det här projektet, inte minst leveransförmåga både i tid och kvalitet . Vi visade tydligt att teknologin kring AI-driven konversation via röst är mogen och går att tillgängliggöra via telefoni och smarta högtalare. Vi lärde oss även mycket kring vikten av specifik designkompetens för att skapa den bästa användarupplevelsen” – säger Tony McCarrick.

Lyssna på länken nedan för ett exempel på en trevlig telefonkonversation med Kommun-Kim.