I guess this is what you call a revolution?

[vc_row][vc_column][vc_column_text]The following is a post in Swedish, written by our Voice Designer Kajsa Tretow, where she discusses the evolution of Voice and the changes we face as a result of the new technology. 

Voice kallas ibland för den tredje digitala revolutionen, i ett sammanhang där den första är internet och den andra är den mobila revolutionen. Vissa hävdar att den tredje revolutionen är AI, men jag skulle vilja argumentera för att det ändå är Voice, eller åtminstone konversationsgränssnitt, och detta för att det egentligen handlar om gränssnitt. Internet slog ju inte direkt igenom hos den breda allmänheten när webben introducerades i början av 1990-talet, utan den stora förändringen började inte ske förrän webbläsarna och sökmotorerna kom. Det är först när vi får gränssnitt som är tillräckligt lätta att använda som den verkliga revolutionen sker. 

Ända sedan datorns födelse har dess förmåga att kommunicera med oss människor varit ytterst begränsad. Vi människor har därför varit tvungna att lära oss att kommunicera med datorn på datorns språk som ju i grunden består av ettor och nollor; först genom att använda hålkort, sedan genom att mata in kommandon i en terminal. Med tiden har nya gränssnitt successivt utvecklats som har gjort det lättare för människa och dator att interagera med varandra, genom att mänsklig input har kunnat översättas till datorspråk, som i sin tur har översatts till begriplig output. Dessa gränssnitt har alltid varit programmatiska, vilket betyder att de har styrts av en förutbestämt uppsättning av interaktioner från vilka användaren inte har haft någon möjlighet att avvika. Menyer och knappar har gjort datorer lättare att använda, men de har samtidigt verkat begränsande. 

Även om de flesta av dessa programmatiska gränssnitt har varit skärmbaserade, så har folk experimenterat med Voice-teknologi så länge som det har funnits datorer. Redan på 1960-talet utvecklade IBM Shoebox, en dator som kunde förstå siffror och 16 engelska ord, för att räkna ut mattetal. På 1990-talet kommersialiserades Voice-teknologi för första gången, då bland andra företaget Nuance marknadsförde såväl dikteringsmjukvara som talsvarstjänster. Ni känner säkert till talsvar, ni vet när man ringer ett kundtjänstnummer i hopp om att få tala med en människa men i stället får prata med en halvtaskig robot som tar en igenom ett statiskt flöde av frågor och som inte förstår om man råkar avvika aldrig så litet från det förväntade.

Mycket har hänt inom Voice under de senaste 10 åren. Startskottet för den moderna Voice-eran gick då Apple köpte upp startup-appen Siri år 2011 och släppte henne lös på i stort sett alla iPhones. Sedan dess har tech-jättarna gett sig in i västvärldens assistentkrig en efter en; först var det Microsoft med Cortana, därefter Amazons Alexa och sist men inte minst Google Assistant, som även släpptes på svenska för snart ett år sedan. I takt med att tillgängligheten av digitala assistenter och tillhörande hårdvara i form av smarta högtalare har ökat, har även användandet fullkomligt exploderat. I USA har över 30% av befolkningen minst en smart högtalare i sitt hushåll, i Storbritannien 20% och i Tyskland 10%. Enligt Internetstiftelsens årliga undersökning av svenskarnas internetvanor är motsvarande siffra i Sverige 5%, men mycket tyder på att den redan har ökat avsevärt sedan mätningen gjordes.

Nu kan man ju undra, om Voice-teknologi blev kommersiellt redan på 90-talet, varför tog det ytterligare 10 år innan den slog igenom på allvar och varför har det gått så extremt snabbt sedan dess? Redan på 90-talet fanns Automatic Speech Recognition (ASR) som hjälpligt kunde transkribera användaryttranden till text, men om texten inte till 100% matchade någon av de förprogrammerade fraserna, kunde datorn inte hantera den utan fick be användaren att omformulera. Nu har inte bara den tekniken blivit mycket bättre, utan vi har dessutom kunnat addera ett lager av Natural Language Understanding (NLU), en form av AI som översätter användarens yttrande till ett intent, som i sin tur talar om för datorn vad användaren vill uppnå. Denna teknologi har öppnat upp för icke-programmatiska gränssnitt där användaren är fri att använda sina egna ord och ändå få önskat resultat.

Fram till ganska nyligen har vi alltså varit så illa tvungna att lära oss teknologins språk, men med Voice kan rollerna äntligen bli ombytta. Med hjälp av maskininlärning kan vi nämligen lära datorerna att kommunicera med oss på vårt naturliga språk, och våra digitala assistenter kan bli bättre på att förstå oss för varje dag som går. Jag behöver nog knappast påpeka att potentialen är enorm, men än så länge befinner vi oss fortfarande i ett tidigt skede och de Voice-gränssnitt som finns idag är långt ifrån perfekta. Med det sagt, så måste man ta i beaktning att utveckling av ny teknik sällan är linjär, såsom vi gärna tror att den är, utan i själva verket exponentiell. Denna diskrepans mellan förväntan och verklighet resulterar oundvikligen i en ganska segdragen besvikelsefas som håller i sig tills tekniken är tillräckligt bra för att överstiga våra förväntningar. Det är då det händer![/vc_column_text][/vc_column][/vc_row]