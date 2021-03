Spotifys humörspellista ”Life sucks” toppas av låtar som Mobys ”Why does my heart feel so bad?” och London Grammars ”Strong”. Uppenbarligen finns det ett behov av kurerad musik för stunderna när allting verkligen suger. Nära tre miljoner användare följer spellistan.

Men tänk om förslagen på depplåtar i stället skulle komma upp automatiskt, långt innan lyssnaren förstår vilken musik som behövs? Kanske direkt när gråten kommer, eller när rösten signalerar nedstämdhet?

Branschsajten Music business worldwide (MBW) rapporterade nyligen om Spotifys nya patent. Rättigheter till en teknologi för att analysera användarens röst och föreslå musik utifrån personens ”känsloläge, kön, ålder eller dialekt”.

I dokumenten står att röstens ”intonation, stress och rytm” kan fungera som ledtrådar för om användaren är ”glad, arg eller neutral”. Kombinerat med analys av bakgrundsljud sägs det kunna förbättra rekommendationerna vid specifika tillfällen.

Nyheten fick stor spridning. BBC spånar att strömningssiffrorna för Lesley Gores ”It's my party (and I'll cry if I want to)” skulle öka kraftigt när tjänsten känner av om lyssnaren är ensam, i sällskap med en liten grupp eller på fest.

Patentet har kallats både skrämmande och dystopiskt. För hur mycket vill egentligen Spotifys 345 miljoner aktiva användare att strömningstjänsten ska känna till om dem?

Från bolaget får man enbart vaga svar:

”Spotify har ansökt om patent för hundratals innovationer och vi gör regelbundet nya ansökningar. En del av dessa patent har blivit delar i framtida produkter, medan andra inte blivit det”‚ skriver Spotify i ett uttalande och fortsätter:

”Vår ambition är att skapa den bästa ljudupplevelsen som finns, men vi har inga nyheter att dela med oss av för tillfället.”

Spotify är långtifrån ensamt om att visa engagemang kring ”emotion recognition”, att genom maskininlärning analysera människans känslor. Det är en miljardmarknad som spås växa ytterligare det kommande decenniet. Inte minst då talet står i fokus för hajpad teknologi.

Ett exempel är Amazons fitnessarmband Halo som, om användaren tillåter, lyssnar på samtal och analyserar röstens ”energi och positivitet”. När GQ:s reporter testade armbandet lät röstassistenten meddela att han lät ”arg, förvånad och äcklad” efter en svordom med f-ordet under ett pokerspel.

Ett annat exempel hittas hos Toyota: Biltillverkaren vill använda teknologi från SRI där röstanalys är en av flera markörer kring förarens känsloläge och vakenhet. Branschsajten Voicebot skriver att en ledsen förare kanske behöver förslag på vackrare körsträckor, för att därigenom muntras upp av vyerna.

Mer och mer intresserad av känsloläge i det som sägs.

Satsningarna ligger i tiden och forskning i språkteknologi fokuserar mer än förut på tal. Jussi Karlgren, adjungerad professor i språkteknologi vid KTH, säger att det å ena sidan sammanfaller med att talad interaktion med maskiner blir viktigare och å andra sidan talade medier som poddar och ljudböcker växer och distribueras bredare.

Han jobbar för Spotify men kan inte uttala sig om bolagets verksamhet. Han märker dock generellt att många företag satsar mycket på att förstå tal bättre, till exempel för att förstå det som sägs i kundtjänstsamtal eller när en användare ber en dator utföra någon uppgift.

– Talteknologin har länge fokuserat på vilka ord som sagts, men är mer och mer intresserad av känsloläge i det som sägs, säger Jussi Karlgren.

– Den här sortens tekniker kan förstås användas för övervakningsändamål, vilket säkert sker också, men forskningen handlar om att förstå mänskligt kommunikativt beteende.

Förmågan att göra röstanalys blir troligen även betydelsefull för de maskiner som människor framöver kan tänkas möta och tala med i vardagen. De sociala robotarna.

En av världens mest avancerade sociala robotar, Furhat, utvecklas i Stockholm. Den blir gradvis mer sofistikerad, men redan nu har den gästspelat på tågstationer i Berlin och Tokyo och guidat resenärer till tågperronger och avgångstider.

Bild 1 av 3 Roboten Furhat och bolagets medgrundare, Gabriel Skantze. Foto: Daniel Costantini Bild 2 av 3 Den "sociala roboten" Furhat. Företaget bakom roboten vill försöka lära den allt mer saker. Som att kunna svara människor utifrån hur man talar med den. Foto: Daniel Costantini Bild 3 av 3 Foto: Daniel Costantini Bildspel

När man ler mot roboten så ler den tillbaka. När användaren misslyckas i ett kortspel låter den besviken. Och med några knapptryck kan den skifta minspel – från ilsken, till förvånad eller konfunderad.

Men det är en bit kvar innan Furhat förstår eller speglar vad personen som talar med den känner.

– Vi vill lära den känna av känslor som är relevanta för ett samtal. Till exempel om någon ser osäker ut, verkar arg eller hotfull, eller om någon är nedstämd, säger Gabriel Skantze, professor i talteknologi vid KTH och medgrundare till Furhat Robotics.

Furhat testas även under arbetsintervjuer, med ett i förhand bestämt frågebatteri. Skaparna ser också framför sig att roboten kan ta plats i förarlösa bussar eller fungera som en talande kompis i hemmet.

Bild 1 av 3 Foto: Daniel Costantini Bild 2 av 3 Furhat har gästspelat på tågstationer och flygplatser. Foto: Daniel Costantini Bild 3 av 3 Foto: Daniel Costantini Bildspel

När det händer blir robotens förmåga till röstanalys viktig, menar Gabriel Skantze. En robot som beter sig mänskligt och som anpassar sig efter samtalspartnerns humör är mer lättillgänglig.

– Jag tror att det är möjligt, men det handlar väldigt mycket om att få rätt data för den att träna på.

I 40–50 år har forskarna nämligen försökt lära maskiner att tolka mänsklig röst. Men det har varit en period av upprepade misslyckanden.

Jens Edlund, språkteknolog och lektor på KTH, berättar om trösklarna som forskarna inte kunnat passera.

En stor del av problematiken är att det inte existerar en objektiv lista över möjliga känslor. Man har förvisso testat med de sju grundkänslor som psykologen Paul Ekman listade: överraskning, rädsla, avsky, förakt, ilska, sorgsenhet och glädje.

– Men det är bara känslor som förekommer mycket på scen, där en teaterskådespelare gör allt vad den kan för att förevisa en viss känsla för publiken. Den typen av känslor syns sällan i verkligheten, säger Jens Edlund.

I verkligheten avslöjar dessutom människans röst sällan vilken känsla hon egentligen har. En maskin kan lära sig tolka intensitet, men har svårt att säga om den är positiv eller negativ.

– Det är otroligt svårt för en maskin att skilja på ilska och glädjeyttringar. De blir än i dag nästan helt förväxlade.

Vad Furhat ser när den interagerar med människor. Foto: Daniel Costantini

Han tror att mer framgång kan nås genom att studera exempelvis samstämmighet eller irritation. I de lägena finns tydliga kommunikativa signaler, som hummanden eller avklippta meningar.

Jens Edlund tror inte att Spotifys känsloanalysfunktion är helt seriöst menad. Men han tror att det är möjligt för en maskin att tolka stämning i en lokal:

– Det gör vilken bartender som helst i dag, så det borde en maskin klara. När folk börjar skrika kan musiken bli mer ”up-beat” från att ha varit mer ”mellow” tidigare under kvällen.

Det finns, trots att maskiner oftast inte överträffar människan i röstanalys, branscher där robotarna redan börjat hjälpa till.

Det pågår studier, bland annat i samarbete mellan KI och KTH, att studera hur rösten förändras vid patologiska tillstånd, såsom demens. Då krävs dock att man jämför med den tidigare ”friska” rösten för att hitta förändringar i energi och tonläge.

Kanske kan det användas för att analysera om ett inringt hot är på allvar?

DN har även talat med flera bolag som erbjuder robotlösningar för kundtjänster. Det berättas om maskiner som transkriberar ut telefonsamtal i realtid och plockar fram möjliga svarsalternativ. Och om maskiner som mäter intensiteten i inringarens röst och larmar ”riktig” personal om att de kanske bör ta över samtalet för att göra kunden nöjd.

Jussi Karlgren är övertygad om att vi står inför en tid av både nya hi-tech-satsningar och besvikelser. Han gillar inte ordet ”avgöra” när det kommer till känslor hos andra – sådant kan vi som människor knappast heller göra. Men att tolka intensitet och energi kommer maskinerna att komma långt med.

– Kanske kan det användas för att analysera om ett inringt hot är på allvar, eller om det bara är någon som är full och fnissig? säger Jussi Karlgren och spånar vidare:

– Eller i samtal mellan flygledare och piloter, så att resurserna snabbt stärks när intensiteten i samtalet ökar. Det kan vara livsviktigt att ännu snabbare snappa upp och agera på den typen av ytlig information i ett samtal.