Nyheter

De spår framtiden med sociala medier

Magnus Sahlgren är forskningschef och Malin Stråhle vd på analysföretaget Gavagai. ”Vi siktar mot en stor vision där systemet kan läsa allt som skrivs och självständigt kan upptäcka när intressanta saker händer”, säger Magnus Sahlgren.
Magnus Sahlgren är forskningschef och Malin Stråhle vd på analysföretaget Gavagai. ”Vi siktar mot en stor vision där systemet kan läsa allt som skrivs och självständigt kan upptäcka när intressanta saker händer”, säger Magnus Sahlgren. Foto: Nicklas Thegerström

Stockholmsföretaget Gavagai kan förutspå såväl influensautbrott som vinnare i Melodifestivalen. Men det handlar inte om magi, utan avancerad analys av allt vi tillsammans säger på nätet.

Det grekiska parlamentsvalet sommaren 2012 vållade de politiska analytikerna en gnagande huvudvärk. Utgången var mycket svårbedömd. Och då är läget för de grekiska tyckarna knepigt redan från början eftersom opinionsundersökningar inte är tillåtna i landet de två sista veckorna före ett val.

Men samtidigt som de grekiska experterna kallsvettades lutade sig ett gäng meriterade akademiker tillbaka i en anspråkslös lokal i Vita bergen på Södermalm i Stockholm. De hade nämligen redan beräknat valets utgång. Genom att analysera hur den grekiska bloggosfären pratade om de olika partierna och valet hade datalogerna och språkforskarna på Gavagai lyckats ringa in valresultatet. När Ny Demokrati vann makten den 17 juni stod det klart att Gavagais analys var korrekt.

Att förutspå framtiden låter som hokus pokus. Men allt handlar om högst vetenskaplig textanalys. Gavagai analyserar allt som sägs publikt på nätet. Bloggar, nyhetsmedier, statusuppdateringar i sociala medier – allt analyseras, i realtid.

Gavagais teknik bygger på en matematisk modell av hur vi människor lär oss och förstår språk. Utifrån informationen som vaskas fram går det att ta reda på vad vi människor pratar om, hur vi pratar om det och vad vi känner för detta.

– Systemet är baserat på tio års grundforskning och det kan förstå textströmmar på nätet. Det bygger upp ett semantiskt minne som fungerar ungefär som människans språkliga kompetens. Det kan till exempel koppla ihop ord med varandra och identifiera synonymer och antonymer, säger Magnus Sahlgren, forskningschef på Gavagai och en av företagets grundare.

De flöden som Gavagai analyserar är enorma. Att analysera vad som skrivs på nätet med mänsklig kraft är en omöjlighet. Bokstavligen. Datamängderna är helt enkelt för stora. Därav benämningen big data. Malin Stråhle, vd på Gavagai, påpekar att dessutom utgörs runt 80 procent av all tillgänglig data av så kallad ostrukturerad textdata. Det är text som är inkonsekvent, brusig och full av slanguttryck.

Magnus Sahlgren poängterar att förutsättningen för att lyckas vaska fram användbar information ur dessa störtfloder av data är ett system som är intelligent och kan lära sig själv.

– Vår bakgrund inom språkforskningen gör att vi har en modell för hur språket, och mänsklig kognition, fungerar, säger Magnus Sahlgren som själv är doktor i datorlingvistik.

Han menar att det är avgörande att systemet är självlärande eftersom språket hela tiden utvecklas och förändras. Särskilt inom sociala medier.

– Den språkliga tillväxten är enorm exempelvis på Twitter. Det kommer nya ord varje dag. Vilket innebär att du inte kan hantera data­flödet med mindre än att du har en teknik som håller sig à jour med språkbruket och kan hantera den här dynamiken. Big data kommer att revolutionera språkforskningen. Man har aldrig tidigare kunnat studera hur språket beter sig i sitt naturliga habitat i en sådan omfattning, säger Magnus Sahlgren.

I dagsläget hanterar systemet ett tiotal språk, däribland svenska, kinesiska, engelska och ryska.

– Men om vi häller in hebreiska så kommer systemet att lära sig hebreiska.

Tillämpningsområdena för detta profetiska maskineri är oändliga. I samband med 2012 års upplaga av Melodifestivalen kunde systemet inte bara räkna ut att Loreen skulle vinna. Med stor precision redovisade man också hur rösterna fördelade sig.

– Vi mäter bland annat hur svenska folket mår generellt. Där ser vi otroligt tydligt att vi är gladare på helgerna, för att sedan bli lite mer ledsna i veckorna. Ser man till den här känslobarometern kan det också noteras att runt semesterperioden så planar den här lyckan ut och övergår i ett harmoniskt tillstånd. Vi blir lugna. Sedan börjar det rycka i kurvan, på en gång, så fort vi börjar jobba, säger Magnus Sahlgren.

Gavagai följer även samtal kring sjukdomssymptom. Här har det visat sig att man varje år ligger några dagar före Smittskyddsinstitutet (SMI) när det gäller att förutsäga influensautbrott.

– Skälet till det är att först kanske folk twittrar om att de är förkylda. Sedan inser de att de verkligen är sjuka och söker sig till Vårdguiden, som SMI mäter. Man skulle kunna säga att vi alltså upptäcker symptomen, säger Magnus Sahlgren.

Vad pratar folk om i Sverige, just nu?
– Det är en lite för trivial fråga för våra system. Vi intresserar oss för vad folk pratar om i relation till något. Vad säger folk när de pratar om Dagens Nyheter? Det är en intressant fråga, säger Magnus Sahlgren.

I sin omtalade bok ”Big data: a revolution that will transform how we live, work, and think” skriver Viktor Mayer-Schönberger och Kenneth Cukier att big data riskerar att göra experter överflödiga i framtiden. Men enligt Malin Stråhle så är experten inte hotad som företeelse.

– Men experten kommer att behöva hjälp att sortera. Det går inte att läsa alla dessa dokument. Nu kommer experten att få bättre verktyg i sitt arbete. Big data kommer inte att försvinna. Det är något som såväl bolag, stater och individer måste förhålla sig till. Det är också något som tvingar oss att bli progressiva, säger Malin Stråhle.

Hur ser era visioner ut?
– Vi siktar mot en stor vision där systemet kan läsa allt som skrivs och självständigt kan upptäcka när intressanta saker händer och meddela användaren. Vi kallar det för perpetual discovery, ständigt upptäckande, säger Magnus Sahlgren.

Hur ser ni på integritetsaspekten? Det ni gör är trots allt att lyssna på när folk pratar.
– Så är det definitivt. Vi mår bra av att folk är extroverta. Men vi lyssnar på när de pratar för en publik. Vi tjuvlyssnar inte. Vi analyserar bara publicerad text och vi håller inte koll på individnivå. Vi följer bara de stora strömmarna. Och vi är verkligen inte intresserade av någon militär tillämpning. Det är därför vi sitter i en lokal på Söder i Stockholm och inte i en bunker i Washington. Integritetsfrågan är oerhört viktig. Om den här typen av teknik hamnar i fel händer så kan det bli problematiskt.

Hur ska man göra om man inte vill omfattas av den här typen av analys?
– Det är ett lite konstigt resonemang. Om du skriver något publikt så vill du väl att någon ska läsa det. Det folk säger vill de att någon ska höra. Då lyssnar vi. Men annars är det väl bara att stänga ner sin blogg eller vad det nu kan vara, säger Magnus Sahlgren som själv inte använder sociala medier.

Tre händelser som Gavagai förutspått:

Loreens Melodifestivalseger 2012.

Influensautbrott.

Antonis Samaras blir grekisk premiärminister 2012.