Hur fungerar Google?

Kan någon ens svara på den frågan? Man hör ofta folk prata om “Google-algoritmen” och dess uppdateringar, vilket är ett väldigt förenklad sätt att se på saken. Sanningen är att Google använder en mängd olika algoritmer, i kombination med artificiell intelligens och mänsklig kontroll för att kunna ge oss de bästa, mest relevanta resultaten för varje sökfras.

Dessa algoritmer är till stor del okända, väldigt komplicerade och de flesta av oss skulle antagligen inte förstå ett dugg av dem. Låt oss ta en titt på vilka saker vi åtminstone kan vara ganska säkra på att Google använder sig av:

“Spiders” – Datoriserade sökrobotar som besöker sidor och samlar in data, särskilt om länkar och nyckelord
Algoritmer – De analyserar och organiserar datan, baserat på särskilda principer
Kunskapsgraf – En gigantisk databas med fakta, kända enheter och mycket mer
DeepMind – Google’s AI, som använder maskininlärning och artificiella neurala nätverk för att lösa problem, spela spel och mer
Ordvektorer – En AI-metod för upprättande av relevans mellan olika ord
RankBrain – Antagligen en kombination av DeepMind, ordvektorer och mer…?
Mänskliga utvärderingar – När maskinerna har gjort sin del så utvärderas resultaten av människor

Nu kan vi gå in på de detaljer vi faktiskt vet om. Lyckligtvis höll nyligen en av Googles huvudsakliga rank-ingenjörer, Paul Haahr, ett föredrag på sökmarknadsföringskonferensen SMX West 2016 i slutet av Mars med titeln “How Google Works: A Google Ranking Engineer’s Story.” Du kan se hela föredraget här:

I den här artikeln kommer vi att bryta ner informationen han delar, tillsammans med en hel del ytterligare information från andra källor, på ett sätt som förhoppningsvis är begripligt – och är av värde för din sökmotoroptimering.

“We’re going more and more into a world where search is being thought of as an assistant to all parts of your life.”

Nya trender i online-sökning

Paul börjar med att säga att trenden i sökande online går allt mer mot mobilen. Just nu är sökvolymerna ungefär lika stora mellan mobila och stationära enheter, men mobilsökningar växer i en otroligt snabb takt.

Detta innebär att webbplatser måste vara mobilvänliga, användarvänliga och snabba. Folk som är i farten vill ha snabba resultat, de skriver mindre (till förmån för röstbaserad sökning) och deras fysiska position spelar en större roll.

Den andra stora trenden är att ytterligare funktioner blir allt vanligare. Man kan sammanfatta det som att Googles “features” är allt förutom själva sökresultaten. Dessa inkluderar (men är inte begränsat till) de exempel som visas i en av Pauls bilder:

Google Search features — [mat] + [näringsvärde] visar näringsinformation

Stavningsförslag
Automatisk komplettering
Relaterade sökningar
Relaterade frågor
Kalkylator
Kunskapsgraf
Svar
Utvalda utdrag
Kartor
Bilder
Videor
Djupgående artiklar
Bioprogram
Sportresultat
Väder
Flygstatus
Paketspårning
Etc.

Innan han går in på djupet om hur sökningar fungerar påpekar Paul att han inte vet särskilt mycket om Googles annonser och att han rent av blivit tillsagd att inte ens tänka på de betalda annonserna eller klicken under utvecklingen av sökmotorn.

“Don’t think about ads, don’t think about the effect on revenue – just think about helping the user.”

När Google först lanserades var det inte mycket mer än de 10 blåa länkarna i sökresultaten. De är fortfarande där, tillsammans med annonser och funktioner. Frågorna som Google måste ställa sig själva för att ranka dessa länkar är:

Vilka dokument visar vi?
Vilken ordning visar vi dem i?

Detta avgörs av en komplex resa som kallas för “en sökfrågas liv” (the life of a query) – vilken har två huvudsakliga steg. Det första steget äger rum innan en användare matar in en sökfras och det andra steget sker efteråt (men innan resultaten visas).

En sökfrågas liv

Innan sökningen görs så kryper Googles “spindlar” genom webben och analyserar alla de genomsökta sidorna. De extraherar länkar, renderar innehållet och annoterar semantiken. Slutligen byggs ett index av resultaten. Till en början var processen nästan helt fokuserad på länkar och en webbplats rankades högre ju fler inkommande länkar den hade.

Nu är semantisk analys och annotering en mycket större del av processen. Innehållet på sidan renderas för att sökmotorn ska kunna “se” den på samma sätt som användarna gör och Google har blivit mycket bättre på att förstå aspekter som JavaScript och CSS.

Google försöker att förstå saker som vad din sida handlar om, vem som skapade den och vem den är för -För att bättre kunna bistå med de resultat som folk vill ha. En hel del av denna semantiska analys är språklig – sökmotorn tolkar språket för att förstå innebörden, avsikten och sammanhanget för en viss sida. Samtidigt identifierar och annoterar den detaljer så som adresser, öppettider och telefonnummer.

Detta index är i sig som registret i en bok, där varje ord har en motsvarande lista av sidor det används på – tillsammans med en liten bit metadata för varje sida. Detta massiva index delas in i grupper av miljontals sidor, som kallas för “Shards” (skärvor). Det finns tusentals shards. Indexet körs kontinuerligt och uppdaterar ett visst antal miljarder sidor varje dag.

Behandling av sökfrågor

Efter att en sökfråga har angetts påbörjar Google sin process av att förstå och expandera därpå. De hämtar och betygsätter dokument, baserat på vissa principer. Det går till ungefär såhär:

Nämner sökfrågan några kända enheter?
Finns det några användbara synonymer?
Vad är sammanhanget?

Om du nämner en person, plats eller ett varumärke som Google känner till försöker de ta detta i beaktande. Nästa steg är att jämföra sökorden med synonymer för att avgöra om det finns några användbara sådana. Till exempel kan “coke” betyda “coca-cola”, men det kan även betyda andra saker. Slutligen tittar de på hela sökfrågan för att förstå sammanhanget.

Efter analyseringen skickas frågan till alla shards, varpå varje shard hittar matchande sidor, beräknar en poäng för varje fråga + sida och skickar tillbaka de bästa resultaten, som kombineras till en resultatsida, sorterade efter poäng. Paul släpper nonchalant den här bomben:

“We compute a score for the query and the page. This, computing the score, is the heart of ranking in a lot of ways.”

Men vi är inte helt klara ännu. I detta skede i ditt sökande efter muffinsrecept finns det fortfarande justeringar att genomföra. En algoritmisk analys utförs för att titta på saker som:

Värdklustring (host clustering)
Sidlänkar
Överdriven duplicering
Spamdemoteringar
Manuella åtgärder

Hur beräknas poängen för sidan/frågan?

Den är baserad på något som kallas “scoring signals” – på en liknande vis som AdWords Quality Score. Några av dessa signaler är universella (baserade på sidornas funktioner) och andra beror på sökfrågan (baserade på egenskaper hos både sidan och den specifika frågan). Dessa är de exempel som ges i presentationen:

Oberoende av sökfrågan:

PageRank (används fortfarande internt av Google, men har inte uppdaterats offentligt sedan 2013)
Språk
Mobilvänlighet

Beroende på sökfrågan:

Nyckelordsträffar
Synonymer
Anknytning

Han nämner vidare att vad Googles “rank-ingenjörer” faktiskt gör är att skriva koden som utför allt detta, samt att leta efter nya signaler och att kombinera gamla signaler på nya sätt – Jag misstänker att sociala signaler (likes, delningar, etc.) är några av dessa “nya” signaler. Detta leder oss i sin tur hur de gör det, vilket i sin tur leder oss till mätvärden.

“Om det inte kan mätas kan det inte förbättras.” – Lord Kelvin (parafraserat)

Vad är dessa mätvärden (metrics) och hur inkorporeras dem? Paul nämner senare i presentationen att han knappt ens börjat lista allihop här, men det finns flera viktiga mätvärden som spelar en stor roll:

1. Relevans

Som i: Svarar sidan faktiskt på användarens fråga på ett bra sätt? Paul säger att detta är det viktigaste mätvärdet de letar efter och talar mest om internt på Google. Det är faktiskt detta de använder för att jämföra sig med andra sökmotorer, det vill säga vilka som kan ge de mest relevanta resultaten.

2. Kvalitet

Hur bra är resultaten? Eftersom en sida kan vara väldigt relevant för ett ämne utan att ha bra innehåll eller ge en bra användarupplevelse är detta mätvärde nästa lika viktigt som det första.

3. Hastighet

Snabbare är verkligen bättre. Eftersom det är deras tredje viktigaste mätvärde är det kanske dags att du tar en titt på din egna tekniska SEO?

Resultaten rangordnas så att den första positionen är värd 4 gånger mer än den fjärde, 10 gånger mer än den tionde och så vidare. Det är ingenjörernas uppgift att optimera resultaten för sina mätvärden (och vice versa). Eftersom det inte enbart kan baseras på vad en algoritm tycker använder de sig av ytterligare ett element.

Live-experiement

Dessa är väldigt lika de sorters experiment du kan göra på en vanlig hemsida, särskilt för konverteringsoptimering. De involverar bland annat A/B-tester, klickbeteenden, avvisningsfrekvenser och så vidare. Paul tar som exempel upp den blåa färgen Google använder för sina länkar och markeringar – de provade 41 olika nyanser av blått för att avgöra om det påverkade användarnas beteende.

“Det är väldigt sällsynt att du söker efter något på Google utan att vara del i åtminstone ett experiment”

Mänskliga utvärderingar

Det här steget går ut på att låta människor utvärdera diverse resultatsidor, baserat på Googles riktlinjer. Lyckligtvis för oss som är intresserade av SEO har dessa riktlinjer faktiskt publicerats för allmänheten. Du hittar dem här. Det är rekommenderad läsning för alla som vill förbättra sin webbplats.

“Om du undrar varför Google ändrar på något är svaret ofta att de försöker få resultaten att följa riktlinjerna närmare.”

Mänskliga utvärderare får två skalor som går från 1 till 5, vilka används för att betygsätta resultaten – men det är steglösa skalor, så att betyget kan landa var som helst mellan två nummer. Vi måste återigen påpeka att deras fokus ligger på mobila användares behov när det gäller båda dessa mätvärden.

De använder fler mobila sökfrågor än stationära sökfrågor i mänskliga utvärderingar
De tittar noggrant på användarens fysiska position
De har särskilda verktyg för att visa den mobila användarupplevelsen
Utvärderarna besöker ofta hemsidor via smartphones

Google mänskliga utvärderare — De mänskliga utvärderarnas skalor. Notera även ja/nej-knapparna.

Den första skalan är för “Behov uppnådda”, vilken ställer frågan: Möter sidan användarens behov? Detta är deras nuvarande mätvärde för relevans. Om du exempelvis söker efter “cnn” och det första resultaten är CNN.com så är det väldigt sannolikt att det var vad du letade efter. För vissa frågor blir det betydligt svårare.

Om någon däremot söker efter namnet på en butik så kanske de är ute efter dess hemsida, den närmaste butiken eller Wikipedia-artikeln om den – det är där mänsklig input är extra användbar. De kan avgöra om de ska visa ett, två eller alla alternativen.

Den andra skalan är för sidans kvalitet, vilket helt enkelt frågar: Hur bra är sidan? Det inkluderar om den är enkel att navigera, om den ser professionell ut, om författaren är en expert på området, om den laddas snabbt, etc. Det kan vara väldigt subjektivt, vilket är precis varför riktlinjerna spelar en stor roll.

Indikatorer för hög kvalitet:

Sidan har en tillfredsställande mängd högkvalitativt innehåll
Sidan och webbplatsen är auktoritativa och tillförlitliga för sidans ämne
Författaren har expertis inom sidans ämne
Webbplatsen har bra rykte för ämnet på sidan

Indikatorer för lågkvalitativa sidor:

Kvaliteten på det huvudsakliga innehållet är låg
Det finns inte en tillfredsställande mängd av huvudsakligt innehåll
Författaren har inte expertis, tillit eller auktoritet för ämnet
Hemsidan har ett negativt rykte
Det sekundära innehållet (så som annonser) är distraherande eller ohjälpsamt (för irrelevant)

Hur utvärderas tilliten per ämne?

Ett sätt att se på saken är att låtsas som att du har en populär blogg om mode. Varje inlägg du skriver handlar om mode och dess relaterade ämnen, samt att alla länkar du får till bloggen kommer från sidor med liknande ämnen. Detta bygger både tillit och auktoritet för så väl dig som för sidan när det gäller mode – men inte för mycket annat.

Om du gör ett enskilt inlägg om någonting helt annat, exempelvis om du köper en ny TV och bestämmer dig för att recensera den på din blogg. Det inlägget kommer antagligen inte att ranka högt för sökningar som har med TV-apparater att göra, trots att din webbplats har en hög nivå av auktoritet och tillit, helt enkelt på grund av att ämnet skiljer sig. Det är därför relevans är lika viktigt som tillit och kvalitet.

Optimering för mätvärden

Efter att de mänskliga utvärderarna har avslutat sina uppgifter samlas alla deras betyg ihop och skickas tillbaka till rank-ingenjörerna, vilket är ett team av ett par hundra datorvetenskapsmän. De fokuserar på mätvärden och signaler, kör massvis av experiment och gör många förändringar.

Utvecklingsprocessen:

Idé
Skriv kod
Generera data
Kör experiment
Analysera data
Rapportera
Recensera
Upprepa

Målet är naturligtvis att få högre och högre betyg från de mänskliga utvärderarna. Detta genom att förändra algoritmerna, så att resultat med bra betyg flyttas upp och resultat med dåliga betyg flyttas ner. Det går inte alltid som planerat. Det finns två stora typer av problem: Systematiskt dåliga betyg och mätvärden som inte mäter de viktigaste sakerna.

Som exempel tar Paul upp en sökning efter ett visst varumärke av gödsel. Det är sannolikt att användaren var intresserad av att köpa några säckar av detta gödsel, men resultaten visade istället en karta av tillverkarens högkvarter. Eftersom detta i utvärderarens ögon sågs som väldigt relevant betygsattes resultaten som att vara väldigt tillfredsställande av deras behov.

Detta innebar att de var tvungna att lägga till ett steg som utvärderar resultaten av både live-experiment och mänskliga utvärderingar, för att upptäcka resultat som kan vara dåliga – Sedan skapa nya exempel för att testa den typen av “misstag”. Att uppdatera riktlinjerna, utveckla nya mätvärden och lära sig mer om användarens avsikt är alla nyckelfaktorer.

Paul tar sedan upp uppkomsten av så kallade innehållsfarmer mellan 2008-2011, som tryckte ut massiva mängder av lågkvalitativt, men väldigt relevant, innehåll för att manipulera sökresultaten. Det fungerade – VÄLDIGT väl. De mänskliga utvärderarna betygsatte innehållet som väldigt relevant och den typen av innehåll fortsatte att stiga till toppen. Detta ledde direkt till uppfinnandet av kvalitetsmätvärdet vi tidigare nämnt.

“We thought we were doing great, our numbers were saying we were doing great – and we were delivering a terrible user experience.”

Där har vi det. En (någorlunda) omfattande förklaring av hur Google fungerar i allmänhet. Den här artikeln har inte gått in på allt för många tekniska detaljer, eftersom den baserades på en 30-minuters presentation inför publik, men vi kommer att gå djupare in i Googles hjärna. Låt oss börja med några av nyckelpunkterna från den frågestund som följde Pauls presentation, som involverade både Gary Illyes (Webmaster Trends-analyst) och Paul Haahr. Se den här:

Att vara inloggad gör skillnad

Alla dina intressen, vanor och favorithemsidor spelar en roll i din sökupplevelse – och de skiljer sig inte mellan olika enheter. Google samlar in information om dig för att kunna leverera dig mer personligt relevanta resultat. Paul påpekar att alla personanpassade funktioner lades till för att få dig att må bra, som att Google hjälper dig, inte för att göra dig obekväm.

Om du exempelvis är en programmerare och du söker på “python” är det mycket mer sannolikt att du letar efter sidor som har med programmeringsspråket att göra, snarare än ormen. Det är även mer sannolikt att du söker efter företaget när du söker på “apple”, snarare än frukten. Resultaten kan vara omvända om du är mer intresserad av djur och hälsosam kost.

Mänskliga utvärderare kan ha partiskt förtroende för varumärken

Många som jobbar inom SEO och digital marknadsföring har muttrat om att Google har en tendens att främja stora varumärken. En av frågorna handlar om hur de bekämpar partiska resultat från mänskliga utvärderare, eftersom expertisen kan vara mycket större i specialiserade sidor. Paul säger att de ber utvärderarna att göra research och att de har andra mätvärden för att motverka partiska resultat. Dra dina egna slutsatser, men för mig låter det fortfarande som att de mindre företagen kommer att få det svårare i allmänhet.

Klickfrekvensen är (åtminstone) en indirekt rankningsfaktor

Han verkar lite tveksam över att ge ett direkt svar på huruvida klickfrekvensen påverkar ranker eller ej. Den används dock definitivt i live-experiment och för personanpassning – till exempel för att se om tillägget av sidlänkar ökar webbplatsens klickfrekvens.

Positionen spelar stor roll

Detta är ganska självklart. Position 1 får flest klick, nummer 2 får näst flest, etc. Det är dock intressant att notera att tionde platsen i sökresultaten får fler klick än åttonde och nionde sammanlagt, eftersom det är den sista chansen du har innan du måste gå vidare till nästa sida – vilket ingen vill göra – men 7:e plats får fortfarande fler klick än nummer 10.

Åtgärder för sökmotoroptimering

Det finns ett par saker du bör ha i åtanke när du optimerar din webbplats. För att maximera din synlighet på webben bör du åtminstone:

Se till att din webbplats är mobilvänlig
Se till att din webbplats är användarvänlig
Se till att din webbplats är tekniskt optimerad (för hastighet)
Använd korrekt uppmärkning i ditt innehåll och försäkra att det är kompatibelt med “features”
Använd gott om synonymer och variationer i ditt innehåll
Följ Googles riktlinjer (mestadels)

Förhoppningsvis har du lärt dig något idag. Vi tyckte definitivt att det var intressant! Dela gärna artikeln med andra som kan finna den intressant.

Vänta på del 2: Hur fungerar Google RankBrain?