Knowledge Graph

Knowledge Graph bedeutet in der sinngemäßen Übersetzung „Wissenssammlung“, wobei das englische Wort „graph“ eher als Metapher zu betrachten ist. Dennoch trifft die deutsche Entsprechung „Wissenssammlung“ oder auch „Wissensdatenbank“ den Sinn sehr genau. In einem Knowledge Graph existierten strukturiert aufbereitete Informationen. Wissen entsteht aus ihnen, indem Entitäten (Knoten) zueinander in Beziehungen gebracht und mit Attributen versehen werden. Auf diese Weise entsteht ein thematischer Kontext bzw. eine Ontologie (Grundstruktur des Wissens).

Prinzipieller Aufbau bei jedem Knowledge Graph

Es geht hier um den Knowledge Graph von Google, doch so ein Graph, den es in vielen Bereichen gibt, hat immer eine grundsätzliche Struktur. Sie besteht aus Knoten und Kanten, was bedeutet, dass Wissen verknüpft wird und aneinander angrenzt.

Im übergreifenden Sinne lassen sich auch die Knoten als Entitäten beschreiben, während die Kanten die Beziehung zwischen ihnen beschreiben. Entitäten sind Sammelbegriffe für Dinge, Relationen, Eigenschaften, Sachverhalte oder Ereignisse, die sich zunächst nicht kategorisieren lassen. Im Knowledge Graph erhalten die Entitäten und somit die Knoten Attribute. Danach versucht man sie zu typisieren. Die Kanten erhalten einen Kommentar nach der Beziehungsart, die sie abbilden.

Wozu dient ein Graph?

Graphen dienen prinzipiell der Darstellung von Beziehungen in Netzwerken. Die Informatik nutzt sie für die Netzwerkforschung. Es muss sich nicht immer um einen Knowledge Graph handeln. Facebook nutzt beispielsweise einen Social Graph, welcher die Beziehungen zwischen Nutzerprofilen analysiert. Google nutzt schon relativ lange einen Graph, der auf der Basis der Backlinks die Beziehungen zwischen Webseiten analysiert und bewertet.

Der Google Knowledge Graph wiederum bildet Beziehungen zwischen Entitäten ab und analysiert sie. Google konnte den Knowledge Graph ab 2012 entwickeln, nachdem das Unternehmen die semantische Wissensdatenbank Freebase gekauft hatte. Anfangs speisten Freebase- und auch Wikipediadaten den Google Knowledge Graph. Inzwischen bezieht dieser seine Informationen aus diversen Quellen. Freebase war ein offenes Projekt, das 2014 ins geschlossene Wikidata überführt wurde. Heute (2021) prüft Google für Entitätenboxen im Knowledge Graph, ob die Rohdaten bei Wikidata, bei Wikipedia oder in anderen Quellen zu finden sind.

Wie ist der gegenwärtige Google Knowledge Graph zu beschreiben?

Es handelt sich heute (Sommer 2021) um eine semantische Datenbank, die wie oben beschrieben Entitäten sammelt, zueinander in Beziehung stellt, mit Attributen versieht und in thematische Ontologien (Sinnzusammenhänge) bringt. Der Google Knowledge Graph schafft also aus unzähligen Informationen sinnvollen Kontext. Erst nach seiner Einführung im Jahr 2012 konnte Google ab 2013 mit dem Hummingbirdalgorithmus eine semantische Suchmaschine aufbauen.

Die grundlegende Idee dahinter ist die Intention, dass die Googlealgorithmen Inhalte jeglichen Formats eigenständig verstehen, um auf die Suchanfragen qualitativ hochwertige Antworten liefern zu können. Der Google Knowledge Graph und Hummingbird sind gemeinsam die Basis für die Künstliche Intelligenz von Google, die mit netzwerkartig strukturierten Daten operiert.

Einfluss auf die SEO

Der Google Knowledge Graph bewertet den Rang von Webseiten nicht mehr allein nach den Keywords und anderen sprachlichen Merkmalen (neben den vielen weiteren Bewertungsfaktoren), sondern zunehmend nach Entitäten. Damit schafft er eine zumindest veränderte Basis für die SEO. Die inhaltliche Entscheidungsgrundlage für den Rang von Webseiten ist inzwischen weniger die Keyworddichte (auch wenn Keywords relevant bleiben), sondern das Vorhandensein von sinnvollen Entitäten zum aufgegriffenen Thema der Webseite.

Google ordnet die Webseiten nicht länger in Kategorien ein („Mode“, „Ernährung“, „Auto“ etc.) und indexiert sie auch nicht mehr nach (einzelnen) Keywords, sondern prüft die Beziehungen zwischen den Entitäten, um die Seite in ihrem Gesamtkontext zu verstehen. Die Künstliche Intelligenz von Google möchte die Intentionen der Webmaster aufspüren. Für die SEO bedeutet das: Es nutzt nicht mehr viel, eine Seite zur Automobilität mit dem Keyword „neuer BMW 3er“ vollzustopfen.

Vielmehr muss der Webmaster den neuen BMW 3er in einen sinnvollen Kontext (Entität: Relation), in seine Geschichte (Entität: Ereignis) und in einen bestimmten technischen Zusammenhang (Entität: Sachverhalt) stellen. Das ist auf jeden Fall nutzerfreundlich. Vor 2012/2013, also vor dem Google Knowledge Graph und dem Hummingbirdalgorithmus, wäre es möglich gewesen, mit diesem Text ein gutes Ranking zu erzielen: „Gestern fuhr ich den neuen BMW 3er. Meiner Freundin gefällt der BMW 3er. Wir haben im BMW 3er eine Spritztour unternommen. Dann fuhren wir zum Drive-in. Das Essen hat im neuen BMW 3er geschmeckt.“ Es gibt kaum etwas, was den Leser zum neuen BMW 3er weniger interessieren könnte.

Wenn aber Suchmaschinenalgorithmen allein die Keywords zählen, genügen solche Texte für ein gutes Ranking. Doch inzwischen muss der Text zum Beispiel technische Daten, einen Testbericht und vielleicht einen Vergleich zum Vorgängermodell und zu anderen Fahrzeugen dieser Klasse enthalten, um ein ernstzunehmendes Ranking zu erreichen. Mit dem Knowledge Graph lernt Google, wie echte sprachliche Intelligenz funktioniert.

Drei Ebenen als Grundlage für den Google Knowledge Graph

Google verwendet für den hauseigenen Knowledge Graph drei Ebenen als Grundlage:

  • #1 Entitätenkatalog: Dieser speichert jede neu aufgenommene Entität.
  • #2 Knowledge Respository (Knowledge Vault): Dieses Wissensdepot verknüpft neue Entitäten mit vorhandenen Informationen und bildet semantische Klassen. Das Google Knowledge Repository heißt Knowledge Vault.
  • #3 Ergänzung mit Attributen und Relationierung: Schließlich werden im Google Knowledge Graph die Entitäten durch Attribute ergänzt. Damit lassen sie sich relationieren, also in Beziehung zueinander bringen.

Ein Beispiel für Entitäten und ihre Relationen können beispielsweise Städte sein. „Paris“ und „Berlin“ wären Entitäten, die Werte „ist eine europäische Hauptstadt“, „ist die Hauptstadt von Frankreich“ sowie „ist die Hauptstadt von Deutschland“ wären die Relation. Die beiden Entitäten sind gleichrangig, es sind beides europäische Hauptstädte.

Google kann nun über den Knowledge Graph die Frage nach der Hauptstadt von Frankreich oder Deutschland, aber auch die Frage, ob Berlin und Paris europäische Hauptstädte sind, richtig beantworten. Entitäten sind Objekte und Subjekte im Satz, während Prädikatsphrasen Entitätstypen oder zugeordnete Attribute sein können. Weitere Informationen neben den Entitäten sind nämlich im Google Knowledge Graph die Entitätseigenschaften (Attribute, in diesem Fall „europäisch“) sowie das Relevanzscoring von Attribute (Nähe der Attribute zu den Entitäten im Vektorraum).

Datenquellen für den Google Knowledge Graph

Oben wurden schon die Datenquellen Wikipedia und Wikidata genannt, doch natürlich kann Google für den Knowledge Graph aus den Milliarden von Webseiten unzählige weitere Daten extrahieren. Das Problem für die Algorithmen ist allerdings, dass es sich

  • a) um unstrukturierte und
  • b) um redundante

Daten handelt. Dennoch durchforstet Google via Crawling ständig die Webseiten nach interessantem Datenmaterial und wird dabei auch fündig, wobei der Knowledge Vault wohl eine bedeutende Rolle spielt. Es gibt auch semistrukturierte Daten, nämlich aus Universitätsbibliotheken oder weiteren Enzyklopädien neben Wikipedia. Jemand könnte jetzt anmerken, wieso Wikipedia als strukturiert, eine handfeste Universitätsbibliothek hingegen nur als semistrukturiert gelten soll, doch das ist die Sichtweise der Googlealgorithmen.

Sie wurden ab 2012 auf Wikipedia programmiert und haben diese Struktur verinnerlicht, was in der Tat für die meisten Nutzeranfragen hilfreich ist: Kaum jemand sucht innerhalb von Google nach echtem Fachwissen, wie es Universitäten bieten. Diese haben eigene Suchmaschinen. Die Bibliotheken der Universitäten wiederum haben jeweils vollkommen eigene Strukturen. Das ist für Google eine Semistruktur, also eine, die sich nur halb in das vorhandene Entitätensystem einordnen lässt. Jedermann, der schon einmal in der Datenbank einer Universität etwas gesucht hat, weiß, wie das gemeint ist.

Fazit

Der Google Knowledge Graph, der ständig weiterentwickelt wird, ist inzwischen eine wichtige Basis für die Künstliche Intelligenz der Suchmaschine Google. Er hat seit 2012 die Suchergebnisse sehr deutlich verbessert.

zurück zur Übersichtsseite