Suche ist Kommunikation
Für Semantische Suche ist die Einteilung der Suche nach groben Zielen nur ein Anfang
Es ist notwendig die Problemstellung zu analysieren und dabei dem Benutzer direkte Lösungen anstelle von Treffern zu geben
Von DI Jakob Praher, technischer Leiter bei der Mindbreeze GmbH
(24.07.13) - Als Tim Berners-Lee im März 1989 ein Paper mit dem Namen "A Large Hypertext Database with Typed Links" veröffentliche, legte er damit nicht nur die Grundsteine für das heutige World Wide Web und darüber hinaus das Semantic Web, sondern auch für den damit einhergehenden Siegeszug von Suchmaschinen. Durch die dezentrale Organisation wurde es notwendig die Information des Webs zu crawlen und indizieren und Suche als Dienst im Web anzubieten.
Suche ist Kommunikation. Der Benutzer stellt eine Anfrage mit einem bestimmten Ziel oder Bedürfnis und erhält eine Antwort in Form von Treffern auf eine Datenbasis, die meist nach der Relevanz gemäß einem Modell gereiht sind. Dabei sollen die Top-Treffer jene sein, die für den Benutzer am relevantesten sind. Um die Richtigkeit und Genauigkeit der Treffer und deren Relevanzbewertung für den Benutzer zu verbessern, wird die Rolle von künstlicher Intelligenz im Suchprozess immer wichtiger. Das Verstehen der Bedeutung setzt dabei auf mehreren Ebenen an. Zum einen ist wichtig die Absicht bzw. das Ziel des Benutzers zu verstehen. Auf der anderen Seite gilt es die Beziehungen und den Kontext der Begriffe in der Datenbasis zu verstehen. Dabei ist Verstehen der Bedeutung natürlich sprachlicher Information ein komplexer Vorgang. In der griechischen Tradition liegt die Bedeutung eines Satzes und dessen Komponenten in der Absicht des Sprechers eine Vorstellung beim Zuhörer zu erzeugen. In dieser Definition gibt es keine eindeutige und allgemeingültige Interpretation natürlicher Sprache.
Jüngste Entwicklungen im Bereich der semantischen Werkzeuge stehen in direktem Zusammenhang mit der Entwicklung maschinellen Lernens und dem Umgang mit großen Datenmengen. Im IEEE-Artikel "The Unreasonable Effectiveness of Data" haben die Google Researcher Alon Halevy, Peter Norvig und Fernando Pereira ein Manifest für "Big Data Analytics" und "Unsupervised Learning" verfasst. Die klare Erkenntnis ist, dass eine große Datenmenge der beste Verbündete in der Verarbeitung natürlicher Sprache ist.
Einen großen Teil der Information im Web bilden heute generierte Seiten aus strukturierten Daten. Semantische Modelle aus der Ein- und Ausgabe solcher Webdienste zu extrahieren hat Craig Knoblock in seiner Keynote mit dem Titel "Discovering and Building Semantic Models of Web Sources in der Euorpean Semantic Web Conference (ESWC) 2009" vorgestellt. Zum Beispiel ist die berechnete oder generierte Antwort eines Wetterportals zu einer bestimmten Zeit nur von der Angabe des Orts abhängig. Die Wetterinformation folgt dabei einem speziellen Vokabular. Aus der Ein- und Ausgabe, soll die bedeutungsändernde Beziehung erkannt und danach ein Modell extrahiert werden.
Da die Weiterverarbeitung von Webinhalten durch Maschinen immer wichtiger wird, betten viele Anwendungen deren strukturierte Daten direkt in die Webseiten ein. In HTML einbettbare, präsentationsneutrale Metaformate wie z.B. Microdata, Microformats, RDFa, Open Graph oder Schema.org, bieten Vokabulare unter anderem für Ereignisse, Personen und Organisationen, soziale Beziehungen, Produkte, Lebensläufe, Rezepte usw. an.
Eine besondere Form semantischer Suchmaschinen sind sogenannte Question-Answering-Systeme, die Fragen direkt in natürlicher Sprache strukturiert beantworten. Als populärer Vertreter dieser Systeme sorgte im Februar 2011 IBM Watson, entwickelt vom IBM DeepQA Research Projekt unter der Leitung von David Ferrucci, für weltweites Aufsehen. Als Challenge trat das System gegen menschliche Gegner in der Live-Fernsehquizshow Jeopardy! an, wo es sogar den 74-maligen Jeopardy-Sieger Ken Jennings besiegte und den ersten Platz gewann.
Suche - Das Ziel hinter der Anfrage verstehen
Zwar ist die durchschnittliche Länge einer Suchanfrage laut einer Studie aus 2011 von 2,4 auf drei Worte gestiegen und auch geht die Anzahl von Einwortsuchen drastisch zurück, Suchanfragen sind in der Regel dennoch recht knapp formulierte Anweisungen an die Suchmaschine. Dabei ist die Suchanfrage nur der Ausdruck des eigentlichen Ziels, das mit einer Suche beabsichtigt wird. Der dahinterliegende Zweck bestimmt die subjektive Relevanz eines Suchergebnisses. Die Suche wird bedingt durch ein Ziel abgesetzt.
In seiner Taxonomie von Websuchen unterscheidet Andrei Broder drei wesentliche Arten von Anfragen. Sucht der Benutzer zum Zweck der Navigation, dann ist das dahinterliegende Ziel der Suche möglichst auf schnellstem und direktem Weg auf eine bestimmte Site zu gelangen. Sucht man nach Information, nimmt der Benutzer an, Treffer zu dieser Anfrage zu finden. Da heute viele Aufgaben bereits Online erledigt werden, ändert sich auch das Suchverhalten. In vielen Fällen möchte der Benutzer einen Job erledigen, wie zB Einkauf von Waren, Herunterladen von Daten, Durchführen einer Überweisung, etc. Diesen Suchen sind transaktionale Suchen.
Für Semantische Suche ist die Einteilung der Suche nach groben Zielen nur ein Anfang. Es ist notwendig die Problemstellung zu analysieren und dabei dem Benutzer direkte Lösungen anstelle von Treffern zu geben.
Adaptive Systeme – Mit der Maschine in Dialog treten
Anwender wissen aus eigener Erfahrung, dass Suche ein mehrstufiger Prozess ist und dass sich gerade während dem Vorgang die Ausgangslage oft ändert. Während einer Recherche werden hintereinander inhaltlich und oder syntaktisch ähnliche Suchen abgesetzt. Semantische Suche kann Abhilfe schaffen, in dem zeitliche oder räumliche Fakten oder auch begriffliche Beziehungen erkannt werden und die Suchergebnisse automatisch ausgeweitet oder eingeschränkt werden können. Dennoch kann auch hier der Benutzer durch neue Erkenntnisse seine Absichten ändern. Diesen Prozess als Ganzes zu unterstützen ist ein wesentlicher Punkt einer intelligenten Suche. Im "IBM QA System Watson" wird zur finalen Entscheidungsfindung maschinelles Lernen verwendet. Fragen verknüpft mit bekannten Antworten werden auf das berechnete Bewertungsprofil trainiert, das später für die Klassifizierung verwendet wird.
Bei einer Suchmaschine kann kein allgemeingültiges Modell verwendet werden, um Relevanz zu klassifizieren. Personalisierte Suche wird heute von populären Suchmaschinen wie Bing oder Google praktiziert. Im Umgang mit diesen Systemen sieht man schon, dass Transparenz ein wichtiges Kriterium für den Benutzer ist. Wenn die sogenannte Präzision auf Kosten der Erinnerung geht, stellt man sich Fragen wie, gibt es zu einer Anfrage genau die präsentierten Treffer, oder hat die Suchmaschine bereits vorher die Relevanzkriterien geändert? Der Benutzer als Subjekt muss auch in diese Entscheidungen eingebunden werden.
Open Information Extraction
Das traditionellen Information Extraction (IE), soll durch Open Information Extraction (OIE) einen Paradigmenwechsel erfahren. Bei OIE soll nur einer bzw. wenige Durchläufe über den Korpus verwendet werden, um möglichst automatisch eine große Anzahl von Aussagen über Entitäten zu extrahieren. Es soll dabei neutral zu Fachgebieten vorgegangen werden. Dadurch soll IE im Web anwendbar gemacht werden. Das OIE System TextRunner besteht aus einem Learner, einem Extractor und einem Assessor. So wird zwar beim Extractor auf das Parsen verzichtet, der Learner verwendet jedoch einen Parser, um für den Extractor ein Modell zu trainieren. Extrahiert werden Trippel, die eine Beziehung zwischen zwei Entitäten abbilden.
Der Learner produziert einen sprachspezifischen aber domänenunabhängigen Klassifizierer. Der Extractor macht einen Durchlauf über den Inhalt und weist den Wörtern automatisch die wahrscheinlichste Part-Of-Speech Information zu. Beziehungen werden durch Text zwischen Hauptwortphrasen gefunden. Jede gefundene Beziehung wird dem gelernten Klassizierer übergeben, der diese auf die Vertrauenswürdigkeit untersucht. Das TextRunner System bietet neben der Extraktion auch direkt die Möglichkeit Suchen in Form von Trippel durchzuführen. Das Turing Center der Universität Washington betreibt ein Suchportal, mit dem man in den extrahierten Informationen aus dem Web suchen kann.
Entity Linking - Extrahierte Fakten mit Wissensbasen vernetzten
Entity Linking ist der Vorgang aus Text extrahierte Entitäten mit der passenden Entität in einer existierenden Wissensbasis zu verlinken. Beim Entity Linking gilt es textuelle Repräsentation wie Big Apple z.B. mit dem Wikipedia Eintrag für New York zu verbinden. Verbunden wird eine im Text vorkommende Entität mit einem Objekt in der Wissensbasis, wenn es eine Ähnlichkeit des Kontexts im Text und dem Eintrag in der Wissensbasis gibt. In der Arbeit LINDEN: Linked Named Entities with Knowledge Base via Semantic Knowledge wird YAGO, eine Wissensbasis des Max Planck Institutes in Saarbrücken verwendet. Ein weiteres Anwendungsgebiet von Entity Linking ist Entity Search das die verlinkten Entities mit einem sogenannte EntityRank versieht.
Fazit
Mit der Verfügbarkeit des Webs als weltumspannende Datenbasis und Rechenkapazitäten, die diese Daten verarbeiten können, entstehen neue Möglichkeiten, die über derzeitige Suchmöglichkeiten hinausgehen. Wikipedia, Freebase und weltweite soziale Netzwerke bilden Wissensbasen, die das Entschlüsseln von Bedeutungen vereinfachen. Semantische Werkzeuge ändern bereits die Suche von heute, werden aber sicherlich noch kommende Generationen dominieren.
Der Autor: DI Jakob Praher
DI Jakob Praher arbeitet als technischer Leiter bei der Mindbreeze GmbH. Dort beschäftigt er sich mit Information Extraction und der Architektur der Mindbreeze-Suchmaschine sowie dahinterliegenden innovativen Algorithmen und Datenstrukturen.
Literatur
Wikipedia DE. Web. 26.02.2013. Semantik, http://de.wikipedia.org/wiki/Semantik,
Wikipedia EN. Web. 26.02.2013. Semantic search, http://en.wikipedia.org/wiki/Semantic_search
Tim Berners-Lee. Web. 28.02.2013. http://www.w3.org/History/1989/proposal.html,
D. Downey, S. Dumais, D. Leibling, E. Horvitz. October 2008. Understanding the Relationship between Searchers’ Queries and Information Goals
Uichin Lee and Zhenyu Liu and Junghoo Cho. 2005. Automatic Identification of User Goals in Web Search
David Ferrucci, Eric Brown, Jennifer Chu-Carroll, James Fan, David Gondek, Aditya A. Kalyanpur, Adam Lally, J. William Murdock, Eric Nyberg, John Prager, Nico Schlaefer, Chris Welty. , AI MAGAZINE, Vol. 31, No. 3. (September 2010), pp. 59-79. Building Watson: An Overview of the DeepQA Project
Fabian M. Suchanek and Gerhard Weikum, YAGO - Search for Knowledge instead of Webpages, (German, English) Article in the year book of the Max Planck Society 2007
Fabian M. Suchanek, Gjergji Kasneci, and Gerhard Weikum. 2007. Yago: a core of semantic knowledge. In Proceedings of the 16th international conference on World Wide Web (WWW '07). ACM, New York, NY, USA, 697-706. DOI=10.1145/1242572.1242667 http://doi.acm.org/10.1145/1242572.1242667
Michele Banko, Michael J Cafarella, Stephen Soderland, Matt Broadhead and Oren Etzioni, 2007. Open Information Extraction from the Web
Christopher D. Manning and Hinrich Schütze. 1999. Foundations of Statistical Natural Language Processing. MIT Press, Cambridge, MA, USA.
(Mindbreeze: ra)
Mindbreeze: Kontakt und Steckbrief
Der Informationsanbieter hat seinen Kontakt leider noch nicht freigeschaltet.