- Anzeige -


Sie sind hier: Startseite » Fachartikel » Hintergrund

Suche ist Kommunikation


Für Semantische Suche ist die Einteilung der Suche nach groben Zielen nur ein Anfang
Es ist notwendig die Problemstellung zu analysieren und dabei dem Benutzer direkte Lösungen anstelle von Treffern zu geben


Von DI Jakob Praher, technischer Leiter bei der Mindbreeze GmbH

(24.07.13) - Als Tim Berners-Lee im März 1989 ein Paper mit dem Namen "A Large Hypertext Database with Typed Links" veröffentliche, legte er damit nicht nur die Grundsteine für das heutige World Wide Web und darüber hinaus das Semantic Web, sondern auch für den damit einhergehenden Siegeszug von Suchmaschinen. Durch die dezentrale Organisation wurde es notwendig die Information des Webs zu crawlen und indizieren und Suche als Dienst im Web anzubieten.

Suche ist Kommunikation. Der Benutzer stellt eine Anfrage mit einem bestimmten Ziel oder Bedürfnis und erhält eine Antwort in Form von Treffern auf eine Datenbasis, die meist nach der Relevanz gemäß einem Modell gereiht sind. Dabei sollen die Top-Treffer jene sein, die für den Benutzer am relevantesten sind. Um die Richtigkeit und Genauigkeit der Treffer und deren Relevanzbewertung für den Benutzer zu verbessern, wird die Rolle von künstlicher Intelligenz im Suchprozess immer wichtiger. Das Verstehen der Bedeutung setzt dabei auf mehreren Ebenen an. Zum einen ist wichtig die Absicht bzw. das Ziel des Benutzers zu verstehen. Auf der anderen Seite gilt es die Beziehungen und den Kontext der Begriffe in der Datenbasis zu verstehen. Dabei ist Verstehen der Bedeutung natürlich sprachlicher Information ein komplexer Vorgang. In der griechischen Tradition liegt die Bedeutung eines Satzes und dessen Komponenten in der Absicht des Sprechers eine Vorstellung beim Zuhörer zu erzeugen. In dieser Definition gibt es keine eindeutige und allgemeingültige Interpretation natürlicher Sprache.

Jüngste Entwicklungen im Bereich der semantischen Werkzeuge stehen in direktem Zusammenhang mit der Entwicklung maschinellen Lernens und dem Umgang mit großen Datenmengen. Im IEEE-Artikel "The Unreasonable Effectiveness of Data" haben die Google Researcher Alon Halevy, Peter Norvig und Fernando Pereira ein Manifest für "Big Data Analytics" und "Unsupervised Learning" verfasst. Die klare Erkenntnis ist, dass eine große Datenmenge der beste Verbündete in der Verarbeitung natürlicher Sprache ist.

Einen großen Teil der Information im Web bilden heute generierte Seiten aus strukturierten Daten. Semantische Modelle aus der Ein- und Ausgabe solcher Webdienste zu extrahieren hat Craig Knoblock in seiner Keynote mit dem Titel "Discovering and Building Semantic Models of Web Sources in der Euorpean Semantic Web Conference (ESWC) 2009" vorgestellt. Zum Beispiel ist die berechnete oder generierte Antwort eines Wetterportals zu einer bestimmten Zeit nur von der Angabe des Orts abhängig. Die Wetterinformation folgt dabei einem speziellen Vokabular. Aus der Ein- und Ausgabe, soll die bedeutungsändernde Beziehung erkannt und danach ein Modell extrahiert werden.

Da die Weiterverarbeitung von Webinhalten durch Maschinen immer wichtiger wird, betten viele Anwendungen deren strukturierte Daten direkt in die Webseiten ein. In HTML einbettbare, präsentationsneutrale Metaformate wie z.B. Microdata, Microformats, RDFa, Open Graph oder Schema.org, bieten Vokabulare unter anderem für Ereignisse, Personen und Organisationen, soziale Beziehungen, Produkte, Lebensläufe, Rezepte usw. an.

Eine besondere Form semantischer Suchmaschinen sind sogenannte Question-Answering-Systeme, die Fragen direkt in natürlicher Sprache strukturiert beantworten. Als populärer Vertreter dieser Systeme sorgte im Februar 2011 IBM Watson, entwickelt vom IBM DeepQA Research Projekt unter der Leitung von David Ferrucci, für weltweites Aufsehen. Als Challenge trat das System gegen menschliche Gegner in der Live-Fernsehquizshow Jeopardy! an, wo es sogar den 74-maligen Jeopardy-Sieger Ken Jennings besiegte und den ersten Platz gewann.

Suche - Das Ziel hinter der Anfrage verstehen
Zwar ist die durchschnittliche Länge einer Suchanfrage laut einer Studie aus 2011 von 2,4 auf drei Worte gestiegen und auch geht die Anzahl von Einwortsuchen drastisch zurück, Suchanfragen sind in der Regel dennoch recht knapp formulierte Anweisungen an die Suchmaschine. Dabei ist die Suchanfrage nur der Ausdruck des eigentlichen Ziels, das mit einer Suche beabsichtigt wird. Der dahinterliegende Zweck bestimmt die subjektive Relevanz eines Suchergebnisses. Die Suche wird bedingt durch ein Ziel abgesetzt.

In seiner Taxonomie von Websuchen unterscheidet Andrei Broder drei wesentliche Arten von Anfragen. Sucht der Benutzer zum Zweck der Navigation, dann ist das dahinterliegende Ziel der Suche möglichst auf schnellstem und direktem Weg auf eine bestimmte Site zu gelangen. Sucht man nach Information, nimmt der Benutzer an, Treffer zu dieser Anfrage zu finden. Da heute viele Aufgaben bereits Online erledigt werden, ändert sich auch das Suchverhalten. In vielen Fällen möchte der Benutzer einen Job erledigen, wie zB Einkauf von Waren, Herunterladen von Daten, Durchführen einer Überweisung, etc. Diesen Suchen sind transaktionale Suchen.

Für Semantische Suche ist die Einteilung der Suche nach groben Zielen nur ein Anfang. Es ist notwendig die Problemstellung zu analysieren und dabei dem Benutzer direkte Lösungen anstelle von Treffern zu geben.

Adaptive Systeme – Mit der Maschine in Dialog treten
Anwender wissen aus eigener Erfahrung, dass Suche ein mehrstufiger Prozess ist und dass sich gerade während dem Vorgang die Ausgangslage oft ändert. Während einer Recherche werden hintereinander inhaltlich und oder syntaktisch ähnliche Suchen abgesetzt. Semantische Suche kann Abhilfe schaffen, in dem zeitliche oder räumliche Fakten oder auch begriffliche Beziehungen erkannt werden und die Suchergebnisse automatisch ausgeweitet oder eingeschränkt werden können. Dennoch kann auch hier der Benutzer durch neue Erkenntnisse seine Absichten ändern. Diesen Prozess als Ganzes zu unterstützen ist ein wesentlicher Punkt einer intelligenten Suche. Im "IBM QA System Watson" wird zur finalen Entscheidungsfindung maschinelles Lernen verwendet. Fragen verknüpft mit bekannten Antworten werden auf das berechnete Bewertungsprofil trainiert, das später für die Klassifizierung verwendet wird.

Bei einer Suchmaschine kann kein allgemeingültiges Modell verwendet werden, um Relevanz zu klassifizieren. Personalisierte Suche wird heute von populären Suchmaschinen wie Bing oder Google praktiziert. Im Umgang mit diesen Systemen sieht man schon, dass Transparenz ein wichtiges Kriterium für den Benutzer ist. Wenn die sogenannte Präzision auf Kosten der Erinnerung geht, stellt man sich Fragen wie, gibt es zu einer Anfrage genau die präsentierten Treffer, oder hat die Suchmaschine bereits vorher die Relevanzkriterien geändert? Der Benutzer als Subjekt muss auch in diese Entscheidungen eingebunden werden.

Open Information Extraction
Das traditionellen Information Extraction (IE), soll durch Open Information Extraction (OIE) einen Paradigmenwechsel erfahren. Bei OIE soll nur einer bzw. wenige Durchläufe über den Korpus verwendet werden, um möglichst automatisch eine große Anzahl von Aussagen über Entitäten zu extrahieren. Es soll dabei neutral zu Fachgebieten vorgegangen werden. Dadurch soll IE im Web anwendbar gemacht werden. Das OIE System TextRunner besteht aus einem Learner, einem Extractor und einem Assessor. So wird zwar beim Extractor auf das Parsen verzichtet, der Learner verwendet jedoch einen Parser, um für den Extractor ein Modell zu trainieren. Extrahiert werden Trippel, die eine Beziehung zwischen zwei Entitäten abbilden.

Der Learner produziert einen sprachspezifischen aber domänenunabhängigen Klassifizierer. Der Extractor macht einen Durchlauf über den Inhalt und weist den Wörtern automatisch die wahrscheinlichste Part-Of-Speech Information zu. Beziehungen werden durch Text zwischen Hauptwortphrasen gefunden. Jede gefundene Beziehung wird dem gelernten Klassizierer übergeben, der diese auf die Vertrauenswürdigkeit untersucht. Das TextRunner System bietet neben der Extraktion auch direkt die Möglichkeit Suchen in Form von Trippel durchzuführen. Das Turing Center der Universität Washington betreibt ein Suchportal, mit dem man in den extrahierten Informationen aus dem Web suchen kann.

Entity Linking - Extrahierte Fakten mit Wissensbasen vernetzten
Entity Linking ist der Vorgang aus Text extrahierte Entitäten mit der passenden Entität in einer existierenden Wissensbasis zu verlinken. Beim Entity Linking gilt es textuelle Repräsentation wie Big Apple z.B. mit dem Wikipedia Eintrag für New York zu verbinden. Verbunden wird eine im Text vorkommende Entität mit einem Objekt in der Wissensbasis, wenn es eine Ähnlichkeit des Kontexts im Text und dem Eintrag in der Wissensbasis gibt. In der Arbeit LINDEN: Linked Named Entities with Knowledge Base via Semantic Knowledge wird YAGO, eine Wissensbasis des Max Planck Institutes in Saarbrücken verwendet. Ein weiteres Anwendungsgebiet von Entity Linking ist Entity Search das die verlinkten Entities mit einem sogenannte EntityRank versieht.

Fazit
Mit der Verfügbarkeit des Webs als weltumspannende Datenbasis und Rechenkapazitäten, die diese Daten verarbeiten können, entstehen neue Möglichkeiten, die über derzeitige Suchmöglichkeiten hinausgehen. Wikipedia, Freebase und weltweite soziale Netzwerke bilden Wissensbasen, die das Entschlüsseln von Bedeutungen vereinfachen. Semantische Werkzeuge ändern bereits die Suche von heute, werden aber sicherlich noch kommende Generationen dominieren.

Der Autor: DI Jakob Praher
DI Jakob Praher arbeitet als technischer Leiter bei der Mindbreeze GmbH. Dort beschäftigt er sich mit Information Extraction und der Architektur der Mindbreeze-Suchmaschine sowie dahinterliegenden innovativen Algorithmen und Datenstrukturen.

Literatur

Wikipedia DE. Web. 26.02.2013. Semantik, http://de.wikipedia.org/wiki/Semantik,
Wikipedia EN. Web. 26.02.2013. Semantic search, http://en.wikipedia.org/wiki/Semantic_search
Tim Berners-Lee. Web. 28.02.2013. http://www.w3.org/History/1989/proposal.html,
D. Downey, S. Dumais, D. Leibling, E. Horvitz. October 2008. Understanding the Relationship between Searchers’ Queries and Information Goals
Uichin Lee and Zhenyu Liu and Junghoo Cho. 2005. Automatic Identification of User Goals in Web Search
David Ferrucci, Eric Brown, Jennifer Chu-Carroll, James Fan, David Gondek, Aditya A. Kalyanpur, Adam Lally, J. William Murdock, Eric Nyberg, John Prager, Nico Schlaefer, Chris Welty. , AI MAGAZINE, Vol. 31, No. 3. (September 2010), pp. 59-79. Building Watson: An Overview of the DeepQA Project
Fabian M. Suchanek and Gerhard Weikum, YAGO - Search for Knowledge instead of Webpages, (German, English) Article in the year book of the Max Planck Society 2007
Fabian M. Suchanek, Gjergji Kasneci, and Gerhard Weikum. 2007. Yago: a core of semantic knowledge. In Proceedings of the 16th international conference on World Wide Web (WWW '07). ACM, New York, NY, USA, 697-706. DOI=10.1145/1242572.1242667 http://doi.acm.org/10.1145/1242572.1242667
Michele Banko, Michael J Cafarella, Stephen Soderland, Matt Broadhead and Oren Etzioni, 2007. Open Information Extraction from the Web
Christopher D. Manning and Hinrich Schütze. 1999. Foundations of Statistical Natural Language Processing. MIT Press, Cambridge, MA, USA.
(Mindbreeze: ra)

Mindbreeze: Kontakt und Steckbrief

Der Informationsanbieter hat seinen Kontakt leider noch nicht freigeschaltet.

- Anzeigen -





Kostenloser Compliance-Newsletter
Ihr Compliance-Magazin.de-Newsletter hier >>>>>>



Meldungen: Hintergrund

  • Appliances: Engpass im Rechenzentrum?

    Es scheint ein Widerspruch zu sein: Obwohl die meisten Unternehmen viele ihrer Anwendungen in die Cloud migrieren, erfreut sich das klassische Rechenzentrum nach wie vor großer Beliebtheit. Seit nun mehr als einem Jahrzehnt virtualisieren Unternehmen ihre Rechenzentren und führen Cloud-Technologien ein. Und sagten einige Experten vor gut zehn Jahren voraus, dass das Rechenzentrum der Zukunft vollständig in der Cloud betrieben würde, sehen wir heute, dass dies nicht eingetreten ist. Stattdessen führten Unternehmen Hybrid- und Multi-Cloud-Umgebungen ein, die ihnen die Wahl geben, ihren Anwendungen und Daten das ideale Zuhause zu geben.

  • Cloud-gestützte Sicherheitsmechanismen

    Cloud Computing-Lösungen sind auch im IT-Security-Bereich zunehmend verbreitet. Viele Anbieter verlagern Sicherheitsmechanismen und andere Dienste in ihre Rechenzentren, anstatt diese auf klassische Weise bei den Kunden vor Ort (On-Premises) zu betreiben. Doch ist die Anti-Malware-Lösung aus der Cloud tatsächlich die geeignete Variante für jeden Anwendungsfall? Und wo genau liegen eigentlich die möglichen Vor- und Nachteile des Virenschutzes aus der Wolke? Die IT-Sicherheits-Experten von Tabidus Technology nennen drei gute Gründe für die Cloud. Im Gegenzug weisen sie aber auch auf drei problematische Aspekte hin, die Unternehmen und IT-Verantwortliche unbedingt im Auge behalten sollten.

  • Cloud Computing ist Mainstream in der IT

    "Die Wolke" ist in der Unternehmens-IT deutscher Unternehmen angekommen. Auch hierzulande profitieren Firmen jeder Größe von niedrigeren Kosten bei größerer Skalierbarkeit und Zuverlässigkeit. Die Verantwortung für die Sicherheit ihrer Daten sollten Unternehmen jedoch nicht in die Hände von Cloud-Providern legen. Der Datenverschlüsselung und der Kontrolle über die Verschlüsselungs-Keys kommt in heterogenen IT-Landschaften besondere Bedeutung zu. Denn im Ernstfall ist Verschlüsselung die letzte Feste der IT-Security.

  • Vorteile von Security-as-a-Service

    Security-as-a-Service wird bei Großunternehmen und KMU immer beliebter: Die sich ständig erweiternde Bedrohungslandschaft und der Mangel an Fachkräften führt zur zunehmenden Akzeptanz von IT-Sicherheit als Dienstleistung. Denn der Arbeitsmarkt bleibt angespannt, in Deutschland gibt es laut Bitkom 82.000 offene Stellen für IT-Spezialisten, und die Nachfrage nach Sicherheitsexperten steigt branchenübergreifend. Für viele Unternehmen ist deshalb eine Auslagerung von Management, Implementierung und Überwachung des komplexen Security-Bereichs eine sinnvolle und kosteneffiziente Investition, um ihre internen IT-Ressourcen zu entlasten und zugleich ihr Sicherheitsprofil zu schärfen.

  • Einblick in jede Cloud-Instanz haben

    Die Vielzahl an Cloud Computing-Services eröffnet zahlreiche Möglichkeiten, einzelne Geschäftsprozesse zu optimieren. Die richtige Cloudstrategie hat sich damit längst zu einem Wettbewerbskriterium entwickelt. Viele Unternehmen setzen auf eine Multicloud-Strategie, um bei eventuellen Ausfällen den Geschäftsbetrieb aufrechterhalten zu können und nicht von nur einem Anbieter abhängig zu sein. Die Nutzung von Cloudservices sollte umfassend geplant werden. Bei lediglich punktuellen Migrationen einzelner Prozesse besteht das Risiko, dass das Optimierungspotential nicht vollständig genutzt wird. Doch neben dem Faktor Performance hat auch die Datensicherheit mittlerweile geschäftskritische Relevanz erreicht. Regulatorische Standards sollten daher frühzeitig in das Multicloud-Konzept einfließen, die Auswahl der Anbieter mitbestimmen und durch geeignete Sicherheitsmaßnahmen flankiert werden.

  • Cloud-Services für jedermann

    Datenschutz war 2018 ein zentrales Thema in allen Medien. Die EU-Datenschutzgrundverordnung (DSGVO) hat viele Unternehmen vor enorme Herausforderungen gestellt, und diese sind noch lange nicht gemeistert. Zahlreiche Firmen hinken bei der Umsetzung weit hinterher, dabei kommen 2019 bereits neue Richtlinien auf sie zu. Welche weiteren Entwicklungen können wir nächstes Jahr in Bezug auf den Umgang mit Daten erwarten?

  • Das Glück kurzer Reaktionszeiten

    Unternehmen müssen heute kundenorientiert arbeiten und in der Lage sein, Innovationen schnell auf den Markt zu bringen. Dabei müssen Applikationen hohe Ansprüche an Verfügbarkeit und Performance erfüllen. Ausfallzeiten kann sich niemand leisten, denn die Kundenerwartungen sind hoch. All das erfordert eine flexible, skalierbare IT-Umgebung. Um den unterschiedlichen, wechselnden Anforderungen gerecht zu werden, geht der Trend dahin, mehrere Clouds zu kombinieren. Ob eine Hybrid Cloud aus Public Cloud und Private Cloud oder gar verschiedene Public Clouds - laut einer aktuellen Studie von 451 Research in 14 europäischen Ländern setzen bereits 84 Prozent eine Kombination aus verschiedenen Cloud Computing-Umgebungen ein.

  • Mit Cloud ERP ins internationale Geschäft

    Immer mehr auch mittelständische Unternehmen eröffnen oder besitzen internationale Niederlassungen. Doch unterschiedliche Gesetze, Buchhaltungsregeln und Sprachen erschweren die Organisation. Die Firmen können deshalb Cloud-ERP-Lösungen einsetzen, die sowohl konzern- als auch landesspezifische Besonderheiten sowie Compliance-Richtlinien berücksichtigen. Auch bei M&A-Projekten ist Cloud-ERP nützlich und es hilft, burning platforms zu vermeiden.

  • AI als Kollege im Service Desk

    Alle reden von Artificial Intelligence, um AI gibt es einen regelrechten Hype: Die Erwartungen sind enorm, die Ziele oft vage, konkrete Lösungen noch selten. In diesem Beitrag wird erläutert, welche Auswirkungen AI auf das IT Service Management (ITSM) in Unternehmen haben wird - und wo die Grenzen liegen. In Gartners "Hype Cycle for Emerging Technologies" vom August 2017 lag AI - vertreten durch Deep Learning und Machine Learning (ML) - ganz an der Spitze der Hype-Kurve. Wie es weitergeht, ist klar: bergab. Überzogene Hoffnungen werden enttäuscht, bevor die neue Technologie dann letztlich Einzug in den Alltag findet. Bei Deep Learning und ML wird dies laut Gartner zwei bis fünf Jahre dauern, bei AI-basierten Virtual Assistants fünf bis zehn. Aber AI wird kommen.

  • Cloud: Datensicherheit & Angriffsszenarien

    "Ihr Konto wurde gehackt!" Nachrichten mit diesen oder ähnlichen Betreffzeilen entlocken den meisten Nutzern nur noch ein müdes Lächeln. Derartige E-Mails von breit angelegten Phishing-Kampagnen, die meist schon durch ein äußerst zweifelhaftes Design auffallen, werden in der Regel unmittelbar aussortiert. Eine weitaus höhere Erfolgsquote verspricht jedoch die Kombination von Phishing mit Cloud Computing-Anwendungen. Die Aussicht, mit nur einer erfolgreichen E-Mail eine Vielzahl verwertbarer Daten zu erbeuten, ist für Cyberkriminelle Motivation genug, die Angriffstechniken weiter zu verfeinern und zielgerichteter vorzugehen. Für Unternehmen ein Grund, sich im Rahmen ihrer Datensicherheitsstrategie näher mit diesem Angriffsszenario auseinanderzusetzen.