Internet:

„Speicherplatz ist nicht mehr teuer“

von am 17.06.2014 in Archiv, Datenschutz, Internet

<h4>Internet: </h4>„Speicherplatz ist nicht mehr teuer“
Prof. Dr. Matthias Hagen, Professor für Big Data Analytics an der Bauhaus-Universität Weimar

Algorithmen werden zu Treibern der künstlichen Intelligenz

17.06.14 Interview mit Prof. Dr. Matthias Hagen, Professor für Big Data Analytics an der Bauhaus-Universität Weimar

Big Data ist gegenwärtig das Zauberwort der Industrie 4.0 und das Schreckgespenst der Datenschützer und vieler Medien. Die einen sehen hierin die Basis für neue Geschäftsmodelle und technologische Innovationen, die anderen die die menschliche Freiheit bedrohende Datenkrake. Im Jahr 2012  sind weltweit 2.800 Exabyte (Ein Exabyte = 1 Mrd. Bytes) Daten generiert worden. Diese Datenmenge interessiert nicht nur Unternehmen wie Google oder Amazon, sondern auch Wissenschaftler. Zu ihnen gehört Prof. Dr. Matthias Hagen, Inhaber der ersten deutschen Professur für Big Data Analytics an der Bauhaus-Universität Weimar. In einem medienpolitik.net-Gespräch verweist Hagen darauf, dass es mittlerweile keine Kosten verursache, das Nutzerverhalten zu protokollieren und es auch kaum rechtliche Schranken gebe.

medienpolitik.net: Herr Matthias Hagen, was sind Algorithmen?

Matthias Hagen: Man kann sich das wie ein Kochrezept vorstellen. Man möchte sich ein Gericht kochen und geht Schritt für Schritt vor. Beim Informatiker ist es so ähnlich, wenn er eine bestimmte Problemstellung lösen möchte. Eine der einfachsten Aufgaben als Informatiker, ist zum Beispiel Zahlen zu sortieren – quasi das Nudelkochen der Algorithmik. Zum Sortieren benutzt ein Informatiker dann ein bestimmtes Verfahren – einen Sortieralgorithmus. Das ist im Prinzip auch nur eine Schritt-für-Schritt Anweisung wie eine beliebige Menge von Zahlen sortiert werden kann. Wichtig für den Algorithmenentwurf ist die genaue Problemspezifikation. Was ist die Eingabe und was soll herauskommen. Beim Kochrezept sind die Zutaten quasi die Eingabe und das fertige Gericht das Ergebnis, beim Sortieren ist eine Zahlenfolge die Eingabe und die sortierte Zahlenfolge die Ausgabe. Vom eher abstrakten Algorithmus kommt man zum Programm, indem ein Programmierer das Verfahren implementiert.

medienpolitik.net: Suchmaschinen verwenden Algorithmen, um ein Trefferergebnis zu erzielen. Das ist doch komplizierter, als Zahlen zu sortieren.

Matthias Hagen: Es ist schon komplizierter, aber es gibt auch komplizierte Kochrezepte. Das Sortieren von Zahlen ist eines der Standardprobleme, aber das Bewerten von Suchergebnissen ist ein relativ komplexes Problem. Ein Punkt ist etwa, dass man bei einem Dokument zählt, wie häufig bestimmte Wörter vorkommen – eines der einfachsten Relevanzkriterien. Angenommen man hat eine ganze Kollektion von Dokumenten, wie zum Beispiel das Web, dann wird gezählt, welche Wörter und Wortkombinationen wie oft vorkommen. Funktionsworte (Artikel, Präpositionen, etc.) sind überall sehr häufig, damit kann man keine Dokumente voneinander unterscheiden. Wenn aber ein Fachbegriff in einem Dokument sehr häufig auftritt, aber im Rest der Kollektion nicht so häufig, dann ist dieser Begriff für das Dokument sehr wichtig. Bei einer Anfrage mit diesem Fachbegriff kommt das Dokument im Ranking dann weit nach oben. Dafür gibt es Algorithmen. Algorithmen, die die Häufigkeiten von Wörtern bestimmen und wieder andere Algorithmen die Häufigkeiten und andere Signale (etwa ob Synonyme auftauchen etc.) bewerten.

medienpolitik.net: Der Suchvorgang im Web läuft innerhalb von Sekundenbruchteilen. Die Erfassung der Häufigkeiten muss doch schon vorab geschehen sein…

Matthias Hagen: Ja, natürlich. Wenn eine Suchmaschine eine große Kollektion für die Suche aufbereitet, dann geschieht das nicht zu der Zeit, in der die Anfrage gestellt wird, sondern in einer Vorverarbeitungsphase. Kommt ein Dokument bei einer Suchmaschine in den sogenannten Index, dann wird abgespeichert, wie oft kommt jedes einzelne Wort an welchen Stellen vor. Wichtig ist ein Wort zum Beispiel, wenn es ganz am Anfang des Dokuments steht. Denn da stehen der Titel oder die Zusammenfassung eines Artikels. Es stellt sich die Frage, in wie vielen anderen Dokumenten kommt das Wort vor, wenn auf dieses Dokument verlinkt wird? Das sind im Web die sogenannten „Ankertexte“. Diese beschreiben das Dokument, auf das verlinkt wird. Es gibt einen Algorithmus mit der Bezeichnung Crawling. Mit diesem Prozess können auf der Webseite alle Links ausgewertet und geprüft werden, ob die Links schon bekannt sind und im Index stehen, oder nicht: dann werden sie vom Crawler heruntergeladen. News-Portale verändern sich aber beispielsweise sekündlich. Deshalb muss eine Suchmaschine, die von dem Portal immer die aktuelle Version haben möchte, den Crawling-Algorithmus auch kontinuierlich anwenden.

medienpolitik.net: Das bedeutet also, dass auf Suchmaschinen zahlreiche Algorithmen aktiv sind…

Matthias Hagen: Das ist wie bei einem Orchester, bei dem die einzelnen Musiker eine unterschiedliche Funktion wahrnehmen und nur beim perfekten Zusammenspiel alles schön klingt. Es gibt nicht den einen Suchalgorithmus, sondern sehr viele, die sehr viele unterschiedliche Signale bewerten. Es gibt hunderte Algorithmen, die auf Suchmaschinen zusammenspielen und die auch ständig ergänzt und aktualisiert werden.

medienpolitik.net: Wenn zwei Menschen den gleichen Suchbegriff in eine Suchmaschine eingeben, erhalten sie häufig unterschiedliche Ergebnisse. Die Algorithmen müssen also auch von der Person etwas wissen. Damit werden nicht nur Inhalte verknüpft, die im Netz vorhanden sind, sondern auch persönliche Daten…

Matthias Hagen: Es kommt darauf an, was persönliche Daten sind?

medienpolitik.net: Zum Beispiel Nutzungsgewohnheiten, Stichworteingaben, politische Fragestellungen?

Matthias Hagen: Suchmaschinen nehmen alles auf, was sie von Menschen im Internet beobachten können, denn Speichplatz ist nicht teuer. Es verursacht somit keine Kosten, das Nutzerverhalten zu protokollieren und es verbietet auch keiner. Deshalb machen es die Suchmaschinen. Dinge, die in den letzten fünf Minuten erfragt wurden, können beispielsweise einen besonderen Einfluss darauf haben, was für Treffer angezeigt werden. Wenn man zum Beispiel nach Orten in Spanien gesucht hat, und als nächstes eine Urlaubsreise buchen möchte, dann schlägt die Maschine vielleicht vor, Urlaub in Spanien zu machen. Auch der menschliche Buchhändler bei dem man einkauft, merkt sich ja für seine Stammkunden hoffentlich, was sie gern lesen. Wenn ein neues Buch veröffentlicht wird, sind die Kunden ja auch zufrieden, wenn der Händler es ihnen vorschlägt.

medienpolitik.net: Aber wenn verschiedene Dienste ihre Daten verknüpfen, wenn zum Beispiel Google weiß, nach welchen medizinischen Daten ich suche und der Online-Buchhändler weiß, welche gesundheitlichen Probleme ich habe und mir entsprechende Bücher vorschlägt, ist das sicher problematisch?

Matthias Hagen: Sicher, denn mein menschlicher Buchhändler spricht ja gewöhnlich auch nicht ständig mit meinem Arzt. Aber es gibt gegenwärtig nur wenige Richtlinien darüber, was wie lange von Internetunternehmen gespeichert und wie genutzt werden darf. Viele Unternehmen sitzen ja auch gar nicht in Deutschland und haben am Stammsitz andere Rechtsgrundlagen. Und da auf Nutzerinformationen und -daten ihre Geschäftsmodelle aufsetzen, wird auch alles gespeichert, was zugänglich ist. Der Nutzer kann die Speicherung seiner Daten bei der Benutzung eines Dienstes nicht wirklich verhindern. Die Speicherung kann aber auch nützlich sein, wenn zum Beispiel die Suchmaschine weiß, was andere Nutzer bei demselben Problem getan haben. Es spart mir vielleicht eine halbe Stunde Arbeit, weil die Suchmaschine mir gleich vorschlägt, was die anderen geklickt haben.

medienpolitik.net: Dafür gibt man aber viele persönliche Informationen von sich preis…

Matthias Hagen: Das ist das Risiko. Wer alle meine Suchanfragen kennt, der weiß womit ich mich wissenschaftlich beschäftige, was für ein Persönlichkeitsbild ich habe, ob ich z.B. Mann oder Frau bin, kennt mein Alter, weiß wo ich ungefähr wohne, vielleicht was ich für gesundheitliche Probleme habe, wer meine Bekannten sind. Man muss sich schon vergegenwärtigen, dass nicht nur die NSA weiß was wir tun, sondern viele Anbieter im Netz wissen es auch. Der Suchalgorithmus ist eine Zusammensetzung aus verschiedenen kleineren algorithmischen Verfahren, Personalisierung ist eine wesentliche  Komponente davon. Aber die Personalisierung des Dienstes, also die Bewertung von Eingaben auf Basis bestimmter gespeicherter Nutzerprofile, geschieht noch nicht bei allen Anbietern so, wie bei Google vielleicht für manche Suchanfragen.

medienpolitik.net: Kann man sich vor der Verknüpfung von persönlichen Daten schützen?

Matthias Hagen: Man könnte mit einem Anonymisierungsdienst surfen und zum Beispiel Google anonym benutzen, wovon aber kaum jemand Gebrauch macht. Auch weil es außer Informatikern kaum jemand weiß. Nicht anonym zu googeln kann aber auch Vorteile haben. Zum Beispiel kann die Suchmaschine, falls meine Anfrage keine oder nur wenige Treffer erzielt, ähnliche Anfragen anderer Nutzer vorschlagen. Das sind dann Verfahren bei denen einerseits viel über den einzelnen Nutzer protokolliert wird, andererseits hilft es, dass bestimmte Anfragen besser verstanden werden. Wenn man beispielsweise bereits einige Zeit zu einem Thema recherchiert und die Suche unterbrochen hat, könnte die Suchmaschine vorschlagen, an der Stelle wieder aufzusetzen wenn man zurückkommt.

medienpolitik.net: Wie lange dauert es noch, dass Suchmaschinen so arbeiten?

Matthias Hagen: In vielen Zusammenhängen reagieren sie ja schon heute so. Google arbeitet gegenwärtig daran, dass der Nutzer mit dem System spricht und es Zusammenhänge zu den gestellten Fragen herstellt. Bei Google funktioniert oft bereits zum Beispiel die Auflösung von Zusammenhängen über Anfragegrenzen hinweg (Wer ist Präsident der USA? Und wie alt ist er?). Weil immer mehr Menschen mobil suchen, geht die Entwicklung in diese Richtung. Man möchte mit dem Gerät sprechen und dafür muss die Sprache vom Suchdienst verstanden werden. Verstehen aber erst einmal nicht im dem Sinne wie Menschen miteinander sprechen, sondern indem man statistische Auswertungen vornimmt. Denn die zutreffende Bedeutung eines Wortes ergibt sich oft erst aus dem Zusammenhang. Doch mit der Datenbasis, die große Anbieter zur Verfügung haben, ist es sehr leicht mit statistischen Verfahren, das Verstehen von Text zu simulieren.

medienpolitik.net: Die Zukunft der Suchmaschinen liegt somit im Bereich des gesprochenen Wortes?

Matthias Hagen: Im Verständnis von in natürlicher Sprache formulierten Zusammenhängen stehen wir sicherlich trotz erster beeindruckender Ergebnisse noch ganz am Anfang. Aber den Trend, wie Algorithmen einfache Ableitungen herleiten können, sieht man ja zum Beispiel bei Wetteranfragen an Suchmaschinen. Ohne dass man klicken müsste, wird das Ergebnis gleich in einer kleinen Box präsentiert. Viele von den großen Firmen versuchen sich so zu etablieren, dass sie die richtige Idee auch ohne das unmittelbare Mitwirken des Nutzers entwickeln. Das heißt, dass sie dem Nutzer selbstständig Daten liefern wollen, die ihm weiterhelfen. Es ist ein interessantes Thema, das aber auch für Missbrauchszenarien offen ist.

medienpolitik.net: Sind Algorithmen lernfähig? Können sie sich mit dem was sie suchen und filtern weiterentwickeln, ohne dass sie neu programmiert werden?

Matthias Hagen: Es gibt Algorithmen aus dem Bereich maschinelles Lernen, die das können. Diese Verfahren „beobachten“ bestimmte Dinge, die ihnen Menschen preisgeben und leiten daraus Regeln ab. Zum Beispiel durch Klicks kann auf einer Suchmaschine ein Lernmechanismus einsetzen, der beobachtet, wohin die Nutzer klicken. Wenn die Nutzer nie auf den ersten Rang klicken, dann lernt dieses Verfahren daraus und stellt das zweite Dokument nach vorn. Auf der Basis solcher gelernter Regeln können auch neue Texte und Dokumente bewertet werden. Je mehr Daten zum Lernen da sind, desto besser ist am Ende das Verfahren.

medienpolitik.net: Kann ein Algorithmus zusätzliche Daten auswerten und somit über das hinausgehen, was ursprünglich programmiert ist?

Matthias Hagen: Das kommt etwas auf die Auslegung an,  gibt es im Moment aber wohl noch nicht wirklich. Ein Algorithmus ist bisher ein Verfahren, das sich ein Mensch vorher ausgedacht hat, was dann implementiert und programmiert wurde. Per se geschehen also eigentlich nur die Dinge, die der Mensch hineingesteckt hat. Es gibt aber den Trend, dass sich viele große Firmen Forscher aus dem Bereich der künstlichen Intelligenz holen. Mir ist noch nicht klar, inwieweit da am Ende ein Verfahren entwickelt werden kann, dessen Verhalten von den ursprünglichen Vorstellungen der Entwickler sehr weit entfernt ist. Ich halte es aber nicht für ausgeschlossen, dass in fünf bis zehn Jahre Programme etwas anderes leisten als ursprünglich vorgesehen war und Zusammenhänge finden, die nicht den ursprünglichen Vorstellungen der menschlichen Entwickler entsprechen.

medienpolitik.net: Können Algorithmen ihre Suchanfrage selbständig verändern? Ein Algorithmus soll zum Beispiel auf Begriffe aus der Sportwelt reagieren. Ich interessiere mich aber nicht für Sport, sondern für Theater. Könnte mir der Algorithmus von sich aus Neues vom Theater vorschlagen?

Matthias Hagen: Das ist sicherlich nicht weit weg von der heutigen Realität. Aber die Firmen stellen sich noch mehr vor. Zum Beispiel vielleicht Dokumente zu ranken, ohne jegliche Kriterien vorzugeben. Die wichtigen Kriterien lernen Verfahren dann vielleicht nur auf Basis beobachteten Nutzerverhaltens. Wichtig ist am Ende ja eigentlich nur, dass bei der Suche gute Ergebnisse oben stehen, die den Intentionen des Nutzers möglichst nahe kommen.

medienpolitik.net: Das könnte man doch für News verwenden…

Matthias Hagen: Wenn der Nutzer angegeben hat, was ihn thematisch interessiert, dann erhält der Nutzer ja schon heute von vielen Diensten keine Nachrichtenübersicht, die nach redaktionellen – journalistischen Kriterien erfolgt, sondern nach den Interessen des Nutzers in Verbindung mit der Häufigkeit der Zugriffe insgesamt. Wichtig ist also nicht was „objektiv“ wichtig ist, sondern was für den Einzelnen wichtig zu sein scheint. Diese Verfahren arbeiten dynamisch, was aber auch so vorgesehen ist.

medienpolitik.net: Sie arbeiten an einer Suchmaschine. Warum investiert man noch Kraft in eine neue Suchmaschine, wenn Google in Deutschland einen Marktanteil von nahezu 90 Prozent erreicht?

Matthias Hagen: Wir arbeiten nicht wirklich an einer eigenen Suchmaschine und wollen Google auch nicht schlagen, sondern wir experimentieren in bestimmten Nischen. Mich interessiert zum Beispiel, was Nutzer mit sehr langen Anfragen machen. Mich interessiert, wie Nutzer mit Suchmaschinen umgehen. Und wir versuchen daraus zu lernen, was der Nutzer in den letzten fünf Minuten angeklickt hat. Ob es etwa vor der aktuellen Anfrage Fragen gab, die mit dieser zusammen hängen. Kann man daraus die letzte Anfrage besser verstehen und damit bessere Treffer liefern? Das ist, woran wir beispielsweise arbeiten. Wir untersuchen aber auch, ob Menschen die lange Anfragen stellen, falsche Erinnerungen mit einbauen. Für ein gutes Suchergebnis ist es wichtig, diese falschen Erinnerungen zu erkennen. Das untersuchen wir auf sogenannten Frage-Antwort-Plattformen. Auf diesen Plattformen können Menschen Fragen an andere Menschen stellen. Und wir arbeiten beispielsweise auch daran, Nutzungsverhalten zu simulieren und verschiedene Suchsysteme auf der Basis eines simulierten „idealen“ Nutzers miteinander zu vergleichen.

medienpolitik.net: Mündet das was Sie tun, in eine konkrete neue Suchmaschine, oder sind das Erkenntnisse, die Sie zum Beispiel an Google verkaufen werden?

Matthias Hagen: Nein, wir entwickeln keine neue Suchmaschine und verkaufen auch nichts an Google. Wir arbeiten mit kleinen und mittelständischen Unternehmen aus der Region zusammen. Es sind Firmen, die zum Beispiel Suchdienste für Unternehmensnetzwerke entwickeln. In diesem Zusammenhang sind andere Dinge wichtig als im Web; oft sucht man in der eigenen Firma Experten für bestimmte Themen oder Dokumente zu bestimmten Produkten, oder vielleicht empfangene Emails – ein Thema bei dem dann zum Beispiel die falschen Erinnerungen ins Spiel kommen, wenn man etwa die Mail von Kollege X von vor fünf Monaten sucht, aber eigentlich kam sie vom Kollegen Y. Wir wollen dabei als Forscher unseren Firmen einen Mehrwert liefern. Was wir veröffentlichen ist natürlich frei verfügbar. Aber unsere regionalen Partnerfirmen haben durch den Vorlauf in der Zusammenarbeit mit uns einen gewissen Vorsprung. Außerdem arbeiten wir sehr eng mit Experten im Bereich der Visualisierung um Prof. Fröhlich an der Bauhaus-Universität zusammen. Auch die Visualisierung gefundener Zusammenhänge ist für unsere Firmenpartner eine sehr spannende Fragestellung

medienpolitik.net: Seit einiger Zeit gibt es die Forderung nach einer europäischen Suchmaschine. Ist das realistisch?

Matthias Hagen: Die Idee gibt es sicher schon länger. Für mich ist das nicht das vordergründige Ziel. In Russland ist Yandex das nationale Google, mit einem Marktanteil von 60 bis 70 Prozent. In China ist es Baidu. Es wäre ja vielleicht schon gut, wenn es auch eine solche europäische Suchmaschine als Alternative für Google gäbe. Aber gerade in Deutschland die 90 Prozent Marktanteil von Google anzugreifen, ist sicherlich sehr schwer. Durch die große Nutzerbasis kann Google viele wichtige Informationen aus den Nutzerdaten ziehen. Für eine europäische Suchmaschine müsste man sehr viel Geld in die Hand nehmen und einen langen Atem haben. Die Infrastruktur allein ist dabei gar nicht so teuer. Aber bis man einen ernst zu nehmenden Marktanteil hat, benötigt man sehr viel Geld, was die öffentliche Hand sicher nicht aufbringen möchte. Auch wenn es große private Anbieter gäbe, würde es einige Jahre brauchen, die Marktstellung von Google wahrnehmbar anzugreifen. Wichtig wäre auch ein Alleinstellungsmerkmal einer europäischen Suchmaschine.

medienpolitik.net: Welches Alleinstellungsmerkmal zum Beispiel?

Matthias Hagen: Wenn ich das wüsste, wäre es ja vermutlich schon der erste Schritt und ich müsste ein Startup gründen. Was genau z.B. für deutsche Nutzer verbessert werden sollte ist mir nicht so klar – viele Menschen scheinen ja mit den Suchtreffern von Google sehr zufrieden zu sein und etwa Datenschutz/Privatsphäre spielt dabei keine wirkliche Rolle. Es gibt ja etwa einige kleinere Suchmaschinen, die versprechen, die Nutzerdaten nicht als Profil sondern höchstens anonymisiert zu speichern – um beispielsweise den Mehrwert von Vorschlägen, was anderen Nutzern geholfen hat, bieten zu können. Diese Suchmaschinen haben im letzten Jahr auch sprunghaft Nutzer gewonnen. Aber eben auf sehr, sehr niedrigem Niveau. Mit einer paar Millionen Anfragen am Tag kann man einfach nicht wirklich mit Google und den Milliarden Anfragen pro Tag konkurrieren. Der Versuch, Privatsphäre und Datenschutz als ein Alleinstellungsmerkmal anzubieten, scheint also zumindest kurz- und mittelfristig noch nicht wirklich viele Nutzer zu begeistern. Im russischen Markt war zum Start von Yandex sicher ein entscheidendes Kriterium für den anhaltenden Erfolg, dass Yandex als russischer Anbieter einfach näher an der Mentalität seiner Nutzer war und am Anfang vielleicht auch kyrillische Dokumente mit der komplizierten russischen Grammatik durch den „Sprachvorteil“ besser bewerten konnte. Etwas Entsprechendes für den gesamteuropäischen Markt nach sehr vielen Jahren der Google-Dominanz zu finden ist sicher nicht leicht. Und auch aktuell nicht Thema meiner Forschungsarbeit.

Der Beitrag wurde in der promedia-Ausgabe Nr. 6/2014 erstveröffentlicht.

Print article

Kommentieren

Bitte Pflichtfelder ausfüllen