Die Zukunft der Datenanalyse

Schaut man sich an, wie die technischen Innovationen der Zukunft wie Big Data und Künstliche Intelligenz funktionieren, ist klar, dass das Sammeln und Auswerten großer Datensätze immer mehr an Bedeutung gewinnen wird.

Bereits jetzt werden in der Industrie und in der Wissenschaft gleichermaßen große Mengen an Daten gesammelt und für eigene Zwecke ausgewertet.

Auf der anderen Seite ist die Weiterentwicklung von Technologien wie Machine Learning und KI vom Vorhandensein großer Datensätze abhängig, anhand derer diese trainiert werden können - die Synergie dieser beiden Interessen bleibt allerdings größtenteils aus.

Gerade in der Chemie- und Gesundheitsindustrie stellt sich das Teilen von Datensätzen als heikel heraus: Auf der einen Seite wollen Unternehmen ihre Daten aus Wettbewerbsgründen nicht preisgeben, auf der anderen Seite unterliegen die gesammelten (personenbezogenen) Daten oftmals dem Datenschutz, sodass diese nicht ohne Weiteres verwertet werden dürfen.

Das führt dazu, dass Unternehmen und Institute in ihrer eigenen Blase forschen und entwickeln, anstatt gemeinsam Modelle zu entwickeln und sich gegenseitig zu unterstützen.

Das Startup Apheris AI hat sich die Lösung dieses Problems zur Aufgabe gemacht. Mit Apheris soll es möglich werden, sicher und effizient miteinander in Kooperation zu treten, ohne die Rechte an eigenen Daten abtreten zu müssen.

Wie das funktioniert klärt Gründer Robin Röhm im Interview auf.

Apheris Gründer Robin Röhm und Michael Höh

Was ist Apheris AI?

Robin: Mit Apheris bieten wir verteiltes und Privatsphäre erhaltenes Rechnen an, um gemeinsame Modelle auf verschiedenen Datenprovidern zu trainieren. Konkret handelt es sich um ein Software-System und spezifische Algorithmen, die wir entwickeln. Diese Algorithmen dienen einerseits dazu, Daten direkt auf den Datenzentren der Datenprovider auszuwerten, andererseits handelt es sich aber auch um kryptographische Verfahren, die sicherstellen sollen, dass die dem Ergebnis zugrundeliegenden Daten nicht rekonstruiert werden können.

Damit können wir beispielsweise zwei Firmen erlauben, ihre Daten gemeinsam auszuwerten, ohne dass die Firmen die Daten des jeweils anderen jemals zu Gesicht bekommen.

Wir bauen ein verteiltes Netzwerk auf, an das Firmen ihre Daten anbinden können, ohne dass diese ihre Server verlassen. Unsere Algorithmen werden auf die Server der Datenprovider gesandt, dort trainiert und kehren dann als Black Box zurück. Eine Pharmafirma zum Beispiel, die an solchen Modellen interessiert ist, hat dann einen trainierten Algorithmus, ohne auf die Daten der Datenprovider (beispielsweise der Zulieferer) zugreifen zu können.

Das ist allerdings nur eine der Möglichkeiten, wie unsere Plattform genutzt werden kann. In dem geschilderten Fall würden wir unsere Algorithmen zur Verfügung stellen, um Daten auszuwerten. Es besteht aber auch die Möglichkeit, dass eine Pharmafirma bereits Modelle entwickelt hat und diese nun auf Grundlage der Daten eines bestimmten Providers trainieren will – in diesem Fall würden wir unsere kryptographischen Verfahren anwenden, um die Sicherheit zu gewährleisten.

In beiden Fällen kann der Provider das Trainieren der Modelle auf Grundlage seiner Daten als Service anbieten und hat so die Möglichkeit, Daten zielgerichtet zu monetarisieren.

Dies ist insofern ein Vorteil, dass früher oftmals die Käufer von Daten den meisten Profit herausschlagen konnten, während die Bereitsteller der Daten ihre Rechte daran abtreten mussten.

Apheris tritt hier sozusagen als Vermittler auf. Langfristig wollen wir als Unternehmen aber auch Teil der Wertschöpfungskette werden, indem wir beispielsweise selbst auf Data Provider zugehen und mögliche Kollaborationen vorschlagen.

Im Wesentlichen besteht das Startup aus zwei Komponenten: Dem Engineering und dem Privacy-Teil. Die Engineering-Komponente umfasst das Weiterleiten eines untrainierten Modelles, inklusive der Anforderungen, der Reche und Pflichten der beteiligten Firmen an die Infrastruktur der Data Provider, wo dieses Modell dann trainiert wird.

Der Privacy-Teil besteht zum einen aus einem eingebauten Security-Layer, mithilfe dessen sichergestellt wird, dass in den Modellen keine Codes zur Extraktion von Daten enthalten sind, zum anderen aus unseren kryptographischen Methoden.

Ein großes Problem im Bereich Machine Learning stellt sich dann, wenn Modelle eine Menge über die zugrundeliegenden Daten lernen, mit denen es trainiert wurde. In der Wissenschaft, wo beispielsweise Modelle zur Gesichtserkennung trainieren, kam es schon vor, dass konkrete Gesichter aus den Datensätzen rekonstruiert werden konnten.

Übertragen auf Gesundheitsdaten, wäre es fatal, würden diese in Datenbanken auftauchen.

Zu diesem Zweck bieten wir ein Modell der Differential Privacy. Zu jedem Ergebnis berechnen wir ein gewisses Maß an Zufall dazu, dass sich am Ende der Rechenprozesse wieder ausgleicht. Die Ergebnisse werden so nicht verfälscht, indem allerdings etwas hinzugefügt wird, wird sichergestellt, dass die ursprünglichen Daten nicht wiederherstellbar sind.

Wie sieht euer Business-Modell aus?

Robin: Hauptsächlich bieten wir ja den Service an, diese Modelle zu trainieren und unsere Software zur Verfügung zu stellen. Am Ende dieses Prozesses steht dann die Black Box, in die eine Pharmafirma beispielsweise Anfragen reinsenden und errechnete Ergebnisse bekommen kann. Diese Black Box lebt dann auf unserer Infrastruktur.

Das Pricing ist noch flexibel. Einerseits fallen Lizenzgebühren für die Modelle an, andererseits lassen wir uns auch direkt für unseren Service bezahlen.

Langfristig würden wir gern die Besitzer dieser Modelle werden, da diese für mehrere Firmen interessant sein könnten und man da eine Lücke schließen könnte.

Momentan wollen Firmen oft Exklusivrechte für ihre Modelle haben, sodass uns da noch die Hände gebunden sind.

Was zeichnet euch als Team aus?

Robin: Uns zeichnet als Team aus, dass wir einen recht diversen Hintergrund vorzuweisen haben. So haben wir beispielsweise Kompetenzen aus den Bereichen Mathematik, Medizin und Philosophie. Auch ist Apheris bereits die vierte Firma, an deren Gründung ich beteiligt bin.

Eine der vorherigen Firmen ist beispielsweise Janos Genomics gewesen, wo wir Software für Gendaten entwickelt haben. Im Zusammenhang damit haben wir das Feedback erhalten, dass das Interesse an einer solchen Software schon vorhanden sei, dass allerdings der Zugang zu den Daten noch ausgebaut werden müsste.

So sind wir auf das Problem gestoßen, das wir mithilfe von Apheris lösen wollen.

Unser Mitgründer Michael Höh hat Erfahrungen mit algebraischen Theorien zu Data Linkage. Ursprünglich geht es dabei eigentlich darum, Daten zu berechnen, die auf verschiedenen Rechnern in einem Netzwerk liegen. Für Apheris haben wir dies auf physikalisch verteilte Daten angewendet.

Wie sehen eure Pläne für die Zukunft aus?

Robin: Momentan spielen wir ja eher eine Rolle als Mittlerfigur zwischen verschiedenen Firmen und Datenprovidern. Langfristig wollen wir aber auch Besitzer der Modelle werden, die wir entwickeln und diese zusätzlich vertreiben.

Unser Unternehmen wächst bereits fröhlich und die weiteren Wachstumsaussichten sehen auch sehr gut aus. So könnten wir uns für die Zukunft noch viele Anwendungsgebiete vorstellen.

Wie beispielsweise das Trainieren von Submodulen auf Grundlage vieler verschiedener Daten. Durch die Erschließung von Gesundheitsdaten aus Krankenhäusern oder Instituten, die ihre Daten selbstverständlich nicht verkaufen dürfen, wäre es beispielsweise möglich, ein ganzes Feld abzudecken. Man könnte die Daten verschiedener Provider zusammenschließen und so interessante Datensätze aufbauen.

Die Zukunft der Datenanalyse

Was ist Apheris AI?

Wie sieht euer Business-Modell aus?

Was zeichnet euch als Team aus?

Wie sehen eure Pläne für die Zukunft aus?

5-HT Chemistry & Health Newsletter