Datenkrake KI
Shownotes
In Folge 24 von HiWay spricht Principal Enno Ewers über die Herausforderungen von Datenschutz im Zeitalter der Künstlichen Intelligenz. Er beleuchtet, welche Risiken durch große KI-Modelle entstehen, welche rechtlichen Rahmenbedingungen gelten und welche Möglichkeiten Unternehmen und Anwender haben, ihre Daten zu schützen. Ein klarer Blick auf ein komplexes Thema – verständlich, praxisnah und aktuell. Moderation: Valerie Knapp
Shownotes:
Transkript anzeigen
00:00:00: Und das Modell neu trainieren ist sehr teuer für die großen Modelle, also das schwankt
00:00:05: irgendwie zwischen, ich sag mal, größten Ordnung, zweistellige Millionenbeträge bis
00:00:12: hohe dreistellige Millionenbeträge, so ein Modell einmal zu trainieren. Und wenn man jetzt irgendwie
00:00:16: für einmal Datensatz löschen, die das Modell einmal neu trainieren möchte, dann ist das problematisch,
00:00:20: sagen wir mal so. Also aus all diesen Gründen passiert das in der Praxis momentan einfach nicht.
00:00:25: Also ich habe ein Nachweisproblem zu sagen, dass meine Daten überhaupt drin sind. Ich habe
00:00:31: ein Nachweisproblem zu sagen, ob sie draußen sind, wenn der Hersteller gesagt, er hat was getan und
00:00:36: sie gelöscht. Und der Hersteller hat ein Problem, sie zu löschen.
00:00:39: HiWay, dein Wegweiser für Digitalisierung und Sicherheit. Präsentiert von HiSolutions.
00:00:56: Hi und herzlich willkommen zu einer neuen Folge von HiWay, dem Podcast von HiSolutions.
00:01:02: Mein Name ist Valerie Knapp und heute spreche ich mit meinem Kollegen Enno über das Thema KI,
00:01:08: also künstliche Intelligenz. Enno ist Principal hier bei der HiSolutions und kommt eigentlich aus
00:01:15: der technischen Ecke mit Pentesting, Incident Response, macht auch Grundschutz, da auch die
00:01:22: Audits hast du mir gesagt und mittlerweile treibst du hier als Principal das Thema KI
00:01:29: sowohl für die interne Nutzung als auch als externes Beratungsthema voran.
00:01:35: Frage 1. Welche neuen Herausforderungen bringt denn der Einsatz von KI im Bezug auf Datenschutz mit sich?
00:01:45: Ja, also wenn ich das in den Projekten sehe, tatsächlich mit unseren Kunden ist das die
00:01:50: hauptsächliche Beschäftigung. Erstmal KI ist einfach erst mal ein Cloud Service. Also KI bietet
00:01:56: sich an als Cloud Service. Ich bekomme nur über die Cloud Services die besten Modelle,
00:02:02: die es momentan gibt. Die kann ich nicht. Also die bieten die Anbieter nicht an, dass sie sie mehr
00:02:06: runterladen und lokal betreiben kann. Das heißt ich muss die irgendwo in der Cloud benutzen und
00:02:11: das ist vielleicht auch so der erste Punkt, wo alle dran scheitern Datenschutz und Cloud Service
00:02:17: bedeutet. Ich muss gucken was mein Cloud Service Provider mir für Datenschutz Garantien gibt,
00:02:21: welche Compliance Garantien er mir gibt und wie ich damit zurechtkomme. Die KI Service haben sich
00:02:32: frisch aufgebaut in den letzten irgendwie zwei, drei Jahren maximal. Das heißt wenn man das probiert
00:02:38: hat irgendwie im letzten Jahr oder auch noch dieses Jahr, dann fällt einem auf, dass sie alle mit der
00:02:43: heißen Nadel gestrickt waren und zum Teil noch sind und dass da halt zum Beispiel nicht die
00:02:48: selben Compliance Garantien gelten wie für andere Dienste, die man so gewohnt ist, dass selbst wenn die
00:02:53: beim selben Anbieter sind. Das nächste Thema ist dann, dass sie natürlich eventuell im Ausland
00:03:00: liegen. Also nicht in der EU. Da gucken wir über Datenschutz reden, reden wir über das europäische
00:03:06: DSGVO. Also die Datenschutzgrundverordnung. Genau, die hier den rechtlichen Rahmen bietet und die
00:03:15: Anbieter sind nun mal zum großen Teil in den USA und jetzt auch China, was natürlich für viel
00:03:21: Gesprächsbedarf sorgt, die DeepSeek. Und dann muss man natürlich gucken, was gelten da für Regelungen.
00:03:31: Und das ist natürlich jetzt hochaktuell, also in den USA. Die letzten, ich sage mal, Haken,
00:03:39: an denen man sich festgehalten hat, dass man auch in den USA einem dem europäischen Recht
00:03:43: entsprechend einen Datenschutz hinbekommt, die fallen gerade um und dann muss man vielleicht
00:03:48: das auch nochmal beachten und gucken, wo gebe ich meine Daten entsprechend hin bei den Anbietern.
00:03:54: Das ist vielleicht der Hauptpunkt, den man als Kunde hat in dem Thema.
00:03:58: Ja, es ist ja, wo gehen meine Daten hin und wo sitzt der Anbieter? Das waren ja zwei Punkte,
00:04:04: eben die da auch berücksichtigt werden müssen.
00:04:07: Genau. Also ja, vielleicht auch noch welche, welche Rechte habe ich dann tatsächlich um meine Daten
00:04:13: entsprechend zwar folgen bei den Anbietern. Also das ist jetzt als Nutzer. Wenn wir weitergehen,
00:04:18: natürlich ist es nicht nur als Nutzer, sondern dann habe ich natürlich den Thema, okay,
00:04:22: wo, was ist die Herausforderung, was die Herausforderung eigentlich für den Anbieter,
00:04:26: auch wenn ich einen entsprechenden Anbieter gefunden habe.
00:04:28: Die Seite ist ja auch nicht verkehrt, das zu wissen, was dahinter steckt.
00:04:32: Und ja, da muss man vielleicht mal so ein kleines Stück ausholen, die Hintergrund wissen,
00:04:37: wo liegen eigentlich Daten in so einem Sprachmodell? Wenn wir gucken, was ist das spezielle mit der KI?
00:04:43: Die hauptsächliche Sorge, die alle haben, ist, dass die KI mit den eigenen Daten weiter trainiert wird
00:04:50: und die KI dann diese Daten kennt. Also alles Services die ich zum Beispiel als normaler
00:04:54: Benutzer umsonst benutzen kann. Die haben eigentlich immer mit zumindest in der Default-Einstellung,
00:04:59: dass sie die eingegebenen Daten auch nutzen und damit ihre Modelle weiterzutrainieren und
00:05:03: damit tauchen alle die Arten, die man eingegeben hat, dann auch irgendwann in diesen Modellen
00:05:07: potenziell auf erstes Thema, woher weiß ich eigentlich, wie das ist. So, jetzt muss man sich
00:05:14: einmal angucken, wir reden jetzt vor allem über die großen Sprachmodelle oder die LLMs,
00:05:18: wenn man das Large-Language Models. Also z.B. ChatGPT oder Co-Pilot oder so. Genau.
00:05:24: ChatGPT oder Co-Pilot. Und diese Sprachmodelle speichern ihr gesamtes Wissen als Modellgewicht
00:05:33: in einem neuronalen Netz. Und diese Modellgewichte, die kann ich nicht spezifisch Inhalten zuordnen,
00:05:39: oder zumindest nicht so einfach, das ganz kompliziert zu machen. Im Prinzip habe ich
00:05:43: hier wenig Möglichkeiten rauszufinden, ob Daten in dem Modell drin sind, außer es zu befragen,
00:05:47: ob die Daten rauskommen. Und dann ist immer die Frage, ob ich es tatsächlich sauber raus bekomme,
00:05:53: oder ob ich nicht die Daten, selbst wenn das der eine Versuch nicht geklappt hat zu fragen,
00:05:58: der andere dann klappt, wenn ich etwas genauer frage. Und auch die Frage, ob der Anbieter
00:06:02: eigentlich weiß, was alles in seinem Modell drin ist. Und die Antwort ist in beiden Fällen
00:06:06: wahrscheinlich nicht. Das heißt, meine erste Frage ist, sind meine Daten in diesem Modell
00:06:11: eventuell mit drin. Und da bin ich nicht nur als Nutzer eines KI-Services gefragt, sondern
00:06:14: natürlich als jemand, der dessen Daten irgendwie im Internet stehen. Wenn ich mich in irgendwelchen
00:06:19: Social Media beteilige, habe ich, egal was für eine Plattform, eine große Chance, dass
00:06:24: sie mitgenutzt wurden, um so ein großes Sprachmodell zu trainieren und dass sie dann da eventuell
00:06:29: drin sind. Und dann habe ich halt das Thema, okay, meine Daten sind da in diesem Modell drin,
00:06:36: eventuell kann ich das erfragen, eventuell kriege ich einen Personenbezug hin und dann fangen
00:06:41: die Herausforderungen an.
00:06:43: Frage 2. Kann man das dann löschen lassen? Also wenn da jetzt meine Daten irgendwie mit
00:06:50: drin sind, auf Social Media irgendwie mit reingeraten sind, weil das als Trainingsdaten genutzt wurde?
00:06:55: Ja, also rechtlich gesehen erst mal, ja, im EU-Rechtsraum, recht auch vergessen zum Beispiel. Wer
00:07:03: kann ich mir sagen, Anbieter, ich möchte, dass diese Daten nicht mehr da drin sind. Technisch
00:07:08: wird das ein bisschen schwierig. Also wenn die tatsächlich in dem großen Grundlagenmodell
00:07:13: drin ist, Foundation-Modelle, dann haben wir diese ganz großen Sprachmodelle, dann wird
00:07:18: es schwierig, die rauszubekommen. Da gibt es keine guten Wege. Also man kann das versuchen,
00:07:25: indem man sozusagen ein Prompting betreibt und sagt, bestimmte Informationen sollst du
00:07:28: nicht ausspucken. Das ist üblicherweise nicht funktional oder beziehungsweise funktioniert
00:07:34: halt nur auf ein paar Fälle, aber da kommt man immer drum rum. Und es ist auch so
00:07:38: viel Prompting, so viel Vortext kann man eigentlich vor seinem Modell gar nicht zugeben, dass
00:07:44: die alle vergessen werden. Ansonsten muss ich das Modell neu trainieren.
00:07:47: Und das Modell neu trainieren ist sehr teuer für die großen Modelle, also das schwankt
00:07:52: irgendwie zwischen, ich sag mal, größen Ordnung, zweistellige Millionenbeträge bis
00:07:58: hohe dreistellige Millionenbeträge, so ein Modell einmal zu trainieren, und wenn man
00:08:01: jetzt irgendwie für einmal Datensatz zwischen, die das Modell einmal neu trainieren möchte,
00:08:05: dann ist das problematisch, sagen wir mal so, also aus all diesen Gründen passiert
00:08:10: das in der Praxis momentan einfach nicht.
00:08:12: Also ich habe ein Nachweisproblem zu sagen, dass meine Daten überhaupt drin sind, ich
00:08:18: habe ein Nachweisproblem zu sagen, ob sie draußen sind, wenn der Hersteller gesagt, er hat was
00:08:22: getan und sie gelöscht, und der Hersteller hat ein Problem, sie zu löschen.
00:08:25: Ja, im Zweifel finanzielles Problem, weil das ja super teuer ist, wie du gesagt hast.
00:08:30: Ja, genau.
00:08:31: Also da mag es Ausnahmen geben von kleineren Modellen, die spezifisch sind, von kleineren
00:08:36: Datensatzanteil, wo meinetwegen die Daten noch im Feintuning drin sind, dass sich das
00:08:42: entsprechend neu trainieren kann, für einen geringeren Preis, aber das kann funktionieren.
00:08:46: So, einen Punkt noch vielleicht, es kann sein, dass in einem Modell Daten über mich drin
00:08:51: sind, die sind gar nicht drin.
00:08:52: Wir haben das vielleicht von anders vor, haben wir das schon mal gehört, so eine KI kann
00:08:57: halluzinieren, und wenn die KI halluziniert hat, dann sagt die meinetwegen, ha, vielleicht
00:09:03: wer ist Timo Kob, dann sagt der Timo Kob ist Vorstand von der HiSolutions, und
00:09:07: ansonsten momentan aber wegen Drogenproblemen in der Kur nicht ansprechbar.
00:09:11: Und das stimmt dann gar nicht, und dann frage ich aber, wie kann ich das rausbekommen,
00:09:16: weil das stammt gar nicht aus den Rohdaten, sondern das hat die sich aus irgendeinem Zusammenhang
00:09:20: ausgedacht.
00:09:21: So, und da kommen wir in die technischen Probleme rein.
00:09:23: Frage 3.
00:09:26: Was technisch angesprochen ist, gibt also anscheinend auch technische Maßnahmen, aber welche technischen
00:09:33: und gesetzlichen Maßnahmen gibt es denn, die den Schutz von unseren Daten gewährleisten
00:09:38: können?
00:09:39: Da musst du jetzt einmal gucken, diesen ganz großen Bogen zu ziehen.
00:09:42: Also erstmal, wenn ich das wieder als Kunde angucke oder als Anwender, als einfacher,
00:09:46: dann kann ich natürlich eine Maßnahme treffen, entweder ich habe einen Vertrauen zu dem Anbieter,
00:09:51: der mir das Modell anbietet, wie er mit deinen Daten umgeht, bei der eine Variante, oder ich
00:09:55: kann Modelle lokal benutzen und meine eigene Infrastruktur aufbauen.
00:10:00: Es gibt Modelle, die sind nicht Open Source, aber die haben offene Gewichte, ich kann die
00:10:05: runterladen und ich kann die auf meine eigenen Infrastruktur nutzen.
00:10:09: Da habe ich dann zwar Probleme, A, die Infrastruktur ist teuer, B, ist wahrscheinlich trotzdem
00:10:12: langsamer und C, es sind nicht die allerbesten Modelle.
00:10:16: Aber, also zum Beispiel chinesische Anbieter, wenn man jetzt guckt, DeepSeek, die haben
00:10:20: ihr Modell vollständig veröffentlicht, das kann ich mir runterladen, das kann ich lokal
00:10:23: benutzen, dann landen auch keine Daten in China von dem Modell.
00:10:27: So, und da habe ich zum Beispiel die Möglichkeit, das zu machen.
00:10:31: Ansonsten bin ich natürlich immer in der Pflicht, zu gucken, was für was ich das nutze, aber
00:10:37: das ist jetzt nochmal ein größtes Thema, wenn ich die Daten mal extern gebe.
00:10:41: Wenn ich das lokal nutze, habe ich es besser, aber dann fange ich an, dass selber zu betreiben.
00:10:46: So, und muss mich auch darum kümmern, natürlich bestimmte Regelungen einzuhalten, als großer
00:10:53: Hersteller.
00:10:54: Ist das ein bisschen komplizierter, da gibt es einen ganz weitem Raum, da weiß ich gar
00:10:57: nicht wo ich anfangen soll.
00:10:58: Es gibt technische Möglichkeiten zur Anonymisierung von Rohdaten, das ist super schwierig, das
00:11:04: richtig zu machen.
00:11:05: Und das größte Problem ist wahrscheinlich, man müsste erst mal wissen, was man eigentlich
00:11:09: anonymisieren will, gerade bei den großen Modellen, die einfach das gesamte Internet
00:11:12: eingesaugt haben, da ist es überhaupt nicht drin momentan und auch nicht absehbar, wie
00:11:19: da eine Datenklassifizierung eine sinnvolle statt finden soll.
00:11:24: Und das ist nur die technische Seite, wahrscheinlich ist es ja gar nicht attraktiven Anbieter,
00:11:28: das jetzt umzusetzen und deswegen braucht man dann ja auf der anderen Seite die gesetzlichen
00:11:33: Regelungen.
00:11:34: Da gibt es ja einmal die DSGVO, das hatten wir ja schon, keine Vorratsdaten, Speicherung,
00:11:39: aber es gibt ja auch noch die neue KI-Verordnung von der EU.
00:11:44: Ja, und die braucht man, hast du richtig viel gefragt, ohne Regulierung, wird das wahrscheinlich
00:11:51: nicht umgesetzt, weil es teuer und aufwendig ist, kann man einmal nach USA gucken, wie
00:11:55: das momentan aussieht.
00:11:56: Da wird immer gesagt, Regulierung möchte verhindert, hier Fortschritt wird oft gesagt,
00:12:05: sehe ich gar nicht so, wir haben eigentlich, sehe ich oft das Gegenteil, wo tatsächlich
00:12:09: gesucht wird Vertrauen aufzubauen, zum KI-Engine, zu meiner Anwendung und Vertrauen kann ich
00:12:17: halt tatsächlich sehr gut herstellen, wenn ich zeige, dass ich auch noch europäische
00:12:22: Datenschutzgesetzgebung einhalten kann.
00:12:25: Die DSGVO hat ein Bandel von Maßnahmen, wie man Datenschutz machen kann, das wichtigste
00:12:33: vielleicht, die Zweckbindung und auch das Problematischste, bei dem großen Modell ist
00:12:39: eigentlich unklar, das sind sogenannte allgemeine KI-Modelle, mit denen ich versuche beliebige
00:12:45: Anwendungen machen zu können und Zweckbindung dafür zu machen, ist schwierig.
00:12:52: Der AI Act, der ist im Prinzip ein Durchsetzungsinstrument für die Inhalte der DSGVO in der EU und der
00:13:02: versucht die praktisch umzusetzen, das ist super spannend, auch da muss man eigentlich
00:13:08: ganz viel ausholen, dafür könnten wir eine eigene Folge machen, der AI Act hat als Maxime
00:13:13: tatsächlich Datenschutz- und Menschenrechte, wenn man das guckt, im ersten Erwägungsgrund
00:13:18: steht drin, wir möchten die menschenzentrierte KI umsetzen und das zweite spannende Punkt
00:13:28: ist, dass der AI Act eine Regulierung macht für etwas, wo wir noch gar nicht wissen,
00:13:33: wie die Details der Regulierung aussehen müssen.
00:13:35: Weil das alles so neu ist, dass das eben noch gar nicht klar ist, wie sich das alles entwickeln
00:13:40: wird.
00:13:41: Das heißt, der Versuch, Atemlos mit einzubauen ist aber auch, dass wir mit der Zeit spezifischer
00:13:45: werden und dahin kommen, dass wir tatsächlich praktisch regulieren können.
00:13:49: Okay, mit Hinblick auf die Zeit würde ich jetzt noch einmal zusammenfassen, was wir
00:13:53: bis jetzt sonst, was wir von dir gehört haben und zwar, zum einen ist es ja so, dass eigentlich
00:14:00: alte Herausforderungen jetzt wieder neu auftauchen, eben in Bezug auf Cloud, aber auch neue Herausforderungen
00:14:06: eben kommen durch die Trainingsdaten, also dass wir eben gar nicht wissen, ob unsere
00:14:09: Daten überhaupt schon mit trainiert wurden und deswegen in dem KI-Modell mit drin sind.
00:14:14: Zum anderen, löschen ist gar nicht so einfach, weil wir erstens nicht wissen, sind unsere
00:14:18: Daten überhaupt mit dem Modell drin und zum anderen ist es super teuer, das neu zu trainieren
00:14:23: und wir wissen nicht, ob dann nicht doch noch mal bei den nächsten Trainings unsere Daten
00:14:26: überhaupt, also ob die nicht doch wieder mit reinkommen, irgendwie übers Internet.
00:14:30: Und der letzte Punkt war ja jetzt die Maßnahmen.
00:14:33: Es gibt technische Maßnahmen, die möglich sind, wir können das Modell lokal betreiben, aber
00:14:37: mit Einschränkungen oder gesetzliche Maßnahmen, nur ist da eben auch zu gucken, was ist mit
00:14:44: den Modellen, die eben im Ausland sitzen, weil die müssen sich ja natürlich nicht an
00:14:48: Europäisches Recht halten, wenn das in China oder in den USA sitzt, das Unternehmen.
00:14:53: Habe ich das gut zusammengefasst?
00:14:55: Das ist wunderbar zusammengefasst, vielleicht kleine Spitzfindigkeiten bis auf den letzten
00:14:58: Punkt, die müssen das schon umsetzen, wenn die das hier zu lande anbieten, aber es
00:15:02: ist halt schwierig, wie das mit der Durchsetzungsfähigkeit aussieht.
00:15:04: Okay, dann bedanke ich mich, dass du heute da warst.
00:15:07: Dass du deine Wissen mit uns geteilt hast und ich bedanke mich auch fürs Zuhören.
00:15:11: Ich hoffe, es hat Ihnen gefallen und wir hören uns beim nächsten Mal wieder.
00:15:15: Vergessen nicht zu abonnieren und tschüss.
Neuer Kommentar