Datenkrake KI

Shownotes

In Folge 24 von HiWay spricht Principal Enno Ewers über die Herausforderungen von Datenschutz im Zeitalter der Künstlichen Intelligenz. Er beleuchtet, welche Risiken durch große KI-Modelle entstehen, welche rechtlichen Rahmenbedingungen gelten und welche Möglichkeiten Unternehmen und Anwender haben, ihre Daten zu schützen. Ein klarer Blick auf ein komplexes Thema – verständlich, praxisnah und aktuell. Moderation: Valerie Knapp

Shownotes:

Vortrag von Enno Ewers: Chancen, Grenzen und Risiken beim verantwortungsvollen Einsatz moderner Sprachmodelle

Transkript anzeigen

00:00:00: Und das Modell neu trainieren ist sehr teuer für die großen Modelle, also das schwankt

00:00:05: irgendwie zwischen, ich sag mal, größten Ordnung, zweistellige Millionenbeträge bis

00:00:12: hohe dreistellige Millionenbeträge, so ein Modell einmal zu trainieren. Und wenn man jetzt irgendwie

00:00:16: für einmal Datensatz löschen, die das Modell einmal neu trainieren möchte, dann ist das problematisch,

00:00:20: sagen wir mal so. Also aus all diesen Gründen passiert das in der Praxis momentan einfach nicht.

00:00:25: Also ich habe ein Nachweisproblem zu sagen, dass meine Daten überhaupt drin sind. Ich habe

00:00:31: ein Nachweisproblem zu sagen, ob sie draußen sind, wenn der Hersteller gesagt, er hat was getan und

00:00:36: sie gelöscht. Und der Hersteller hat ein Problem, sie zu löschen.

00:00:39: HiWay, dein Wegweiser für Digitalisierung und Sicherheit. Präsentiert von HiSolutions.

00:00:56: Hi und herzlich willkommen zu einer neuen Folge von HiWay, dem Podcast von HiSolutions.

00:01:02: Mein Name ist Valerie Knapp und heute spreche ich mit meinem Kollegen Enno über das Thema KI,

00:01:08: also künstliche Intelligenz. Enno ist Principal hier bei der HiSolutions und kommt eigentlich aus

00:01:15: der technischen Ecke mit Pentesting, Incident Response, macht auch Grundschutz, da auch die

00:01:22: Audits hast du mir gesagt und mittlerweile treibst du hier als Principal das Thema KI

00:01:29: sowohl für die interne Nutzung als auch als externes Beratungsthema voran.

00:01:35: Frage 1. Welche neuen Herausforderungen bringt denn der Einsatz von KI im Bezug auf Datenschutz mit sich?

00:01:45: Ja, also wenn ich das in den Projekten sehe, tatsächlich mit unseren Kunden ist das die

00:01:50: hauptsächliche Beschäftigung. Erstmal KI ist einfach erst mal ein Cloud Service. Also KI bietet

00:01:56: sich an als Cloud Service. Ich bekomme nur über die Cloud Services die besten Modelle,

00:02:02: die es momentan gibt. Die kann ich nicht. Also die bieten die Anbieter nicht an, dass sie sie mehr

00:02:06: runterladen und lokal betreiben kann. Das heißt ich muss die irgendwo in der Cloud benutzen und

00:02:11: das ist vielleicht auch so der erste Punkt, wo alle dran scheitern Datenschutz und Cloud Service

00:02:17: bedeutet. Ich muss gucken was mein Cloud Service Provider mir für Datenschutz Garantien gibt,

00:02:21: welche Compliance Garantien er mir gibt und wie ich damit zurechtkomme. Die KI Service haben sich

00:02:32: frisch aufgebaut in den letzten irgendwie zwei, drei Jahren maximal. Das heißt wenn man das probiert

00:02:38: hat irgendwie im letzten Jahr oder auch noch dieses Jahr, dann fällt einem auf, dass sie alle mit der

00:02:43: heißen Nadel gestrickt waren und zum Teil noch sind und dass da halt zum Beispiel nicht die

00:02:48: selben Compliance Garantien gelten wie für andere Dienste, die man so gewohnt ist, dass selbst wenn die

00:02:53: beim selben Anbieter sind. Das nächste Thema ist dann, dass sie natürlich eventuell im Ausland

00:03:00: liegen. Also nicht in der EU. Da gucken wir über Datenschutz reden, reden wir über das europäische

00:03:06: DSGVO. Also die Datenschutzgrundverordnung. Genau, die hier den rechtlichen Rahmen bietet und die

00:03:15: Anbieter sind nun mal zum großen Teil in den USA und jetzt auch China, was natürlich für viel

00:03:21: Gesprächsbedarf sorgt, die DeepSeek. Und dann muss man natürlich gucken, was gelten da für Regelungen.

00:03:31: Und das ist natürlich jetzt hochaktuell, also in den USA. Die letzten, ich sage mal, Haken,

00:03:39: an denen man sich festgehalten hat, dass man auch in den USA einem dem europäischen Recht

00:03:43: entsprechend einen Datenschutz hinbekommt, die fallen gerade um und dann muss man vielleicht

00:03:48: das auch nochmal beachten und gucken, wo gebe ich meine Daten entsprechend hin bei den Anbietern.

00:03:54: Das ist vielleicht der Hauptpunkt, den man als Kunde hat in dem Thema.

00:03:58: Ja, es ist ja, wo gehen meine Daten hin und wo sitzt der Anbieter? Das waren ja zwei Punkte,

00:04:04: eben die da auch berücksichtigt werden müssen.

00:04:07: Genau. Also ja, vielleicht auch noch welche, welche Rechte habe ich dann tatsächlich um meine Daten

00:04:13: entsprechend zwar folgen bei den Anbietern. Also das ist jetzt als Nutzer. Wenn wir weitergehen,

00:04:18: natürlich ist es nicht nur als Nutzer, sondern dann habe ich natürlich den Thema, okay,

00:04:22: wo, was ist die Herausforderung, was die Herausforderung eigentlich für den Anbieter,

00:04:26: auch wenn ich einen entsprechenden Anbieter gefunden habe.

00:04:28: Die Seite ist ja auch nicht verkehrt, das zu wissen, was dahinter steckt.

00:04:32: Und ja, da muss man vielleicht mal so ein kleines Stück ausholen, die Hintergrund wissen,

00:04:37: wo liegen eigentlich Daten in so einem Sprachmodell? Wenn wir gucken, was ist das spezielle mit der KI?

00:04:43: Die hauptsächliche Sorge, die alle haben, ist, dass die KI mit den eigenen Daten weiter trainiert wird

00:04:50: und die KI dann diese Daten kennt. Also alles Services die ich zum Beispiel als normaler

00:04:54: Benutzer umsonst benutzen kann. Die haben eigentlich immer mit zumindest in der Default-Einstellung,

00:04:59: dass sie die eingegebenen Daten auch nutzen und damit ihre Modelle weiterzutrainieren und

00:05:03: damit tauchen alle die Arten, die man eingegeben hat, dann auch irgendwann in diesen Modellen

00:05:07: potenziell auf erstes Thema, woher weiß ich eigentlich, wie das ist. So, jetzt muss man sich

00:05:14: einmal angucken, wir reden jetzt vor allem über die großen Sprachmodelle oder die LLMs,

00:05:18: wenn man das Large-Language Models. Also z.B. ChatGPT oder Co-Pilot oder so. Genau.

00:05:24: ChatGPT oder Co-Pilot. Und diese Sprachmodelle speichern ihr gesamtes Wissen als Modellgewicht

00:05:33: in einem neuronalen Netz. Und diese Modellgewichte, die kann ich nicht spezifisch Inhalten zuordnen,

00:05:39: oder zumindest nicht so einfach, das ganz kompliziert zu machen. Im Prinzip habe ich

00:05:43: hier wenig Möglichkeiten rauszufinden, ob Daten in dem Modell drin sind, außer es zu befragen,

00:05:47: ob die Daten rauskommen. Und dann ist immer die Frage, ob ich es tatsächlich sauber raus bekomme,

00:05:53: oder ob ich nicht die Daten, selbst wenn das der eine Versuch nicht geklappt hat zu fragen,

00:05:58: der andere dann klappt, wenn ich etwas genauer frage. Und auch die Frage, ob der Anbieter

00:06:02: eigentlich weiß, was alles in seinem Modell drin ist. Und die Antwort ist in beiden Fällen

00:06:06: wahrscheinlich nicht. Das heißt, meine erste Frage ist, sind meine Daten in diesem Modell

00:06:11: eventuell mit drin. Und da bin ich nicht nur als Nutzer eines KI-Services gefragt, sondern

00:06:14: natürlich als jemand, der dessen Daten irgendwie im Internet stehen. Wenn ich mich in irgendwelchen

00:06:19: Social Media beteilige, habe ich, egal was für eine Plattform, eine große Chance, dass

00:06:24: sie mitgenutzt wurden, um so ein großes Sprachmodell zu trainieren und dass sie dann da eventuell

00:06:29: drin sind. Und dann habe ich halt das Thema, okay, meine Daten sind da in diesem Modell drin,

00:06:36: eventuell kann ich das erfragen, eventuell kriege ich einen Personenbezug hin und dann fangen

00:06:41: die Herausforderungen an.

00:06:43: Frage 2. Kann man das dann löschen lassen? Also wenn da jetzt meine Daten irgendwie mit

00:06:50: drin sind, auf Social Media irgendwie mit reingeraten sind, weil das als Trainingsdaten genutzt wurde?

00:06:55: Ja, also rechtlich gesehen erst mal, ja, im EU-Rechtsraum, recht auch vergessen zum Beispiel. Wer

00:07:03: kann ich mir sagen, Anbieter, ich möchte, dass diese Daten nicht mehr da drin sind. Technisch

00:07:08: wird das ein bisschen schwierig. Also wenn die tatsächlich in dem großen Grundlagenmodell

00:07:13: drin ist, Foundation-Modelle, dann haben wir diese ganz großen Sprachmodelle, dann wird

00:07:18: es schwierig, die rauszubekommen. Da gibt es keine guten Wege. Also man kann das versuchen,

00:07:25: indem man sozusagen ein Prompting betreibt und sagt, bestimmte Informationen sollst du

00:07:28: nicht ausspucken. Das ist üblicherweise nicht funktional oder beziehungsweise funktioniert

00:07:34: halt nur auf ein paar Fälle, aber da kommt man immer drum rum. Und es ist auch so

00:07:38: viel Prompting, so viel Vortext kann man eigentlich vor seinem Modell gar nicht zugeben, dass

00:07:44: die alle vergessen werden. Ansonsten muss ich das Modell neu trainieren.

00:07:47: Und das Modell neu trainieren ist sehr teuer für die großen Modelle, also das schwankt

00:07:52: irgendwie zwischen, ich sag mal, größen Ordnung, zweistellige Millionenbeträge bis

00:07:58: hohe dreistellige Millionenbeträge, so ein Modell einmal zu trainieren, und wenn man

00:08:01: jetzt irgendwie für einmal Datensatz zwischen, die das Modell einmal neu trainieren möchte,

00:08:05: dann ist das problematisch, sagen wir mal so, also aus all diesen Gründen passiert

00:08:10: das in der Praxis momentan einfach nicht.

00:08:12: Also ich habe ein Nachweisproblem zu sagen, dass meine Daten überhaupt drin sind, ich

00:08:18: habe ein Nachweisproblem zu sagen, ob sie draußen sind, wenn der Hersteller gesagt, er hat was

00:08:22: getan und sie gelöscht, und der Hersteller hat ein Problem, sie zu löschen.

00:08:25: Ja, im Zweifel finanzielles Problem, weil das ja super teuer ist, wie du gesagt hast.

00:08:30: Ja, genau.

00:08:31: Also da mag es Ausnahmen geben von kleineren Modellen, die spezifisch sind, von kleineren

00:08:36: Datensatzanteil, wo meinetwegen die Daten noch im Feintuning drin sind, dass sich das

00:08:42: entsprechend neu trainieren kann, für einen geringeren Preis, aber das kann funktionieren.

00:08:46: So, einen Punkt noch vielleicht, es kann sein, dass in einem Modell Daten über mich drin

00:08:51: sind, die sind gar nicht drin.

00:08:52: Wir haben das vielleicht von anders vor, haben wir das schon mal gehört, so eine KI kann

00:08:57: halluzinieren, und wenn die KI halluziniert hat, dann sagt die meinetwegen, ha, vielleicht

00:09:03: wer ist Timo Kob, dann sagt der Timo Kob ist Vorstand von der HiSolutions, und

00:09:07: ansonsten momentan aber wegen Drogenproblemen in der Kur nicht ansprechbar.

00:09:11: Und das stimmt dann gar nicht, und dann frage ich aber, wie kann ich das rausbekommen,

00:09:16: weil das stammt gar nicht aus den Rohdaten, sondern das hat die sich aus irgendeinem Zusammenhang

00:09:20: ausgedacht.

00:09:21: So, und da kommen wir in die technischen Probleme rein.

00:09:23: Frage 3.

00:09:26: Was technisch angesprochen ist, gibt also anscheinend auch technische Maßnahmen, aber welche technischen

00:09:33: und gesetzlichen Maßnahmen gibt es denn, die den Schutz von unseren Daten gewährleisten

00:09:38: können?

00:09:39: Da musst du jetzt einmal gucken, diesen ganz großen Bogen zu ziehen.

00:09:42: Also erstmal, wenn ich das wieder als Kunde angucke oder als Anwender, als einfacher,

00:09:46: dann kann ich natürlich eine Maßnahme treffen, entweder ich habe einen Vertrauen zu dem Anbieter,

00:09:51: der mir das Modell anbietet, wie er mit deinen Daten umgeht, bei der eine Variante, oder ich

00:09:55: kann Modelle lokal benutzen und meine eigene Infrastruktur aufbauen.

00:10:00: Es gibt Modelle, die sind nicht Open Source, aber die haben offene Gewichte, ich kann die

00:10:05: runterladen und ich kann die auf meine eigenen Infrastruktur nutzen.

00:10:09: Da habe ich dann zwar Probleme, A, die Infrastruktur ist teuer, B, ist wahrscheinlich trotzdem

00:10:12: langsamer und C, es sind nicht die allerbesten Modelle.

00:10:16: Aber, also zum Beispiel chinesische Anbieter, wenn man jetzt guckt, DeepSeek, die haben

00:10:20: ihr Modell vollständig veröffentlicht, das kann ich mir runterladen, das kann ich lokal

00:10:23: benutzen, dann landen auch keine Daten in China von dem Modell.

00:10:27: So, und da habe ich zum Beispiel die Möglichkeit, das zu machen.

00:10:31: Ansonsten bin ich natürlich immer in der Pflicht, zu gucken, was für was ich das nutze, aber

00:10:37: das ist jetzt nochmal ein größtes Thema, wenn ich die Daten mal extern gebe.

00:10:41: Wenn ich das lokal nutze, habe ich es besser, aber dann fange ich an, dass selber zu betreiben.

00:10:46: So, und muss mich auch darum kümmern, natürlich bestimmte Regelungen einzuhalten, als großer

00:10:53: Hersteller.

00:10:54: Ist das ein bisschen komplizierter, da gibt es einen ganz weitem Raum, da weiß ich gar

00:10:57: nicht wo ich anfangen soll.

00:10:58: Es gibt technische Möglichkeiten zur Anonymisierung von Rohdaten, das ist super schwierig, das

00:11:04: richtig zu machen.

00:11:05: Und das größte Problem ist wahrscheinlich, man müsste erst mal wissen, was man eigentlich

00:11:09: anonymisieren will, gerade bei den großen Modellen, die einfach das gesamte Internet

00:11:12: eingesaugt haben, da ist es überhaupt nicht drin momentan und auch nicht absehbar, wie

00:11:19: da eine Datenklassifizierung eine sinnvolle statt finden soll.

00:11:24: Und das ist nur die technische Seite, wahrscheinlich ist es ja gar nicht attraktiven Anbieter,

00:11:28: das jetzt umzusetzen und deswegen braucht man dann ja auf der anderen Seite die gesetzlichen

00:11:33: Regelungen.

00:11:34: Da gibt es ja einmal die DSGVO, das hatten wir ja schon, keine Vorratsdaten, Speicherung,

00:11:39: aber es gibt ja auch noch die neue KI-Verordnung von der EU.

00:11:44: Ja, und die braucht man, hast du richtig viel gefragt, ohne Regulierung, wird das wahrscheinlich

00:11:51: nicht umgesetzt, weil es teuer und aufwendig ist, kann man einmal nach USA gucken, wie

00:11:55: das momentan aussieht.

00:11:56: Da wird immer gesagt, Regulierung möchte verhindert, hier Fortschritt wird oft gesagt,

00:12:05: sehe ich gar nicht so, wir haben eigentlich, sehe ich oft das Gegenteil, wo tatsächlich

00:12:09: gesucht wird Vertrauen aufzubauen, zum KI-Engine, zu meiner Anwendung und Vertrauen kann ich

00:12:17: halt tatsächlich sehr gut herstellen, wenn ich zeige, dass ich auch noch europäische

00:12:22: Datenschutzgesetzgebung einhalten kann.

00:12:25: Die DSGVO hat ein Bandel von Maßnahmen, wie man Datenschutz machen kann, das wichtigste

00:12:33: vielleicht, die Zweckbindung und auch das Problematischste, bei dem großen Modell ist

00:12:39: eigentlich unklar, das sind sogenannte allgemeine KI-Modelle, mit denen ich versuche beliebige

00:12:45: Anwendungen machen zu können und Zweckbindung dafür zu machen, ist schwierig.

00:12:52: Der AI Act, der ist im Prinzip ein Durchsetzungsinstrument für die Inhalte der DSGVO in der EU und der

00:13:02: versucht die praktisch umzusetzen, das ist super spannend, auch da muss man eigentlich

00:13:08: ganz viel ausholen, dafür könnten wir eine eigene Folge machen, der AI Act hat als Maxime

00:13:13: tatsächlich Datenschutz- und Menschenrechte, wenn man das guckt, im ersten Erwägungsgrund

00:13:18: steht drin, wir möchten die menschenzentrierte KI umsetzen und das zweite spannende Punkt

00:13:28: ist, dass der AI Act eine Regulierung macht für etwas, wo wir noch gar nicht wissen,

00:13:33: wie die Details der Regulierung aussehen müssen.

00:13:35: Weil das alles so neu ist, dass das eben noch gar nicht klar ist, wie sich das alles entwickeln

00:13:40: wird.

00:13:41: Das heißt, der Versuch, Atemlos mit einzubauen ist aber auch, dass wir mit der Zeit spezifischer

00:13:45: werden und dahin kommen, dass wir tatsächlich praktisch regulieren können.

00:13:49: Okay, mit Hinblick auf die Zeit würde ich jetzt noch einmal zusammenfassen, was wir

00:13:53: bis jetzt sonst, was wir von dir gehört haben und zwar, zum einen ist es ja so, dass eigentlich

00:14:00: alte Herausforderungen jetzt wieder neu auftauchen, eben in Bezug auf Cloud, aber auch neue Herausforderungen

00:14:06: eben kommen durch die Trainingsdaten, also dass wir eben gar nicht wissen, ob unsere

00:14:09: Daten überhaupt schon mit trainiert wurden und deswegen in dem KI-Modell mit drin sind.

00:14:14: Zum anderen, löschen ist gar nicht so einfach, weil wir erstens nicht wissen, sind unsere

00:14:18: Daten überhaupt mit dem Modell drin und zum anderen ist es super teuer, das neu zu trainieren

00:14:23: und wir wissen nicht, ob dann nicht doch noch mal bei den nächsten Trainings unsere Daten

00:14:26: überhaupt, also ob die nicht doch wieder mit reinkommen, irgendwie übers Internet.

00:14:30: Und der letzte Punkt war ja jetzt die Maßnahmen.

00:14:33: Es gibt technische Maßnahmen, die möglich sind, wir können das Modell lokal betreiben, aber

00:14:37: mit Einschränkungen oder gesetzliche Maßnahmen, nur ist da eben auch zu gucken, was ist mit

00:14:44: den Modellen, die eben im Ausland sitzen, weil die müssen sich ja natürlich nicht an

00:14:48: Europäisches Recht halten, wenn das in China oder in den USA sitzt, das Unternehmen.

00:14:53: Habe ich das gut zusammengefasst?

00:14:55: Das ist wunderbar zusammengefasst, vielleicht kleine Spitzfindigkeiten bis auf den letzten

00:14:58: Punkt, die müssen das schon umsetzen, wenn die das hier zu lande anbieten, aber es

00:15:02: ist halt schwierig, wie das mit der Durchsetzungsfähigkeit aussieht.

00:15:04: Okay, dann bedanke ich mich, dass du heute da warst.

00:15:07: Dass du deine Wissen mit uns geteilt hast und ich bedanke mich auch fürs Zuhören.

00:15:11: Ich hoffe, es hat Ihnen gefallen und wir hören uns beim nächsten Mal wieder.

00:15:15: Vergessen nicht zu abonnieren und tschüss.

Neuer Kommentar

Dein Name oder Pseudonym (wird öffentlich angezeigt)
Mindestens 10 Zeichen
Durch das Abschicken des Formulars stimmst du zu, dass der Wert unter "Name oder Pseudonym" gespeichert wird und öffentlich angezeigt werden kann. Wir speichern keine IP-Adressen oder andere personenbezogene Daten. Die Nutzung deines echten Namens ist freiwillig.