Der Vizepräsident der Abteilung, die Gemini ins Leben gerufen hat, glaubt, dass Künstliche Intelligenz zunehmend in Sprache, Videos und Robotik präsent sein wird.
Als Walter Benjamin 1939 sein Werk „Die Kunstwerk im Zeitalter seiner technischen Reproduzierbarkeit“ schrieb, war es bereits ein Jahrhundert her, dass die Fotografie mit der Erfindung des Daguerreotypen die Welt erreichte und mehr als 40 Jahre seit die Lumière-Brüder den Filmprojektor erfunden hatten. Trotz dieser Zeitspanne waren Philosophen wie Benjamin weiterhin fasziniert und nachdenklich über das Eintreffen dieser Technologien und ihre Fähigkeit, menschliche Erfahrungen von technischen Prozessen zu entkoppeln.
Heutzutage schreitet die technologischen Entwicklung so schnell voran, dass es nahezu unmöglich erscheint, die gegenwärtigen Veränderungen zu begreifen, selbst für die Innovatoren dieser Entwicklungen. Bei einem Interview mit Oriol Vinyals im Dezember 2022 begann die Künstliche Intelligenz gerade, in Form von Text- und Bildanwendungen wie ChatGPT massenhaft bei den Nutzern anzukommen. Drei Jahre später, und kaum in der Lage, diese Fortschritte zu verarbeiten, nutzen alle Softwareprogramme diese Technologie, Wissenschaftler verwenden sie zur Überprüfung ihrer Theorien, und Künstler haben sie als weiteres Element in ihrer Palette aufgenommen. Für Studenten ist sie nahezu unverzichtbar geworden und fungiert sogar als Psychologe, während die Risiken und Unsicherheiten zunehmen, da die Technologie immer präziser und erstaunlicher wird.
Vinyals (Sabadell, 42 Jahre alt) gesteht, dass sich die Dinge schnell entwickeln, obwohl er anerkennt, dass die Marktbedürfnisse und die „Aufregung“, etwas Vergleichbares wie die Mondlandung zu tun, es schwer machen, das Tempo zu drosseln. Trotz Gerüchten über eine mögliche Blase im KI-Markt fließt weiterhin Geld, und die Techniker ergreifen die Gelegenheit. Vinyals fühlt sich in seiner Verantwortung gedrängt, da er einer der führenden KI-Experten weltweit ist. Er ist Vizepräsident von Google DeepMind, dem britischen Unternehmen, das 2014 von Alphabet, dem Mutterkonzern von Google, übernommen wurde, um sich auf die Technik des Deep Learning in der KI zu konzentrieren. Das Hauptprodukt von DeepMind ist Gemini, die KI-Engine, die ChatGPT konkurrenziert, und deren Version 3.0 vor einer Woche veröffentlicht wurde. Von dieser Firma stammen auch die berühmten Systeme wie AlphaGo, welches kreativ gegen den Weltmeister im Go-Spiel gewonnen hat, AlphaStar, das im beliebten Videospiel StarCraft II spielt und gewinnt, sowie AlphaFold, eine KI, die die Struktur von Proteinen vorhersagt und deren Entwickler im vergangenen Jahr den Nobelpreis für Chemie erhielten.
Die Entwicklung der Künstlichen Intelligenz
Als Mathematiker und Ingenieur für Telekommunikation war Vinyals, der am UPC graduierte, bereits eine vielversprechende Figur, als er am Mittwoch mit dem Ehrendoktorat dieser Universität ausgezeichnet wurde. Er hatte seine Karriere dort begonnen, absolvierte die Prüfungen nahezu ohne Studium, promovierte in Berkeley und wurde zu einer der wichtigsten Referenzen im Bereich der KI. Ein häufig zitierten Wissenschaftler, denkt Vinyals weiterhin über die Mysterien nach, wie der Computer Hal im Film „2001: Odyssee im Weltraum“ gesprochen hat, den er das erste Mal mit acht Jahren sah.
Ein Rückblick auf die letzten drei Jahre
Frage: Drei Jahre sind vergangen, seit die Künstliche Intelligenz in unser Leben trat. Was ist passiert?
Antwort: Ich werde versuchen, es zusammenzufassen. Die Technologie, die wir heute verwenden, ist der von vor Jahrzehnten ähnlich, wir verfeinern nur das Rezept. Es ist der gleiche Versuch, die Funktionsweise der neuronalen Verbindungen unseres Gehirns zu emulieren. Ich begann 2007, als dies nur im wissenschaftlichen Bereich, in Publikationen war. 2013 trat ich bei Google ein, und während vier oder fünf Jahren forschten wir weiter und veröffentlichten, aber wir erkannten, dass diese Technologie für etwas Größeres als nur Forschung genutzt werden könnte. Es gab Schlüsselereignisse, großartige Demonstrationen wie AlphaGo oder AlphaStar, die die KI einem breiten Publikum präsentierten, oder AlphaFold, das die Biologie revolutionierte. 2016 wurde schließlich das Start-up OpenAI gegründet, das sich entschloss, keine wissenschaftlichen Veröffentlichungen mehr zu machen, sondern einen großen Schritt in Richtung einer leistungsfähigeren Intelligenz zu wagen. Dies gelang mit ChatGPT, das als Sprachmodell erwies sich als nicht nur wissenschaftlich interessant, sondern auch sehr nützlich und wurde vor drei Jahren populär. 2019 konzentrierten auch wir uns darauf, ein sehr leistungsfähiges Sprachmodell zu entwickeln und vereinten die Modelle, die wir bei Google Brain und Google DeepMind erforscht hatten, für ein neues Projekt, das Gemini hieß. Anfangs war es nicht so gut, aber wir haben das Rezept verbessert, und jetzt ist es in der Spitzenliga.
Neuigkeiten der Version 3.0 von Gemini
Frage: Was sind die Neuigkeiten in der Version 3.0 von Gemini?
Antwort: Alles scheint ziemlich ähnlich zu sein, aber die Qualität hat sich enorm verbessert, und auch die Möglichkeiten dessen, was man tun kann. Die Fähigkeit, Bilder zu erstellen, mit dem Nano Banana Pro-Motor, ist viel leistungsfähiger. Auch im Code, in mathematischen Fähigkeiten, im Denken haben wir die Personality verbessert.
Herausforderungen und Erklärungen
Frage: Wie erklären Sie die Halluzinationen oder Schleifen?
Antwort: Ja, das passiert, dass es Dinge sagt, die nicht existieren, zum Beispiel. Es ist schwierig, das zu erklären, da es vom Typ des Problems abhängt. Wir machen Tests. Eine ist, ihm zu fragen, wie viele Buchstaben „strawberry“ hat, und es sagt immer, dass es zwei hat. Klar, wir haben das Ergebnis, aber nicht, wie es dazu gekommen ist. Man kann nicht nachvollziehen, wo im Code etwas schief gelaufen ist, denn es ist kein Programm, sondern ein neuronales Netzwerk. Wir können auch nicht genau verstehen, wie der mentale Prozess des Gehirns eine Antwort gibt. Was uns hilft, das zu verstehen, ist, es im Rahmen der Sprache nachdenken zu lassen, ihn zu fragen, warum es diese Antwort gegeben hat, damit es introspektiv ist. So können wir lesen und interpretieren. Die Erklärung, warum es Fehler gibt, liegt auch darin, dass es im Internet Fehler gibt, und das Sprachmodell bezieht seine Antworten ebenso daraus; es wird mit den Inhalten des Internets und sich selbst trainiert. Wir haben Wege zur Verbesserung, aber so wie Internetnutzer wissen, dass nicht alles, was sie finden, real ist, müssen sie das auch über die KI wissen.
Zur Verantwortung der Benutzer
Frage: Glauben Sie, dass die Benutzer sich dessen immer bewusst sind? Wenn Sie selbst überrascht sind…
Antwort: Ja, es ist eine neue Technologie mit unglaublichen Möglichkeiten, aber… Das Problem ist, dass die Veränderungen, die wir sehen werden, schneller sein werden als bei anderen technologischen Veränderungen. Demis Hassabis, der CEO von DeepMind, sagte, dass das, was heute passiert, zehnmal größer und schneller ist als die industrielle Revolution. Aber die Benutzer haben sich an verschiedene Technologien angepasst. Die Bildung beginnt bei uns selbst, mit gesundem Menschenverstand. Und die Unternehmen müssen sich auch verbessern.
Die Persönlichkeit der KI
Frage: Sie sprechen von der Persönlichkeit der KI. Bis zu welchem Punkt können wir sagen, dass sie uns ähnlich ist oder sein wird?
Antwort: Jetzt ist klar, dass die Modelle nicht nur interpolieren, also ein Ergebnis zwischen zwei Dingen erzeugen. Sie haben auch Kreativität. Nicht in allen Aspekten, aber eindeutig in einigen Fällen erzielen sie neue Ideen. Dies liegt an ihrer Fähigkeit: In der Wissenschaft können sie alle Artikel aus zwei völlig verschiedenen Feldern lesen und Verbindungen erzielen, für die niemand zuvor Zeit hatte. Dies hilft, Brainstorming mit Wissenschaftlern zu betreiben. Ähnliches gilt für die Mathematik. Terence Tao, der beste Mathematiker der Welt, nutzt die KI, um Prozesse zu iterieren. Sie ist ein Partner in der Forschung. Es ist nicht unmöglich, dass eine KI eines der komplexesten mathematischen Probleme lösen könnte. Vom Maßstab her: Ein Mensch könnte 50 Jahre brauchen, um die Riemann-Hypothese zu lösen, aber für diese Modelle ist ein Tag gleichwertig mit 600 Jahren.
Die Rolle der Verantwortlichkeit
Frage: Geoffrey Hinton und andere Pioniere der KI haben auf ihre Risiken hingewiesen. Was ist die Verantwortung von Forschern und Unternehmen in Bezug auf diese Bedrohungen?
Antwort: Mit Geoffrey habe ich viel zusammen veröffentlicht und wir waren Kollegen bei Google. In der wissenschaftlichen Gemeinschaft sind sich nie alle einig. Es ist gut, Stimmen aus allen Richtungen zu haben. Es gibt diejenigen, die große Gefahren sehen, und solche, die keinerlei Gefahren erkennen. Ich sehe mich in der Mitte. Google, von dem ich nicht für andere Unternehmen sprechen kann, trägt Verantwortung beim Start seiner Modelle, hat viele Jahre investiert. Auch ist es wahr, dass, wenn Sie die Modelle nicht für die breite Öffentlichkeit herausbringen, Sie Probleme nicht so schnell erkennen können. Derzeit gibt es ein Wettrennen zwischen mehreren Unternehmen, und man muss dabei sein, aber auch die Auswirkungen voraussehen.
Die Geschwindigkeit des Wandels
Frage: Werden wir es bedauern, dass wir so schnell vorankommen?
Antwort: Ich denke wie ein Wissenschaftler, aber auch wie ein Vater. Ich mache mir Gedanken über die Welt, die kommen wird und wie sie den Arbeitsmarkt sowie die Beziehungen verändern wird. Ich denke tief über die Auswirkungen nach, darüber, ob es gut ist, dass junge Leute Zugang zu Chatbots haben. Wir haben keine Zeit, Studien zu machen, aber es hilft, über die eigenen Risiken nachzudenken, um es richtig zu machen. Ja, es wäre besser, langsamer zu gehen, mehr Zeit zu haben, um zu verstehen, was gut und was schlecht ist. Aber in dieser Dynamik ist es schwierig, die Welt ist sehr schnell und es gibt viele Anreize. Es ist auch aufregend, es ist ein historischer Moment, ähnlich wie die Mondlandung. Es gibt viel Optimismus, viel Energie, viel wirtschaftliche Kapazität. Es ist kompliziert, dass es stoppt oder langsamer wird. Aber ich hoffe, dass wir, wenn wir genügend Daten haben, um zu zeigen, dass etwas nicht gut ist, ein wenig bremsen können.
Einblick in den Wettbewerb
Frage: Wie hat die Ankunft des chinesischen Unternehmens DeepSeek Ihre Karriere beeinflusst?
Antwort: Mit einem kleinen Team haben sie es gut gemacht; sie konnten kopieren, was bereits gemacht wurde. Aber die Modelle, die weiter oben stehen, sind die von Google und OpenAI. Der Punkt ist, dass es in einigen Anwendungen möglicherweise eine Grenze gibt, die wir alle erreichen werden; es könnte einen Moment geben, in dem alle KIs perfekt Englisch sprechen, und an diesem Punkt wird es möglicherweise kein weiteres Potenzial geben. In diesem Sinne hatte es nicht viel Einfluss. Es hatte Einfluss auf die Geopolitik, da China und die USA die Hauptwettbewerber sind.
Europas Wettbewerbsfähigkeit
Frage: Kann Europa wettbewerbsfähig sein? Was denken Sie über die Regulierungen, die Sie anstoßen?
Antwort: Ja, ohne Kommentare. DeepMind sitzt in London, im europäischen Umfeld, und es gibt starke Startups wie Mistral, aber in Bezug auf Kapitalinvestitionen, und wenn man sich die Standorte der Rechenzentren und die Infrastrukturen ansieht… sie sind alle in den USA oder China.
Wirkung der Rechenzentren
Frage: Macht Ihnen der Energieverbrauch der Rechenzentren Sorgen?
Antwort: Google hat sich verpflichtet, in Bezug auf Emissionen neutral zu sein und wir erreichen dies, da unsere Rechenzentren CO2 produzieren, aber wir haben nachhaltige Investitionen, die dies ausgleichen. Auch nach den anfänglichen Investitionen werden die Energiekosten effizienter sein, auch weil das Training der KI effizienter wird. Die KI selbst könnte uns auch helfen, Materialien oder Technologien zu entdecken, die das Problem der Treibhausgase lösen. Eines der Themen, auf die wir uns konzentrieren, ist die Erforschung der Kernfusion. Vielleicht wird es durch die KI früher möglich sein.
Die Zukunft der Interaktion mit KI
Frage: Derzeit interagieren wir mit KI hauptsächlich in Text- und Bildform. Was kommt in naher Zukunft?
Antwort: Am naheliegendsten ist, dass es in Form von Sprache erfolgt, dass wir mit der KI sprechen und kommunizieren, ohne dass dies den Text ersetzt. Eine weitere Möglichkeit ist, dass die KI Videos erstellt, kleine Tutorials, um uns Dinge zu erklären. Dies werden wir bald sehen. Und dann gibt es etwas, das nicht so dringend ist, aber in fünf Jahren machbar sein könnte, da viel in diese Richtung investiert wird: Robotik. Wir werden mit humanoiden Robotern interagieren, genau so, wie wir es bereits mit fahrerlosen Autos tun. Die Technologie ist vorhanden, es fehlt jedoch die Herausforderung, die Formel zu finden, um dies für die breite Öffentlichkeit zugänglich und nützlich zu machen.









