HomeNachrichtOpen-Source-KI muss gemäß der neuen OSI-Definition ihre Trainingsdaten offenlegen

Open-Source-KI muss gemäß der neuen OSI-Definition ihre Trainingsdaten offenlegen

Die Open Source Initiative (OSI) hat ihre offizielle Definition von „offener“ künstlicher Intelligenz veröffentlicht und damit die Bühne für einen Konflikt mit Technologiegiganten wie Meta bereitet – deren Modelle nicht den Regeln entsprechen.

OSI hat seit langem den Branchenstandard für Open-Source-Software gesetzt, aber KI-Systeme umfassen Elemente, die nicht durch herkömmliche Lizenzen abgedeckt sind, wie etwa Modelltrainingsdaten. Damit ein KI-System nun als wirklich Open Source gilt, muss es Folgendes bieten:

  • Zugriff auf Details zu den Daten, die zum Trainieren der KI verwendet werden, damit andere sie verstehen und nachbilden können
  • Der vollständige Code, der zum Erstellen und Ausführen der KI verwendet wird
  • Die Einstellungen und Gewichte aus dem Training, die der KI helfen, ihre Ergebnisse zu erzielen

Diese Definition stellt Metas Llama direkt in Frage, das weithin als das größte Open-Source-KI-Modell angepriesen wird. Llama steht öffentlich zum Download und zur Nutzung zur Verfügung, es gelten jedoch Beschränkungen für die kommerzielle Nutzung (für Anwendungen mit über 700 Millionen Benutzern) und es ist kein Zugriff auf Trainingsdaten möglich, sodass es nicht den OSI-Standards für uneingeschränkte Freiheit zur Nutzung, Änderung usw. entspricht. und teilen.

Meta-Sprecherin Faith Eischen sagte gegenüber The Verge, dass „wir zwar in vielen Dingen mit unserem Partner OSI übereinstimmen“, das Unternehmen jedoch mit dieser Definition nicht einverstanden sei. „Es gibt keine einzige Open-Source-KI-Definition, und ihre Definition ist eine Herausforderung, da frühere Open-Source-Definitionen die Komplexität der heutigen, sich schnell weiterentwickelnden KI-Modelle nicht abdecken.“

„Wir werden weiterhin mit OSI und anderen Branchengruppen zusammenarbeiten, um KI unabhängig von technischen Definitionen zugänglicher und kostenfreier zu machen“, fügte Eischen hinzu.

Seit 25 Jahren wird die OSI-Definition von Open-Source-Software weitgehend von Entwicklern akzeptiert, die auf der Arbeit anderer aufbauen möchten, ohne Angst vor Klagen oder Lizenzfallen zu haben. Jetzt, da KI die Landschaft neu gestaltet, stehen Technologiegiganten vor einer entscheidenden Entscheidung: diese etablierten Prinzipien annehmen oder sie ablehnen. Die Linux Foundation hat kürzlich auch einen Versuch unternommen, „Open-Source-KI“ zu definieren, was eine wachsende Debatte darüber signalisiert, wie traditionelle Open-Source-Werte an das KI-Zeitalter angepasst werden.

„Jetzt, da wir eine solide Definition haben, können wir vielleicht aggressiver gegen Unternehmen vorgehen, die ‚Open Washing‘ betreiben und ihre Arbeit als Open Source deklarieren, obwohl dies in Wirklichkeit nicht der Fall ist“, sagt Simon Willison, ein unabhängiger Forscher und Erfinder von „Open Source“. -Source-Multitool Datasette, sagte The Verge.

Clément Delangue, CEO von Hugging Face, bezeichnete die Definition von OSI als „eine große Hilfe bei der Gestaltung der Diskussion über Offenheit in der KI, insbesondere wenn es um die entscheidende Rolle von Trainingsdaten geht.“

OSI-Geschäftsführer Stefano Maffulli sagt, es habe zwei Jahre gedauert, bis die Initiative unter Beratung von Experten auf der ganzen Welt in einem gemeinschaftlichen Prozess verfeinert worden sei. Dazu gehörte die Zusammenarbeit mit Experten aus der Wissenschaft für maschinelles Lernen und Verarbeitung natürlicher Sprache, Philosophen, Content-Erstellern aus der Creative-Commons-Welt und mehr.

Während Meta Sicherheitsbedenken für die Einschränkung des Zugriffs auf seine Trainingsdaten anführt, sehen Kritiker ein einfacheres Motiv: die Minimierung seiner rechtlichen Haftung und die Sicherung seines Wettbewerbsvorteils. Viele KI-Modelle werden mit ziemlicher Sicherheit auf urheberrechtlich geschütztes Material trainiert; Im April berichtete die New York Times, dass Meta intern eingeräumt habe, dass seine Trainingsdaten urheberrechtlich geschützte Inhalte enthielten, „weil wir keine Möglichkeit haben, diese nicht zu sammeln“. Es gibt eine Vielzahl von Klagen gegen Meta, OpenAI, Perplexity, Anthropic und andere wegen angeblicher Rechtsverletzungen. Aber mit seltenen Ausnahmen – wie Stable Diffusion, das seine Trainingsdaten offenlegt – müssen sich Kläger derzeit auf Indizienbeweise verlassen, um nachzuweisen, dass ihre Arbeit gestrichen wurde.

Unterdessen sieht Maffulli, dass sich die Open-Source-Geschichte wiederholt. „Meta bringt die gleichen Argumente vor“ wie Microsoft in den 1990er Jahren, als es Open Source als Bedrohung für sein Geschäftsmodell ansah, sagte Maffulli gegenüber The Verge. Er erinnert sich, dass Meta ihm von der intensiven Investition in Llama erzählte und ihn fragte: „Wer wird Ihrer Meinung nach in der Lage sein, dasselbe zu tun?“ Maffulli erkannte ein bekanntes Muster: Ein Technologieriese nutzte Kosten und Komplexität, um zu rechtfertigen, dass seine Technologie unter Verschluss gehalten wird. „Wir kehren zu den Anfängen zurück“, sagte er.

„Das ist ihr Geheimrezept“, sagte Maffulli über die Trainingsdaten. „Es ist das wertvolle geistige Eigentum.“

Source link

LEAVE A REPLY

Please enter your comment!
Please enter your name here

RELATED ARTICLES

Most Popular

Recommended News