Meta wird mit Lama 4 beim Gaming -KI -Benchmark erwischt

4 days ago

April 8, 2025

10

3 min.

Am Wochenende ließ Meta zwei neue Lama 4-Modelle fallen: ein kleineres Modell namens Scout, und Maverick, ein mittelgroßes Modell, das das Unternehmen behauptet, GPT-4O und Gemini 2.0 Flash zu schlagen, „über eine breite Palette von weit verbreiteten Benchmarks“.

Maverick sicherte sich schnell den Platz in Larena, den AI-Benchmark-Standort, an dem Menschen die Ausgaben aus verschiedenen Systemen vergleichen und über die besten abstimmen. In der Pressemitteilung von Meta hob das Unternehmen die ELO -Score von Maverick von 1417 hervor, was es über Openai’s 4O und knapp unter Gemini 2.5 Pro platzierte. (Ein höherer ELO-Score bedeutet, dass das Modell in der Arena häufiger gewinnt, wenn sie mit Konkurrenten gegeneinander antreten.)

Die Leistung schien METAs Open-Gewicht-Lama 4 als ernsthaften Herausforderer für die hochmodernen, geschlossenen Modelle von OpenAI, Anthropic und Google zu positionieren. Dann entdeckten die KI -Forscher, die die Dokumentation von Meta durchsetzten, etwas Ungewöhnliches.

Im Kleingedruckten erkennt Meta an, dass die Version von Maverick, die auf Larena getestet wurde, nicht dasselbe ist wie das, was der Öffentlichkeit zur Verfügung steht. Laut den eigenen Materialien von Meta setzte es eine „experimentelle Chat -Version“ von Maverick in Larena ein, die speziell „für die Konversation optimiert“ war.

“Die Interpretation unserer Richtlinie durch Meta stimmte nicht mit dem überein, was wir von Modellanbietern erwarten”, postete Larena zwei Tage nach der Veröffentlichung des Modells auf X. „Meta hätte klarer werden müssen, dass ‘Lama-4-Maverick-03-26-Experimental’ ein maßgeschneidertes Modell war, um die menschliche Präferenz zu optimieren. Infolgedessen aktualisieren wir unsere Richtlinien für die Rangliste, um unser Engagement für faire, reproduzierbare Bewertungen zu verstärken, so dass diese Verwirrung in der Zukunft nicht in der Zukunft stattfindet.

Ein Sprecher von Meta hatte pünktlich zur Veröffentlichung keine Antwort auf die Erklärung von Larena.

Während das, was Meta mit Maverick getan hat, nicht ausdrücklich gegen die Regeln von LMARena ist, hat die Website Bedenken hinsichtlich des Spielens des Systems geteilt und Schritte unternommen, um „Überanpassung zu verhindern und zu Leckagen“ zu verhindern. Wenn Unternehmen speziell abgestimmte Versionen ihrer Modelle zum Test einreichen und gleichzeitig verschiedene Versionen an die Öffentlichkeit weitergeben können, werden Benchmark-Ranglisten wie LMARena als Indikatoren für die reale Leistung weniger sinnvoll.

“Es ist der am häufigsten angesehene allgemeine Benchmark, weil alle anderen saugen”, sagt der unabhängige KI -Forscher Simon Willison gegenüber The Verge. “Als Lama 4 herauskam, wurde die Tatsache, dass es in der Arena Zweiter wurde, kurz nach Gemini 2.5 Pro – das hat mich wirklich beeindruckt, und ich trete mich dafür, dass ich den kleinen Druck nicht gelesen habe.”

Kurz nachdem Meta Maverick und Scout veröffentlicht hatte, sprach die KI -Community über ein Gerücht, dass Meta auch ihre Lama 4 -Modelle ausgebildet hatte, um bei Benchmarks besser abzuschneiden und gleichzeitig ihre tatsächlichen Grenzen zu verbergen. Ahmad al-Dahle VP von Generative AI bei Meta, Ahmad Al-Dahle, hat die Anschuldigungen in einem Beitrag auf X angesprochen: “Wir haben auch die Behauptungen gehört, dass wir an Testsets trainiert haben-das ist einfach nicht wahr, und wir würden das nie tun. Unser bestes Verständnis ist, dass die variablen Qualität, die Menschen sehen, die Implementierungen stabilisieren müssen.”

“Es ist eine sehr verwirrende Veröffentlichung im Allgemeinen.”

Einige bemerkten auch, dass Lama 4 zu einem seltsamen Zeitpunkt veröffentlicht wurde. Der Samstag neigt nicht dazu, wenn große AI -Nachrichten fallen. Nachdem jemand auf Threads gefragt hatte, warum Lama 4 über das Wochenende veröffentlicht wurde, antwortete Meta -CEO Mark Zuckerberg: “Dann war es fertig.”

“Es ist eine sehr verwirrende Veröffentlichung im Allgemeinen”, sagt Willison, der KI -Modelle genau folgt und dokumentiert. “Die Modellpartitur, die wir dort haben, ist für mich völlig wertlos. Ich kann nicht einmal das Modell verwenden, auf dem sie eine hohe Punktzahl erhalten haben.”

Metas Weg zur Veröffentlichung von Lama 4 war nicht genau glatt. Laut einem kürzlichen Bericht der Informationen hat das Unternehmen den Start wiederholt zurückgeschoben, da das Modell die internen Erwartungen nicht erfüllt. Diese Erwartungen sind besonders hoch, nachdem Deepseek, ein Open-Source-KI-Startup aus China, ein Open-Gewicht-Modell veröffentlicht hat, das eine Menge Buzz erzeugte.

Letztendlich bringt die Verwendung eines optimierten Modells in Larena Entwickler in eine schwierige Position. Bei der Auswahl von Modellen wie LLAMA 4 für ihre Anwendungen suchen sie natürlich auf Benchmarks nach Anleitung. Wie bei Maverick können diese Benchmarks jedoch Funktionen widerspiegeln, die in den Modellen, auf die die Öffentlichkeit zugreifen kann, nicht tatsächlich verfügbar sind.

Wenn sich die KI -Entwicklung beschleunigt, zeigt diese Episode, wie Benchmarks zu Schlachtplätzen werden. Es zeigt auch, wie Meta bestrebt ist, als KI -Anführer angesehen zu werden, auch wenn dies bedeutet, das System zu spielen.

Source link

LEAVE A REPLY Cancel reply

Please enter your comment!

Please enter your name here

You have entered an incorrect email address!

Please enter your email address here

Meta wird mit Lama 4 beim Gaming -KI -Benchmark erwischt

LEAVE A REPLY Cancel reply

Supervulkan in Italien: Archäologen entdecken geheimnisvolle Tempelanlage

pCloud Online-Speicher mit 69% Oster-Rabatt

Euroleague – Bayerns Basketballer müssen in Play-ins

Most Popular

Supervulkan in Italien: Archäologen entdecken geheimnisvolle Tempelanlage

pCloud Online-Speicher mit 69% Oster-Rabatt

Euroleague – Bayerns Basketballer müssen in Play-ins

Elon Musks Doge -Team, das alarmierende Abschluss des Zugangs zu NASA -Systemen ermöglicht, sagen die Hausdemokraten

Recommended News

Kälte, Schnee und Glätte in RLP, Wintereinbruch in Hochlagen

Risiko Speiseröhrenkrebs – Symptome und Behandlung

Streamer wurde als Opfer eines cholerischen Schlumpfs auf Twitch berühmt, hat jetzt genug

Der Preis für eines der Flaggschiff-Modelle First Dimensity 9400 soll bei nur 570 US-Dollar beginnen, da es versucht, die kommenden Snapdragon 8 Gen 4-Modelle...

Tipp fürs Abnehmen: Wenn Sie sechs Dinge machen, werden Haferflocken noch gesünder

Zahnfisteln vorbeugen – FOCUS online

contact@sofortnews.com

Berlin, Germany

Copyright © - SofortNews.com 2024

Latest articles

Supervulkan in Italien: Archäologen entdecken geheimnisvolle Tempelanlage

pCloud Online-Speicher mit 69% Oster-Rabatt

Euroleague – Bayerns Basketballer müssen in Play-ins