No menu items!
More
    HomeNachrichtMeta wird mit Lama 4 beim Gaming -KI -Benchmark erwischt

    Meta wird mit Lama 4 beim Gaming -KI -Benchmark erwischt

    Am Wochenende ließ Meta zwei neue Lama 4-Modelle fallen: ein kleineres Modell namens Scout, und Maverick, ein mittelgroßes Modell, das das Unternehmen behauptet, GPT-4O und Gemini 2.0 Flash zu schlagen, „über eine breite Palette von weit verbreiteten Benchmarks“.

    Maverick sicherte sich schnell den Platz in Larena, den AI-Benchmark-Standort, an dem Menschen die Ausgaben aus verschiedenen Systemen vergleichen und über die besten abstimmen. In der Pressemitteilung von Meta hob das Unternehmen die ELO -Score von Maverick von 1417 hervor, was es über Openai’s 4O und knapp unter Gemini 2.5 Pro platzierte. (Ein höherer ELO-Score bedeutet, dass das Modell in der Arena häufiger gewinnt, wenn sie mit Konkurrenten gegeneinander antreten.)

    Die Leistung schien METAs Open-Gewicht-Lama 4 als ernsthaften Herausforderer für die hochmodernen, geschlossenen Modelle von OpenAI, Anthropic und Google zu positionieren. Dann entdeckten die KI -Forscher, die die Dokumentation von Meta durchsetzten, etwas Ungewöhnliches.

    Im Kleingedruckten erkennt Meta an, dass die Version von Maverick, die auf Larena getestet wurde, nicht dasselbe ist wie das, was der Öffentlichkeit zur Verfügung steht. Laut den eigenen Materialien von Meta setzte es eine „experimentelle Chat -Version“ von Maverick in Larena ein, die speziell „für die Konversation optimiert“ war.

    “Die Interpretation unserer Richtlinie durch Meta stimmte nicht mit dem überein, was wir von Modellanbietern erwarten”, postete Larena zwei Tage nach der Veröffentlichung des Modells auf X. „Meta hätte klarer werden müssen, dass ‘Lama-4-Maverick-03-26-Experimental’ ein maßgeschneidertes Modell war, um die menschliche Präferenz zu optimieren. Infolgedessen aktualisieren wir unsere Richtlinien für die Rangliste, um unser Engagement für faire, reproduzierbare Bewertungen zu verstärken, so dass diese Verwirrung in der Zukunft nicht in der Zukunft stattfindet.

    Ein Sprecher von Meta hatte pünktlich zur Veröffentlichung keine Antwort auf die Erklärung von Larena.

    Während das, was Meta mit Maverick getan hat, nicht ausdrücklich gegen die Regeln von LMARena ist, hat die Website Bedenken hinsichtlich des Spielens des Systems geteilt und Schritte unternommen, um „Überanpassung zu verhindern und zu Leckagen“ zu verhindern. Wenn Unternehmen speziell abgestimmte Versionen ihrer Modelle zum Test einreichen und gleichzeitig verschiedene Versionen an die Öffentlichkeit weitergeben können, werden Benchmark-Ranglisten wie LMARena als Indikatoren für die reale Leistung weniger sinnvoll.

    “Es ist der am häufigsten angesehene allgemeine Benchmark, weil alle anderen saugen”, sagt der unabhängige KI -Forscher Simon Willison gegenüber The Verge. “Als Lama 4 herauskam, wurde die Tatsache, dass es in der Arena Zweiter wurde, kurz nach Gemini 2.5 Pro – das hat mich wirklich beeindruckt, und ich trete mich dafür, dass ich den kleinen Druck nicht gelesen habe.”

    Kurz nachdem Meta Maverick und Scout veröffentlicht hatte, sprach die KI -Community über ein Gerücht, dass Meta auch ihre Lama 4 -Modelle ausgebildet hatte, um bei Benchmarks besser abzuschneiden und gleichzeitig ihre tatsächlichen Grenzen zu verbergen. Ahmad al-Dahle VP von Generative AI bei Meta, Ahmad Al-Dahle, hat die Anschuldigungen in einem Beitrag auf X angesprochen: “Wir haben auch die Behauptungen gehört, dass wir an Testsets trainiert haben-das ist einfach nicht wahr, und wir würden das nie tun. Unser bestes Verständnis ist, dass die variablen Qualität, die Menschen sehen, die Implementierungen stabilisieren müssen.”

    “Es ist eine sehr verwirrende Veröffentlichung im Allgemeinen.”

    Einige bemerkten auch, dass Lama 4 zu einem seltsamen Zeitpunkt veröffentlicht wurde. Der Samstag neigt nicht dazu, wenn große AI -Nachrichten fallen. Nachdem jemand auf Threads gefragt hatte, warum Lama 4 über das Wochenende veröffentlicht wurde, antwortete Meta -CEO Mark Zuckerberg: “Dann war es fertig.”

    “Es ist eine sehr verwirrende Veröffentlichung im Allgemeinen”, sagt Willison, der KI -Modelle genau folgt und dokumentiert. “Die Modellpartitur, die wir dort haben, ist für mich völlig wertlos. Ich kann nicht einmal das Modell verwenden, auf dem sie eine hohe Punktzahl erhalten haben.”

    Metas Weg zur Veröffentlichung von Lama 4 war nicht genau glatt. Laut einem kürzlichen Bericht der Informationen hat das Unternehmen den Start wiederholt zurückgeschoben, da das Modell die internen Erwartungen nicht erfüllt. Diese Erwartungen sind besonders hoch, nachdem Deepseek, ein Open-Source-KI-Startup aus China, ein Open-Gewicht-Modell veröffentlicht hat, das eine Menge Buzz erzeugte.

    Letztendlich bringt die Verwendung eines optimierten Modells in Larena Entwickler in eine schwierige Position. Bei der Auswahl von Modellen wie LLAMA 4 für ihre Anwendungen suchen sie natürlich auf Benchmarks nach Anleitung. Wie bei Maverick können diese Benchmarks jedoch Funktionen widerspiegeln, die in den Modellen, auf die die Öffentlichkeit zugreifen kann, nicht tatsächlich verfügbar sind.

    Wenn sich die KI -Entwicklung beschleunigt, zeigt diese Episode, wie Benchmarks zu Schlachtplätzen werden. Es zeigt auch, wie Meta bestrebt ist, als KI -Anführer angesehen zu werden, auch wenn dies bedeutet, das System zu spielen.

    Source link

    LEAVE A REPLY

    Please enter your comment!
    Please enter your name here

    RELATED ARTICLES

    Most Popular

    Recommended News