Das WoW Embodied World Model, entwickelt vom Beijinger Innovationszentrum für humanoide Roboter, hat kürzlich den Spitzenplatz des WorldArena Challenge Track 2 (Data Engine) erreicht. In einem weltweiten Praxistest der Künstlichen Intelligenz, an dem Spitzenuniversitäten aus China und dem Ausland beteiligt waren, erzielte das „Roboter-Gehirn“ aus Beijing E-Town bei der Kernfähigkeit, die reale physikalische Welt zu verstehen und Daten zu generieren, ein branchenführendes Niveau.

[Foto: VCG]
WorldArena ist die erste einheitliche, umfassende Benchmark-Plattform zur Bewertung der Wahrnehmung sowie der praktischen Funktionsfähigkeit von Embodied-World-Modellen. Sie wurde gemeinsam von Universitäten, wie der Tsinghua-Universität, der Beijing-Universität, der Jiaotong-Universität Shanghai und der Princeton University entwickelt. Im WorldArena Challenge Track 2 (Data Engine) wird geprüft, ob die synthetischen Daten, die vom Modell generiert werden, tatsächlich das Trainingsergebnis von nachgelagerten Roboterstrategien verbessern können.
Das WoW Embodied World Model bietet Robotern ein „Gehirn“, das physikalische Gesetze verstehen und vorhersagen kann. Es ist in der Lage, Gesetze der echten physikalischen Welt zu simulieren und eigenständig hochwertige, physikalisch konsistente Interaktionsdaten zu generieren, was das Problem des Datenmangels in der Branche der verkörperten Intelligenz löst. Die Spitzenposition erreichte das kleinste Modell der WoW-Serie: WoW 1.3B mit nur 1,3 Milliarden Parametern. Als „Leichtgewicht“ übertraf viele größere allgemeine Videomodelle sowie spezialisierte Embodied-Modelle.
Auf technischer Ebene erzielte das WoW-Modell drei wesentliche Durchbrüche:
1. Physik-Engine-artige Generierungsfähigkeit: Es kann Roboter-Interaktionstrajektorien erlernen und zukünftige Szenarien präzise vorausberechnen.
2. Selbstverbessernde Datenschleife durch die neuartige SOPHIA-Selbstreflexionsparadigma – aus wenigen realen Trajektorien werden Millionen hochwertiger Interaktionsdaten abgeleitet.
3. Geschlossene Inferenzkette „vom Bild zur Aktion“ – das Modell gibt dem Algorithmus quasi „Hände“, um die reale Welt zu berühren.
Die vom WoW-Modell generierten Daten zeigten in Experimenten zur Steuerung von Robotern bei Aufgaben wie Greifen, Ablegen und längerfristigen Manipulationen eine deutlich bessere Leistung als chinesische und internationale Top-Basismodelle.
(Inhaltsquelle: E-Town Times)