NVIDIAn uusi kielimalli on 6× nopeampi kuin Qwen3 — ja täysin avoin
📅 Päivitetty 28.5.2026
NVIDIAn uusi kielimalli on 6× nopeampi kuin Qwen3 — ja täysin avoin
NVIDIA julkaisi 19. toukokuuta 2026 Nemotron-Labs-Diffusionin — avoimen kielimalliperheen joka yhdistää kolme eri dekoodaustapaa samaan arkkitehtuuriin. Tulos: jopa 6× enemmän tokeneita per laskentakierros kuin Qwen3-8B, ilman tarkkuuden menetystä.
Mikä on tri-mode-kielimalli?
Perinteiset kielimallit (GPT, Claude, Qwen) toimivat autoregressiivisesti: ne generoivat yhden sanan kerrallaan, vasemmalta oikealle. Tämä on tarkkaa mutta hidasta — jokainen token riippuu edellisestä, eikä GPU:n rinnakkaislaskentaa saada täyteen hyötykäyttöön.
NVIDIAn malli osaa kolme tilaa samoilla painoilla, ilman arkkitehtuurimuutoksia:
AR-tila on perinteinen tapa — paras pilvipalveluun jossa useita käyttäjiä palvellaan rinnakkain. Toimii kuten mikä tahansa GPT-tyylinen malli.
Diffuusiotila denoissaa useita tokeneita samanaikaisesti yhdellä laskentakierroksella. Malli jakaa tekstin lohkoihin, käsittelee lohkon sisällä kaksisuuntaisesti ja päättää itse mitkä tokenit ovat valmiita. Tämä on 6× nopeampaa kuin AR-tila yksittäisellä käyttäjällä.
Self-speculation-tila on fiksuin yhdistelmä: diffuusiotila luonnostelee joukon ehdokastokeneita, AR-tila tarkistaa ne saman tien. Tämä tapahtuu kokonaan yhden mallin sisällä — ei tarvita erillistä draft-mallia kuten perinteisessä spekulatiivisessa dekoodauksessa (esim. Eagle3).
Miten tarkkuus säilyy nopeuden kasvaessa?
Aiemmat diffuusiopohjaiset kielimallit ovat olleet nopeampia mutta merkittävästi epätarkempia. Syy: diffuusiotreeni kohtelee kaikkia token-järjestyksiä samanarvoisina, vaikka luonnollinen kieli etenee aina vasemmalta oikealle.
NVIDIA ratkaisi tämän yhteistreenillä. Malli harjoitellaan samanaikaisesti sekä AR- että diffuusio-objektiivilla painokertoimella α=0.3. Sama malli oppii molemmat tavat, ja käyttäjä voi vaihtaa tilaa lennossa ilman uudelleenlatausta.
Tulos: Nemotron-Labs-Diffusionin AR-tarkkuus on vertailukelpoinen Qwen3-8B:n kanssa, mutta diffuusiotilassa se tuottaa 5.99× enemmän tokeneita per forward. SPEED-Benchissä läpimeno on 4× korkeampi SGLangilla GB200 GPU:lla.
Vertailu muihin nopeusratkaisuihin
Suurin innovaatio on ettei tarvita erillistä draft-mallia. Se tarkoittaa vähemmän VRAMia, yksinkertaisempaa deployausta ja pienempää kompleksisuutta.
Malliperhe ja saatavuus
– Koot: 3B, 8B ja 14B parametria
– Variantit: Base, Instruct ja Vision-Language — kaikki kolme kokoa kaikissa varianteissa
– Saatavuus: Avoin lähdekoodi Hugging Facessa, NVIDIA research -lisenssillä
– Rauta: Optimoitu NVIDIA GB200:lle, toimii kaikilla moderneilla GPU:illa
Mitä tämä tarkoittaa käytännössä
Nemotron-Labs-Diffusion ei ole suoraan kilpailija ChatGPT:lle tai Claudelle — sitä ei voi kutsua API:sta. Se on avoin malliperhe kehittäjille ja yrityksille jotka haluavat ajaa inferenssiä omalla raudalla.
Edge-laitteet ja yksittäiskäyttö. Diffuusiotila antaa 6× nopeamman generaation kun batch-koko on pieni — täydellinen paikallisiin AI-sovelluksiin ja työpöytäassistentteihin.
Kustannussäästö pilvessä. Self-speculation vähentää tarvittavien laskentakierrosten määrää. Sama määrä tekstiä vähemmillä forwardeilla tarkoittaa pienempää GPU-laskua. Yrityksille jotka pyörittävät omaa inferenssiä tämä on suoraa rahaa.
Avoin tutkimusalusta. Koska painot ovat julkiset, kenen tahansa on mahdollista hienosäätää malli omiin tarpeisiinsa ilman API-maksuja tai toimittajariippuvuutta.
NVIDIAn selkeä viesti: kielimallien pullonkaula ei ole enää tarkkuus — se on nopeus. Ja sen ratkaisemiseksi yhden tokenin generointi kerrallaan ei yksinkertaisesti riitä.
Lähde: MarkTechPost / NVIDIA Research, 19.5.2026. Tekninen raportti: NVIDIA Nemotron Diffusion Tech Report v1.*