Qwen3.5-LiveTranslate-Flash — reaaliaikainen tulkkaus 60 kielellä 2,8 sekunnin viiveellä
Alibaban Qwen-tiimi julkaisi 20. toukokuuta 2026 uuden reaaliaikaisen käännösmallin, joka nostaa riman huomattavasti korkeammalle. Qwen3.5-LiveTranslate-Flash kääntää puhetta ja videota 60 kielellä vain 2,8 sekunnin viiveellä — ja säilyttää samalla puhujan alkuperäisen äänen.
Mikä tekee tästä erityisen?
LiveTranslate-Flash ei ole pelkkä päivitys. Se on täysin uusi lähestymistapa reaaliaikaiseen tulkkaukseen:
1. Multimodaalinen syöte — ääni ja video samanaikaisesti
Malli ei kuuntele pelkkää ääntä. Se analysoi samanaikaisesti videokuvaa: huuliliikkeitä, eleitä ja ruudulla näkyvää tekstiä. Kun sana on foneettisesti monitulkintainen (esim. ”kuusi” = numero tai puu), visuaalinen konteksti ratkaisee.
2. ”Reading units” — ei odoteta koko lausetta
Perinteiset käännösmallit odottavat, että puhuja lopettaa lauseen. Qwen3.5-LiveTranslate-Flash käyttää reading units -tekniikkaa: se päättää itse, milloin kontekstia on tarpeeksi, ja aloittaa käännöksen välittömästi. Tämä on suurin yksittäinen syy 2,8 sekunnin latenssiin.
3. Äänen kloonaus — ei robottiääntä
Useimmat käännösjärjestelmät korvaavat puhujan äänen geneerisellä synteesiäänellä. LiveTranslate-Flash kloonaa alkuperäisen puhujan äänenpiirteet. Lopputulos kuulostaa siltä kuin puhuja itse puhuisi kohdekieltä.
4. Dynaaminen sanasto — brändit, lääketiede, laki
Kehittäjät voivat injektoida reaaliajassa räätälöityjä sanastoja: brändinimiä, lääketieteellisiä termejä, juridista sanastoa. Malli priorisoi nämä termit automaattisesti. Käytännössä tämä tarkoittaa, että esimerkiksi NVIDIA käännetään oikein sen sijaan että malli keksisi ”Nvidian” tilalle jotain muuta.
Tekniset speksit
- Syötekielet: 60 kieltä (edellisessä Qwen3-versiossa 18 — yli 3× laajennus)
- Puhe-ulostulo: 29 kieltä
- Viive: 2,8 sekuntia
- Syötteet: ääni + base64-koodatut JPEG-videoframet
- Benchmarkit: Päihittää kaupalliset kilpailijat FLEURS- ja CoVoST2-testeissä
- Saatavuus: API-only, Alibaba Cloud (DashScope)
- Malli: Suljettu, ei avointa lähdekoodia
Kenelle tämä on tarkoitettu?
LiveTranslate-Flash on suunniteltu ensisijaisesti kehittäjille, jotka rakentavat reaaliaikaisia monikielisiä sovelluksia:
- Asiakaspalvelu: Monikielinen chatbot, joka ymmärtää asiakkaan omaa kieltä ja vastaa sillä — omalla äänellään
- Videopuhelut: Zoomin, Teamsin tai Meetin kaltaiset alustat, joissa tulkkaus tapahtuu reaaliajassa
- Koulutus: Luentojen ja webinaarien automaattinen monikielinen tekstitys ja puhetulkkaus
- Terveydenhuolto: Potilaan ja lääkärin välinen tulkkaus ilman kolmatta osapuolta
Mitä tämä tarkoittaa suomalaiselle yrittäjälle?
Vaikka LiveTranslate-Flash on API-pohjainen kehittäjätyökalu, sen vaikutukset näkyvät nopeasti kuluttajatuotteissa. Suomalaiset yritykset, jotka toimivat kansainvälisillä markkinoilla, voivat hyödyntää tätä teknologiaa asiakaspalvelussa, markkinoinnissa ja myynnissä.
Käytännön esimerkki: suomalainen verkkokauppa voi tarjota reaaliaikaista videotulkkaus-chattia japanilaisille asiakkaille ilman ihmistulkkia. Japanilainen asiakas puhuu japania, suomalainen myyjä suomea — ja Qwen3.5-LiveTranslate-Flash hoitaa loput 2,8 sekunnissa.
Arvosana: ★★★★☆ (4.5/5) — Teknisesti vaikuttava, mutta suljettu malli ja API-only rajoittavat saatavuutta.
Lähteet: Qwen blog, MarkTechPost