Qwen3.5-LiveTranslate-Flash — reaaliaikainen tulkkaus 60 kielellä 2,8 sekunnin viiveellä

Alibaban Qwen-tiimi julkaisi 20. toukokuuta 2026 uuden reaaliaikaisen käännösmallin, joka nostaa riman huomattavasti korkeammalle. Qwen3.5-LiveTranslate-Flash kääntää puhetta ja videota 60 kielellä vain 2,8 sekunnin viiveellä — ja säilyttää samalla puhujan alkuperäisen äänen.

Mikä tekee tästä erityisen?

LiveTranslate-Flash ei ole pelkkä päivitys. Se on täysin uusi lähestymistapa reaaliaikaiseen tulkkaukseen:

1. Multimodaalinen syöte — ääni ja video samanaikaisesti

Malli ei kuuntele pelkkää ääntä. Se analysoi samanaikaisesti videokuvaa: huuliliikkeitä, eleitä ja ruudulla näkyvää tekstiä. Kun sana on foneettisesti monitulkintainen (esim. ”kuusi” = numero tai puu), visuaalinen konteksti ratkaisee.

2. ”Reading units” — ei odoteta koko lausetta

Perinteiset käännösmallit odottavat, että puhuja lopettaa lauseen. Qwen3.5-LiveTranslate-Flash käyttää reading units -tekniikkaa: se päättää itse, milloin kontekstia on tarpeeksi, ja aloittaa käännöksen välittömästi. Tämä on suurin yksittäinen syy 2,8 sekunnin latenssiin.

3. Äänen kloonaus — ei robottiääntä

Useimmat käännösjärjestelmät korvaavat puhujan äänen geneerisellä synteesiäänellä. LiveTranslate-Flash kloonaa alkuperäisen puhujan äänenpiirteet. Lopputulos kuulostaa siltä kuin puhuja itse puhuisi kohdekieltä.

4. Dynaaminen sanasto — brändit, lääketiede, laki

Kehittäjät voivat injektoida reaaliajassa räätälöityjä sanastoja: brändinimiä, lääketieteellisiä termejä, juridista sanastoa. Malli priorisoi nämä termit automaattisesti. Käytännössä tämä tarkoittaa, että esimerkiksi NVIDIA käännetään oikein sen sijaan että malli keksisi ”Nvidian” tilalle jotain muuta.

Tekniset speksit

  • Syötekielet: 60 kieltä (edellisessä Qwen3-versiossa 18 — yli 3× laajennus)
  • Puhe-ulostulo: 29 kieltä
  • Viive: 2,8 sekuntia
  • Syötteet: ääni + base64-koodatut JPEG-videoframet
  • Benchmarkit: Päihittää kaupalliset kilpailijat FLEURS- ja CoVoST2-testeissä
  • Saatavuus: API-only, Alibaba Cloud (DashScope)
  • Malli: Suljettu, ei avointa lähdekoodia

Kenelle tämä on tarkoitettu?

LiveTranslate-Flash on suunniteltu ensisijaisesti kehittäjille, jotka rakentavat reaaliaikaisia monikielisiä sovelluksia:

  • Asiakaspalvelu: Monikielinen chatbot, joka ymmärtää asiakkaan omaa kieltä ja vastaa sillä — omalla äänellään
  • Videopuhelut: Zoomin, Teamsin tai Meetin kaltaiset alustat, joissa tulkkaus tapahtuu reaaliajassa
  • Koulutus: Luentojen ja webinaarien automaattinen monikielinen tekstitys ja puhetulkkaus
  • Terveydenhuolto: Potilaan ja lääkärin välinen tulkkaus ilman kolmatta osapuolta

Mitä tämä tarkoittaa suomalaiselle yrittäjälle?

Vaikka LiveTranslate-Flash on API-pohjainen kehittäjätyökalu, sen vaikutukset näkyvät nopeasti kuluttajatuotteissa. Suomalaiset yritykset, jotka toimivat kansainvälisillä markkinoilla, voivat hyödyntää tätä teknologiaa asiakaspalvelussa, markkinoinnissa ja myynnissä.

Käytännön esimerkki: suomalainen verkkokauppa voi tarjota reaaliaikaista videotulkkaus-chattia japanilaisille asiakkaille ilman ihmistulkkia. Japanilainen asiakas puhuu japania, suomalainen myyjä suomea — ja Qwen3.5-LiveTranslate-Flash hoitaa loput 2,8 sekunnissa.

Arvosana: ★★★★☆ (4.5/5) — Teknisesti vaikuttava, mutta suljettu malli ja API-only rajoittavat saatavuutta.

Lähteet: Qwen blog, MarkTechPost

Samankaltaiset artikkelit