Microsoft NMT Itzultzaile Microsoft Bing neurona makina itzulpen zehatza

Microsoft NMT Itzultzaile Microsoft Bing neurona makina itzulpen zehatza
Neurona itzulpen automatikoko (NMT) Erabilera da AI, kalitate handiko itzulpen automatikoa estandar berri。 Ordezkatu old-style estatistika itzulpen automatikoko (SMT) Teknologia,Teknologia ere 2010-2020 Erdialdean-urte, bat iritsi kalitate gailurra。
Batera SMT aldean,NMT daiteke, ez bakarrik jatorrizko itzulpen kalitatea puntuazioa posizioa hobea emateko itzulpena,Eta soinuak, gehiago leuna、Gehiago antzeko gizakiak。 Hau azkartasuna arrazoi nagusia da NMT bat erabiltzen du esaldi testuinguru osoa itzultzeko hitza。 SMT, besterik gabe, kontuan hartu bakoitzeko hitzen aurrean eta atzean hitz batzuk zuzendu testuinguru。
The NMT eredua da API core,Ikusezina azken erabiltzaileak。 Bakarrik begi-bistakoa da aldea hobetu itzulpenaren kalitatea,Batez ere, Txinako、Japoniera eta arabiera eta beste hizkuntzak。
Zer da itzulpen automatikoko?
Makina itzulpen sistema erabiltzeko makina ikasteko teknologia izango da kopuru handi bat testu edozein bere onartutako hizkuntza itzulpena egindako eskaera edo online zerbitzuak。Zerbitzua izango da"iturri"testu itzuli da hizkuntza batetik bestera"xede"hizkuntza。
Nahiz eta itzulpen automatikoaren teknologia atzean kontzeptua eta erabili interfazea nahiko erraza da,Baina atzean zientzia eta teknologia da, oso konplexua,Eta hainbat puntako teknologia elkarrekin,Batez ere, ikaskuntza sakona(adimen artifiziala),Big datuak,Hizkuntza,Hodei informatika eta Web API。
2010 hasieran geroztik,Berri bat adimen artifiziala teknologia,Hori da, sakonera neurona-sare bezala ere ezaguna ikaskuntza sakona),Egin ahots ezagutza, teknologia erdietsi kalitate maila,Beraz, Microsoft Itzultzaile taldeak, Hizketa ezagutzeko eta beste core testu itzulpen teknologia konbinatzen,Hasteko, Hizketa Ezagutzeko Teknologia。Ahots berri bat itzulpen teknologia。
Historia,Industria erabilera nagusien makina ikasteko teknikak da estatistika-makina itzulpen(SMT)。Emandako hainbat hitzak testuinguru kasuan,SMT aurreratua erabiltzen analisi estatistikoa kalkulatu hitzak itzulpen onena efektua。Mid-tik 2000ko hasi zen,Besteak beste, Microsoft, guztiak barne nagusietako itzulpen-hornitzaileak erabiltzen ari SMT。
Neurona makina itzulpen(NMT)agertzen eragin itzulpen bat artearen funtsezko aldaketa,Ekarri kalitate handiagoa itzulpen -。Itzulpen hau teknologia izan da bigarren erdian 2016 hasi erabiltzaile eta garatzaileen zabaldu 。
SMT eta NMT itzulpen teknikak bi gauza komun:
  • Bai asko eskatzen pre-giza itzulpena edukiak sortu eta milioika itzulitako esaldi prestakuntza-sistema。
  • Bai ez ekintza gisa, hiztegi elebiduna,Baina baten arabera, ahalik eta itzulpen zerrenda itzultzeko hitzak,Baina arabera esaldi erabiliz hitza testuinguru itzuli beharreko。
Zer da Microsoft Itzultzaileak?
Gisa API bildumaren zati,Microsoft Itzultzaileak Testu API eta Microsoft Hitzaldian zerbitzuak Microsoft-en makina itzulpen zerbitzua。
Microsoft Itzultzaileak itzultzeko testua
Geroztik 2007,Microsoft taldea izan da erabiltzeko, Microsoft Itzultzaileak Testu API,Geroztik 2011,Da gisa erabili izan da bezero-orientazioa API erabili。MicrosoftTranslator Testu API, Microsoft barne izan da oso erabilia。Da integratuta produktu localization,Laguntza online komunikazio taldeak。Ere egin daiteke, batetik ezagutzen produktuak。
Microsoft Itzultzaile daiteke, edozein hardware plataforma Web orrian edo bezero aplikazio baita edozein sistema eragile batzuekin batera erabiltzeko,Egiteko hizkuntza itzulpena eta beste hizkuntza-lotutako eragiketak,Adibidez, hizkuntza detektatzeko,Text-to-speech edo dictionary。
Erabilera industria-estandarra GAINERAKO teknologia,Garatzaileei emango zantzurik xede hizkuntza parametro iturburu-testua edo hizketa itzulpena audio bidali zerbitzua,Ondoren, zerbitzua izango da itzulitako testua bidaliko da atzera bezero edo Web aplikazioa erabili。
Microsoft Itzultzaile Zerbitzu bat ostatutako Microsoft Datu-Zentro Azure zerbitzua,Eta beste Microsoft hodei zerbitzuak ere eskuratu segurtasuna,Eskalagarritasuna,Fidagarritasuna eta etenik gabe erabilgarritasuna prestazioa。
Microsoft Itzultzaile ahotsa itzuli
Microsoft Itzultzaile ahots itzulpen teknologia Skype Translator hasten amaieran 2014 abiarazteko,Hasieratik 2016 hasteko ireki bat API bezero erabilera。Izan da integratuta Microsoft Itzultzaile denbora errealeko funtzio,Skype,Skype Bilera-Difusio eta Android for Microsoft Itzultzaile app,iOS eta Windows。
Hitzaldiaren itzulpena eskuragarri dago orain bidez Microsoft Hitzaldian lortu,Microsoft ahots bat da, guztiz pertsonalizagarria end-to-end zerbitzua,For speech recognition,Ahots-itzultzaileak eta TTS(testua)。
Testu itzulpena nola lan egin?
Testu itzulpena, batez ere, teknikoa, badira bi:Teknika tradizionalak,Estatistika-makina itzulpen(SMT)eta hurrengo belaunaldiko teknologia,Hori neurona makina itzulpen(NMT)。
Estatistika itzulpen automatikoko
Microsoft Itzultzaile lortzeko estatistika-makina itzulpen(SMT) elkarrekin eraikitzeko Microsoft hamarkada bat baino gehiago natural hizkuntza ikerketa, oinarri hartuta。Moderno bat itzulpen-sistemaren ordez idazteko eskuliburua arauak arteko hizkuntza izan itzulitako,Baina itzulpena izango jotzen lehendik giza itzulpena hizkuntza ikaskuntza arteko testu bihurtzeko eta aplikazioa erabiltzen estatistika eta makina ikaskuntza azken aurrerapen arazoa。
Deiturikoak"Corpus paralelo"neurri handi batean, balio moderno bat bezala Rosetta Stone,Testuinguru askotan hizkuntza bikote eta eremu bat emateko hitza,Esaldi eta lokuzio itzulpena。Estatistika-eta modelatu-teknikak eta eraginkorra algoritmoak lagun dezake ordenagailuak konpontzeko deszifratu detektatzeko prestakuntza datu-iturburu-hizkuntzaren eta xede-hizkuntzaren arteko dagokion harreman adiskidetze kode berri bat aurkitu sarrerako esaldia, itzulpen onena galderak。Microsoft Itzultzaile estatistika-metodoak hizkuntza-informazioa elkarrekin,Hobeto ekoizteko orokortu eta gehiago eramaten erraz ulertzen itzulpen-Eredua。
Geroztik, metodo honek ez du fidatu dictionary edo gramatika arauak,Beraz, ematen du esaldi itzulpen onena,Emandako hitza erabili inguruan testuinguru saiatu beharrean egiteko hitz bakar bat itzulpena。Hitza itzulpena,Bat garatu hiztegi elebiduna。
Neurona itzulpen automatikoko
Etengabeko hobekuntza itzulpena oso garrantzitsua da。Baina,Geroztik 2010 urte erdialdean geroztik,SMT teknologia, performance hobekuntza izan du egoera egonkorra。Erabileraren bidez Microsoft-en AI super ordenagailua, batez ere Microsoft Kognitiboaren Toolkit eskala eta funtzioa,Microsoft Itzultzaile orain eskaintzen oinarritzen da, neurona-sare(LSTM itzulpena,Beraz, itzulpen-kalitatea hobetu berria hamarkada。
Horiek neurona-sare-ereduak daude eskuragarri bidez Microsoft Hizkera eta erabili kategoria ID Testu API, ahots guztiak hizkuntza。
Tradizionala SMT aldean,Neurona-sare bihurtzeko eran ezartzea da, funtsean ezberdinak。
Honako animazio irudikatzen neurona sare itzulpen itzultzeko esaldi esperientzia urrats bakoitzean。Geroztik, metodo hau erabiliz,Itzulpen jarriko esaldi osoa sartu testuinguru,Horren ordez, SMT teknikak erabiliz gutxi batzuk bakarrik hitz irristakorra leihoa,Eta gehiago sortuko menderatuko eta giza-itzulpena eta itzulpen -。
Oinarritzen da, neurona-sare prestakuntza,Bakoitzaren hitzak dira, zehar 500 dimentsioko bektore bat kodeketa,Bektore ordezkaritza berariazko hizkuntza bikote hala nola, ingelesa eta Txinera eta bere ezaugarri berezia。Oinarritutako erabiltzen prestakuntza hizkuntza,Neurona-sare pertsonalizatu ahal izango dimentsio hauek izan behar du zer。Ahal izango dute, kodetze sinple batzuk kontzeptuak,Adibidez, genero-emakumezkoak,Gizon,Neutral),Adeitasuna graduko s hizkuntza,Feel free,Idatzi,Forma, eta abar.,Hitza mota: aditz,Izen, eta abar.,Baita beste edozein ez-bistako ezaugarri prestakuntza eratorritako datuak。
Neurona-sare itzulpen esperientzia urratsak honako hauek dira:
  • Hitz bakoitzaren,Edo gehiago, hain zuzen ere, adierazten da, bere 500 dimentsioko bektore -,Guztiak bidez"neuronak"lehen geruza,Izango da, esaldi bat, beste hitz testuingurua hitza, 1000 dimentsioko bektore-b, bere kodetze。
  • Behin hitz guztiak behin kodetutako hauek sartu 1000 dimentsioko bektore batean,Prozesu hau errepikatu egingo da, hainbat aldiz,Geruza bakoitzean izan daiteke esaldi osoa testuinguruan hobeto fina tuning hitz 1000 dimentsioko ordezkaritza batekin SMT teknologia aitzitik, bakarrik kontuan hartu 3 5 Hitza leihoa
  • Ondoren,Kontuan izan geruza, hau da, software-algoritmoa erabiliko du azken irteera matrix,Arreta geruza hau erabiliko azken irteera matrix eta aldez aurretik itzulitako hitza irteera definitzeko hurrengo itzuli beharko iturri esaldi horrek hitza。Era berean, erabili kalkulu hauek potentzialki baztertu xede hizkuntza alferrikako hitzak。
  • Deskodetzailea itzulpen-geruza bere egokiena xede hizkuntzan baliokide hizkuntza itzulpena hautatutako hitza, edo zehazkiago,Osoa testuinguruan esaldi adierazten duten hitzak 1000 dimentsioko bektore -。Eta, ondoren, azken geruza da irteera iritzia interesdunari geruza,Ordena kalkulatu dagokion itzulpena iturria esaldi horretan, hurrengo hitza。

Animazioan agertzen den adibidea,Testuinguru-jakitun 1000 dimentsioko eredu" eta "izango kodetutako gisa izen bat eta etxe bat da, frantziako la maison emakumeen hitza。Hau aukera emango egokia itzulpena" "DA," tira "baino," musika "da singular,Gizonezkoa, edo" LES "da plurala behin iristeko deskodetzailea itzulpen geruza。
Kontuan izan algoritmoa ere izango oinarritutako aurrez itzulitako hitza gaur egungo kasuan," du "kalkulatzen du,Hurrengo itzulpen-hitza izan behar du gaia" etxea "ordez adjektibo egiteko" blue ") 。Arrazoia honen helburua lor daiteke,Delako sistema ulertzen ingelesa eta frantsesa izango da, goitik behera hitz hauek esaldi ordena。Ere egin dezakezu kalkulatu,Bada adjektibo da" handi "horren ordez, kolore,Ez da behar horiek alderantzikatzeko" the big house " =>"la grande maison", bat。
Erabileraren ondorioz, metodo hau,Kasu gehienetan,Azken irteera ratioa SMT-oinarritutako itzulpen gehiago leuna,Hurbilago giza itzulpena。
Ahots itzulpen nola lan egin?
Microsoft Itzultzaileak ere itzuli ahal ahotsa。Teknologia itzultzaileak denbora errealeko funtzio,Itzultzaileak aplikazioa,Skype Translator kontuetarako,Eta, hasieran bakarrik, Skype bidez Itzultzaile ezaugarri baita iOS eta Android on Microsoft Itzultzaile app ematen funtzionalitate hau。Garatzaileei orain erabili Azure ematen ataria azken bertsioa ATSEDEN-oinarritutako ireki APIA garatzeko。
Nahiz eta lehen begiratuan aldez aurretik artearen oinarri bat eraikitzeko hitzaldian itzulpen teknologia badirudi prozesu erraza,Baina egin behar da baino lehendik dagoen"tradizionala"gizon-makina ahots ezagutza motorra da, besterik gabe txertatuko dagoen testu batean askoz gehiago。Itzulpen bat。
Ordena izango da"iturri"ahots bat hizkuntza da, behar bezala itzulita beste"xede"hizkuntza,Sistema bidez joan behar da, lau urratsak。
  • Speech recognition,Bihurtu audio testu
  • TrueText:Microsoft teknologia,Ahal normalizatzeko testu gehiago egiteko egokia itzulpena
  • By testua itzulpen motorra itzulpena,Baina erabilera bereziki diseinatutako real-bizitza ahozko elkarrizketa, garapen itzulpen-eredua
  • Beharrezkoa bada, testu-ahots bihurketa,Sortzeko itzulitako audio。

Automatic speech recognition ASR)
Erabiliz prestatuak neurona sare(NN)sistema egiteko automatic speech recognition ASR),Sistema aztertu ahal izango milaka ordu sarrerako audio ahotsa。Eredua oinarritzen da, pertsonen arteko elkarrekintza eta ez pertsona makina komandoak prestakuntza,Horrela sortzen ohiko elkarrizketa optimizatu for speech recognition。Ordena hori lortzeko,Tradiziozko gizon-makina ASR aldean,Datu gehiago behar eta handiagoa DNN。
TrueText
Denean, gizakiok beste gizakiekin komunikatzeko,Gure hizkera ez da nahi dugu, normalean uste gisa perfektua,Argi edo neat。Bidez TrueText teknologia,Ezabatuz ahots aldea bete hitz, hala nola," um","ah","eta,","atsegin dut",stutters eta errepikatzen。Bat gehituz epea,Egokia puntuazioaren eta letra larriz,Ere egin dezakezu hobetzeko testuaren irakurgarritasuna eta itzulpena。Ordena lortzeko emaitza horiek,Erabiliz hamarkadetan, hizkuntza-teknologietan lan,Hau da, Itzultzaile garatu,Sortzeko erabiltzen TrueText。Honako figura bidez, benetako adibide bat deskribatzeko TrueText barietate bat bihurtzeko normalizazio testu hau。

Utzi Iruzkin bat