Maskinspråk: hur Siri plockar upp din röst?

Makradar Teknik / by admin / December 19, 2019

Google, Apple, Microsoft, och även Amazon aktivt utveckla sina rösttjänster. Nybakat på iOS 7 är samma Siri, bara nya funktioner och... röst. Undrar du hur är denna process? Eftersom datorer undervisas tal? detta verklig konst.

För vart och ett av röster Siri - din skådespelare. När den har slutfört sin roll i utformningen, har arbetet bara börjat... Mannens röst fortsätter sin resa. Historien om denna resa, både människor och robot - ett av de mest komplexa tekniska processer, som inte kunde genomföras för tio år sedan.

Låt oss bekanta med chefen för design och utveckling av röst Nuance, är det en av de största oberoende företag i världen som arbetar med taligenkänning och text till tal. Brant Ward (J. Brant Ward) brukade vara en kompositör, komponera fest för stråkkvartetter till syntar, och nu är han komponerar det med hjälp av syntetiska röster. Han arbetar i talsyntes industrin i Silicon Valley i över ett decennium.

Text till tal - en mycket konkurrenskraftig industri, och dess anställda är mycket hemlighetsfull. Även om världen och anser att Nuance skapar röst Siri för, Ward och hans kollega David Vasquez (David Vazquez) undvika ett direkt svar. Ändå kom de överens om att förklara, åtminstone i allmänna ordalag, hur processen för att skapa en fantastisk maskin röster.

instagram viewer

Naturligtvis inget behov av att formulera och skriva varje ord från ordlistan. Men när det kommer till programmet, som bör läsas några nyheter i ditt nyhetsbrev, eller hitta något för dig på Internet, är det helt enkelt tvungen att tala varje ord i ordboken.

De flesta av förslagen väljs på en "rikedom fonetik" - det vill säga, de innehåller många olika kombinationer av fonem. "Faktum är, desto mer data vi har, desto mer realistiska resultatet bli," - säger Ward.

Efter texten inspelad live skådespelare (en mödosam process som kan ta flera månader) börjar mycket hårt arbete. Ord och meningar analyseras, dividerat med kategorier och registreras i en stor databas. I denna komplexa arbetet ett team av hängivna lingvister samt använda sina egna språkliga programvara.

När allt detta är gjort, att enheten för Nuance översätta text till tal skapar bitars ord och fraser som skådespelaren kan Jag aldrig yttras, men det låter mycket likt det tal av skådespelaren, eftersom tekniskt sett är rösten skådespelare.

Process sett är medvetslös. Vi gör det utan att tänka på hur denna process sker: situationen där är vårt språk, som relationer byggs mellan fonem, och så vidare - för att enkelt och effektivt uttrycka komplexa idéer och känslor. Men för att datorn plockade upp ljudet av mänskliga röster, måste alla dessa faktorer beaktas. Som en professor i lingvistik, är uppgiften att "Titanic".

Du bör inte tänka: "Jag pratar med en dator." Du vanligtvis inte behöver tänka på det.

"Mina barn interagerar med i Siri, som om det vore en levande varelse... de inte känna skillnaden," - säger Ward.

Hittills och vänskapen mellan människor och robotar - som människor. Många människor skulle vilja det om Siri kan känna igen känslomässiga tillstånd på högtalaren, och på något sätt reagera på det (till exempel inkludera en lugnande röst läge). Föreställ - att prata med roboten, som moraliskt är klappa dig på huvudet. Kanske är Nuance redan tänka på det ...

Tags moln

Gradering

Visningar

Kommentarer