Több megy a „Hey Siri” -be, mint gondolnád
![Több megy a „Hey Siri” -be, mint gondolnád Siri Alexa hangjelentésben](/f/6566171dbe2a32ac7216aa1ae2ce80d6.jpeg)
Fotó: Apple
Ha az iPhone válaszol a „Hey Siri” -re, olyan egyszerű dolognak tűnik, de valójában meglehetősen bonyolult. Ennek a kódmondatnak és annak a személynek a felismerése kritikus fontosságú az Apple beszédfelismerő rendszere számára.
Bejegyzés az Apple -ben Gépi tanulási napló A ma közzétett számos olyan kihívást ismertet, amelyet a fejlesztők leküzdettek ennek a munkának a megvalósítása érdekében.
Az egyik bonyodalom az, hogy a „Hey Siri” felismerésének meg kell történnie iPhone -on vagy iPaden. A Siri beszédfelismerésének nagy része a felhasználó szavainak feltöltésével történik egy távoli szerverre, de ez csak akkor kezdődik, amikor a telefon felismeri a „Hey Siri” kifejezést. Az Apple elkötelezettsége a magánélet iránt megakadályozza, hogy az iPhone mindent elküldjön egy szervernek.
Az iPhone 6s óta minden telefonon és a legtöbb Apple táblagépen alacsony fogyasztású és mindig bekapcsolt processzor található, amely folyamatosan hallgatja a „Hey Siri” kulcsmondatot. Ennyit tesz ez a chip. Ez a hangfelismerő processzor egy neurális hálózatot használ, amely utánozza az élő agy elrendezését.
Az Gépi tanulási napló cikk csak a „Hé Siri” -ről szól, mert a Siri beszédfelismerésének többi része a szervereken történik. Ez egy teljesen más folyamat. És egyet rengeteg problémája van. Ennek ellenére az Apple az felvételi mulatságon hogy kijavítsam őket.
Miért „Szia Siri”?
Az Apple azért választotta kulcsmondatát, mert rövid és könnyen kimondható. A Siri hangfelismerő rendszer néhány évvel ezelőtt debütált az iPhone 4S -en, de aktiválásához szükséges volt a Home gomb megnyomása. Az Apple szerint sokan már a „Hé Siri” szóval kezdték kéréseiket, mielőtt ennek a mondatnak szerepe lett volna.
A hátránya az, hogy ez a kulcsfázis sok más kifejezéshez hasonlít, például „komolyan gondolod?”. Az iPhone dedikált processzorának meg kell birkóznia a közelben csevegő emberekkel is, akik közül néhányan a saját iPhone -jukkal beszélgethetnek.
A mai szerint Gépi tanulási napló cikk, a chip először a „Hey Siri” kifejezést választja ki a hallottakból, majd ellenőrzi, hogy a mondatot az mondta -e, akinek hallgatni tanult.
A processzor 13 dimenziós vektorrá alakítja a hangot, hogy felismerje, hogy valaki azt mondta: „Hey Siri”. Ezután a hangot 442-dimenziós vektorrá alakítja, hogy lássa, a megfelelő beszélő mondta-e ki a kulcsmondatot.
Az Apple közzétette a részleteket arról, hogyan veszi fel a levegőből a minden fontos mondatot a Gépi tanulási napló cikk októberben. A legújabb bejegyzés azt tárgyalja, hogy a neurális chip hogyan tanulja meg felismerni tulajdonosát.
„Hey Siri” képzés
Mindenki emlékszik arra, hogy az iPhone -ját úgy kellett megtanítania, hogy felismerje saját hangját, többször is azt mondva, hogy „Hey Siri”. Ezt explicit regisztrációnak nevezik.
Nagyon kevesen veszik észre, hogy a rendszer az edzés után továbbra is megtanulja, hogyan hangzik a hangjuk. Ennek oka az, hogy az ülést szinte mindig ideális körülmények között végzik, míg az iPhone -nak meg kell tanulnia felismerni a „Hey Siri” -t mindenféle környezeti zajjal. A képzés hivatalos befejezése után egy ideig a „Hey Siri” minden használatát arra használják, hogy többet tanuljanak.
Ezért próbáld meg elkerülni, hogy mások azt mondják: „Hé Siri” az iPhone közelében, miközben az még tanulja a hangodat.
Az adatvédelem számít
Az Apple nehéz feladat elé állította magát, amikor úgy döntött, hogy hangfelismerést végez közvetlenül okostelefonon. De az alternatíva az volt, hogy felvételeket küldött az iPhone közelében elmondottakról egy távoli szerverre, hogy felismerje a kulcsmondatot. Az Apple nem akarta kémekké változtatni a készülékeit.
Ez persze nem zavarta az Amazont. Az Echo eszközei pontosan így végzik minden beszédfelismerésüket.