คำว่า 'หวัดดี Siri' มากกว่าที่คุณคิด

เข้าสู่ 'หวัดดี Siri' มากกว่าที่คุณคิด

Siri Alexa ในรายงานเสียง
หลายคนอาจไม่ทราบว่า iPhone ของพวกเขามีโครงข่ายประสาทเทียมเพื่อฟังให้พูดว่า "หวัดดี Siri"
ภาพถ่าย: “Apple”

การให้ iPhone ของคุณตอบสนองต่อ "หวัดดี Siri" ดูเหมือนจะเป็นเรื่องง่ายๆ แต่จริงๆ แล้วค่อนข้างซับซ้อน การจดจำรหัสวลีนี้และบุคคลที่พูดเป็นสิ่งสำคัญสำหรับระบบรู้จำเสียงพูดของ Apple

โพสต์ใน Apple's วารสารการเรียนรู้ของเครื่อง เพิ่งเผยแพร่ในวันนี้ อธิบายถึงความท้าทายมากมายที่นักพัฒนาซอฟต์แวร์เอาชนะได้เพื่อให้งานนี้สำเร็จ

ปัญหาแทรกซ้อนประการหนึ่งคือการรู้จัก "หวัดดี Siri" บน iPhone หรือ iPad การรู้จำคำพูดของ Siri ส่วนใหญ่ทำได้โดยการอัปโหลดคำของผู้ใช้ไปยังเซิร์ฟเวอร์ระยะไกล แต่จะเริ่มต้นก็ต่อเมื่อโทรศัพท์รู้จักวลี "หวัดดี Siri" เท่านั้น ความมุ่งมั่นของ Apple ในเรื่องความเป็นส่วนตัวทำให้ iPhone ไม่สามารถส่งทุกอย่างที่ได้ยินไปยังเซิร์ฟเวอร์

โทรศัพท์ทุกเครื่องและแท็บเล็ต Apple ส่วนใหญ่ตั้งแต่ iPhone 6s มีโปรเซสเซอร์ที่ใช้พลังงานต่ำและเปิดตลอดเวลา ซึ่งจะคอยฟังวลีสำคัญ "หวัดดี Siri" อย่างต่อเนื่อง นั่นคือทั้งหมดที่ชิปนี้ทำ ตัวประมวลผลการรู้จำเสียงนี้ใช้โครงข่ายประสาทเทียมที่เลียนแบบเค้าโครงของสมองที่มีชีวิต

NS วารสารการเรียนรู้ของเครื่อง บทความเกี่ยวกับ “หวัดดี Siri” เท่านั้น เพราะการรู้จำเสียงพูดของ Siri ทั้งหมดนั้นทำบนเซิร์ฟเวอร์ นั่นเป็นกระบวนการที่แตกต่างไปจากเดิมอย่างสิ้นเชิง และสิ่งหนึ่งที่ มีปัญหาเต็มไปหมด. ถึงกระนั้น Apple ก็ยังเป็น ในการจ้างงาน เพื่อแก้ไข

ทำไมต้อง “หวัดดีสิริ”?

Apple เลือกวลีสำคัญเพราะสั้นและพูดง่าย ระบบรู้จำเสียงของ Siri เปิดตัวครั้งแรกบน iPhone 4S เมื่อหลายปีก่อน แต่ต้องกดปุ่มโฮมเพื่อเปิดใช้งาน ตามที่ Apple บอก หลายคนเริ่มส่งคำขอด้วยคำว่า “หวัดดี Siri” ก่อนที่วลีนี้จะมีบทบาท

ด้านลบคือช่วงสำคัญนี้คล้ายกับวลีอื่นๆ เช่น “คุณจริงจังไหม” โปรเซสเซอร์เฉพาะของ iPhone ยังต้องรับมือกับคนอื่นๆ ที่กำลังพูดคุยอยู่ใกล้ๆ ซึ่งบางคนอาจกำลังคุยกับ iPhone ของตัวเองอยู่

ตามวันนี้ วารสารการเรียนรู้ของเครื่อง บทความชิปจะเลือกวลี "หวัดดี Siri" ก่อนจากสิ่งที่ได้ยิน จากนั้นจะตรวจสอบว่าวลีนั้นพูดโดยบุคคลที่ได้รับการฝึกฝนให้ฟังหรือไม่

โปรเซสเซอร์เปลี่ยนเสียงเป็นเวกเตอร์ 13 มิติเพื่อให้รู้ว่ามีคนพูดว่า "หวัดดี Siri" จากนั้นจะแปลงเสียงเป็นเวกเตอร์ 442 มิติเพื่อดูว่าผู้พูดที่ถูกต้องพูดวลีสำคัญหรือไม่

Apple โพสต์รายละเอียดเกี่ยวกับวิธีการเลือกวลีที่สำคัญทั้งหมดออกจากอากาศใน วารสารการเรียนรู้ของเครื่อง บทความในเดือนตุลาคม โพสต์ล่าสุดกล่าวถึงชิปประสาทเรียนรู้ที่จะจดจำเจ้าของได้อย่างไร

อบรม “หวัดดีสิริ”

ทุกคนจำได้ว่าต้องฝึก iPhone ให้จำเสียงของตัวเองโดยพูดว่า "หวัดดี Siri" หลายๆ ครั้ง นี้เรียกว่าการลงทะเบียนที่ชัดเจน

สิ่งที่น้อยคนนักจะรู้ก็คือระบบยังคงเรียนรู้ว่าเสียงของพวกเขาเป็นอย่างไรหลังจากการฝึก เนื่องจากเซสชั่นนี้ทำเกือบทุกครั้งภายใต้สภาวะที่เหมาะสม ในขณะที่ iPhone ต้องเรียนรู้ที่จะจดจำ “หวัดดี Siri” ด้วยเสียงรบกวนรอบข้างทุกประเภท หลังจากการฝึกอบรมอย่างเป็นทางการสิ้นสุดลง ทุกการใช้ “หวัดดี Siri” จะถูกใช้เพื่อเรียนรู้เพิ่มเติม

ดังนั้น พยายามอย่าให้คนอื่นพูดว่า “หวัดดี Siri” ใกล้ iPhone ของคุณในขณะที่เครื่องยังเรียนรู้เสียงของคุณอยู่

เรื่องความเป็นส่วนตัว

Apple ตั้งตัวเองเป็นงานที่ยากเมื่อตัดสินใจที่จะทำการจดจำเสียงโดยตรงบนสมาร์ทโฟน แต่ทางเลือกอื่นคือส่งการบันทึกทุกอย่างที่พูดไว้ใกล้กับ iPhone ไปยังเซิร์ฟเวอร์ระยะไกลเพื่อจดจำวลีสำคัญ Apple จะไม่เปลี่ยนอุปกรณ์ให้เป็นสายลับ

แน่นอนว่านั่นไม่ได้รบกวนอเมซอน นั่นคือวิธีที่อุปกรณ์ Echo ทำการรู้จำเสียงพูดทั้งหมด

โพสต์บล็อกล่าสุด

| ลัทธิ Mac
September 11, 2021

เรียกใช้ Windows บน Mac ของคุณราวกับว่าเป็นพีซีที่มีส่วนลด CrossOver นี้CrossOver ให้คุณเรียกใช้แอพ Windows บน Mac ของคุณภาพถ่าย: “Cult of Mac Deal...

รับในขณะที่ยังอยู่ที่นี่
September 11, 2021

การตอบสนองที่เราได้รับสำหรับ Mac SuperBundle ฤดูใบไม้ร่วง 2011 นั้นยิ่งใหญ่มาก เราดีใจมากที่ทุกคนสนุกกับข้อเสนอสุดพิเศษนี้ น่าเสียดายที่ดีลนี้จะสิ้...

โปรแกรมตัดต่อวิดีโอ Camtasia เพิ่มการรองรับหน้าจอสีเขียวและอื่น ๆ
September 11, 2021

Camtasiaตัวแก้ไขวิดีโอและ screencast สำหรับ OS X ได้รับการอัปเดตด้วยคุณสมบัติใหม่ที่มีประโยชน์สองอย่าง: ลบสี และปรับความเร็วของคลิปลบสีหมายความว่าค...