เข้าสู่ 'หวัดดี Siri' มากกว่าที่คุณคิด
![เข้าสู่ 'หวัดดี Siri' มากกว่าที่คุณคิด Siri Alexa ในรายงานเสียง](/f/6566171dbe2a32ac7216aa1ae2ce80d6.jpeg)
ภาพถ่าย: “Apple”
การให้ iPhone ของคุณตอบสนองต่อ "หวัดดี Siri" ดูเหมือนจะเป็นเรื่องง่ายๆ แต่จริงๆ แล้วค่อนข้างซับซ้อน การจดจำรหัสวลีนี้และบุคคลที่พูดเป็นสิ่งสำคัญสำหรับระบบรู้จำเสียงพูดของ Apple
โพสต์ใน Apple's วารสารการเรียนรู้ของเครื่อง เพิ่งเผยแพร่ในวันนี้ อธิบายถึงความท้าทายมากมายที่นักพัฒนาซอฟต์แวร์เอาชนะได้เพื่อให้งานนี้สำเร็จ
ปัญหาแทรกซ้อนประการหนึ่งคือการรู้จัก "หวัดดี Siri" บน iPhone หรือ iPad การรู้จำคำพูดของ Siri ส่วนใหญ่ทำได้โดยการอัปโหลดคำของผู้ใช้ไปยังเซิร์ฟเวอร์ระยะไกล แต่จะเริ่มต้นก็ต่อเมื่อโทรศัพท์รู้จักวลี "หวัดดี Siri" เท่านั้น ความมุ่งมั่นของ Apple ในเรื่องความเป็นส่วนตัวทำให้ iPhone ไม่สามารถส่งทุกอย่างที่ได้ยินไปยังเซิร์ฟเวอร์
โทรศัพท์ทุกเครื่องและแท็บเล็ต Apple ส่วนใหญ่ตั้งแต่ iPhone 6s มีโปรเซสเซอร์ที่ใช้พลังงานต่ำและเปิดตลอดเวลา ซึ่งจะคอยฟังวลีสำคัญ "หวัดดี Siri" อย่างต่อเนื่อง นั่นคือทั้งหมดที่ชิปนี้ทำ ตัวประมวลผลการรู้จำเสียงนี้ใช้โครงข่ายประสาทเทียมที่เลียนแบบเค้าโครงของสมองที่มีชีวิต
NS วารสารการเรียนรู้ของเครื่อง บทความเกี่ยวกับ “หวัดดี Siri” เท่านั้น เพราะการรู้จำเสียงพูดของ Siri ทั้งหมดนั้นทำบนเซิร์ฟเวอร์ นั่นเป็นกระบวนการที่แตกต่างไปจากเดิมอย่างสิ้นเชิง และสิ่งหนึ่งที่ มีปัญหาเต็มไปหมด. ถึงกระนั้น Apple ก็ยังเป็น ในการจ้างงาน เพื่อแก้ไข
ทำไมต้อง “หวัดดีสิริ”?
Apple เลือกวลีสำคัญเพราะสั้นและพูดง่าย ระบบรู้จำเสียงของ Siri เปิดตัวครั้งแรกบน iPhone 4S เมื่อหลายปีก่อน แต่ต้องกดปุ่มโฮมเพื่อเปิดใช้งาน ตามที่ Apple บอก หลายคนเริ่มส่งคำขอด้วยคำว่า “หวัดดี Siri” ก่อนที่วลีนี้จะมีบทบาท
ด้านลบคือช่วงสำคัญนี้คล้ายกับวลีอื่นๆ เช่น “คุณจริงจังไหม” โปรเซสเซอร์เฉพาะของ iPhone ยังต้องรับมือกับคนอื่นๆ ที่กำลังพูดคุยอยู่ใกล้ๆ ซึ่งบางคนอาจกำลังคุยกับ iPhone ของตัวเองอยู่
ตามวันนี้ วารสารการเรียนรู้ของเครื่อง บทความชิปจะเลือกวลี "หวัดดี Siri" ก่อนจากสิ่งที่ได้ยิน จากนั้นจะตรวจสอบว่าวลีนั้นพูดโดยบุคคลที่ได้รับการฝึกฝนให้ฟังหรือไม่
โปรเซสเซอร์เปลี่ยนเสียงเป็นเวกเตอร์ 13 มิติเพื่อให้รู้ว่ามีคนพูดว่า "หวัดดี Siri" จากนั้นจะแปลงเสียงเป็นเวกเตอร์ 442 มิติเพื่อดูว่าผู้พูดที่ถูกต้องพูดวลีสำคัญหรือไม่
Apple โพสต์รายละเอียดเกี่ยวกับวิธีการเลือกวลีที่สำคัญทั้งหมดออกจากอากาศใน วารสารการเรียนรู้ของเครื่อง บทความในเดือนตุลาคม โพสต์ล่าสุดกล่าวถึงชิปประสาทเรียนรู้ที่จะจดจำเจ้าของได้อย่างไร
อบรม “หวัดดีสิริ”
ทุกคนจำได้ว่าต้องฝึก iPhone ให้จำเสียงของตัวเองโดยพูดว่า "หวัดดี Siri" หลายๆ ครั้ง นี้เรียกว่าการลงทะเบียนที่ชัดเจน
สิ่งที่น้อยคนนักจะรู้ก็คือระบบยังคงเรียนรู้ว่าเสียงของพวกเขาเป็นอย่างไรหลังจากการฝึก เนื่องจากเซสชั่นนี้ทำเกือบทุกครั้งภายใต้สภาวะที่เหมาะสม ในขณะที่ iPhone ต้องเรียนรู้ที่จะจดจำ “หวัดดี Siri” ด้วยเสียงรบกวนรอบข้างทุกประเภท หลังจากการฝึกอบรมอย่างเป็นทางการสิ้นสุดลง ทุกการใช้ “หวัดดี Siri” จะถูกใช้เพื่อเรียนรู้เพิ่มเติม
ดังนั้น พยายามอย่าให้คนอื่นพูดว่า “หวัดดี Siri” ใกล้ iPhone ของคุณในขณะที่เครื่องยังเรียนรู้เสียงของคุณอยู่
เรื่องความเป็นส่วนตัว
Apple ตั้งตัวเองเป็นงานที่ยากเมื่อตัดสินใจที่จะทำการจดจำเสียงโดยตรงบนสมาร์ทโฟน แต่ทางเลือกอื่นคือส่งการบันทึกทุกอย่างที่พูดไว้ใกล้กับ iPhone ไปยังเซิร์ฟเวอร์ระยะไกลเพื่อจดจำวลีสำคัญ Apple จะไม่เปลี่ยนอุปกรณ์ให้เป็นสายลับ
แน่นอนว่านั่นไม่ได้รบกวนอเมซอน นั่นคือวิธีที่อุปกรณ์ Echo ทำการรู้จำเสียงพูดทั้งหมด