เคยอยู่ในสถานการณ์ที่มือไม่ว่างแต่พูดออกไปไม่ได้ สิริ ผู้ช่วยเสียงด้วย? อาจมีกล้องมาที่เข้าใจคำสั่งเสียงของคุณแม้ว่าคุณจะไม่ได้ส่งเสียงก็ตาม
นักวิจัยจากมหาวิทยาลัยคอร์เนลล์สองคนได้สร้างกล้องอัจฉริยะอินฟราเรดแบบสวมใส่ได้ ซึ่งตรวจจับคำสั่งเสียงไม่ใช่ด้วยเสียง แต่โดยการวัดการเคลื่อนไหวที่คอและใบหน้าจากใต้คาง
กล้องอัจฉริยะที่สวมใส่ได้พร้อมการตรวจจับคำพูดไร้เสียง
นักวิจัยทั้งสองขนานนามกล้องที่สวมใส่ได้ “SpeeChin” พวกเขาคือ Cheng Zhang ผู้ช่วยศาสตราจารย์ด้านวิทยาการสารสนเทศใน Cornell Ann S. Bowers College of Computing and Information Science และ Cornell นักศึกษาปริญญาเอก Ruidong Zhang
พวกเขากล่าวว่าเป็นอุปกรณ์รู้จำเสียงพูดเงียบแบบสร้อยคอเครื่องแรกที่สามารถตรวจจับคำสั่งเสียงเงียบ 54 คำในภาษาอังกฤษและ 44 รายการในภาษาจีน
“ลองนึกภาพเมื่อมือของคุณว่างหรือคุณเพียงแค่ไม่ต้องการเอื้อมมือไปแตะอุปกรณ์อัจฉริยะของคุณเพื่อโต้ตอบกับมัน คุณอาจต้องการใช้การควบคุมด้วยเสียง” ผู้ช่วยศาสตราจารย์ Zhang กล่าว “อย่างไรก็ตาม หากคุณอยู่ในที่ที่มีเสียงดังหรือในที่ประชุม การควบคุมด้วยเสียงจะไม่มีประสิทธิภาพหรือไม่เหมาะสมทางสังคม นี่คือที่มาของคำพูดเงียบ ๆ "
กล้องอินฟราเรดแบบติดคอของ SpeeChin จับการเคลื่อนไหวของคางจากด้านล่าง แม้จะไม่มีเสียงที่ได้ยิน แต่ก็สามารถกำหนดคำพูดได้
แม้ว่าจะสวมรอบคออย่างละเอียดกว่าในตำแหน่งที่ติดตั้งไว้ข้างหน้าใกล้กับใบหน้าของผู้พูด แต่ กล้องไม่ควรทำให้เกิดความกังวลเรื่องความเป็นส่วนตัวเพราะอยู่ในมุมที่ไม่สามารถจับภาพของคนอื่นได้ ใบหน้า
ความน่าเชื่อถือสูง แต่ภายใต้เงื่อนไขบางประการเท่านั้น
Gizmodoรายงาน ที่นักวิจัยทดสอบ SpeeChin กับผู้เข้าร่วม 20 คน เท็นพูด 54 วลีง่ายๆ รวมทั้งตัวเลขและคำสั่งผู้ช่วยเสียงทั่วไปเป็นภาษาอังกฤษ อีก 10 คนพูด 44 คำและวลีง่ายๆ ในภาษาจีนกลาง หลังจากได้รับการ "ฝึกฝน" กล้องสามารถจดจำคำสั่งในภาษาอังกฤษได้อย่างแม่นยำ 90.5% และภาษาจีนได้แม่นยำ 91.6%
แต่กล้องจะได้คะแนนสูงเมื่อผู้เข้าร่วมนั่งนิ่งเท่านั้น เมื่อพวกเขาเคลื่อนไหว ความน่าเชื่อถือในการจดจำลดลงตามรูปแบบการเดินและการเคลื่อนไหวของศีรษะ
ดูเหมือนว่าจะลดจำนวนสถานที่ที่สามารถใช้อุปกรณ์ SpeeChin ได้อย่างน่าเชื่อถือ นั่นคือ เว้นแต่จะมีการปรับปรุง เช่น การฝึกซ้อมที่ยาวนานขึ้นซึ่งรวมการเคลื่อนไหว หรือบางที อุปกรณ์กล้องขั้นสูงที่มีความละเอียดสูงและอัตราเฟรมที่สูงขึ้นสำหรับการตรวจจับที่มีรายละเอียดมากขึ้น