วิดีโอ ทีมนักวิจัยในอินเดียได้คิดค้นระบบสำหรับแปลคำเป็นภาษาอื่น และทำให้ดูเหมือนว่าริมฝีปากของผู้พูดเคลื่อนไหวสอดคล้องกับภาษานั้น การแปลแบบตัวต่อตัวอัตโนมัติตามที่อธิบายไว้ในรายงานฉบับเดือนตุลาคม 2019 นี้ เป็นความก้าวหน้าเหนือการแปลแบบข้อความเป็นข้อความหรือแบบคำพูดเป็นคำพูด เพราะไม่เพียงแปลคำพูด เท่านั้น แต่ยังให้ภาพใบหน้าที่ประสานริมฝีปากด้วย เพื่อให้เข้าใจถึงวิธีการทำงาน โปรดดูวิดีโอสาธิตด้านล่าง
ซึ่งสร้างขึ้นโดยนักวิจัย ที่เครื่องหมาย 638 คุณจะเห็นคลิปวิดีโอของเจ้าหญิงไดอาน่าผู้ล่วงลับในการให้สัมภาษณ์กับนักข่าวมาร์ติน บาเชียร์ในปี 1995 โดยอธิบายว่า อยากจะเป็นราชินีในดวงใจของผู้คน ในหัวใจของผู้คน แต่ทำไม่ได้ ไม่เห็นว่าตัวเองจะเป็นราชินีของประเทศนี้ สักครู่ต่อมา คุณจะเห็นพูดคำพูดเดียวกันนี้เป็น ภาษาฮินดี พร้อมกับขยับริมฝีปากราวกับว่าพูดภาษา นั้นจริงๆปรัชวาลนักศึกษาระดับบัณฑิตศึกษาสาขาวิทยาการคอมพิวเตอร์ที่สถาบันเทคโนโลยี
สารสนเทศระหว่างประเทศ ในเมืองไฮเดอราบัด ประเทศอินเดีย อธิบายผ่านอีเมลว่าการสื่อสารอย่างมีประสิทธิภาพข้ามอุปสรรคทางภาษาเป็นแรงบันดาลใจหลักสำหรับมนุษย์ทั่วโลกมาโดยตลอด เขาเป็นผู้เขียนหลักร่วมกับรุทรภา มุกโฆปะธียเพื่อนร่วมงาน ทุกวันนี้ อินเทอร์เน็ตเต็มไปด้วยวิดีโอใบหน้าพูดได้อัปโหลด 300 ชั่วโมงต่อวัน การบรรยายออนไลน์ การประชุมทางวิดีโอ ภาพยนตร์ รายการทีวี และอื่นๆปรัชวาล ซึ่งใช้ชื่อนี้เขียน ระบบการแปลปัจจุบัน
สามารถสร้างเอาต์พุตเสียงพูดที่แปลแล้ว หรือคำบรรยายที่เป็นข้อความสำหรับเนื้อหาวิดีโอดังกล่าวเท่านั้น ระบบไม่สามารถจัดการองค์ประกอบภาพได้ ด้วยเหตุนี้ คำพูดที่แปลเมื่อวางซ้อนบนวิดีโอ การเคลื่อนไหวของริมฝีปากจะไม่ซิงค์กับ เสียงดังนั้นจึงสร้างระบบการแปลจากคำพูดเป็นคำพูด และเสนอไปป์ไลน์ที่สามารถถ่ายวิดีโอของบุคคลที่พูด ในภาษาต้นฉบับและส่งออกวิดีโอของผู้พูดคนเดียวกัน ที่พูดในภาษาเป้าหมายในลักษณะของเสียง
และการเคลื่อนไหวของริมฝีปากตรง กับคำพูดของภาษาเป้าหมายปรัชวาลกล่าว ด้วยการทำเช่นนั้น ระบบการแปลจะกลายเป็นองค์รวม และดังที่แสดงโดยการประเมินโดยมนุษย์ในบทความนี้ ปรับปรุงประสบการณ์ของผู้ใช้อย่างมากในการสร้างและบริโภคเนื้อหาภาพและ เสียงที่แปลแล้ว การแปลแบบตัวต่อตัวต้องใช้ความสามารถที่ซับซ้อนหลายอย่าง จากวิดีโอที่มีคนพูด มีสตรีมข้อมูลหลักสองกระแสที่ต้องแปล ข้อมูลภาพและเสียงพูด
เขาอธิบาย ทำสิ่งนี้สำเร็จในขั้นตอนสำคัญหลายขั้นตอน ระบบจะถอดความประโยคในสุนทรพจน์ก่อนโดยใช้การรู้จำเสียงอัตโนมัติ ซึ่งเป็นเทคโนโลยีเดียวกับที่ใช้ในระบบสั่งงานด้วยเสียง ในอุปกรณ์เคลื่อนที่ ถัดไป ประโยคที่คัดลอกจะถูกแปลเป็นภาษาที่ต้องการโดยใช้โมเดล การแปลเครื่องประสาทจากนั้นการแปลจะถูกแปลงเป็นคำที่พูดด้วยซินธิไซเซอร์แปลงข้อความเป็นคำพูด ซึ่งเป็นเทคโนโลยีเดียวกับที่ผู้ช่วยดิจิทัลใช้
สุดท้าย เทคโนโลยีที่เรียกว่า LipGAN แก้ไขการเคลื่อนไหวของริมฝีปากในวิดีโอต้นฉบับให้ตรงกับคำพูดที่แปล ดังนั้นจึงได้วิดีโอที่แปลอย่างสมบูรณ์พร้อมการซิงโครไนซ์ริมฝีปากด้วยปรัชวาลอธิบาย LipGAN เป็นผลงานที่แปลกใหม่ที่สำคัญในบทความ นี่คือสิ่งที่นำรูปแบบการแสดงภาพมาสู่ภาพ เป็นสิ่งสำคัญที่สุดเนื่องจากแก้ไขการซิงโครไนซ์ริมฝีปากในวิดีโอสุดท้าย ซึ่งช่วยปรับปรุงประสบการณ์ของผู้ใช้อย่างมีนัยสำคัญ เจตนาไม่ใช่การหลอกลวง
แต่เป็นการแบ่งปันความรู้ บทความที่เผยแพร่เมื่อวันที่ 24 มกราคม 2020 ในนักวิทยาศาสตร์ใหม่อธิบายถึงความก้าวหน้านี้ว่า ดีพเฟค ซึ่งเป็นคำที่ใช้เรียก วิดีโอ ที่มีการเปลี่ยนใบหน้าหรือเปลี่ยนแปลงแบบดิจิทัลด้วยความช่วยเหลือของปัญญาประดิษฐ์ ซึ่งมักจะสร้างความประทับใจที่เข้าใจผิดเช่นเรื่องนี้ บีบีซี อธิบาย แต่ปรัชวาลยืนยันว่านั่นเป็นการแสดงภาพที่ไม่ถูกต้องของการแปลแบบตัวต่อตัว ซึ่งไม่ได้มีเจตนาที่จะหลอกลวง แต่เพื่อทำให้คำพูดที่แปลแล้วง่ายต่อการติดตาม
งานมีเป้าหมายหลักที่การขยายขอบเขตของระบบการแปลที่มีอยู่เพื่อจัดการเนื้อหาวิดีโอ เขาอธิบาย นี่คือซอฟต์แวร์ที่สร้างขึ้นโดยมีแรงจูงใจในการปรับปรุง ประสบการณ์ของผู้ใช้และทลายกำแพงด้านภาษาในเนื้อหาวิดีโอ ซอฟต์แวร์นี้เปิดแอปพลิเคชันที่หลากหลายและปรับปรุงการเข้าถึงวิดีโอหลายล้านรายการทางออนไลน์ ความท้าทายที่ใหญ่ที่สุดในการแปลแบบตัวต่อตัวคือโมดูลการสร้างใบหน้า วิธีการสร้างวิดีโอลิปซิงค์ในปัจจุบัน
ไม่สามารถสร้างใบหน้าตามท่าทางที่ต้องการได้ ทำให้วางใบหน้าที่สร้างขึ้นลงในวิดีโอเป้าหมายได้ยากปรัชวาลกล่าว รวมการ โพสต์ท่าก่อน เป็นอินพุตสำหรับโมเดล LipGAN และด้วยเหตุนี้ สามารถสร้างใบหน้าที่ทำการลิปซิงค์ได้อย่างแม่นยำในท่าทางเป้าหมายที่ต้องการ ซึ่งสามารถผสมผสานเข้ากับวิดีโอเป้าหมายได้อย่างลงตัว นักวิจัยมองเห็นว่าการแปลแบบตัวต่อตัวถูกนำมาใช้ในการแปลภาพยนตร์และการสนทนาทางวิดีโอระหว่างคนสองคนที่พูดคนละภาษา
การทำให้ตัวละครดิจิทัลร้องเพลง พูดในภาพยนตร์การ์ตูนได้แสดงให้เห็นในวิดีโอด้วยปรัชวาลกล่าว นอกจากนี้ เขาคาดการณ์ถึงระบบที่ใช้เพื่อช่วยให้นักเรียนทั่วโลกเข้าใจวิดีโอบรรยายออนไลน์ในภาษาอื่นๆนักเรียนภาษาต่างประเทศหลายล้านคนทั่วโลกไม่สามารถเข้าใจเนื้อหาการศึกษาที่ยอดเยี่ยมที่มีให้ทางออนไลน์ได้ เพราะเป็นภาษาอังกฤษ เขาอธิบายนอกจากนี้ในประเทศอย่างอินเดียที่มีภาษาราชการ 22 ภาษา ระบบสามารถแปลเนื้อหาข่าวโทรทัศน์
เป็นภาษาท้องถิ่นต่างๆได้ในอนาคตด้วยการลิปซิงค์ของผู้ประกาศข่าวที่แม่นยำ รายการแอปพลิเคชันจึงใช้กับการพูดคุยประเภทใดก็ได้ เผชิญกับเนื้อหาวิดีโอที่ต้องเข้าถึงได้มากขึ้นในภาษาต่างๆ แม้ว่าปรัชวาลและเพื่อนร่วมงานตั้งใจให้ความก้าวหน้าถูกนำมาใช้ในทางบวก แต่ความสามารถในการใส่คำต่างประเทศในปากของผู้พูดนั้นเกี่ยวข้องกับผู้เชี่ยวชาญด้านความปลอดภัยทางไซเบอร์ที่มีชื่อเสียงของสหรัฐคนหนึ่ง ซึ่งกลัวว่าวิดีโอที่ถูกดัดแปลง
จะตรวจจับได้ยากขึ้นเรื่อยๆ ถ้าคุณดูวิดีโอ คุณจะบอกได้เลยว่าคุณมองใกล้ๆปากมีความพร่ามัวอยู่บ้าง แอนน์ ทูมีย์ แมคเคนนานักวิชาการด้านกฎหมายไซเบอร์และนโยบายแห่งมหาวิทยาลัยเพนน์สเตตดิกคินสันลอว์ และศาสตราจารย์แห่ง สถาบันของมหาวิทยาลัยกล่าวสำหรับวิทยาการคำนวณและข้อมูลในการสัมภาษณ์ทางอีเมล สิ่งนี้จะยังคงถูกย่อให้เหลือน้อยที่สุดเมื่ออัลกอริธึมยังคงปรับปรุงต่อไป ซึ่งจะมองเห็นได้น้อยลงในสายตามนุษย์
ตัวอย่างเช่น จินตนาการว่าวิดีโอดัดแปลงของราเชล แมดโดว์ผู้วิจารณ์ MSNBC อาจถูกใช้เพื่อโน้มน้าวการเลือกตั้งในประเทศอื่นๆโดยการถ่ายทอดข้อมูลที่ไม่ถูกต้องและตรงข้ามกับที่พูด กังวลเกี่ยวกับการใช้วิดีโอที่ถูกดัดแปลงในทางที่ผิดเช่นกัน แต่คิดว่าสามารถพัฒนามาตรการป้องกันเพื่อป้องกันสถานการณ์ดังกล่าวได้ และศักยภาพเชิงบวกในการเพิ่มความเข้าใจระหว่างประเทศมีมากกว่าความเสี่ยงของการแปลแบบเห็นหน้ากันโดยอัตโนมัติ
ในด้านที่เป็นประโยชน์บล็อกโพสต์นี้ แสดงให้เห็นการแปลสุนทรพจน์ของเกรตา ธันเบิร์กในการประชุมสุดยอดด้านสภาพอากาศของสหประชาชาติในเดือนกันยายน 2019 เป็นภาษาต่างๆที่ใช้ในอินเดีย เทคโนโลยีอันทรงพลังทุกชิ้นสามารถนำไปใช้ประโยชน์ได้อย่างมหาศาล และยังส่งผลเสียอีกด้วย งานคือระบบการแปลที่สามารถจัดการเนื้อหาวิดีโอได้ เนื้อหาที่แปลโดยอัลกอริทึมนั้นไม่จริงแน่นอน แต่เนื้อหาที่แปลนี้จำเป็นสำหรับผู้ที่ไม่เข้าใจภาษาใดภาษาหนึ่ง
นอกจากนี้ ในปัจจุบันขั้นตอนเนื้อหาที่แปลโดยอัตโนมัติดังกล่าวสามารถจดจำได้ง่ายโดยอัลกอริทึมและผู้ชม พร้อมกันนี้ การวิจัยเชิงรุกกำลังดำเนินการเพื่อรับรู้เนื้อหาที่เปลี่ยนแปลงดังกล่าว เชื่อว่าความพยายามร่วมกันในการใช้อย่างรับผิดชอบ กฎระเบียบที่เข้มงวด อนาคตสำหรับเทคโนโลยีนี้
นานาสาระ : เลี้ยงเด็กเล็ก คำแนะนำและวิธีการสำหรับเด็กจากปู่ย่าตายายที่ชาญฉลาด