กูเกิลแจกชุดคู่ข้อความคล้ายกันแต่ต่างความหมาย ไว้ฝึก AI

Google แจกชุดข้อมูลคู่ข้อความคล้ายกัน แต่ต่างความหมาย เช่น "เที่ยวบินนิวยอร์ค-ฟลอริดา" กับ "เที่ยวบินไปนิวยอร์ค จากฟลอริดา" ไว้ฝึก AI ให้เข้าใจภาษาอังกฤษและอีก 6 ภาษาได้ดีขึ้น

เอไอจะทำงานได้ ต้องมีชุดข้อมูลมากๆไว้ฝึก (train)  …และล่าสุด Google แจกชุดข้อมูลคู่ข้อความคล้ายกัน แต่ต่างความหมาย หรือ Paraphrase Adversaries from Word Scrambling (PAWS) เช่น “เที่ยวบินนิวยอร์ค-ฟลอริดา” กับ “เที่ยวบินไปนิวยอร์ค จากฟลอริดา”  เป็นต้น

 

ซึ่ง 2 ข้อความนี้ ถ้าระบบ ai เทียบง่ายๆว่ามีคำเหมือนกันแทบทั้งหมด  และลำดับก่อนหลังก็เหมือนกันด้วย  ก็อาจตีความผิดว่ามีความหมายเดียวกัน  ทั้งที่จริงแล้วตรงกันข้าม

 

ชุดข้อมูลที่แจกครั้งนี้ มีกว่า 1.6 แสนข้อความภาษาอังกฤษ  และอีกกว่า 4 พันข้อความภาษาอื่นๆรวมหกภาษา  คือ ฝรั่งเศส, สเปน, เยอรมัน, จีน, ญี่ปุ่น, และเกาหลี

 

ทีมงานอ้างอิงผลวิจัยของตัวเอง พบว่าถ้าใช้ชุดข้อความนี้แล้ว  เอไอจะทำงานแม่นยำขึ้นจากเดิมราว 33% ขึ้นมาเป็น 85% ในการเข้าใจภาษาอังกฤษ, ฝรั่งเศส, สเปน, เยอรมัน, จีน, ญี่ปุ่น, และเกาหลี ส่วนภาษาอื่นๆยังต้องรอต่อไป
 ข่าวจาก
  ai.googleblog.com/2019/10/releasing-paws-and-paws-x-two-new.html