Vừa qua, những nhà khoa học tại phòng nghiên cứu ở Mỹ và châu Á của Microsoft đã đạt được thành quả bất ngờ khi đưa hệ thống dịch tự động tham gia chương trình dịch các bài báo newstest2017. Theo đó, hệ thống dịch tự động của Microsoft được xác nhận có khả năng dịch chính xác như con người.
Xuedong Huang, nghiên cứu kỹ thuật phụ trách mảng lời nói, ngôn ngữ tự nhiên và dịch tự động của Microsoft. (Ảnh: Scott Eklund/Red Box Pictures)
Xuedong Huang, nhà nghiên cứu kỹ thuật phụ trách mảng lời nói, ngôn ngữ tự nhiên và dịch thuật tự động của Microsoft, gọi đây là một cột mốc quan trọng của một trong những quy trình xử lý ngôn ngữ tự nhiên phức tạp nhất. “Đạt được sự tương đồng với con người trong việc dịch tự động là ước mơ của tất cả chúng tôi”, Huang bày tỏ.
Huang cũng là người dẫn đầu nhóm nghiên cứu gần đây đạt được hiệu quả nhận diện giọng nói hội thoại tương đồng như con người. Ông chia sẻ rằng, cột mốc dịch thuật này đặc biệt đáng ghi nhớ vì khả năng giúp con người hiểu nhau tốt hơn. “Giúp xóa bỏ rào cản ngôn ngữ và mang con người lại gần với nhau hơn là điều rất tuyệt,” ông nói.
Dịch tự động là một vấn đề mà các chuyên gia đã nghiên cứu hàng thập kỷ. Trong suốt thời gian qua, nhiều người tin việc dịch tự động tương đương với con người là không bao giờ đạt được. Tuy nhiên, đạt được cột mốc này không có nghĩa là những thách thức của việc dịch tự động đã được giải quyết.
Ming Zhou - Phó Giám đốc khối Nghiên cứu Microsoft châu Á và là trưởng bộ phận xử lý ngôn ngữ tự nhiên cùng làm việc trong dự án, nói rằng nhóm rất vui mừng khi đạt được cột mốc dịch tự động tương đồng với con người trên bộ dữ liệu; nhưng vẫn còn nhiều khó khăn phía trước, như thử nghiệm hệ thống trên các tin tức theo thời gian thực.
Arul Menezes, Giám đốc Quản lý đối tác nghiên cứu của nhóm dịch tự động tại Microsoft cho biết, nhóm nghiên cứu có thể áp dụng những kỹ thuật mà họ đã làm được trong dự án này cho các sản phẩm thương mại về dịch thuật đa ngôn ngữ. Đây là khởi đầu cho các công cụ dịch thuật chính xác và tự nhiên hơn giữa các ngôn ngữ và những đoạn văn có các từ vựng phức tạp.
Để đạt được sự tương đồng như trên, ba nhóm nghiên cứu của Microsoft Bắc Kinh, Redmond vàWashington đã làm việc cùng nhau, bổ sung các phương pháp đào tạo mới, giúp hệ thống dịch thuật dần trôi chảy và chính xác. Trong nhiều trường hợp, những phương pháp mới bắt chước cách con người học việc bằng cách lặp đi lặp lại, thực hiện nhiều lần đến khi làm được.
Một phương pháp mà họ sử dụng là học kép. Đây là cách kiểm tra thực tế kết quả làm việc của hệ thống: Mỗi lần họ gửi một câu qua hệ thống để dịch từ tiếng Trung sang tiếng Anh, nhóm nghiên cứu cũng dịch ngược lại từ tiếng Anh sang tiếng Trung. Việc này tương tự với những gì người ta hay làm để đảm bảo độ chính xác của việc dịch thuật tự động, đồng thời cho phép hệ thống tái xác định và học hỏi từ lỗi sai.
Một phương pháp khác được gọi là hệ thống cân nhắc, tương tự với cách con người hiệu chỉnh và sửa bài viết của mình bằng cách đọc đi đọc lại nhiều lần. Những nhà nghiên cứu dạy cho hệ thống lặp lại quy trình dịch cùng một câu nhiều lần, từ đó dần hiệu chỉnh và cải thiện dịch thuật.
Những nhà nghiên cứu cũng phát triển hai kỹ thuật mới để cải thiện độ chính xác của việc dịch thuật. Một kỹ thuật gọi là đào tạo kết hợp, được sử dụng để liên tục thúc đẩy các hệ thống dịch tiếng Anh sang Trung và ngược lại. Với phương pháp này, hệ thống dịch Anh - Trung thực hiện dịch câu tiếng Anh sang Trung để có được một cặp câu. Sau đó, chúng được bổ sung vào bộ dữ liệu đào tạo, dịch ngược lại từ tiếng Trung sang Anh. Quy trình giống y sau đó được áp dụng, khi đó, kết quả dịch của hai hệ thống dần được cải thiện hơn.
Một kỹ thuật mới nữa gọi là quy tắc hóa thỏa thuận. Với phương pháp này, dịch thuật được thực hiện từ trái sang phải và phải sang trái. Khi kết quả càng giống nhau thì độ chính xác càng được đánh giá cao. Phương pháp này dùng để khuyến khích hệ thống đưa ra các mẫu dịch tương đồng hơn.
Bộ tài liệu kiểm tra mà nhóm đã dùng để đạt được mốc tương đương với con người này gồm khoảng 2.000 câu, lấy từ các báo mạng đã được dịch chuyên nghiệp. Microsoft thực hiện nhiều vòng đánh giá trên bộ kiểm tra này, ngẫu nhiên chọn hàng trăm đoạn dịch để đánh giá mỗi lần. Mặc dù đã vượt các yêu cầu của bộ kiểm tra, để xác minh chất lượng thực sự của bộ máy dịch thuật tự động, Microsoft còn thuê một nhóm các chuyên gia ngôn ngữ từ bên ngoài để so sánh kết quả của Microsoft với nội dung dịch thủ công bởi con người.