intTypePromotion=3

KHỬ BỎ NHẬP NHẰNG TRONG BÀI TOÁN TÁCH TỪ TIẾNG LÀO

Chia sẻ: Sunshine_6 Sunshine_6 | Ngày: | Loại File: PDF | Số trang:1

0
76
lượt xem
6
download

KHỬ BỎ NHẬP NHẰNG TRONG BÀI TOÁN TÁCH TỪ TIẾNG LÀO

Mô tả tài liệu
  Download Vui lòng tải xuống để xem tài liệu đầy đủ

Trong xử lý tự nhiên (XLNNTN), thường gặp bài toán tách từ trong phân loại văn bản tự động, hay phân tích, dịch thuật văn bản… Do cách viết tiếng Lào không dùng dấu cách, hay ký hiệu phân biệt các từ trong câu, việc xác định ranh giới giữa các từ, cụm từ trở nên khó khăn hơn so với các ngôn ngữ có dấu cách từ rõ ràng như tiếng Anh, tiếng Việt…

Chủ đề:
Lưu

Nội dung Text: KHỬ BỎ NHẬP NHẰNG TRONG BÀI TOÁN TÁCH TỪ TIẾNG LÀO

  1. KHỬ BỎ NHẬP NHẰNG TRONG BÀI TOÁN TÁCH TỪ TIẾNG LÀO A DISAMBIGUATION METHOD FOR THE DOCUMENT SEGMENTATION OF THE LAO LANGUAGE Vilavong Souksan; Phan Huy Khánh Trường Đại học Bách Khoa; Dai hoc Champasak Lao phkhanh@dut.udn.vn; ssuchedu@yahoo.com TÓM TẮT Trong xử lý tự nhiên (XLNNTN), thường gặp bài toán tách từ trong phân loại văn bản tự động, hay phân tích, dịch thuật văn bản… Do cách viết tiếng Lào không dùng dấu cách, hay ký hiệu phân biệt các từ trong câu, việc xác định ranh giới giữa các từ, cụm từ trở nên khó khăn hơn so với các ngôn ngữ có dấu cách từ rõ ràng như tiếng Anh, tiếng Việt… Hơn nữa, hiện tượng nhập nhằng, đa nghĩa trong các ngôn ngữ nói chung, tiếng Lào nói riêng, cũng đặt ra những vấn đề cần giải quyết. Trên cơ sở đánh giá các phương pháp tách từ trong xử lý Tin học tiếng Lào, nội dung bài báo trình bày kết quả tìm hiểu các hiện tượng nhập nhằng trong tiếng Lào, bằng cách đối sánh với các hiện tượng nhập nhằng trong tiếng Việt, từ đó bài báo đề xuất giải pháp khử bỏ nhập nhằng trong tiến trình tách từ tiếng Lào để đạt được kết quả có độ chính xác tốt hơn so với các phương pháp tách từ tiếng Lào đã đề xuất trước đây. Từ khóa: nhập nhằng; phân loại văn bản; tách từ; xử lý ngôn ngữ tự nhiên; xử lý tiếng Lào ABSTRACT In the field of natural language processing (NLP), there is a problem of words segmentation in a sentence that is often applied to the automatic classification of documents, or in the analysis, the translation of the text... As the writing of the Lao language does not use spaces or separation symbols of words, the determination of boundaries between words in the sentences is more difficult than other languages such as English, Vietnamese language... Moreover, the phenomenon of ambiguity in natural language in general, especially in Laos language, also poses problems that need to be solved. At present, on the basis of the research status estimation of information technology applications in Lao and evaluation methods generally used for separating from texts in the application of natural language processing, the process of segmentation in the Lao language is particularly used by processing in the informatics language. In this study, the authors will present the findings of ambiguous phenomena in Lao comparing to the phenomena of ambiguity in Vietnamese and then propose solutions to eliminating ambiguity in the process of segmentation in the Lao language to achieve results with better accuracy than the Lao segmentation method proposed in the previous study. Keywords: ambiguous; documents classification; segmentation; natural language processing; Lao language processing

CÓ THỂ BẠN MUỐN DOWNLOAD

Đồng bộ tài khoản