intTypePromotion=1
zunia.vn Tuyển sinh 2024 dành cho Gen-Z zunia.vn zunia.vn
ADSENSE

Kết hợp phân đoạn diễn ngôn với bộ phân tích cú pháp liên kết để phân tích câu ghép nhiều mệnh đề tiếng Việt

Chia sẻ: Nguyễn Minh Vũ | Ngày: | Loại File: PDF | Số trang:13

82
lượt xem
8
download
 
  Download Vui lòng tải xuống để xem tài liệu đầy đủ

Bài báo trình bày các kết quả đạt được khi mở rộng chức năng của bộ phân tích cú pháp liên kết tiếng Việt để phân tích các dạng câu ghép gồm nhiều mệnh đề. Các mệnh đề được phân tách dựa trên giải thuật phân đoạn diễn ngôn mức câu. Việc phân tích cú pháp riêng biệt từng mệnh đề rồi kết hợp lại thành phân tích tổng thể cho phép khử nhập nhằng liên hợp, đồng thời làm giảm độ phức tạp tính toán.

Chủ đề:
Lưu

Nội dung Text: Kết hợp phân đoạn diễn ngôn với bộ phân tích cú pháp liên kết để phân tích câu ghép nhiều mệnh đề tiếng Việt

Tạp chí Tin học và Điều khiển học, T.28, S.4 (2012), 297–309<br /> <br /> KẾT HỢP PHÂN ĐOẠN DIỄN NGÔN VỚI BỘ PHÂN TÍCH CÚ PHÁP<br /> LIÊN KẾT ĐỂ PHÂN TÍCH CÂU GHÉP NHIỀU MỆNH ĐỀ TIẾNG VIỆT<br /> NGUYỄN THỊ THU HƯƠNG1 , NGUYỄN THÚC HẢI1 , NGUYỄN THANH THỦY2<br /> 1 Trường<br /> <br /> 2 Trường<br /> <br /> Đại học Bách khoa Hà Nội<br /> Đại học Công nghệ - Đại học Quốc gia Hà Nội<br /> <br /> Tóm t t. Văn phạm liên kết là lý thuyết về cú pháp mà phân tích của mỗi câu là một tập các mối<br /> liên kết giữa các từ. Văn phạm liên kết tương tự như văn phạm phụ thuộc nhưng không định hướng<br /> mối quan hệ giữa các từ. Loại văn phạm này bao quát được hầu hết các đặc trưng cú pháp và từ<br /> pháp trong tiếng Việt. Bộ phân tích cú pháp liên kết cho phép phân tích câu đơn và câu ghép hai<br /> mệnh đề được xây dựng đã cho kết quả phân tích khá tốt. Bài báo trình bày các kết quả đạt được<br /> khi mở rộng chức năng của bộ phân tích cú pháp liên kết tiếng Việt để phân tích các dạng câu ghép<br /> gồm nhiều mệnh đề. Các mệnh đề được phân tách dựa trên giải thuật phân đoạn diễn ngôn mức câu.<br /> Việc phân tích cú pháp riêng biệt từng mệnh đề rồi kết hợp lại thành phân tích tổng thể cho phép<br /> khử nhập nhằng liên hợp, đồng thời làm giảm độ phức tạp tính toán.<br /> Abstract. Link grammar is a theory of syntax which builds relations between pairs of words, rather<br /> than constructing constituents in a tree-like hierarchy. Link grammar is similar to dependency grammar, but dependency grammar includes a head-dependent relationship, as well as lacking directionality in the relations between words. A link parser has been built for Vietnamese with acceptable results.<br /> In this paper, we propose an extended link parser with a new function to parse complex, compound<br /> and complex - compound sentences, except sentences with nested clauses. Sentences are segmented<br /> into clauses using discourse segmentation algorithm of sentence level. Parsing clauses separately is<br /> useful for coordination disambiguating and decreasing time complexity.<br /> <br /> Keywords. link grammar, link parser, complex sentence, compound sentence.<br /> <br /> 1.<br /> <br /> GIỚI THIỆU<br /> <br /> Trong văn bản tiếng Việt, câu chứa hai nòng cốt trở lên chiếm tỷ lệ rất cao. Việc phân<br /> tích cú pháp câu nhiều nòng cốt phức tạp hơn nhiều so với câu đơn. Với những loại câu gồm<br /> hai nòng cốt trở lên, tiếng Anh phân loại theo mối quan hệ giữa hai mệnh đề. Nếu mối quan<br /> hệ là song song (dùng các từ nối “and”, “or”, “not only... but also”...), câu được gọi là “câu<br /> ghép” (compound sentence). Nếu các mối liên hệ có tính chất chính-phụ (dùng các từ nối<br /> “if”,”then”, “because”... ), câu được gọi là “câu phức hợp” (complex sentence). Câu ghép phức<br /> hợp (complex-compound sentence) phức tạp hơn nhiều khi chứa ít nhất hai mệnh đề song<br /> song và ít nhất một mệnh đề phụ. Phân loại câu tiếng Việt có chút khác biệt so với tiếng Anh.<br /> Diệp Quang Ban[1] phân biệt câu ghép là câu chứa từ hai nòng cốt trở lên, trong đó không<br /> <br /> 298<br /> <br /> NGUYỄN THỊ THU HƯƠNG, NGUYỄN THÚC HẢI, NGUYỄN THANH THỦY<br /> <br /> nòng cốt nào bao nhau và câu phức chứa hai nòng cốt trở lên nhưng tồn tại một nòng cốt<br /> bao các nòng cốt còn lại. Ví dụ, câu “Tôi đang đứng chờ xe thì một cậu bạn chạy đến” được<br /> xếp vào loại câu ghép trong khi câu “Con mèo tôi mua chạy mất rồi” được xếp vào loại câu<br /> phức. Việc phân định ranh giới mệnh đề trong câu phức có thể đòi hỏi một bộ ngữ liệu lớn<br /> với phương pháp học máy nên chưa được đề cập đến trong bài báo này.<br /> Theo quan điểm của Nguyễn Chí Hòa [3], Trần Ngọc Thêm [13], mệnh đề là đơn vị nhỏ<br /> nhất của văn bản, và câu ghép được xây dựng nên từ các “khối”, mỗi “khối” là một mệnh đề.<br /> Nòng cốt ghép có thể là song song với hai hay nhiều vế, cũng có thể là chính phụ với đúng<br /> hai vế [13,15].<br /> Đối với mô hình văn phạm phi ngữ cảnh truyền thống, mệnh đề phụ trong câu ghép có thể<br /> được sản sinh từ ký hiệu không kết thúc đặc biệt SBAR của văn phạm. Với một tập luật rất<br /> lớn, việc nhập nhằng về giới hạn của mệnh đề rất thường xảy ra. Cũng do tập ký hiệu không<br /> kết thúc lớn, cây phân tích cho câu ghép nhiều mệnh đề rất phức tạp. Điều đó sẽ ảnh hưởng<br /> đến tốc độ và kết quả của các xử lý khác như phân loại văn bản, tóm tắt văn bản, dịch máy<br /> - những bài toán xử lý dựa trên cấu trúc cú pháp của câu.<br /> Mô hình văn phạm phụ thuộc hiện đang rất phổ biến trong phân tích cú pháp vì nhiều lý<br /> do: cây phân tích đơn giản (không có tập ký hiệu không kết thúc), biểu diễn dễ dàng các phụ<br /> thuộc không lân cận (long distance dependency), biểu diễn được các quan hệ về hình thái hay<br /> ngữ nghĩa [10]...<br /> Mô hình văn phạm liên kết được D.Sleator và D.Temperley [12] đưa ra là mô hình theo<br /> hướng tiếp cận phụ thuộc. Điểm đặc biệt của bộ phân tích cú pháp liên kết là có thể phân<br /> tích một số dạng câu ghép chính phụ thông qua một số liên kết đặc biệt như CO (liên kết<br /> giữa thành phần gợi mở và chủ ngữ của mệnh đề đứng sau), CC(liên kết các mệnh đề với liên<br /> từ kết hợp)... được xác lập cho các từ nối như “because”, “although”, “but”... Bộ phân tích cú<br /> pháp tiếng Việt do chúng tôi xây dựng [6] cũng nhận được kết quả tương tự cho tiếng Việt.<br /> Tuy nhiên với loại câu ghép có nhiều mệnh đề, quan hệ phức tạp như “Nếu cán bộ, công chức<br /> được tuyển dụng lại vào làm việc ở cơ quan, đơn vị cũ, thì thời gian thực tế học tập theo<br /> chương trình đào tạo (ghi trên chứng chỉ hoặc bằng đào tạo được cấp) được tính vào thời<br /> gian xét nâng bậc lương thường xuyên”, bộ phân tích cú pháp liên kết không thực hiện được.<br /> Hơn nữa, việc chỉ sử dụng liên kết đơn thuần của từ nối sẽ đòi hỏi thời gian tính toán rất lớn.<br /> Nếu phân tích riêng từng mệnh đề của câu ghép rồi tổ hợp lại thành một phân tích tổng thể,<br /> những vấn đề nói trên có thể giải quyết được.<br /> Xuất phát từ đặc điểm của tiếng Việt là hầu hết các giới hạn mệnh đề trong câu ghép có<br /> thể phát hiện nhờ dấu hiệu diễn ngôn, kết hợp với một số đặc trưng cú pháp, chúng tôi đã cải<br /> tiến giải thuật phân đoạn diễn ngôn [9] ở mức câu để xây dựng cây diễn ngôn của câu. Từ cây<br /> diễn ngôn, một phân tích hoàn chỉnh cho toàn bộ câu được xây dựng nhờ kết hợp phân tích<br /> liên kết của từng mệnh đề với các kết nối lớn thể hiện quan hệ giữa các mệnh đề với nhau.<br /> Sau đây là phần trình bày về mô hình văn phạm liên kết, bộ phân tích cú pháp liên kết<br /> mở rộng với sự kết hợp của lý thuyết cấu trúc diễn ngôn trong phân tách mệnh đề cũng như<br /> xây dựng cây diễn ngôn cho câu.<br /> <br /> KẾT HỢP PHÂN ĐOẠN DIỄN NGÔN VỚI BỘ PHÂN TÍCH CÚ PHÁP LIÊN KẾT<br /> <br /> 2.<br /> <br /> 299<br /> <br /> VĂN PHẠM LIÊN KẾT<br /> <br /> 2.1. Một số định nghĩa<br /> <br /> Văn phạm liên kết bao gồm một tập các từ, mỗi từ có một yêu cầu liên kết. Một câu được<br /> định nghĩa bởi văn phạm nếu tồn tại một cách để vẽ các cung (liên kết) phía trên các từ thoả<br /> mãn những điều kiện sau:<br /> + Tính phẳng (planarity): các liên kết không giao nhau khi được vẽ phía trên các từ.<br /> + Tính liên thông (connectivity): các liên kết nối tất cả các từ trong câu với nhau.<br /> + Tính thoả mãn (satisfaction): các liên kết thoả mãn các yêu cầu liên kết của mỗi từ trong<br /> câu.<br /> + Tính thứ tự (ordering): khi các kết nối của một công thức (xem bảng 1) được duyệt từ trái<br /> qua phải, các từ mà nó kết nối tới tiến từ gần ra xa.<br /> + Tính loại trừ (exclusion): không có hai liên kết có thể kết nối cùng một cặp từ. Ví dụ, phân<br /> tích của câu “Tôi mua một bông hoa” được thể hiện trong hình 1 dưới đây:<br /> <br /> Hình 1. Phân tích câu “tôi mua một bông hoa” trong văn phạm liên kết<br /> <br /> Ý nghĩa các kết nối trong hình 1 như sau:<br /> SV: Kết nối chủ ngữ (là danh từ hoặc đại từ xưng hô) với động từ chính trong câu.<br /> O: Kết nối vị ngữ và bổ ngữ trực tiếp.<br /> McN: Kết nối số từ và danh từ.<br /> NcNt3: Kết nối danh từ chỉ loại (bông, con, quyển...) với danh từ cụ thể.<br /> Một cách hình thức, một câu hay cụm từ thỏa mãn các yêu cầu của văn phạm liên kết là<br /> một mạng liên kết [2].<br /> Định nghĩa 1. Cho Σ là một bảng chữ , P r là tập các kiểu nguyên thủy và (ν,
ADSENSE

CÓ THỂ BẠN MUỐN DOWNLOAD

 

Đồng bộ tài khoản
31=>1