Luận văn Thạc sĩ Khoa học máy tính: Các phương pháp phân đoạn tiếng Việt và ứng dụng
lượt xem 3
download
Nhiệm vụ nghiên cứu của đề tài là tìm hiểu những kiến thức tổng quan về tiếng Việt. Tìm hiểu phương pháp phân đoạn tiếng Việt, phương pháp khử nhập nhằng. Cài đặt hệ thống phân đoạn văn bản tiếng Việt. Xây dựng kho ngữ liệu thử nghiệm và đánh giá. Mời các bạn cùng tham khảo!
Bình luận(0) Đăng nhập để gửi bình luận!
Nội dung Text: Luận văn Thạc sĩ Khoa học máy tính: Các phương pháp phân đoạn tiếng Việt và ứng dụng
- i ĐẠI HỌC THÁI NGUYÊN TRƢỜNG ĐẠI HỌC CÔNG NGHỆ THÔNG TIN VÀ TRUYỀN THÔNG VŨ THỊ HẰNG CÁC PHƢƠNG PHÁP PHÂN ĐOẠN TIẾNG VIỆT VÀ ỨNG DỤNG LUẬN VĂN THẠC SĨ KHOA HỌC MÁY TÍNH Thái Nguyên - Năm 2015 Số hóa bởi Trung tâm Học liệu – ĐHTN http://www.lrc.tnu.edu.vn
- i ĐẠI HOẠC THÁI NGUYÊN TRƢỜNG ĐẠI HỌC CÔNG NGHỆ THÔNG TIN VÀ TRUYỀN THÔNG VŨ THỊ HẰNG CÁC PHƢƠNG PHÁP PHÂN ĐOẠN TIẾNG VIỆT VÀ ỨNG DỤNG Chuyên ngành: KHOA HỌC MÁY TÍNH Mã số: 60.48.01 LUẬN VĂN THẠC SĨ KHOA HỌC MÁY TÍNH NGƢỜI HƢỚNG DẪN KHOA HỌC TS. BÙI VĂN THANH Thái Nguyên - Năm 2015 Số hóa bởi Trung tâm Học liệu – ĐHTN http://www.lrc.tnu.edu.vn
- ii MỤC LỤC Trang LỜI CẢM ƠN ............................................................................................... v LỜI CAM ĐOAN ........................................................................................ vi DANH MỤC CÁC KÝ HIỆU VÀ CHỮ VIẾT TẮT ................................. vii DANH MỤC BẢNG .................................................................................. viii DANH MỤC HÌNH ..................................................................................... ix MỞ ĐẦU ....................................................................................................... 1 Chƣơng 1. TỔNG QUAN ............................................................................. 6 1.1. KHÁI QUÁT VỀ TIẾNG VIỆT ........................................................ 6 1.1.1. Đặc điểm từ tiếng Việt ................................................................ 6 1.1.2. Các từ loại tiếng Việt .................................................................. 7 1.2. VẤN ĐỀ PHÂN ĐOẠN TIẾNG VIỆT ........................................... 10 1.2.1. Từ vựng tiếng Việt .................................................................... 10 1.2.2. Tiếng – đơn vị cấu tạo lên từ .................................................... 11 1.2.3. Cấu tạo từ .................................................................................. 13 1.3. PHÂN ĐOẠN TỪ TIẾNG VIỆT BẰNG MÁY TÍNH ................... 17 1.4. TỔNG KẾT CHƢƠNG .................................................................... 18 Chƣơng 2. MỘT SỐ PHƢƠNG PHÁP PHÂN ĐOẠN VĂN BẢN TIẾNG VIỆT ............................................................................................................ 19 2.1. MÔ HÌNH LRMM ........................................................................... 19 2.1.1. Thuật toán Maximum Matching đơn giản ................................ 19 Số hóa bởi Trung tâm Học liệu – ĐHTN http://www.lrc.tnu.edu.vn
- iii 2.1.2. Thuật toán Maximum Matching phức tạp ................................ 19 2.2. PHƢƠNG PHÁP WFST (Weighted Finite-State Transducer) ........ 20 2.3. MÔ HÌNH HỌC MÁY CRF ............................................................ 23 2.3.1. Định nghĩa CRF ......................................................................... 23 2.3.2. Hàm tiềm năng của các mô hình CRF ....................................... 26 2.3.3. Conditional Random Fields ....................................................... 26 2.4. TỔNG KẾT CHƢƠNG .................................................................... 28 Chƣơng 3. BÀI TOÁN PHÂN ĐOẠN TIẾNG VIỆT ............................... 29 3.1. PHÁT BIỂU BÀI TOÁN ................................................................. 29 3.1.1. Cấu trúc chƣơng trình ............................................................... 30 3.1.2. Tiền xử lý số liệu ...................................................................... 32 3.1.3. Tách câu .................................................................................... 34 3.1.4. Tách từ ...................................................................................... 36 3.1.5. Khử nhập nhằng ........................................................................ 36 3.2. CÁC LOẠI NHẬP NHẰNG KHI TÁCH TỪ ................................. 36 3.2.1. Nhập nhằng do so khớp cực đại FMM/BMM sinh ra .............. 37 3.2.2. Nhập nhằng theo một số loại khác ............................................ 37 3.3. CÁCH KHỬ NHẬP NHẰNG .......................................................... 41 3.3.1 Cải tiến phƣơng pháp so khớp cực đại....................................... 41 3.3.2 Khử nhập nhằng theo một số loại khác...................................... 43 3.4. TỔNG KẾT CHƢƠNG .................................................................... 50 Chƣơng 4. THỬ NGHIỆM VÀ ĐÁNH GIÁ ............................................. 52 Số hóa bởi Trung tâm Học liệu – ĐHTN http://www.lrc.tnu.edu.vn
- iv 4.1. KHO NGỮ LIỆU THỬ NGHIỆM VÀ CÁCH ĐÁNH GIÁ ........... 52 4.2. QUY TRÌNH THỬ NGHIỆM .......................................................... 54 4.3. KẾT QUẢ THỬ NGHIỆM .............................................................. 55 4.4. GIAO DIỆN CHƢƠNG TRÌNH ỨNG DỤNG ............................... 56 KẾT LUẬN VÀ KIẾN NGHỊ..................................................................... 60 DANH MỤC TÀI LIỆU THAM KHẢO .................................................... 62 Số hóa bởi Trung tâm Học liệu – ĐHTN http://www.lrc.tnu.edu.vn
- v LỜI CẢM ƠN Em xin chân thành cảm ơn Ban Giám hiệu, Phòng Đào tạo Sau Đại học, Khoa Công nghệ Thông tin Trƣờng Đại học công nghệ thông tin và truyền thông Thái Nguyên đã tận tình giúp đỡ, tạo mọi điều kiện thuận lợi cho em trong quá trình học tập, nghiên cứu và thực hiện luận văn. Đặc biệt, em xin gửi lời tri ân sâu sắc đến TS Bùi Văn Thanh – ngƣời đã dành nhiều thời gian, công sức và tận tình hƣớng dẫn khoa học cho em trong suốt quá trình hình thành và hoàn chỉnh luận văn. Xin chân thành cảm ơn Quý Thầy, Cô đã giảng dạy, truyền đạt cho em những tri thức quý báu, thiết thực trong suốt khóa học. Cuối cùng xin bày tỏ lòng biết ơn đối với gia đình, ngƣời thân, bạn bè, đồng nghiệp đã giúp đỡ, động viên, đóng góp ý kiến quý báu cho em trong việc hoàn thành luận văn này. Thái Nguyên, ngày tháng năm 2015 Tác giả Vũ Thị Hằng Số hóa bởi Trung tâm Học liệu – ĐHTN http://www.lrc.tnu.edu.vn
- vi LỜI CAM ĐOAN Tôi xin cam đoan đây là công trình nghiên cứu của riêng tôi dƣới sự hƣớng dẫn trực tiếp của TS.Bùi Văn Thanh. Mọi trích dẫn sử dụng trong báo cáo này đều đƣợc ghi rõ nguồn tài liệu tham khảo theo đúng qui định. Mọi sao chép không hợp lệ, vi phạm quy chế đào tạo, hay gian trá, tôi xin chịu hoàn toàn trách nhiệm. Thái Nguyên, ngày tháng năm 2015 Tác giả Vũ Thị Hằng Số hóa bởi Trung tâm Học liệu – ĐHTN http://www.lrc.tnu.edu.vn
- vii DANH MỤC CÁC KÝ HIỆU VÀ CHỮ VIẾT TẮT Tiếng Anh Từ viết tắt Tên đầy đủ Diễn giải Phƣơng pháp so khớp cực đại Back Maximum Matching BMM lùi Trƣờng ngẫu nhiên có điều CRFs Conditional Random Fields kiện Forward Maximum Phƣơng pháp so khớp cực đại FMM Matching tiến Left Right Maximum LRMM Matching Phƣơng pháp so khớp cực đại Weighted Finite State Phƣơng pháp chuyển dịch WEST Transducer trạng thái hữu hạn Số hóa bởi Trung tâm Học liệu – ĐHTN http://www.lrc.tnu.edu.vn
- viii DANH MỤC BẢNG Trang Bảng 1.1. Hệ thống các từ loại tiếng Việt theo sách giáo khoa Ngữ văn THCS ...................................................................................................... 7 Bảng 1.2. Cấu trúc của tiếng trong tiếng Việt .................................. 12 Bảng 2.1. Trọng số theo từ................................................................ 22 Bảng 4.1. Bảng số liệu các mục ........................................................ 53 Bảng 4.2. Kết quả thử nghiệm .......................................................... 55 Bảng 4.3. Kết quả phân đoạn ............................................................ 56 Số hóa bởi Trung tâm Học liệu – ĐHTN http://www.lrc.tnu.edu.vn
- ix DANH MỤC HÌNH Trang Hình 2.1. Đồ thị vô hƣớng không có chu trình 24 Hình 2.2. Đồ thị vô hƣớng mô tả cho CRF 25 Hình 2.3. Mô tả các hàm tiềm năng 26 Hình 3.1. Mô hình bài toán phân đoạn tiếng Việt 30 Hình 3.2. Cấu trúc chƣơng trình phân đoạn tiếng Việt 31 Hình 4.1. Chọn chế độ lấy dữ liệu mẫu 52 Hình 4.2. Chƣơng trình phân đoạn văn bản 54 Hình 4.3. Giao diện chính của chƣơng trình 57 Hình 4.4. Chức năng phân đoạn văn bản 58 Hình 4.5. Kết quả sau khi phân đoạn văn bản 59 Số hóa bởi Trung tâm Học liệu – ĐHTN http://www.lrc.tnu.edu.vn
- 1 MỞ ĐẦU 1. Lý do chọn đề tài Trong những năm gần đây, cùng với sự bùng nổ thông tin toàn cầu, thì lƣợng thông tin trên văn bản và web tiếng Việt cũng tăng lên nhanh chóng. Các dữ liệu liên quan đến ngôn ngữ viết (văn bản) và nói (tiếng nói) đang dần trở thành kiểu dữ liệu chính con ngƣời có và lƣu trữ dƣới dạng điện tử. Vấn đề xử lý văn bản thành thông tin, tri thức hữu ích con ngƣời hiện đang trở nên cấp thiết và đang là một thách thức. Xử lý văn bản dựa trên các kỹ thuật của xử lý ngôn ngữ tự nhiên, một lĩnh vực đã có lịch sử nghiên hơn cứu nửa thế kỷ trên thế giới, với mục tiêu hiểu và sử dụng tri thức về ngôn ngữ ở các mức độ khác nhau và cách thức xử lí ngôn ngữđãđƣợc trải nghiệm và thừa nhận. Trong khi đó nghiên cứu về xử lý tiếng Việt còn đang còn ở những bƣớc đi đầu. Có thể nói xử lý tựđộng ngôn ngữ nói chung và xử lý văn bản nói riêng trên máy tính gặp phải vấn đề khó là làm sao cho máy đƣợc hiểu ngôn ngữ con ngƣời, từ việc hiểu nghĩa từng từ trong mỗi hoàn cảnh cụ thể, đến việc hiểu nghĩa một câu, rồi hiểu cả văn bản. Mấu chốt ởđây là bản chất phức tạp của ngôn ngữ của con ngƣời, đặc biệt là sựđa nghĩa và nhập nhằng nghĩa của ngôn ngữ. TrongnỗlựcxâydựngmộtcơsởtrithứctiếngViệtthìviệchiểucácvănbản tiếng Việt, tómtắt văn bản tiếng Việt, hay phân loại văn bảntiếngViệt…lànhững công việc không thểthiếu. Các kếtquảđiểnhìnhvềlà các công cụcơ bản dùng để xử lý văn bản tiếng Việt nhƣ kiểm tra lỗi chính tả, phân tách từ, xác địnhloạitừ,phântíchcúpháp...Côngviệccơbản đầutiêncótínhtiênquyếtlàphân đoạn văn bản tiếngViệt thành các từ (tầng hình thái).
- 2 Hiểu một cách đơngiản,bàitoánphân đoạn văn bản tiếngViệtlàchotrƣớcmộtvănbản tiếngViệt, cầnxác định trong văn bản đóranhgiớigiữa các từ trongcâu.Nhƣng khác vớimộtsốtiếngnƣớcngoàinhƣtiếngAnh,thìtrongtiếngViệtranhgiớigiữacáctừ trong đa số trƣờng hợpkhôngphải là dấucáchtrống.Văn bản tiếng Việt, tuy dùng bảng chữ cái Latinh, nhƣng có những đặc điểm riêng về ký hiệu, ngữ pháp và ngữ nghĩa, khác với các ngôn ngữ Ấn-Âu.Đây chính là khó khăn trong việc ứng dụng các kỹ thuật phát triển để xử lý ngôn ngữ tự nhiên. Mặt khác, dù là ngôn ngữ đơn âm tiết, nhƣng khác với các ngôn ngữ đơn âm tiết khác nhƣ Trung Quốc, Thái, tiếng Việt còn phức tạp bởi cách xác định biên giới của từ, sự đa nghĩa và nhập nhằng nghĩa. Vì vậy, cách thực hiện tách từ của các ngôn ngữ này cũng không thể ứng dụng cho tiếng Việt. Tuy nhiên, một văn bản thật sự có thể có đến hàng nghìn câu và ta không phải có một mà hàng triệu văn bản. Web là một nguồn dữ liệu văn bản khổng lồ, và cùng với các thƣ viện điện tử - khi trong một tƣơng lai gần các sách báo xƣa nay và các nguồn âm thanh đƣợc chuyển hết vào máy tính (chẳng hạn bằng các chƣơng trình nhận dạng chữ, thu nhập âm thanh, hoặc gõ thẳng vào máy) – sẽ sớm chứa hầu nhƣ toàn bộ kiến thức của nhân loại. Vấn đề là làm sao “xử lý” (chuyển đổi) đƣợc khối dữ liệu văn bản và tiếng nói khổng lồ này qua dạng khác để mỗi ngƣời có đƣợc thông tin và tri thức cần thiết từ chúng? ÝthứcđƣợcnhữnglợiíchcủaviệcxâydựngcơsởtrithứctiếngViệt,tầm quan trọng của việc xử lý văn bản tiếng Việt nóichung vàbàitoánphân đoạntiếngViệtnóiriêng bằng máy tính,em đãchọnhƣớngnghiêncứutrongkhóa luận của mình là phƣơng phápphân đoạn tiếngViệt.
- 3 Để đạt đƣợc các mục tiêu đã đặt ra, hƣớng nghiên cứu của luận văn đƣợc tổ chức thành 4 chƣơng, gồm: - Chương I: Tổng quan về tiếng Việt. Phần này đƣa ra một số đặc điểm của từ tiếng Việt, hệ thống các từ loại tiếng Việt, từ đó đặt ra vấn đề giải quyết bài toán phân đoạn văn bản tiếng Việt, đó cũng là mục tiêu chính của đề tài này. - Chương II: Một số phương pháp phân đoạn văn bản tiếng Việt. Trong phần này đƣa ra tổng quan về một số mô hình phân đoạn văn bản có thể áp dụng cho văn bản tiếng Việt, và phân tích sâu hơn hai phƣơng pháp phân đoạn văn bản là “so khớp cực đại” - LRMM và phƣơng pháp “chuyển dịch trạng thái hữu hạn có trọng số” - WFST. - Chương III: Bài toán phân đoạn tiếng Việt.Trong phần này nên lên khái quát bài toán phân đoạn tiếng việt dựa trên việc cải tiến của phƣơng pháp so khớp cực đại tiến và so khớp cực đại lùi, phân tích một số loại nhập nhằng và đƣa ra phƣơng pháp khử nhập nhằng bằng trọng số. - Chương IV: Thử nghiệm và đánh giá.Trình bày các bƣớc lập kho ngữ liệu mẫu, lập từ điển. Qua đó thử nghiệm các phƣơng án tách từ và kết luận. 2. Đối tƣợng nghiên cứu Đối tƣợng nghiên cứu của đề tài là nghiên cứu về các phƣơng pháp tách từ tiếng Việt, tìm hiểu một số loại nhập nhằng xảy ra khi phân đoạn văn bản tiếng Việt, đƣa ra trọng số để khử nhập nhằng trong các trƣờng hợp trên. Xây dựng từ điển phục vụ cho việc tách từ, xây dựng bộ ngữ liệu các câu mẫu và chƣơng trình thử nghiệm, đánh giá phƣơng pháp tách từ đã nêu và đƣa ra kết luận, hƣớng phát triển. 3. Phạm vi nghiên cứu
- 4 Phạmvi nghiên cứu của đề tài là tìm hiểu, tổng quan về các hƣớng tiếp cận có thể ứng dụng trong việc xây dựng mô hình phân đoạn văn bản tiếng Việt. Qua đó, phát hiện ra đƣợc các trƣờng hợp nhập nhằng khi phân đoạn văn bản và sử dụng các trọng số nhằm giải quyết các trƣờng hợp nhập nhằng. 4. Nhiệm vụ nghiên cứu - Tìm hiểu những kiến thức tổng quan về tiếng Việt. - Tìm hiểu phƣơng pháp phân đoạn tiếng Việt, phƣơng pháp khử nhập nhằng - Cài đặt hệ thống phân đoạn văn bản tiếng Việt - Xây dựng kho ngữ liệu thử nghiệm và đánh giá 5. Những nội dung nghiên cứu chính Bố cục của luận văn gồm phần mở đầu trình bày lý do chọn đề tài, đối tƣợng và nhiệm vụ nghiên cứu của đề tài. Chƣơng một, tập trung trình bày những kiến thức cơ bản về đặc điểm từ tiếng Việt, các loại từ tiếng Việt và vấn đề phân đoạn tiếng Việt.Chƣơng hai,trình bày một số phƣơng pháp phân đoạn văn bản tiếng Việt nhƣ mô hình LRMM, phƣơng pháp WFST, mô hình học máy, phƣơng pháp khử nhập nhằng.Chƣơng 3,trong chƣơng này chúng tôi đã khái quát đƣợc bài toán phân đoạn văn bản tiếng Việt, trình bày phƣơng pháp cải tiến LRMM và WFST. Chƣơng 4, trình bày các bƣớc xây dựng kho ngữ liệu thử nghiệm, quy trình thử nghiệm và kết quả thử nghiệm hệ thống phân đoạn tiếng Việt đƣợc trình bày ở chƣơng 3.
- 5 Với những kết quả đạt đƣợc, phần kết luận của luận văn nêu lên những kết quả đạt đƣợc của luận văn, hạn chế và đề xuất hƣớng nghiên cứu tiếp theo của đề tài. 6. Phƣơng pháp nghiên cứu - Phƣơng pháp đọc tài liệu - Phƣơng pháp quan sát - Phƣơng pháp phân tích – tổng hợp lý thuyết. - Phƣơng pháp thực nghiệm.
- 6 Chƣơng 1.TỔNG QUAN 1.1.KHÁI QUÁT VỀ TIẾNG VIỆT Tiếng Việt, hay Việt ngữ, là một trong số các ngôn ngữ thuộc hệ ngôn ngữ Nam Á dùng bảng chữ cái Latinh, gọi là chữ Quốc Ngữ, cùng các dấu thanh để viết. tiếng Việt có những đặc điểm riêng về ký hiệu, ngữ pháp và ngữ nghĩa, khác với các ngôn ngữ Ấn - Âu. Đây chính là khó khăn trong việc ứng dụng các kỹ thuật phát triển để xử lý ngôn ngữ tự nhiên. Mặt khác dù là ngôn ngữ đơn âm tiết nhƣng không giống nhƣ các ngôn ngữ đơn âm tiết khác nhƣ Trung Quốc, Thái, tiếng Việt đƣợc viết bằng các ký tự Latinh mở rộng. Hơn nữa, tiếng Việt còn phức tạp bởi cách xác định biên giới của từ, sự đa nghĩa và nhập nhằng nghĩa.Vì vậy, cách thực hiện tách từ của các ngôn ngữ này cũng không thể ứng dụng cho tiếng Việt. 1.1.1. Đặc điểm từ tiếng Việt Với các ngôn ngữ Ấn - Âu (nhƣ tiếng Anh, Pháp,...) “từ là một nhóm các ký tự có nghĩa, phân cách nhau bởi khoảng trống hoặc dấu câu”. Trong khi đó, các ngôn ngữ Châu Á nhƣ Trung Quốc, Thái, Việt Nam,... khoảng trống không đƣợc sử dụng để xác định các biên giới từ. Phần nằm giữa hai dấu phân cách là âm tiết. Âm tiết là đơn vị phát âm tự nhiên nhỏ nhất trong ngôn ngữ. Trong tiếng Việt, một âm tiết bao giờ cũng đƣợc phát ra với một thanh điệu, và tách rời với âm tiết khác bằng một khoảng trống.Trên chữ viết, mỗi âm tiết tiếng Việt đƣợc ghi thành một "chữ" và đọc thành một "tiếng". Ví dụ: từ “Xe đạp điện, xe máy điện” gồm 3 chữ, 3 tiếng hoặc 3 âm tiết. Từ là đơn vị nhỏ nhất của lời nói mang đầy đủ ý nghĩa truyền tải. Từ có thể gồm duy nhất một âm tiết (từ đơn âm) hoặc cấu thành từ nhiều âm
- 7 tiết (từ đa âm). Nhƣ vậy, xét về mặt cấu tạo, từ có thể chia thành các loại sau: - Từ đơn: Do 1 âm tiết tạo thành. - Từ ghép: Do 2, 3 hoặc 4 âm tiết tạo thành. - Từ láy: Do hai hay nhiều âm tiết lặp lại tạo thành. Các âm tiết láy có thể có một phần hay toàn bộ âm thanh đƣợc lặp lại. Ví dụ: Đăm đăm, thăm thẳm, rào rào, rì rào, nhí nha nhí nhảnh, … 1.1.2. Các từ loại tiếng Việt Trong phần Sự phân loại từ nhằm mục đích ngữ pháp, theo bản chất ngữ pháp của từ mới đƣợc gọi là từ loại. Từ loại là sự phân loại vốn từ của một ngôn ngữ cụ thể thành những loại, những lớp hạng dựa vào đặc trƣng ngữ pháp của từ (việc thực hiện các chức vụ ngữ pháp nhất định của từ). Bảng 1.1. Hệ thống các từ loại tiếng Việt theo sách giáo khoa Ngữ văn THCS DẤU HIỆU NHẬN Stt TỪ LOẠI VÍ DỤ ĐẶT CÂU BIẾT Danh từ Những từ chỉ ngƣời, bác sĩ, học Học sinh 1 (NV6/86) vật, hiện tƣợng, khái sinh, gà con lớp 7b học niệm. rất giỏi Động từ Những từ chỉ hành Học tập, Chúng em 2 (NV6/145) động, trạng thái của sự nghiên cứu, học tập vật. hao mòn,… chăm chỉ. 3 Tính từ Chỉ đặc điểm, tính Xấu, đẹp, Mặt trăng
- 8 (NV6/153) chất của sự vật, hành xanh, đỏ, tốt, nhỏ, sáng động, trạng thái. lớn nhỏ, … vằngvặc ở trên không. Số từ Chỉ số lƣợng và thứ tự Một, hai, ba, Hùng (NV6/128) sự vật. trăm, ngàn, Vƣơng thứ … mƣời tám 4 có một ngƣời con gái xinh đẹp. Đại từ Dùng để chỉ ngƣời, sự Tôi, nó, tao, (NV7) vật, hoạt động, tính tớ, chúng nó, chất,… trong một ngữ mày, hắn, Thế nào anh 5 cảnh nhất định hoặc họ, … cũng đến dùng để hỏi. thế, ai, gì, nhé. bao nhiêu, mấy… Lƣợng từ Chỉ lƣợng ít hay nhiều Những, cả, Các hoàng (NV6/128) của sự vật. các, từng,… tử phải cởi áo giáp xin 6 hàng. (Thạch Sanh) Chỉ từ Dùng để trỏ vào sự vật Ấy, đó, nọ, Từ đó nhuệ 7 (6/136) nhằm xác định vị trí kia, … khí của
- 9 của sự vật trong không nghĩa quân gian hoặc thời gian. ngày một tăng. Quan hệ từ Dùng biểu thị các ý Của, nhƣ, vì, Quyển sách (NV7) nghĩa về quan hệ nhƣ nên, về, đặt ở trên sở hữu, so sánh, nhân bằng, của, bàn. 8 quả, … giữa các bộ ở,… phận, giữa câu hoặc Nếu … thì, giữa các đoạn văn. Tuy … nhƣng, Phó từ Những từ chuyên đi Đã, cũng, Viên quan 9 (NV6.2/12) kèm động từ, tính từ vẫn, rất, ra, ấy đã đi để bổ sung ý nghĩa cho vẫn chƣa, nhiều nơi. động từ, tính từ. thật, … Trợ từ Nhấn mạnh, đƣa đẩy Thì, hả, hở, “Ăn thì ăn (NV8) hoặc biểu thị thái độ những miếng đánh giá sự vật, sự ngon, 10 việc đƣợc nói đến Làm thì trong câu. chọn việc cỏn con mà làm” Thán từ Dùng làm dấu hiệu Than ôi, trời “Than ôi! 11 biểu lộ cảm xúc, tình ơi,hỡi, ối, Thời oanh (NV8) cảm, thái độ hoặc dùng liệt nay còn
- 10 để gọi đáp. đâu?” (Thế Lữ) Tình thái Đệm vào câu để tạo A, ôi, nhé, Vệ Sĩ thân từ câu nghi vấn, câu cầu đấy, thay, ạ, yêu ở lại 12 (NV8) khiến, câu cảm thán và nhé, nhỉ, cơ nhé! (Khánh biểu thị sắc thái tình mà, cơ, mà, Hoài) cảm của ngƣời nói. thì nào,… 1.2.VẤN ĐỀ PHÂN ĐOẠN TIẾNG VIỆT Hiện nay có khá nhiều phƣơng pháp khác nhau để tiếp cận bài toán phân đoạn tiếng Việt. Trong chƣơng này sẽ giới thiệu một số phƣơng pháp nhƣ vậy cùng với những đánh giá về ƣu điểm và nhƣợc điểm của chúng và lý do tại sao tôi chọn hƣớng tiếp cận dựa trên mô hình CRFs. Nhƣng trƣớc hết, xin trình bày về những tìm hiểu về tiếng Việt, đó sẽ là cơ sở để tìm ra một phƣơng pháp hợp lý nhất cho bài toán phân đoạn từ 1.2.1. Từ vựng tiếng Việt Việc chỉra định nghĩa chính xác nhất thếnàolàmột từ không phải đơn giản, đòi hỏicôngsứcnghiêncứucủacácnhàngônngữhọc. Ta sử dụngđịnhnghĩa sau làm ví dụvề địnhnghĩa từ: “Từlà đơn vịnhỏ nhất cónghĩa,có kếtcấu vỏngữâmbềnvững,hoànchỉnh,có chức năng gọi tên,đƣợc vậndụng độc lập, tái hiện tự do trong lờinóiđể tạo câu”.[1] Nhƣng xét trên gócđộ ứng dụng, ta có thể hiểumộtcác đơngiảnlà“từđƣợccấu
CÓ THỂ BẠN MUỐN DOWNLOAD
-
Tóm tắt luận văn thạc sĩ khoa học xã hội và nhân văn: Ảnh hưởng của văn học dân gian đối với thơ Tản Đà, Trần Tuấn Khải
26 p | 788 | 100
-
Tóm tắt luận văn thạc sĩ khoa học: Bài toán tô màu đồ thị và ứng dụng
24 p | 491 | 83
-
Luận văn thạc sĩ khoa học: Hệ thống Mimo-Ofdm và khả năng ứng dụng trong thông tin di động
152 p | 328 | 82
-
Tóm tắt luận văn thạc sĩ khoa học: Bài toán màu và ứng dụng giải toán sơ cấp
25 p | 369 | 74
-
Tóm tắt luận văn thạc sĩ khoa học: Bài toán đếm nâng cao trong tổ hợp và ứng dụng
26 p | 411 | 72
-
Tóm tắt luận văn thạc sĩ khoa học: Nghiên cứu thành phần hóa học của lá cây sống đời ở Quãng Ngãi
12 p | 541 | 61
-
Tóm tắt luận văn Thạc sĩ Khoa học: Nghiên cứu vấn đề an ninh mạng máy tính không dây
26 p | 516 | 60
-
Luận văn thạc sĩ khoa học Giáo dục: Biện pháp rèn luyện kỹ năng sử dụng câu hỏi trong dạy học cho sinh viên khoa sư phạm trường ĐH Tây Nguyên
206 p | 299 | 60
-
Tóm tắt luận văn thạc sĩ khoa học: Bài toán tìm đường ngắn nhất và ứng dụng
24 p | 341 | 55
-
Tóm tắt luận văn thạc sĩ khoa học: Bất đẳng thức lượng giác dạng không đối xứng trong tam giác
26 p | 311 | 46
-
Tóm tắt luận văn Thạc sĩ Khoa học xã hội và nhân văn: Đặc trưng ngôn ngữ và văn hóa của ngôn ngữ “chat” trong giới trẻ hiện nay
26 p | 318 | 40
-
Tóm tắt luận văn thạc sĩ khoa học: Bài toán ghép căp và ứng dụng
24 p | 263 | 33
-
Tóm tắt luận văn thạc sĩ khoa học xã hội và nhân văn: Phật giáo tại Đà Nẵng - quá khứ hiện tại và xu hướng vận động
26 p | 234 | 22
-
Tóm tắt luận văn Thạc sĩ Khoa học: Nghiên cứu ảnh hưởng của quản trị vốn luân chuyển đến tỷ suất lợi nhuận của các Công ty cổ phần ngành vận tải niêm yết trên sàn chứng khoán Việt Nam
26 p | 286 | 14
-
Tóm tắt luận văn Thạc sĩ Khoa học xã hội và nhân văn: Thế giới biểu tượng trong văn xuôi Nguyễn Ngọc Tư
26 p | 245 | 13
-
Tóm tắt luận văn Thạc sĩ Khoa học xã hội và nhân văn: Đặc điểm ngôn ngữ của báo Hoa Học Trò
26 p | 214 | 13
-
Tóm tắt luận văn Thạc sĩ Khoa học xã hội và nhân văn: Ngôn ngữ Trường thơ loạn Bình Định
26 p | 191 | 5
-
Luận văn Thạc sĩ Khoa học giáo dục: Tích hợp nội dung giáo dục biến đổi khí hậu trong dạy học môn Hóa học lớp 10 trường trung học phổ thông
119 p | 5 | 3
Chịu trách nhiệm nội dung:
Nguyễn Công Hà - Giám đốc Công ty TNHH TÀI LIỆU TRỰC TUYẾN VI NA
LIÊN HỆ
Địa chỉ: P402, 54A Nơ Trang Long, Phường 14, Q.Bình Thạnh, TP.HCM
Hotline: 093 303 0098
Email: support@tailieu.vn