Đề tài khoa học và công nghệ cấp cơ sở: Nghiên cứu xây dựng cơ sở dữ liệu từ điển bằng phương pháp trích rút từ kho ngữ liệu

Chia sẻ: Bananalachuoi | Ngày: | Loại File: PDF | Số trang:37

Thêm vào BST

Báo xấu

43
lượt xem 7
download

Download Vui lòng tải xuống để xem tài liệu đầy đủ

Mục tiêu nghiên cứu đề tài là nghiên cứu về từ điển, cơ sở dữ liệu từ điển, cấu trúc định dạng của các chuẩn dữ liệu từ điển; kho ngữ liệu, các loại kho ngữ liệu. Tìm ra giải pháp xây dựng cơ sở dữ liệu từ điển bằng cách trích rút từ các kho ngữ liệu. Từ đó, có thể làm nguồn dữ liệu cho các phần mềm từ điển, có thể nguồn cho các chương trình dịch tự động, trích rút thông tin tự động, tóm tắt văn bản tự động,…

Chủ đề:

Bình luận(0) Đăng nhập để gửi bình luận!

Lưu

Nội dung Text: Đề tài khoa học và công nghệ cấp cơ sở: Nghiên cứu xây dựng cơ sở dữ liệu từ điển bằng phương pháp trích rút từ kho ngữ liệu

ĐẠI HỌC ĐÀ NẴNG TRƯỜNG CAO ĐẲNG CÔNG NGHỆ THÔNG TIN BÁO CÁO TỔNG KẾT ĐỀ TÀI KHOA HỌC VÀ CÔNG NGHỆ CẤP CƠ SỞ NGHIÊN CỨU XÂY DỰNG CƠ SỞ DỮ LIỆU TỪ ĐIỂN BẰNG PHƯƠNG PHÁP TRÍCH RÚT DỮ LIỆU TỪ KHO NGỮ LIỆU Mã số: T2016-07-03 Chủ nhiệm đề tài: ThS. Trần Thị Kiều Đà Nẵng, 12/2016
ĐẠI HỌC ĐÀ NẴNG TRƯỜNG CAO ĐẲNG CÔNG NGHỆ THÔNG TIN BÁO CÁO TỔNG KẾT ĐỀ TÀI KHOA HỌC VÀ CÔNG NGHỆ CẤP CƠ SỞ NGHIÊN CỨU XÂY DỰNG CƠ SỞ DỮ LIỆU TỪ ĐIỂN BẰNG PHƯƠNG PHÁP TRÍCH RÚT DỮ LIỆU TỪ KHO NGỮ LIỆU Mã số: T2016-07-03 Chủ nhiệm đề tài: ThS. Trần Thị Kiều Xác nhận của cơ quan chủ trì đề tài Chủ nhiệm đề tài Đà Nẵng, 12/2016
MỤC LỤC MỞ ĐẦU .......................................................................................................................... 1 1. LÝ DO CHỌN ĐỀ TÀI ..............................................................................................1 2. MỤC TIÊU VÀ NHIỆM VỤ NGHIÊN CỨU ............................................................2 3. ĐỐI TƯỢNG VÀ PHẠM VI NGHIÊN CỨU ............................................................2 3.1. Đối tượng nghiên cứu ................................................................................... 2 3.2. Phạm vi nghiên cứu ...................................................................................... 2 4. BỐ CỤC CỦA BÁO CÁO .........................................................................................2 CHƯƠNG 1 TỔNG QUAN ........................................................................................ 4 1.1. CƠ SỞ LÝ THUYẾT ...........................................................................................4 1.1.1. Tổng quan về từ điển .................................................................................... 4 1.1.2. Cơ sở dữ liệu từ điển .................................................................................... 5 1.1.3. Các chuẩn dữ liệu từ điển............................................................................. 5 1.1.4. Kho ngữ liệu ................................................................................................. 9 1.1.5. Các phương pháp tách từ tiếng Việt hiện nay ............................................ 11 1.2. CÁC CÔNG TRÌNH NGHIÊN CỨU XÂY DỰNG TỪ ĐIỂN ..........................11 1.3. TỔNG KẾT CHƯƠNG 1 ...................................................................................12 CHƯƠNG 2 ĐỀ XUẤT GIẢI PHÁP XÂY DỰNG CƠ SỞ DỮ LIỆU TỪ ĐIỂN TỪ KHO NGỮ LIỆU ........................................................................................................... 13 2.1. PHÁT BIỂU BÀI TOÁN....................................................................................13 2.2. ĐỀ XUẤT GIẢI PHÁP ......................................................................................14 2.2.1. Mô hình bài toán ........................................................................................ 14 2.2.2. Đặc tả mô hình bài toán ............................................................................. 15 2.3. LỰA CHỌN PHƯƠNG PHÁP, KỸ THUẬT.....................................................16 2.3.1. Phân đoạn từ trong tiếng Việt .................................................................... 16 2.3.2. Dịch máy thống kê ...................................................................................... 18 2.3.3. Định dạng dữ liệu từ điển ........................................................................... 20 2.4. TỔNG KẾT CHƯƠNG 2 ...................................................................................20
CHƯƠNG 3 TRIỂN KHAI XÂY DỰNG VÀ THỰC NGHIỆM .......................... 21 3.1. TRIỂN KHAI ỨNG DỤNG ...............................................................................21 3.1.1. Lựa chọn công nghệ ................................................................................... 21 3.1.2. Chuẩn bị dữ liệu ......................................................................................... 21 3.1.3. Kết quả đạt được ........................................................................................ 21 3.1.4. Đánh giá kết quả ........................................................................................ 25 3.2. TỔNG KẾT CHƯƠNG 3 ...................................................................................25
DANH MỤC CÁC TỪ VIẾT TẮT STT Từ viết tắt Ý nghĩa 1 HTML HyperText Markup Language 2 CSDL Cơ sở dữ liệu 3 KDD Knowledge Discovery in Database 4 KPDL Khai phá dữ liệu 5 LRMM Left Right Maximum Matching 6 RLMM Right Left Maximum Matching 7 MMSEG Maximum Matching Segmentation 8 WFST Weighted finit–state Transducer
DANH MỤC CÁC HÌNH VẼ Hình 1.1: Định dạng dict.org ............................................................................................ 7 Hình 1.2: Định dạng dict.org ............................................................................................ 7 Hình1.3: Ví dụ tập tin có định dạng spdict. ...................................................................... 8 Hình 2.1 :Phác thảo mô hình bài toán ............................................................................ 14 Hình 2.2: Mô phỏng phương pháp khớp tối đa ............................................................... 18 Hình 2.3: Ví dụ thống kê dựa vào cụm từ........................................................................ 20 Hình 3.1: Cấu trúc của tập tin kho ngữ liệu Anh – Việt.................................................. 22 Hình 3.2: Kết quả phân tích từ từ kho song ngữ ............................................................. 22 Hình 3.3: Kết quả sau khi tách từ tiếng Anh ................................................................... 23 Hình 3.4: Kết quả sau khi tách từ tiếng Việt ................................................................... 23 Hình 3.5: Lưu dữ liệu từ điển theo định dạng dict.org ................................................... 24
DANH MỤC CÁC BẢNG Bảng 3.1: Kết quả thử nghiệm công cụ trích xuất dữ liệu từ điển .................................. 25
TÓM TẮT KẾT QUẢ NGHIÊN CỨU Tên đề tài: Nghiên cứu xây dựng cơ sở dữ liệu từ điển bằng phương pháp trích rút từ kho ngữ liệu. Mã số: Chủ nhiệm: ThS. Trần Thị Kiều Điện thoại: 0905.433.387 E-mail: ttkieu@cit.udn.vn Cơ quan chủ trì: Trường Cao đẳng Công nghệ Thông tin Đơn vị thực hiện:  Trường Cao đẳng Công nghệ Thông tin Thời gian thực hiện: 12 tháng 1. Mục tiêu: Mục tiêu chính của đề tài là nghiên cứu xây dựng cơ sở dữ liệu từ điển bằng phương pháp trích rút từ kho ngữ liệu:  Nghiên cứu về từ điển, cơ sở dữ liệu từ điển, cấu trúc định dạng của các chuẩn dữ liệu từ điển; kho ngữ liệu, các loại kho ngữ liệu.  Tìm ra giải pháp xây dựng cơ sở dữ liệu từ điển bằng cách trích rút từ các kho ngữ liệu.  Từ đó, có thể làm nguồn dữ liệu cho các phần mềm từ điển, có thể nguồn cho các chương trình dịch tự động, trích rút thông tin tự động, tóm tắt văn bản tự động,… 2. Nội dung chính:  Nghiên cứu tổng quan từ điển, cơ sở dữ liệu từ điển, cấu trúc định dạng của các chuẩn dữ liệu từ điển.  Tìm ra giải pháp xây dựng cơ sở dữ liệu từ điển bằng cách trích rút từ các kho ngữ liệu.  Xây dựng công cụ xây dựng cơ sở dữ liệu từ điển từ kho ngữ liệu. 3. Kết quả đạt được (khoa học, ứng dụng, đào tạo, kinh tế - xã hội): Kết quả đạt được đã áp dụng đúng các nội dung trong thuyết minh, cụ thể như sau:
 Đã công bố 01 bài báo đăng tại CITA 2016.  Báo cáo tổng kết.  Đã xây dựng được công cụ xây dựng cơ sở dữ liệu từ điển từ kho ngữ liệu. Cơ quan Chủ trì Chủ nhiệm đề tài (ký, họ và tên, đóng dấu) (ký, họ và tên)
1 MỞ ĐẦU 1. LÝ DO CHỌN ĐỀ TÀI Người ta vẫn thường nói rằng: “Chúng ta đang sống trong thời đại công nghệ thông tin”, thực ra, chúng ta đang sống trong thời đại của dữ liệu. Lượng dữ liệu khổng lồ về tất cả các lĩnh vực kỹ thuật, kinh tế, xã hội,…phần lớn đều có thể tìm thấy thông qua hệ thống mạng Internet. Tuy nhiên, lượng thông tin trên mạng Internet vẫn chưa được khai thác triệt để vì nhiều lý do và một trong những lý do quan trọng đó là rào cản về ngôn ngữ. Để phá bỏ rào cản đó và giúp ta tiếp cận nhanh hơn với thời đại công nghệ, giao lưu và làm việc với bạn bè quốc tế. Và tất nhiên từ điển là một công cụ quan trọng và đắc lực phục vụ người học, người làm. Hiện tại có rất nhiều phần mềm, rất nhiều trang web từ điển hỗ trợ nhưng có một thực tế rằng lượng dữ liệu của mỗi nguồn từ điển là hữu hạn và mỗi phần mềm mỗi trang web đều có lượng từ và hoạt động trong những lĩnh vực khác nhau. Có những từ không tìm thấy trên trang web này nhưng có thể tìm thấy ở trang web khác. Điều này làm cho người dùng có thể phải sử dụng trên nhiều trang web, cài nhiều phần mềm,… rất bất tiện. Hơn nữa, phần quan trọng nhất đối với ứng dụng từ điển chính là cơ sở dữ liệu, nó được coi là trái tim của chương trình. Qua khảo sát đã có nhiều công trình, nhiều bài báo nghiên cứu để tạo nên một cơ sở dữ liệu từ: giải pháp hợp nhất dữ liệu để xây dựng từ điển đa ngữ [2], hay xây dựng từ điển dựa trên các kho ngữ liệu song song [6], [9]. Tuy nhiên, các công trình nghiên cứu này một là hợp nhất các cơ sở dữ liệu có sẵn hoặc chưa xử lý trên ngôn ngữ tiếng Việt. Với những thực trạng đó, tôi mong muốn nghiên cứu giải pháp xây dựng cơ sở dữ liệu từ điển bằng cách trích rút từ các kho ngữ liệu. Thay vì xây dựng các từ điển, các qui luật chuyển đổi bằng tay thì ở đây tự động xây dựng các từ điển, các qui luật dựa trên kết quả thống kê có được từ các kho ngữ liệu. Mục đích làm nguồn dữ liệu cho các phần mềm từ điển, dữ liệu luôn được cập nhật từ mới thường xuyên từ các kho ngữ
2 liệu; có thể làm nguồn cho các chương trình dịch tự động, trích rút thông tin tự động, tóm tắt văn bản tự động,… 2. MỤC TIÊU VÀ NHIỆM VỤ NGHIÊN CỨU Nghiên cứu về từ điển, cơ sở dữ liệu từ điển, cấu trúc định dạng của các chuẩn dữ liệu từ điển; kho ngữ liệu, các loại kho ngữ liệu. Tìm ra giải pháp xây dựng cơ sở dữ liệu từ điển bằng cách trích rút từ các kho ngữ liệu. Từ đó, có thể làm nguồn dữ liệu cho các phần mềm từ điển, có thể nguồn cho các chương trình dịch tự động, trích rút thông tin tự động, tóm tắt văn bản tự động,… 3. ĐỐI TƯỢNG VÀ PHẠM VI NGHIÊN CỨU 3.1. Đối tượng nghiên cứu 3.2. Phạm vi nghiên cứu  Về lý thuyết: Nghiên cứu cơ sở lý thuyết về từ điển, cơ sở dữ liệu từ điển, cấu trúc định dạng của các chuẩn dữ liệu từ điển; tổng quan về kho ngữ liệu, các loại kho ngữ liệu; các phương pháp, kỹ thuật tách từ tiếng Việt.  Về thực nghiệm: Tìm ra giải pháp xây dựng cơ sở dữ liệu từ điển bằng cách trích rút từ các kho ngữ liệu. Từ đó, có thể làm nguồn dữ liệu cho các phần mềm từ điển, có thể nguồn cho các chương trình dịch tự động, trích rút thông tin tự động, tóm tắt văn bản tự động,… 4. BỐ CỤC CỦA BÁO CÁO Bố cục báo cáo được trình bày bao gồm 3 chương chính như sau: Chương 1 trình bày lý thuyết tổng quan về khai phá dữ liệu, về từ điển, cơ sở dữ liệu từ điển, cấu trúc định dạng của các chuẩn dữ liệu từ điển; tổng quan về kho ngữ liệu, các loại kho ngữ liệu. Chương 2 trình bày đề xuất giải pháp, lý do lựa chọn phương pháp, kỹ thuật cho bài toán xây dựng cơ sở dữ liệu từ điển từ kho ngữ liệu.
3 Chương 3 trình bày triển khai thực nghiệm xây dựng cơ sở dữ liệu từ điển, kết quả đạt được, chưa đạt được, hướng phát triển của bài toán. Sau đó trình bày đề xuất hướng cải tiến bài toán hiệu quả hơn
4 CHƯƠNG 1 TỔNG QUAN Chương này báo cáo trình bày cơ sở lý thuyết ban đầu về từ điển, cơ sở dữ liệu từ điển, cấu trúc định dạng của các chuẩn dữ liệu từ điển; trình bày tổng quan về kho ngữ liệu, các loại kho ngữ liệu. Ngoài ra, các công trình nghiên cứu về xây dựng cơ sở dữ liệu từ điển mà bản thân đã nghiên cứu cũng được trình bày ngắn gọn trong chương này. 1.1. CƠ SỞ LÝ THUYẾT 1.1.1. Tổng quan về từ điển Trên thế giới hiện nay có hàng trăm quốc gia và mỗi quốc gia có một ngôn ngữ riêng của mình. Việc học các ngôn ngữ của nhau giúp chúng ta tiếp cận nhanh hơn với thời đại công nghệ, giao lưu và làm việc với bạn bè quốc tế. Và tất nhiên từ điển là một công cụ quan trọng và đắc lực phục vụ cho người học. Trước đây, khi mà internet chưa phát triển, người học ngoại ngữ phải căng mắt, mỏi tay với mỗi lần tra nghĩa từ vựng trong những cuốn từ điển dày cộm thì hiện nay mọi thứ đã trở nên nhẹ nhàng và đơn giản hơn rất nhiều khi những kho từ điển đồ sộ và khổng lồ kia đều đã được số hóa, rất nhiều từ điển điện tử ra đời. Hiện nay có hai loại từ điển điện tử phổ biến: từ điển online và offline. 1.1.1.1. Từ điển ngoại tuyến (offline) Từ điển offline là các chương trình phần mềm chạy trên máy tính cá nhân và có thể sử dụng mà không cần kết nối internet. Stardict hiện tại là phần mềm nổi tiếng trong giới mã nguồn mở, nó có khả năng tra từ khá nhanh, gọn nhẹ, định dạng của nó là một biến thể nâng cấp của chuẩn Dict. Kế đến là Lingoes – một phần mềm từ điển miễn phí với các tính năng khá tốt và ưu điểm hơn Stardict là phần danh sách từ xuyên suốt từ đầu đến cuối. Hay các phần mềm miễn phí gần đây như Miltidictionary, Jtranslator,… Jtranslator là bộ từ điển đa ngôn ngữ sử dụng một định dạng cơ sở dữ liệu mở DICT của www.dict.org, chạy được trên các hệ điều hành khác nhau (Windows, Linux, Unix, Mac...).
5 Ngoài ra còn một số từ điển thương mại phổ biến hiện nay như: LacViet mtd, Evatran 2.0, English study 4.0, Babylon,… 1.1.1.2. Từ điển trực tuyến (online) Từ điển trực tuyến là một website cho phép người dùng tra cứu các từ hoặc cụm từ theo nhiều ngôn ngữ khác nhau. Nó ra đời nhằm tận dụng những ưu điểm của internet để phục vụ mọi người như tốc độ truy cập nhanh, không cần cài đặt, có thể sử dụng mọi lúc mọi nơi chỉ cần có một kết nối internet, thường xuyên được cập nhật từ mới và có thể đóng góp, có thể sửa đổi. Một số từ điển trực tuyến phổ biến, uy tín với các tính năng mạnh mẽ hiện nay như: Từ điển Oxford: http://oxforddictionaries.com, từ điển Cambridge: http://dictionary.cambridge.org, từ điển Vdict: https://vdict.com, từ điển Soha: http://tratu.soha.vn, https://www.bing.com/translato, https://translate.google.com. 1.1.2. Cơ sở dữ liệu từ điển Phần quan trọng nhất đối với ứng dụng từ điển chính là cơ sở dữ liệu, nó được coi là trái tim của chương trình. Vì vậy, một từ điển được xem là chất lượng khi mà số lượng vốn từ của nó lớn nên việc thiết kế cơ sở dữ liệu cho từ điển phải đảm bảo được tốc độ truy cập nhanh, khả năng bảo trì và mở rộng dễ dàng. Dữ liệu từ điển có thể tồn tại dưới rất nhiều định dạng khác nhau: dict.tab, spdict, dict.org. 1.1.3. Các chuẩn dữ liệu từ điển 1.1.3.1. Định dạng dict.tab Định dạng dict.tab là dữ liệu dạng text lớn (từ vài Mb trở lên). Từ điển stardict sau khi sử dụng công cụ convert file stardict sang định dạng dict.tab. File dict.tab này chi là file text và sẽ là file để lấy dữ liệu cho từ điển vì định dạng của nó cực kỳ đơn giản và nó còn có một số tính năng bổ trợ từ điển rất tốt [2]. Cụ thể định dạng của nó thể hiện như sau: a 1\n2\n3 b4\\5\n6 c 789
6 Định dạng này có nghĩa: đầu tiên viết từ cần tìm kiếm, sau đó là một ký tự tab và định nghĩa của từ đó. Nếu định nghĩa chứa dòng mới chỉ cần viết \n, nếu chứa ký tự \ thì \\. 1.1.3.2. Định dạng dict.org Dict.org là dạng từ điển được xây dựng bởi www.dict.org . Định dạng này được mô tả như sau: toàn bộ cơ sở dữ liệu của từ điển được lưu trữ trong 2 tập tin: một tập tin chỉ mục và một tập tin chứa nghĩa của từ. a. Cấu trúc tập tin chỉ mục: tập tin chỉ mục bao gồm tên từ, vị trí bắt đầu nghĩa của từ trong tập tin chứa nghĩa và độ dài của nghĩa [2]. Mỗi dòng trong tập tin chỉ mục chứa dữ liệu của một từ và các dòng phân cách nhau bởi ký tự xuống dòng. Cấu trúc của nó có định dạng như sau: Từ1{tab}offset1{tab}len1 Từ2{tab}offset2{tab}len2 Trong đó:  {tab}: là phím tab từ bàn phím  offset: vị trí bắt đầu nghĩa của từ trong tập tin chứa nghĩa  len: độ dài nghĩa giải thích của từ trong tập tin chứa nghĩa Offset và len được mã hóa theo nguyên tắc sau:  Sử dụng 64 chữ cái: ABCDEFGHIJKLMNOPQRSTUVWXYZabcdefghijklmnopqrstuvwxyz0123456789+ /  Chữ cái A tương đương 0 và B tương đương 1 và các ký tự tiếp theo sẽ tang dần theo qui luật trên. Ví dụ: Cấu trúc tập tin chỉ mục của cơ sở dữ liệu từ điển lưu theo định dạng dict.org sau:
7 Hình 1.1: Định dạng dict.org Trong đó: Hình 1.2: Định dạng dict.org b. Cấu trúc tập tin chứa nghĩa: @từ  Từ loại (danh từ, tính từ,…) o Định nghĩa 1 o Định nghĩa 2  Từ loại o Định nghĩa 3
8 1.1.3.3. Định dạng Spdict Tác giả Bùi Đức Tiến đã phát triền dựa trên định dạng dict.org. Đây là ví dụ 1 file từ điển abc gồm 2 từ a->aa, b->bb được mở bằng notepad2 ( trích ebook hướng dẫn làm từ điển của tác giả). Hình1.3: Ví dụ tập tin có định dạng spdict. Định dạng spdict có thể phần ra làm 4 phần (3 phần đóng khung đỏ và 1 phần không đóng khung):  Phần thứ 1: o gồm chuỗi 2SPDict ở đầu file (để dánh dấu file này là của từ điển spdict tạo thành) o 4 byte tiếp theo ( ví dụ null null null) lưu vị trí của phần thứ 3 (phần không đóng khung đỏ) o 4 byte tiếp theo lưu số dữ liệu thừa phát sinh trong quá trình làm từ điển (hiện mới tạo nên nó =0, 4 chữ null)  Phần thứ 2: o 2 byte dạng short lưu độ dài của từ (null sqh rồi mới đến a), sau đó là nghĩa của từ (a) lưu độ dài bằng 4 byte (null null null stx) rồi đến aa. Tiếp theo b->bb.  Phần thứ 3: có giá trị tương tự như 1 nội dung ở phần 2 (2 byte lưu độ dài), phần còn lại là nội dung (1 chuỗi gồm nhiều chuỗi con phân cách nhau với byte có giá trị 0 (null): o Tên từ điển (abc) o Mã sắp xếp (en) o Giọng phát âm (kevin)
9 o Font, kích thước từ và nghĩa(tahoma,12,tahoma,12) o Tác giả (tienlbhoc) o Thông tin thêm (demo)  Phần thứ 4 gồm 8 byte, là 2 số integer (tương ứng với 2 từ), mỗi số lưu vị trí của 1 từ (a và b trong phần thứ 2 của từ điển). Có thể nói đây là danh sách vị trí hay gọi là con trỏ văn bản. 1.1.4. Kho ngữ liệu 1.1.4.1. Kho ngữ liệu Kho ngữ liệu (corpus) dùng để chỉ tập hợp các văn bản trong các ngôn ngữ khác nhau dưới dạng điện tử. Đây là một khái niệm cơ bản đối với Ngôn ngữ học khối liệu [8]. Theo T. McEnery và A. Wilson, kho ngữ liệu phải thỏa các tính chất sau:  Kho ngữ liệu gồm tập các văn bản bất kì.  Kho ngữ liệu phải cho phép sử dụng dễ dàng và thường xuyên.  Kho ngữ liệu phải được xây dựng phải hàm chứa phong cách và biểu cảm ngôn ngữ. Trong lĩnh vực Ngôn ngữ học, kho ngữ liệu theo tiếng Latin có nghĩa tức là bất kỳ khối văn bản nào (any body of text). Tuy nhiên, nếu xét kho ngữ liệu là cơ sở nghiên cứu của các phương pháp xây dựng và trợ giúp máy tính xử lý thông tin thì kho ngữ liệu gồm các đặc điểm cơ bản sau:  Các ngôn ngữ phải đồng điển hình.  Có kích cỡ xác định.  Ở dạng đọc được trên máy tính.  Có các chú giải chuẩn về mặt ngôn ngữ. Các kho ngữ liệu có thể được sử dụng để nhận biết các thông tin hướng dẫn, tham khảo và số liệu thống kê về các đơn vị ngôn ngữ và lời nói. Kho ngữ liệu có thể cung
10 cấp cho người sử dụng các thông tin về tần số hoạt động của từ và cụm từ, lexeme và v.v… Kho ngữ liệu cho phép theo dõi các thay đổi về tần số sử dụng các đơn vị từ vựng và các ngữ cảnh ở các giai đoạn phát triển khác nhau của lịch sử xã hội loài người. Khi nhận được các dữ liệu ngôn ngữ trong một giai đoạn phát triển lịch sử nhất định từ kho ngữ liệu, người sử dụng có thể nghiên cứu các quá trình biến đổi thành phần từ vựng của ngôn ngữ trên thực tế, có thể tiến hành các phân tích cú pháp ở các thể loại văn bản và của các tác giả khác nhau. Kho ngữ liệu còn được sử dụng làm cơ sở cho việc chuẩn bị các loại từ điển hiện đại và lịch sử khác nhau một cách nhanh chóng và hiệu quả. Vai trò của Ngôn ngữ học khối liệu càng được khẳng định khi các công trình nghiên cứu về kho ngữ liệu cho thấy kho ngữ liệu có thể sử dụng để xây dựng các kĩ năng và kiểm tra ngữ pháp trong quá trình dạy học ngoại ngữ và dịch thuật [3]. 1.1.4.2. Kho ngữ liệu song song (Parallel Corpus) Kho ngữ liệu song song được định nghĩa là một tập các văn bản (tài liệu) trong nhiều ngôn ngữ khác nhau, trong đó có một ngôn ngữ nguồn và một hoặc nhiều ngôn ngữ đích [8]. Kho ngữ liệu song song có thể được thu thập từ nhiều nguồn khác nhau như các nguồn ở dạng giấy viết hoặc các nguồn ở dạng tài liệu dạng điện tử. Nguồn tài nguyên ở dạng giấy viết có thể được tìm thấy dễ dàng trong các sách học ngoại ngữ, các sách truyện, tài liệu song ngữ và các từ điển song ngữ. Việc thu thập dữ liệu từ nguồn tài nguyên này đơn giản, tuy nhiên quá trình nhập liệu vào máy tính tốn nhiều thời gian và công sức. Nguồn tài nguyên điện tử hiện nay rất phong phú dưới dạng hàng tỷ trang Web đa ngữ[3]. 1.1.4.3. Kho ngữ liệu đa ngữ (Multilingual Corpora) Kho ngữ liệu đa ngữ được định nghĩa là một tập các văn bản (tài liệu) được viết bằng nhiều ngôn ngữ [8]. Các tài liệu trong kho ngữ liệu đa ngữ thường được tổ chức theo một qui tắc để dễ quản lý hoặc xác định nguồn gốc của chúng.
11 1.1.4.4. Kho ngữ liệu (có thể) so sánh (Comparable Corpus) Kho ngữ liệu so sánh là một tập các tài liệu trong các ngôn ngữ khác nhau trình bày cùng chủ đề chính thì được gọi là kho ngữ liệu so sánh (Comparable Corpus) [8]. Kho ngữ liệu này cũng còn gọi là kho ngữ liệu song song ở mức tài liệu nhưng không song song ở mức câu hoặc đoạn. Nguyên nhân là các tài liệu ở các ngôn ngữ khác nhau trình bày cùng một chủ đề nhưng chưa hẳn các câu và các đoạn trong các văn bản đó song song với nhau. 1.1.5. Các phương pháp tách từ tiếng Việt hiện nay Ta thấy tiếng Anh và tiếng Việt có nhiều điểm khác biệt (do loại hình ngôn ngữ, do nền văn hóa) chẳng hạn: khác biệt về ngữ âm học, hình vị, ranh giới từ, sự từ vựng hóa; từ loại; trật tự từ (tính từ và danh từ), kết cấu câu (chủ đề và cụm chủ vị),… Vì vậy chúng ta không thể áp dụng y nguyên các mô hình xử lý ngôn ngữ của tiếng Anh sang cho tiếng Việt được mà phải có sự điều chỉnh nhất định. Do đó, chúng ta phải tìm hiểu về các hướng tiếp cận cho việc tách từ tiếng Việt [5]. Một số phương pháp tách từ tiếng Việt hiện nay có thể kể đến như:  Phương pháp Maximum Matching  Phương pháp giải thuật học cải biến  Mô hình tách từ bằng WFST và mạng Neural.  Phương pháp qui hoạch động (dynamic programming).  Phương pháp tách từ dựa trên thống kê từ Internet và thuật toán di truyền  Phương pháp Pointwise 1.2. CÁC CÔNG TRÌNH NGHIÊN CỨU XÂY DỰNG TỪ ĐIỂN  Hợp nhất dữ liệu từ điển [2]: Tác giả đã đề xuất phải pháp hợp nhất dữ liệu từ điển. Tức là từ nhiều cơ sở dữ liệu từ điển khác nhau về cấu trúc, định dạng; tác giả thu thâp, phân tích, thiết kế ra cấu trúc và định dạng đồng nhất chung; sau đó tiến hành hợp nhất cấu trúc dữ liệu, hợp nhất dữ liệu tạo nên một cơ sở dữ liệu từ điển lớn hơn và chất lượng hơn. Tuy nhiên, công trình này tác giả chỉ mới dừng ở việc hợp nhất 2