Xây dựng công cụ gán nhãn thực thể

Chia sẻ: Tưởng Trì Hoài | Ngày: | Loại File: PDF | Số trang:11

Thêm vào BST

Báo xấu

3
lượt xem 2
download

Download Vui lòng tải xuống để xem tài liệu đầy đủ

Mục tiêu của bài báo "Xây dựng công cụ gán nhãn thực thể" là đề xuất một công cụ hỗ trợ gán nhãn văn bản nhằm tạo ra dữ liệu huấn luyện và đánh giá cho những nghiên cứu về khai phá dữ liệu văn bản. Ngoài ra, công cụ còn hỗ trợ chức năng đánh giá kết quả về sự khác nhau giữa kết quả học máy và dữ liệu đánh giá. Mời các bạn cùng tham khảo!

Chủ đề:

Bình luận(0) Đăng nhập để gửi bình luận!

Lưu

Nội dung Text: Xây dựng công cụ gán nhãn thực thể

Kỷ yếu Hội thảo khoa học Khoa Công nghệ thông tin, năm 2024 XÂY DỰNG CÔNG CỤ GÁN NHÃN THỰC THỂ Huỳnh Hữu Nghĩa1, *, Trần Việt Phúc1, Bùi Minh Thanh Ngọc1 Trường Đại học Công thương Thành phố Hồ Chí Minh 1 * Email: nghiahh@huit.edu.vn Ngày nhận bài:11/05/2024; Ngày chấp nhận đăng: 20/05/2024 TÓM TẮT Trong lĩnh vực nghiên cứu khai phá dữ liệu văn bản (Text Mining) dựa trên phương pháp học máy cần dữ liệu huấn luyện (train data) và dữ liệu đánh giá (test data). Dữ liệu huấn luyện và đánh giá là dữ liệu được gán nhãn thủ công bởi chuyên gia trong lĩnh vực. Dữ liệu gán nhãn là những thực thể (entities) chỉ người (person), vị trí (location), sản phẩm (product), thời gian (date/time) hoặc các khái niệm (concepts) trong dữ liệu văn bản (text). Việc gán nhãn là xác định vị trí xuất hiện của thực thể trong văn bản cần gán nhãn. Mục tiêu của bài báo là đề xuất một công cụ hỗ trợ gán nhãn văn bản nhằm tạo ra dữ liệu huấn luyện và đánh giá cho những nghiên cứu về khai phá dữ liệu văn bản. Ngoài ra, công cụ còn hỗ trợ chức năng đánh giá kết quả về sự khác nhau giữa kết quả học máy và dữ liệu đánh giá. Từ khóa: Công cụ gán nhãn, gán nhãn thực thể, nhận diện thực thể, rút trích khái niệm. 1. MỞ ĐẦU Trong thời đại công nghệ vô cùng phát triển như hiện nay, việc xây dựng được các tập dữ liệu lớn là điều vô cùng giúp ích cho các công ty, doanh nghiệp hoặc cá nhân nào đó. Trong quá khứ và cả ở tương lai, chúng ta có thể thấy các tập đoàn, công ty lớn về công nghệ đã, đang và sẽ còn đẩy mạnh hơn nữa việc xây dựng các bộ dữ liệu lớn để phục vụ cho quá trình phát triển các sản phẩm, dự án công nghệ của họ. Bên cạnh đó, ta có thể thấy các vụ án về việc đánh cấp dữ liệu, mua bán dữ liệu trái phép, có ảnh hưởng đặc biệt và được quan tâm như thế nào trên các kênh truyền thông, đặc biệt là các dữ liệu lớn của các ngành như y tế, ngân hàng. Như vậy, có thể nói, trong thời đại hiện nay ai nắm nhiều dữ liệu nhất sẽ có nhiều sức mạnh về công nghệ nhất. Tuy nhiên, thực trạng hiện nay việc sở hữu một bộ dữ liệu đủ độ tin cậy, sạch sẽ là điều khó khăn. Nhất là ở Việt Nam chúng ta, dù chúng ta vẫn đang trong quá trình đẩy nhanh việc hội nhập, phát triển về lĩnh vực công nghệ thông tin. Tuy nhiên, chúng ta vẫn còn đang trong quá trình chuyển đổi số, do đó còn một số trường hợp, chúng ta còn khá ít điều kiện để thu thập, xây dựng một bộ dữ liệu lớn hoàn chỉnh, đủ độ tin cậy. Từ những vấn đề đó, nhóm chúng tôi đã đặt ra vấn đề cho việc xây dựng các bộ dữ liệu đủ độ tin cậy, sạch sẽ. Nhằm phục vụ cho các nhu cầu về công nghệ mà ở đó họ cần các bộ dữ liệu đủ để đảm bảo các nhu cầu về dữ liệu. Cụ thể nhóm nghiên cứu chúng tôi đã thấy được sự cần thiết cũng như tính quan trọng trong lĩnh vực Khai phá văn bản (Text Mining), đây là một trong những bài toán cần giải quyết trong việc tạo ra các bộ dữ liệu lớn. Các thao tác như gán nhãn, đánh dấu, phân loại dữ liệu góp phần xây dựng nên một bộ dữ liệu dùng cho các mô hình Trí tuệ Nhân tạo (AI - Artificial Intelligence). Trong đó thao tác gán nhãn dữ liệu là một thao tác cần thiết và quan trọng giúp cho các mô hình Trí 10
Huỳnh Hữu Nghĩa và CS tuệ Nhân tạo có thể nhận diện, phân loại được các đối tượng, sau khi được huấn luyện bằng các tập huấn luyện do các chuyên gia tạo ra. Gán nhãn thực thể có thể được hiểu là việc xác định các dữ liệu thô như: đoạn âm thanh, hình ảnh và cụ thể trong bài viết này là việc gán nhãn cho một tệp văn bản nào đó. Trong lĩnh vực xử lý ngôn ngữ tự nhiên có nhiều bài toán cần dữ liệu gán nhãn để huấn luyện cho mô hình học máy như bài toán nhận dạng thực thể (NER - Named Entity Recognition), trích xuất mối quan hệ (Relation Extraction), đồng tham chiếu (Coreference), v.v. Thao tác gán nhãn thực thể là một trong các thao tác cần thiết và quan trọng trong các mô hình học máy. Bài toán nhận diện thực thể thực hiện nhận diện các cụm từ trong văn bản và phân loại các cụm từ đó vào các loại được xác định trước tổ chức (organization), tên người (person), địa điểm (location) (xem hình 1). Bài toán xác định mối quan hệ giữa các thực thể (hay khái niệm) được thực hiện sau bài toán nhận diện thực thể. Bài toán sẽ gán nhãn mối quan hệ giữa các thực thể/khái niệm có mối quan hệ với nhau (xem hình 2). 1.1. Gán nhãn thực thể trên văn bản – (NER - Named Entity Recognition) Về bài toán thứ nhất “Gán nhãn thực thể trên văn bản – NER”, đây là một trong các bài toán trong lĩnh vực Khai phá dữ liệu văn bản. Theo ước tính có khoảng 80% dữ liệu trên thế giới thuộc và loại dữ liệu phi cấu trúc, trong đó văn bản phi cấu trúc cũng chiếm một phần không nhỏ. Gán nhãn thực thể trên văn bản, là mô hình phục vụ cho việc biến đổi các loại văn bản phi cấu trúc trở thành loại văn bản có cấu trúc có thể biểu diễn dưới dạng nhiều cột hoặc bảng. Điều này sẽ có ích cho việc ứng dụng vào các mô hình phân tích cảm xúc, tóm tắt văn bản, xây dựng biểu đồ tri thức, trả lời câu hỏi, lưu trữ thông tin và xử lý các thuật toán phục vụ trong quá trình xây dựng các mô hình Trí tuệ nhân tạo được dễ dàng hơn. Một trong những ứng dụng quan trọng của gán nhãn thực thể, là nâng cao độ chính xác của các tác vụ của mô hình Xử lý ngôn ngữ tự nhiên (NLP – Natural Language Processing). Hiện tại, các nền tảng về mô hình NER chỉ mới hỗ trợ các tập văn bản tiếng Anh. Hiệu suất của các nền tảng này khá hiệu quả và được cho là có hiệu suất gần bằng với con người. Các nền tảng NER có thể quan tâm như: GATE hỗ trợ nhiều ngôn ngữ, có thể sử dụng qua giao diện đồ họa và API của Java, OpenNLP nhận dạng thực thể dựa trên các quy tắc và thống kê, v.v. Cách hoạt động của mô hình NER gồm 5 bước cơ bản như sau: Tiền xử lý văn bản Ở bước đầu tiên này mô hình sẽ làm sạch văn bản, loại bỏ các ký tự lạ, không cần thiết, sửa lỗi chính tả, đưa dữ liệu về dạng chuẩn để phục vụ cho quá trình nhận dạng. Phân đoạn văn bản: Ở bước này văn bản có thể được chia thành các đoạn, câu hoặc từ để dễ dàng xác định các thực thể có thể phân loại. Ví dụ: Ousted WeWork founder Adam Neumann lists his Manhattan penthouse for $37.5 million Phân đoạn thành: “Ousted”, “WeWork”, “founder”, “Adam”, “Neumann”, “lists”, “his”, “Manhattan”, “penthouse”, “for”, “$37.5 million” Trích xuất đặc trưng: Đây là quá trình biến đổi các câu, từ trong văn bản thành một biểu diễn số học đặc trưng cho một loại từ nào đó có thể sử dụng cho quá trình huấn luyện mô hình học máy trong NER. 11
Ví dụ: Ousted WeWork founder Adam Neumann lists his Manhattan penthouse for $37.5 million Ta có các trích xuất đặc trưng như sau: Về mặt từ vựng và ngữ cảnh: Từ “Adam” và “Neumann” có thể được trích xuất là các từ chính. Các từ vựng còn lại như “Ousted”, “WeWork”, “founder”, “lists”, “his”, “Manhattan”, “penthouse”, “for”, “$37.5 million” cũng có thể xem là các từ vựng và ngữ cảnh. Về mặt từ loại: “Adam” và “Neumann” có thể được gán nhãn là “NNP” Proper Noun – danh từ riêng. Các từ loại như “list” có thể được gán nhãn là “VBZ” Verb – động từ, “penhouse” có thể được gán nhãn là “NN” Noun – danh từ. Về mặt định dạng: “Adam”, “Neumann” và “Manhattan” có thể được xem là tên riêng, do có chữ cái đầu viết hoa. “$37.5 million” có thể xem là đơn vị tiền tệ do chứa ký tự tiền tệ. Về vị trí trong câu: “Adam”, “Neumann” nằm gần ở vị trí đầu câu, cho nên có thể xem 2 từ trên có đặc trưng quan trọng. Về mặt tính năng ngôn ngữ tự nhiên: Có thể dùng danh sách các tên riêng hoặc từ điển các từ liên quan đến các vấn đề về “WeWork”, “founder”, “Manhattan” để xác định xem các từ này có thể xem là mộ thực thể có tên hay không. Phân loại: Đây là bước mấu chốt, ở bước này mô hình máy học hoặc một mạng nơ-ron sẽ được sử dụng để phân loại các câu, từ đã được trích xuất đặc trưng ở phía trên. Ví dụ: Ousted WeWork founder Adam Neumann lists his Manhattan penthouse for $37.5 million Ta có: Từ Phân loại Ousted Không phải là thực thể có tên. WeWork Thực thể có tên (có thể là một công ty). founder Không phải là thực thể có tên. Adam Thực thể có tên (tên riêng của một người). Neumann Thực thể có tên (tên họ của một người). lists Không phải là thực thể có tên. his Không phải là thực thể có tên. 12
Huỳnh Hữu Nghĩa và CS Manhattan Thực thể có tên (một địa danh). penthouse Không phải là thực thể có tên. for Không phải là thực thể có tên. $37.5 million Thực thể có tên (một giá trị tiền tệ) Đánh giá kiểm tra: Đây là bước cuối cùng, ở bước này mô hình sẽ đánh giá, kiểm tra lại tính chính xác bằng việc so sánh kết quả ở các bước trên và tập dữ liệu huấn luyện 1.2. Trích xuất mối quan hệ (Relation Extraction) Trích xuất mối quan hệ (RE) là một quy trình quan trọng trong xử lý ngôn ngữ tự nhiên, tự động xác định và phân loại các kết nối giữa các thực thể trong văn bản ngôn ngữ tự nhiên, giúp hiểu được mối liên hệ giữa các thực thể được đề cập trong văn bản. Các mối quan hệ biểu thị cách các thực thể này có liên quan với nhau như thế nào, chẳng hạn như “người sáng lập”, “ở”, “làm việc tại”, “kết hôn với”, ... Ví dụ: “John làm việc tại công ty” minh họa mối quan hệ “làm việc tại” giữa John với công ty. Mối quan hệ được trích xuất này giúp làm phong phú thêm sự hiểu biết ngữ nghĩa của văn bản và có thể được tổ chức thành dữ liệu có cấu trúc cho các ứng dụng tiếp theo khác nhau. Mục tiêu chính của việc trích xuất mối quan hệ là trích xuất những hiểu biết sâu sắc có giá trị từ văn bản giúp làm phong phú thêm sự hiểu biết của chúng ta về các mối quan hệ ràng buộc con người, tổ chức, khái niệm, ... Quy trình các bước thực hiện của mô hình trích xuất mối quan hệ như sau: Tiền xử lý dữ liệu: Bước đầu tiên cần làm là loại bỏ dấu câu không cần thiết, làm sạch dữ liệu và chuẩn hóa văn bản. Điều này có ích vì sẽ giúp cho việc trích xuất các mối quan hệ có độ chính xác cao hơn. Phân tích cú pháp: Là việc phân tích cấu trúc ngữ pháp của câu để hiểu mối quan hệ giữa các thành phần trong câu. Quá trình này thường bao gồm: chia câu thành các phần nhỏ hơn gọi là "token", gắn thẻ từng token với loại từ (danh từ, động từ, tính từ, …), xác định các quan hệ phụ thuộc giữa các từ trong câu, thể hiện mối quan hệ cú pháp như chủ từ, động từ, tân ngữ, … Ví dụ: Trong câu "Born in 1963, James graduated from Harvard University and became a teacher there." "Born in 1963" là một cụm từ động từ, "James" là chủ từ, "graduated from Harvard University" là một cụm từ động từ, "became a teacher there" là một cụm từ động từ. Trích xuất thực thể: Đây là quá trình xác định và nhận diện các thực thể quan trọng có trong văn bản hoặc câu văn. Ví dụ trên có các thực thể như là "James", "Harvard University", "teacher". Trích xuất mối quan hệ: Đây là quá trình xác định mối quan hệ ngữ nghĩa giữa các thực thể đã được xác định trong câu. Trong ví dụ trên, chúng ta cần tìm mối quan hệ giữa "James" và "Harvard University", và giữa "James" và "teacher". Dựa vào cấu trúc ngữ pháp của câu, chúng ta biết rằng "James graduated from Harvard University" là một mối quan hệ, và "James became a teacher there" là một mối quan hệ khác. 13
Đánh giá và kiểm tra: Bước cuối cùng của quá trình là kiểm tra kết quả của mô hình nhằm đảm bảo rằng các mối quan hệ được trích xuất chính xác. Hình 1. Gán nhãn thực thể trên văn bản. Hình 2. Gán nhãn mối quan hệ giữa các thực thể trên văn bản. Việc xây dựng công cụ hỗ trợ gán nhãn thực thể và mối quan hệ nhằm tạo ra các bộ dữ liệu huấn luyện và đánh giá cho các bài toán nêu trên có ý nghĩa thực tiễn. Công cụ hỗ trợ góp phần hỗ trợ thao tác gán nhãn các thực thể một cách nhanh chóng, chính xác và hiệu quả. Nội dung bài báo bao gồm mô tả yêu cầu bài toán, kiến trúc hệ thống và kết quả hiện thực các chức năng hệ thống. 2. MÔ TẢ YÊU CẦU BÀI TOÁN Các tác vụ xử lý ngôn ngữ tự nhiên như nhận dạng thực thể (NER) và trích xuất thông tin cần các dữ liệu được gán nhãn nhằm phục vụ cho các mô hình huấn luyện. Tuy nhiên, quá trình gán nhãn tốn nhiều thời gian và công sức, yêu cầu xác định và phân loại chính xác các thực thể trong văn bản phi cấu trúc. Thông thường, việc này đòi hỏi kiến thức của các chuyên gia về từng lĩnh vực cụ thể, đồng thời cần phải chú ý cẩn thận đến ngữ cảnh khi gán nhãn thực thể. Có thể thấy, các phương pháp gán nhãn thủ công truyền thống bởi con người sẽ dễ mắc lỗi, khó tránh sai sót và khó đạt được sự nhất quán chung giữa nhiều ý kiến chủ quan khác nhau của mỗi chuyên gia hoặc nhà nghiên cứu, dẫn đến hiệu suất của các mô hình NLP chưa đạt được hiệu quả tối ưu. Để giải quyết thách thức này, nhóm nghiên cứu đề xuất phát triển một công cụ gán nhãn thực thể nhằm tự động hóa quy trình gán nhãn, từ đó đẩy nhanh quá trình phát triển các mô hình NLP và cải thiện chất lượng gán nhãn. 3. KIẾN TRÚC HỆ THỐNG Các thành phần của hệ thống bao gồm dữ liệu đầu vào, các chức năng hệ thống như gán nhãn thực thể, xuất tập từ khóa đã được gán nhãn, so sánh kết quả gán nhãn (Xem hình 3). 14
Huỳnh Hữu Nghĩa và CS Hình 3. Các thành phần của hệ thống. 3.1. Dữ liệu đầu vào Dữ liệu đầu vào của hệ thống là tập tin văn bản chưa được gán nhãn. 3.2. Gán nhãn thực thể Nhằm mục đích chuẩn bị dữ liệu gán nhãn cho các mô hình xử lý ngôn ngữ tự nhiên, với đầu vào là dữ liệu văn bản thô, hệ thống cần hiển thị tập tin văn bản này cho người dùng thực hiện thao tác phía sau. Đối với tệp văn bản được hiển thị trên giao diện hệ thống, người dùng cần đánh dấu và gán nhãn cho các từ khóa xuất hiện trong văn bản đó. Một thực thể được gán nhãn bao gồm các thông tin như khái niệm (concept), vị trí đầu, vị trí cuối, tên nhãn (label). 3.3. Xuất tập từ khóa đã được gán nhãn Để lưu trữ thông tin các từ khóa đã được gán nhãn trong văn bản, cần có chức năng xuất tập tin chứa danh sách các từ khóa vừa gán nhãn và lưu vào máy tính. Tập tin chứa dữ liệu gán nhãn này sẽ được lưu cùng vị trí với tập tin văn bản gốc. Như vậy, khi cần hiển thị cả văn bản và danh sách các từ được gán nhãn của văn bản đó, người dùng chỉ cần chọn duy nhất một đường dẫn thì có thể truy vấn đến cả hai tập tin có cùng vị trí lưu trữ. 3.4. So sánh kết quả gán nhãn Dựa vào kết quả do chuyên gia gán nhãn cùng với kết quả gán nhãn của hệ thống, hệ thống sẽ tiến hành so sánh, thống kê và đánh giá hiệu suất. Cụ thể, quá trình phân tích bao gồm: thống kê số lượng các từ được gán nhãn ở cả hai tập tin (trường hợp gán đúng), thống kê số lượng các từ chỉ được gán nhãn bởi chuyên gia mà không được gán bởi hệ thống (trường hợp gán thiếu), thống kê số lượng các từ được gán bởi hệ thống mà không có trong tập tin kết quả của chuyên gia (trường hợp gán sai). Bên cạnh hiển thị số liệu các kết quả thống kê, hệ thống còn hỗ trợ đánh dấu các từ khóa thuộc ba trường hợp trên bằng ba màu sắc khác nhau. Từ kết quả so sánh, đánh giá hiệu suất việc gán nhãn thực thể của hệ thống, là cơ sở cho việc cải tiến chương trình. 15
4. HIỆN THỰC HỆ THỐNG 4.1. Hiển thị văn bản mẫu: Công cụ cho phép người dùng hiển thị văn bản từ các tệp định dạng văn bản trên giao diện. Bấm chọn nút Select Document (Chọn tài liệu) sau đó chọn tệp văn bản muốn hiển thị lên giao diện (Xem hình 4). Hình 4. Hiển thị văn bản mẫu. 4.2. Gán nhãn thực thể: Chuyên gia/người dùng có thể gán nhãn (label) cho các thực thể trong văn bản bằng cách làm nổi bật và gán nhãn cho chúng. Sau đó có thể tạo ra tập gán nhãn bằng cách bấm nút Export file (xuất tệp) trên giao diện (Xem hình 5). Người dùng có thể gán nhãn cho các từ khóa bằng cách chọn nhãn dán, sau đó tô đen từ khóa cần gán nhãn rồi nhấn Enter. 16
Huỳnh Hữu Nghĩa và CS Hình 5. Gán nhãn thực thể. 4.3. Xuất tập từ khóa đã được gán nhãn: Chuyên gia/người dùng có thể tạo ra tập gán nhãn bằng cách bấm nút Export file (xuất tệp) trên giao diện (Xem hình 6). Bấm nút Export file (xuất tệp) trên giao diện, tệp Train sẽ tự động tạo ra ở thư mục Text_Train trên máy tính (Xem hình 7). Hình 6. Xuất tập từ khóa đã được gán nhãn. Hình 7. Xuất tập từ khóa đã được gán nhãn. 4.4. Thêm các loại nhãn: Công cụ cho phép người dùng thêm các loại nhãn (label) bên cạnh các loại nhãn đã cung cấp sẵn (Xem hình 8). Nhập loại nhãn vào textBox sau đó nhấn nút Add Label (Xem hình 9). Hình 8. Thêm các loại nhãn. 17
Hình 9. Thêm các loại nhãn. 4.5. Làm nổi bật các từ khóa: Công cụ cho phép làm nổi bật các từ khóa trong văn bản để làm nổi bật các từ khóa, khái niệm quan trọng dựa trên tệp gán nhãn của chuyên gia đã tạo trước đó (Xem hình 10). Bấm nút Select Query File sao đó chọn tệp gán nhãn _Train.txt, công cụ sẽ làm nổi bật các từ đã được gán nhãn trên giao diện. Hình 10. Làm nổi bật các từ khóa. 4.6. Thống kê số lượng nhãn: Thống kê số lượng ở các tập gán nhãn của của chuyên gia và của học máy từ dựa theo từng loại nhãn và hiển thị kết quả lên giao diện. Bấm Select Document, sau đó bấm chọn folder chứa tệp văn bản mẫu muốn thống kê kết quả gán nhãn, sau đó chọn tệp văn bản muốn thống kê trong comboBox (Xem hình 11). 4.7. So sánh kết quả gán nhãn: Dựa vào tập gán nhãn của chuyên gia và máy học, công cụ so sánh và hiển thị các từ khóa mà máy học gán nhãn đúng, các từ mà máy học gán sai và những từ máy học chưa gán được. Bấm Select Document, sau đó bấm chọn folder chứa tệp văn bản mẫu muốn so sánh kết quả gán nhãn, sau đó chọn tệp văn bản muốn so sánh trong comboBox (Xem hình 11). 18
Huỳnh Hữu Nghĩa và CS 4.8. Tính độ trùng khớp: Dựa vào tập gán nhãn của chuyên gia và máy học, công cụ sẽ tính toán tỉ lệ phần trăm độ trùng khớp của kết quả máy học và kết quả của chuyên gia đã gán nhãn. Theo công thức: a/b*100, trong đó: a là số lượng từ trùng khớp của tập gán nhãn của máy học, b là số lượng từ có trong tập gán nhãn của chuyên gia. Bấm Select Document, sau đó bấm chọn folder chứa tệp văn bản mẫu muốn tính độ trùng khớp, sau đó chọn tệp văn bản muốn tính độ trùng khớp sau khi máy học gán nhãn trong comboBox (Xem hình 11). Hình 11. Thống kê và so sánh kết quả gán nhãn. 5. KẾT LUẬN Trong bài báo này, nhóm tác giả đã trình bày về một đề xuất xây dựng công cụ hỗ trợ gán nhãn thực thể trên dữ liệu văn bản nhằm xây dựng bộ dữ liệu huấn luyện và đánh giá kết quả cho các nghiên cứu học máy trong lĩnh vực khai phá dữ liệu văn bản như rút trích thực thể, rút trích mối quan hệ giữa các thực thể và đồng tham chiếu. Công cụ thực hiện được các chức năng xác định thực thể, phân loại thực thể. Ngoài ra, công cụ còn hỗ trợ những nhà cứu phân tích dữ liệu đánh giá đối chiếu kết quả học máy để tìm ra những lỗi cũng như nghiên cứu tìm kiếm các đặc trưng mới nhằm cải thiện kết quả học máy. Trước đây, chưa có công cụ nào hỗ trợ các chức năng này. Kết quả nghiên cứu này là cơ sở cho nghiên cứu tiếp theo về việc mở rộng thêm những tính năng mới như gán nhãn mối quan hệ giữa các khái niệm, gán nhãn đồng tham chiếu. 19
ABSTRACT BUILDING ENTITY LABELING TOOL Huynh Huu Nghia1, *, Tran Viet Phuc1, Bui Minh Thanh Ngoc1 1 Ho Chi Minh City University of Industry and Trade * Email: nghiahh@huit.edu.vn In the field of text mining research based on machine learning methods, training and testing data are needed. Experts in many fields manually label training and testing data. Labeled data are entities that refer to a person, location, product, date/time, or concepts in text data. Labeling is determining the location of the entity in the text that needs to be labeled. The goal of the article is to propose a tool to support text labeling to create training and testing data for research on text data mining. In addition, the tool also supports the function of evaluating results for differences between machine learning results and testing data. Keywords: Labeling tool, entity labeling, entity recognition, concept extraction. 20