intTypePromotion=1
zunia.vn Tuyển sinh 2024 dành cho Gen-Z zunia.vn zunia.vn
ADSENSE

Luận án tiến sĩ Kỹ thuật: Một số phương pháp học máy xác định đặc điểm người dùng trên mạng internet

Chia sẻ: Tỉ Thành | Ngày: | Loại File: PDF | Số trang:153

62
lượt xem
8
download
 
  Download Vui lòng tải xuống để xem tài liệu đầy đủ

Mục tiêu của luận án là nghiên cứu vấn đề xác định đặc điểm tác giả văn bản trên loại văn bản mới, chưa được nghiên cứu trước đây. Cụ thể là trên các bài viết diễn đàn tiếng Việt. Thực nghiệm các loại đặc trưng và các phương pháp phân loại để chọn ra các đặc trưng và phương pháp phân loại phù hợp.

Chủ đề:
Lưu

Nội dung Text: Luận án tiến sĩ Kỹ thuật: Một số phương pháp học máy xác định đặc điểm người dùng trên mạng internet

  1. HỌC VIỆN CÔNG NGHỆ BƯU CHÍNH VIỄN THÔNG Dương Trần Đức MỘT SỐ PHƯƠNG PHÁP HỌC MÁY XÁC ĐỊNH ĐẶC ĐIỂM NGƯỜI DÙNG TRÊN MẠNG INTERNET LUẬN ÁN TIẾN SĨ KỸ THUẬT Hà Nội – Năm 2018
  2. i HỌC VIỆN CÔNG NGHỆ BƯU CHÍNH VIỄN THÔNG Dương Trần Đức MỘT SỐ PHƯƠNG PHÁP HỌC MÁY XÁC ĐỊNH ĐẶC ĐIỂM NGƯỜI DÙNG TRÊN MẠNG INTERNET Chuyên ngành: Kỹ thuật máy tính Mã số: 9.48.01.06 LUẬN ÁN TIẾN SĨ KỸ THUẬT NGƯỜI HƯỚNG DẪN KHOA HỌC: 1. PGS.TS PHẠM BẢO SƠN 2. TS. TÂN HẠNH Hà Nội – Năm 2018
  3. ii LỜI CAM ĐOAN Tôi xin cam đoan đây là công trình nghiên cứu do tôi thực hiện. Các số liệu và kết quả trình bày trong luận án là trung thực, chưa được công bố bởi bất kỳ tác giả nào hay ở bất kỳ công trình nào khác. Tác giả Dương Trần Đức
  4. iii LỜI CẢM ƠN Tôi xin gửi lời cảm ơn chân thành tới Khoa Đào tạo Sau Đại học, Khoa Công nghệ Thông tin, Ban Lãnh đạo Học viện Công nghệ Bưu chính Viễn thông, các Quý Thầy Cô đã giúp tôi trang bị kiến thức, tạo điều kiện thuận lợi cho tôi trong suốt quá trình thực hiện Luận án này. Đồng thời, tôi xin bày tỏ lòng cảm ơn chân thành và sâu sắc tới PGS. TS. Phạm Bảo Sơn và TS. Tân Hạnh, những người đã tận tình khuyến khích và hướng dẫn trong quá trình thực hiện để tôi có thể hoàn thành Luận án. Xin chân thành cảm ơn các đồng nghiệp, các nhà khoa học, các thầy cô giáo công tác tại Khoa Công nghệ Thông tin, Học viện Công nghệ Bưu chính Viễn thông, Đại học Công nghệ - Đại học Quốc gia Hà Nội đã động viên, hỗ trợ tôi trong quá trình thực hiện Luận án. Cuối cùng, xin gửi lời tri ân sâu sắc tới gia đình, bạn bè, những người đã luôn động viên, khuyến khích, là chỗ dựa tinh thần cho tôi trong thời gian thực hiện Luận án.
  5. iv MỤC LỤC Trang TRANG PHỤ BÌA ................................................................................................... i LỜI CAM ĐOAN ................................................................................................... ii LỜI CẢM ƠN ........................................................................................................ iii MỤC LỤC ............................................................................................................. iv DANH MỤC BẢNG BIỂU ................................................................................... vii DANH MỤC HÌNH VẼ ....................................................................................... viii DANH MỤC CÁC TỪ VIẾT TẮT ........................................................................ ix MỞ ĐẦU ................................................................................................................ 1 1. LÝ DO LỰA CHỌN ĐỀ TÀI ...................................................................... 1 2. MỤC TIÊU CỦA LUẬN ÁN ...................................................................... 3 3. PHẠM VI NGHIÊN CỨU ........................................................................... 4 4. CÁC ĐÓNG GÓP CỦA LUẬN ÁN ............................................................ 4 5. BỐ CỤC CỦA LUẬN ÁN ........................................................................... 5 CHƯƠNG 1: TỔNG QUAN VỀ XÁC ĐỊNH ĐẶC ĐIỂM NGƯỜI DÙNG ............ 1 1.1 XÁC ĐỊNH ĐẶC ĐIỂM NGƯỜI DÙNG THÔNG QUA PHÂN TÍCH VĂN BẢN ........................................................................................................... 1 1.1.1 Giới thiệu............................................................................................. 1 1.1.2 Đặc điểm của văn bản trực tuyến ......................................................... 4 1.1.3 Các dạng thức trong phân tích tác giả văn bản ..................................... 5 1.1.4 Các kỹ thuật phân tích........................................................................ 11 1.1.5 Các đặc trưng nhận diện..................................................................... 15 1.2 NHẬN DIỆN ĐẶC ĐIỂM NGƯỜI DÙNG THÔNG QUA PHÂN TÍCH HÀNH VI .......................................................................................................... 24 1.2.1 Giới thiệu........................................................................................... 24 1.2.2 Tập đặc trưng hành vi ........................................................................ 25 1.2.3 Các kỹ thuật phân tích........................................................................ 28 1.2.4 Nhận xét và đánh giá ......................................................................... 29
  6. v 1.3 CÔNG CỤ THỰC NGHIỆM ................................................................... 30 1.4 KẾT LUẬN CHƯƠNG ............................................................................ 31 CHƯƠNG 2: XÁC ĐỊNH ĐẶC ĐIỂM TÁC GIẢ BÀI VIẾT DIỄN ĐÀN TIẾNG VIỆT ..................................................................................................................... 33 2.1 XÁC ĐỊNH ĐẶC ĐIỂM TÁC GIẢ BÀI VIẾT DIỄN ĐÀN TIẾNG VIỆT SỬ DỤNG CÁC ĐẶC TRƯNG CƠ BẢN ......................................................... 34 2.1.1 Giới thiệu........................................................................................... 34 2.1.2 Phương pháp ...................................................................................... 35 2.1.3 Thực nghiệm...................................................................................... 40 2.1.4 Kết luận ............................................................................................. 47 2.2 SỬ DỤNG CÁC ĐẶC TRƯNG NỘI DUNG ........................................... 47 2.2.1 Giới thiệu........................................................................................... 47 2.2.2 Phương pháp ...................................................................................... 48 2.2.3 Thực nghiệm...................................................................................... 49 2.2.4 Kết luận ............................................................................................. 61 2.3 SỬ DỤNG CÁC ĐẶC TRƯNG VẦN VÀ ÂM TIẾT TIẾNG VIỆT ........ 62 2.3.1 Giới thiệu........................................................................................... 62 2.3.2 Tổng quan về các nghiên cứu phân tích tác giả sử dụng các đặc trưng dựa trên từ vựng............................................................................................. 63 2.3.3 Âm tiết và vần trong tiếng Việt .......................................................... 66 2.3.4 Phương pháp ...................................................................................... 68 2.3.5 Thực nghiệm...................................................................................... 70 2.3.6 Kết luận ............................................................................................. 78 2.4 KẾT LUẬN CHƯƠNG ............................................................................ 79 CHƯƠNG 3: XÁC ĐỊNH ĐẶC ĐIỂM NGƯỜI DÙNG DỰA TRÊN DỮ LIỆU LỊCH SỬ TRUY CẬP HỆ THỐNG THƯƠNG MẠI ĐIỆN TỬ ............................ 81 3.1 PHƯƠNG PHÁP TÁI CHỌN MẪU ........................................................ 82 3.1.1 Giới thiệu........................................................................................... 82 3.1.2 Phương pháp ...................................................................................... 82 3.1.3 Thực nghiệm...................................................................................... 87
  7. vi 3.1.4 Kết luận ............................................................................................. 93 3.2 PHƯƠNG PHÁP TRÍCH CHỌN ĐẶC TRƯNG DỰA TRÊN BIỂU DIỄN CÂY ................................................................................................................. 94 3.2.1 Giới thiệu........................................................................................... 94 3.2.2 Phương pháp ...................................................................................... 95 3.2.3 Thực nghiệm ................................................................................... 101 3.3 KẾT LUẬN CHƯƠNG .......................................................................... 106 KẾT LUẬN VÀ HƯỚNG NGHIÊN CỨU TIẾP THEO ..................................... 107 1. KẾT LUẬN ............................................................................................. 107 2. HƯỚNG NGHIÊN CỨU TIẾP THEO..................................................... 109 DANH MỤC CÔNG TRÌNH CÔNG BỐ ............................................................ 110 TÀI LIỆU THAM KHẢO ................................................................................... 112 PHỤ LỤC 1: XÂY DỰNG ỨNG DỤNG THỬ NGHIỆM XÁC ĐỊNH ĐẶC ĐIỂM TÁC GIẢ VĂN BẢN TIẾNG VIỆT.................................................................... 125 1.1 ĐẶT VẤN ĐỀ ....................................................................................... 125 1.2 MÔ TẢ HỆ THỐNG .............................................................................. 126 1.2.1 Sơ đồ hệ thống ................................................................................. 126 1.2.2 Chức năng Thu thập dữ liệu ............................................................. 126 1.2.3 Chức năng Xử lý dữ liệu .................................................................. 127 1.2.4 Chức năng Trích chọn đặc trưng ...................................................... 128 1.2.5 Chức năng Xây dựng mô hình nhận diện ......................................... 129 1.2.6 Chức năng Xây dựng dịch vụ nhận diện ........................................... 129 1.2.7 Chức năng Ứng dựng Web thử nghiệm sử dụng dịch vụ .................. 129 1.3 XÂY DỰNG HỆ THỐNG...................................................................... 130 1.3.1 Mô đun Thu thập dữ liệu.................................................................. 130 1.3.2 Mô đun Xử lý dữ liệu và trích chọn đặc trưng .................................. 130 1.3.4 Mô đun Xây dựng dịch vụ nhận diện ............................................... 133 1.3.5 Mô đun ứng dụng thử nghiệm sử dụng dịch vụ ................................ 133 1.4 KẾT LUẬN ............................................................................................ 135
  8. vii DANH MỤC BẢNG BIỂU Bảng 1.1. Các đặc trưng dựa theo phong cách ....................................................... 19 Bảng 2.1 Các đặc trưng cơ bản.............................................................................. 39 Bảng 2.2. Thống kê về tập dữ liệu huấn luyện ....................................................... 41 Bảng 2.3. Kết quả xác định đặc điểm tác giả bài viết diễn đàn .............................. 44 Bảng 2.4. Kết quả thực nghiệm sử dụng các đặc trưng nâng cao ........................... 55 Bảng 2.5. Kết quả trên thuật toán SMO sau khi điều chỉnh tham số ...................... 58 Bảng 2.6. Những đặc trưng nội dung (từ nội dung) quan trọng nhất ...................... 60 Bảng 2.7. Cấu trúc âm tiết tiếng Việt .................................................................... 68 Bảng 2.9. Các đặc trưng ........................................................................................ 70 Bảng 2.10. Kết quả xác định đặc điểm tác giả sử dụng các đặc trưng vần và âm tiết .............................................................................................................................. 71 Bảng 2.11. Các vần và âm tiết quan trọng trong nhận diện tác giả ......................... 73 Bảng 3.2. Các đặc trưng chung ............................................................................. 84 Bảng 3.3. Các đặc trưng dựa trên sản phẩm .......................................................... 85 Bảng 3.3. Các đặc trưng dựa trên sản phẩm chuyển tiếp........................................ 85 Bảng 3.4. Thống kê dữ liệu ................................................................................... 88 Bảng 3.5. Ma trận chi phí ...................................................................................... 90 Bảng 3.6. Kết quả của các thực nghiệm trên các thuật toán khác nhau (chưa áp dụng kỹ thuật hỗ trợ) ...................................................................................................... 91 Bảng 3.8. Kết quả thực nghiệm khi áp dụng thêm các kỹ thuật hỗ trợ ................... 92 Bảng 3.9. Các đặc trưng về sản phẩm/loại sản phẩm riêng rẽ ................................ 95 Bảng 3.10. Các đặc trưng nâng cao ..................................................................... 100 Bảng 3.11. Kết quả thực nghiệm khi sử dụng ClassBalancer kết hợp CosSensitiveClassifier với ma trận chi phí 1:3 ..................................................... 102 Bảng 3.12. Kết quả phân loại sau khi lựa chọn đặc trưng và tối ưu tham số ........ 105
  9. viii DANH MỤC HÌNH VẼ Hình 2.2. Độ chính xác nhận diện trên các số lượng đặc trưng khác nhau ............. 59 Hình 3.1. Biểu diễn dạng cây của danh mục sản phẩm/loại sản phẩm được xem ... 96 Hình 3.2. Biểu diễn dạng cây của lượt xem có 1 loại sản phẩm mức A ................. 97 Hình 3.3. Biểu diễn dạng cây của lượt xem có nhiều loại sản phẩm mức A........... 97 Hình 1 Sơ đồ tổng quát của hệ thống .................................................................. 127 Hình 2 Giao diện mô đun xử lý dữ liệu và trích chọn đặc trưng ......................... 131 Hình 3 Giao diện mô đun Xây dựng mô hình nhận diện...................................... 132 Hình 4 Giao diện mô đu thử nghiệm nhận diện tác giả văn bản........................... 132 Hình 5 Mã nguồn dịch vụ Web xác định đặc điểm tác giả................................... 134 Hình 6 Giao diện ứng dụng Web sử dụng dịch vụ ............................................... 134 Hình 7 Mã nguồn mô đun ứng dụng Web sử dụng dịch vụ ................................. 135
  10. ix DANH MỤC CÁC TỪ VIẾT TẮT Từ viết tắt Thuật ngữ tiếng Anh Thuật ngữ tiếng Việt BAC Balanced Accuracy Độ đo chính xác cân bằng Bayesian Multinomial BMR Regression Hồi quy đa thức Bayes BN Bayesian Networks Mạng Bayes BNC British National Corpus Kho ngữ liệu quốc gia Anh BPN Back Propagation Network Mạng truyền ngược DT Decision Tree Cây quyết định EG Exponential Gradient Gradient mũ EM Expectation Maximization Cực đại hóa kỳ vọng ID Information Gain Độ lợi thông tin Information Retrieval Độ tương tự trích xuất thông IRS Similarity tin Java API for RESTful Web Giao diện lập trình ứng dụng JAX-RS Services Java cho dịch vụ Web REST JSON Javascript Object Notion KLS Kullback–Leibler Similarity Độ tương tự Kullback–Leibler National Institute of Standards Viện Tiêu chuẩn và Công nghệ NIST and Technology Quốc gia (Hoa Kỳ) Hội nghị về Phát hiện tri thức – Pacific Asia Knowledge và Khai phá dữ liệu Châu Á - PAKDD Discovery and Data Mining TBD
  11. x POS Part of Speech Từ loại RBF Radias Basis Function Hàm cơ sở bán kính REST Representational State Transfer Sequential minimal SMO optimization Tối ưu hóa tối thiểu tuần tự Giao thức truy cập đối tượng SOAP Simple Object Access Protocol đơn gian SVM Support Vector Machine Máy véc tơ hỗ trợ TMĐT Thương mại điện tử TREC Text Retrieval Conference Hội nghị về rút trích thông tin XML eXtensible Markup Language Ngôn ngữ đánh dấu mở rộng
  12. 1 MỞ ĐẦU Sự phát triển mạnh mẽ của Internet và các dịch vụ trên Internet có những tác động lớn đến nhiều mặt trong xã hội. Chỉ với một thiết bị được kết nối đến mạng Internet, người dùng có thể dễ dàng sử dụng các kênh trao đổi thông tin như website, email, diễn đàn, mạng xã hội, hoặc các dịch vụ khác như tìm kiếm thông tin, thương mại điện tử (TMĐT) v.v. Một đặc điểm chung của các hệ thống này là không bắt buộc người dùng cung cấp chính xác thông tin cá nhân khi sử dụng. Việc này nhằm khuyến khích và tạo thuận lợi cho người dùng trong quá trình sử dụng, tuy nhiên cũng tạo ra một số vấn đề. Thứ nhất, người dùng có thể sử dụng các kênh trao đổi thông tin một cách nặc danh hoặc giả mạo, với mục đích xấu. Thứ hai, việc thiếu thông tin cá nhân người dùng làm cho các nhà cung cấp dịch vụ trên Internet gặp khó khăn trong việc cá nhân hóa hệ thống nhằm tăng trải nghiệm cho người dùng, thúc đẩy bán hàng, hoặc thực hiện các hoạt động quảng cáo trực tuyến hiệu quả hơn. Luận án này thực hiện nghiên cứu về vấn đề xác định các đặc điểm của người dùng dựa trên phân tích văn bản do người dùng tạo ra hoặc dựa trên phân tích hành vi người dùng thực hiện trên hệ thống bằng các phương pháp học máy. Các nội dung tiếp theo của phần này bao gồm: Phần 1.1 trình bày lý do lựa chọn đề tài. Phần 1.2 và 1.3 nêu các mục tiêu và đóng góp của luận án. Nội dung của phần 1.4 là bố cục của toàn bộ luận án. 1. LÝ DO LỰA CHỌN ĐỀ TÀI Xác định đặc điểm người dùng là một trong những mối quan tâm hàng đầu của các nhà cung cấp dịch vụ trên mạng Internet. Đặc biệt, trong bối cảnh xu hướng cá nhân hóa các hệ thống cho phù hợp với từng cá nhân người dùng, việc có được các thông tin về đặc điểm cá nhân của người dùng như giới tính, độ tuổi, nghề nghiệp, v.v. giúp cho các hệ thống có thể được tối ưu hóa theo các đặc điểm tương ứng hoặc hiển thị các thông tin quảng cáo, tiếp thị, giới thiệu sản phẩm phù hợp với người
  13. 2 dùng. Việc xác định được đặc điểm người dùng còn trợ giúp cho các nhà quản lý trong việc hỗ trợ điều tra tội phạm trực tuyến. Trong các trường hợp tội phạm để lại dấu vết trên hệ thống như các bản tin trực tuyến hoặc các hành vi khác trên hệ thống, việc dựa vào các thông tin này để dự đoán các đặc điểm của tội phạm sẽ giúp khoanh vùng, thu hẹp phạm vi xác định tội phạm, thậm chí trong nhiều trường hợp có thể xác định đích danh tội phạm nếu danh sách nghi phạm là biết trước và có sự phân biệt. Khó khăn lớn nhất của các nhà cung cấp dịch vụ trên mạng Internet cũng như các nhà quản lý là đa phần người dùng không cung cấp hoặc cung cấp không đầy đủ và không chính xác các thông tin cá nhân khi sử dụng các hệ thống trực tuyến. Điều này nhằm bảo vệ tính riêng tư và an toàn thông tin của người dùng trước các tấn công mạng ngày càng phổ biến. Vì vậy, phương pháp khả dĩ nhất để có được thông tin cá cá nhân người dùng là dự đoán từ các “dấu vết” người dùng để lại trên hệ thống như các bản tin được tạo ra, hay các hành vi người dùng thực hiện trên hệ thống. Kỹ thuật phân tích tác giả văn bản đã được nghiên cứu từ cách đây hàng thập kỷ, khởi đầu là trên các loại văn bản chính thống và có độ dài lớn như sách, tạp chí, bài báo, v.v. và tập trung vào vấn đề xác minh đích danh tác giả văn bản trong một danh sách tác giả đã được xác định trước (kỹ thuật này còn gọi là xác định tác giả văn bản, authorship attribution, sẽ được trình bày kỹ hơn ở chương sau). Gần đây, do sự phổ biến của các loại văn bản trực tuyến, vấn đề phân tích tác giả văn bản được thực hiện nhiều hơn trên loại văn bản này và tập trung vào xác định các đặc điểm của tác giả (author profiling) do các văn bản trực tuyến thường có độ mở cao nên thường không có thông tin về tác giả của văn bản. Nhiều nghiên cứu đã được thực hiện trên các loại văn bản trực tuyến khác nhau (email, blog, bài viết mạng xã hội) và trên các ngôn ngữ khác nhau (tiếng Anh, tiếng Hà Lan, tiếng Trung Quốc, tiếng Hy Lạp v.v.). Các nghiên cứu về xác định đặc điểm người dùng dựa trên phân tích hành vi ra đời muộn hơn và trở nên phổ biến trong những năm gần đây do xu hướng quảng cáo trực tuyến hướng đối tượng tăng mạnh trên các hệ thống như
  14. 3 website, máy tìm kiếm, thương mại điện tử v.v. Ưu điểm của kỹ thuật này là không cần thu thập các bản tin do người dùng tạo ra, nhưng việc thu thập các hành vi của người dùng trên hệ thống cũng không hề dễ dàng do chỉ các máy chủ mới có thể làm công việc này. Các nghiên cứu phổ biến trong lĩnh vực này được thực hiện trên các hệ thống như website thông tin, hệ thống mạng di động, v.v. Luận án này thực hiện các nghiên cứu trên cả hai lĩnh vực: xác định đặc điểm tác giả văn bản và xác định đặc điểm người dùng dựa trên hành vi. Các nghiên cứu về xác định đặc điểm tác giả văn bản được thực hiện trên các văn bản tiếng Việt là loại ngôn ngữ chưa được nghiên cứu nhiều. Các nghiên cứu về xác định đặc điểm người dùng dựa trên hành vi được thực hiện trên dữ liệu của hệ thống thương mại điện tử. Đây là hệ thống có khả năng áp dụng cao kết quả nghiên cứu do đặc thù bán hàng trực tuyến và theo khảo sát của chúng tôi thì chưa có nghiên cứu nào trước đây về xác định đặc điểm người dùng được thực hiện trên loại hệ thống này. 2. MỤC TIÊU CỦA LUẬN ÁN Dựa trên nhu cầu thực tiễn và các kết quả nghiên cứu trước đây ở trong nước và quốc tế, luận án đặt ra các mục tiêu chính như sau: - Nghiên cứu vấn đề xác định đặc điểm tác giả văn bản trên loại văn bản mới, chưa được nghiên cứu trước đây. Cụ thể là trên các bài viết diễn đàn tiếng Việt. Thực nghiệm các loại đặc trưng và các phương pháp phân loại để chọn ra các đặc trưng và phương pháp phân loại phù hợp. - Nghiên cứu các phương pháp trích chọn đặc trưng mới cho vấn đề xác định đặc điểm tác giả văn bản, nhằm tăng độ chính xác hoặc tính độc lập trong quá trình nhận diện. Các phương pháp trích chọn mới có thể tận dụng các đặc điểm đặc thù của ngôn ngữ tiếng Việt để áp dụng trên các văn bản đồng ngôn ngữ. Tuy nhiên, cũng có khả năng áp dụng sang các loại ngôn ngữ khác. - Nghiên cứu vấn đề xác định đặc điểm người dùng dựa trên hành vi trong các hệ thống có nhu cầu cá nhân hóa cao như hệ thống TMĐT. Nghiên
  15. 4 cứu, đề xuất các phương pháp trích chọn đặc trưng hiệu quả và các phương pháp phân loại phù hợp. - Xây dựng ứng dụng thử nghiệm kết quả nghiên cứu của luận án. 3. PHẠM VI NGHIÊN CỨU Xác định đặc điểm người dùng là một lĩnh vực rộng, trên cả khía cạnh loại người dùng và đặc điểm người dùng. Luận án xác định các đối tượng người dùng trong các nghiên cứu là người dùng trên mạng Internet (là người dùng của các hệ thống phổ biến trên Internet như website, email, diễn đàn, hệ thống TMĐT .v.v). Do tính mở của mạng Internet và để bảo đảm tính riêng tư, người dùng thường ít tiết lộ đặc điểm cá nhân khi sử dụng và việc xác định đặc điểm người dùng có ý nghĩa quan trọng như đã trình bày ở trên. Đối với nghiên cứu xác định đặc điểm người dùng dựa trên phân tích văn bản, hiện có nhiều loại văn bản trên nhiều ngôn ngữ đã được các nhà khoa học trên thế giới nghiên cứu, trong đó, các nghiên cứu mới nhất tập trung vào các loại văn bản trực tuyến như thư điện tử (email), nhật ký trực tuyến (blog), bài viết mạng xã hội (social network). Luận án này thực hiện các nghiên cứu về xác định đặc điểm tác giả bài viết diễn đàn tiếng Việt. Đây là một loại văn bản chưa được nghiên cứu nhiều, đặc biệt trong ngôn ngữ tiếng Việt. Các đặc điểm nhận diện bao gồm giới tính, độ tuổi, nghề nghiệp, và vùng miền. Xác định đặc điểm người dùng dựa trên phân tích hành vi cũng là một lĩnh vực nghiên cứu được quan tâm những năm gần đây. Tuy nhiên, do có sự hạn chế trong vấn đề thu thập dữ liệu mẫu (dữ liệu về hành vi người dùng thường lưu trữ trên máy chủ của các hệ thống và không thể tự động thu thập được các dữ liệu này nếu không có sự cho phép của đơn vị quản lý hệ thống), luận án này chỉ thực hiện nghiên cứu về dự đoán đặc điểm giới tính của khách hàng dựa trên dữ liệu truy cập hệ thống TMĐT. 4. CÁC ĐÓNG GÓP CỦA LUẬN ÁN Để thực hiện các mục tiêu trên, các nghiên cứu về mặt lý thuyết, đồng thời các
  16. 5 thực nghiệm thực tế đã được thực hiện để ra các kết quả định lượng. Các đóng góp chính của luận án bao gồm: Đóng góp trong lĩnh vực xác định đặc điểm tác giả văn bản: - Nghiên cứu việc ứng dụng các loại đặc trưng và phương pháp nhận diện khác nhau, trong đó tập trung phân tích sâu về các đặc trưng dựa trên nội dung, cho vấn đề xác định đặc điểm tác giải bài viễn diễn đàn tiếng Việt. Trước đây, đã có một số công trình nghiên cứu việc sử dụng các từ nội dung cho việc xác định đặc điểm tác giả văn bản, nhưng chưa có các phân tích sâu. Đặc biệt, chưa có nghiên cứu nào thực hiện trên ngôn ngữ tiếng Việt. - Đề xuất một loại đặc trưng mới cho việc xác định đặc điểm tác giả bài viết diễn đàn tiếng Việt. Các đặc trưng mới giúp cho việc nhận diện có độ chính xác cao hơn các đặc trưng cơ bản (dựa trên phong cách), có tính độc lập hơn so với các đặc trưng nội dung, và khi kết hợp với các đặc trưng phong cách hoặc nội dung thì cho kết quả cao hơn. Đây là các đặc trưng dựa trên đặc thù tiếng Việt như vần và âm tiết, tuy nhiên cũng có thể mở rộng áp dụng sang các ngôn ngữ khác và các loại văn bản khác. Đóng góp trong lĩnh vực xác định đặc điểm người dùng dựa trên hành vi: - Nghiên cứu vấn đề dự đoán giới tính khách hàng dựa trên dữ liệu lịch sử truy cập hệ TMĐT. Mặc dù các hệ thống TMĐT là các hệ thống được sử dụng rộng rãi trên Internet và có khả năng ứng dụng cao nhưng hiện chưa có nghiên cứu thực sự nào về dự đoán đặc điểm khách hàng dựa trên hành vi trên loại hệ thống này. Luận án nghiên cứu các phương pháp trích chọn đặc trưng và phân loại hiệu quả, trong đó đề xuất phương pháp trích chọn đặc trưng sử dụng biểu diễn dạng cây của danh sách sản phẩm và phân loại. 5. BỐ CỤC CỦA LUẬN ÁN Nội dung của luận án bao gồm 3 chương và một phụ lục, trong đó:
  17. 6 Chương 1 khảo sát và đánh giá các công trình đã thực hiện trong lĩnh vực nghiên cứu của luận án. Chương này bao gồm hai phần, đó là khảo sát, đánh giá các nghiên cứu trong lĩnh vực phân tích tác giả văn bản và lĩnh vực dự đoán đặc điểm người dùng dựa trên hành vi. Chương 2 trình bày về vấn đề xác định đặc điểm tác giả bài viết diễn đàn tiếng Việt, bao gồm phương pháp tiếp cận và các kết quả thực nghiệm. Trong chương này, các kết quả nghiên cứu chính trong lĩnh vực xác định đặc điểm tác giả văn bản tiếng Việt sử dụng các kỹ thuật học máy được trình bày. Đó là các nghiên cứu về sử dụng các đặc trưng cơ bản dựa trên phong cách, nghiên cứu và phân tích việc sử dụng các đặc trưng dựa trên nội dung và nghiên cứu, đề xuất sử dụng các đặc trưng dựa trên các âm tiết và vần trong tiếng Việt. Các kết quả trình bày trong chương được thể hiện qua các công bố khoa học [1, 2, 4, 5, 7]. Chương 3 mô tả các kết quả nghiên cứu về dự đoán giới tính khách hàng dựa trên dữ liệu lịch sử truy cập hệ TMĐT. Chương này đề xuất hai phương án tiếp cận cho việc giải quyết vấn đề như đã nói ở trên. Hai phương pháp tiếp cận này đều có ưu điểm là có tính tổng quát và có thể dễ dàng ứng dụng cho các hệ thống khác, đồng thời có tốc độ thực hiện nhanh. Kết quả của các phương pháp này được thể hiện qua các công bố khoa học [3, 6]. Phần cuối của luận án trình bày các kết luận và hướng nghiên cứu tiếp theo. Phần phụ lục trình bày về ứng dụng thử nghiệm dịch vụ xác định đặc điểm tác giả văn bản tiếng Việt. Đây là ứng dụng được xây dựng dựa trên kết quả nghiên cứu được trình bày trong chương 3 và được triển khai thử nghiệm trên mạng Internet. Ứng dụng bao gồm hai phần, đó là phần ứng dụng cung cấp dịch vụ trên máy chủ và ứng dụng thử nghiệm sử dụng dịch vụ trên máy khách.
  18. 1 CHƯƠNG 1 TỔNG QUAN VỀ XÁC ĐỊNH ĐẶC ĐIỂM NGƯỜI DÙNG Chương này trình bày nghiên cứu khảo sát về xác định đặc điểm người dùng, bao gồm xác định đặc điểm người dùng dựa trên phân tích văn bản và dựa trên phân tích hành vi. Các nghiên cứu mới nhất trong hai lĩnh vực trên sẽ được nghiên cứu và đánh giá, trong đó tập trung vào hai vấn đề là các đặc trưng nhận diện và kỹ thuật phân tích. Bố cục của chương như sau: Phần 1.1 trình bày các khảo sát và đánh giá về các công trình nghiên cứu trong lĩnh vực phân tích tác giả văn bản. Phần 1.2 trình bày các khảo sát về lĩnh vực dự đoán đặc điểm người dùng dựa trên hành vi. Phần 1.3 trình bày về công cụ thực nghiệm WEKA. Cuối cùng, phần 1.4 nêu các vấn đề còn tồn tại và cần được nghiên cứu, giải quyết. 1.1 XÁC ĐỊNH ĐẶC ĐIỂM NGƯỜI DÙNG THÔNG QUA PHÂN TÍCH VĂN BẢN 1.1.1 Giới thiệu Phân tích tác giả văn bản là quá trình phân tích một tài liệu để có thể đưa ra các kết luận về tác giả của nó. Việc phân tích tác giả văn bản là cần thiết trong trường hợp có các tài liệu không rõ tác giả và cần phải phân tích để chỉ ra tác giả hoặc chỉ ra các đặc điểm của tác giả. Trước đây, việc phân tích tác giả được áp dụng chủ yếu cho các tác phẩm văn học như sách báo. Tuy nhiên, trong những năm gần đây, sự phát triển của Internet và các kênh trao đổi thông tin trực tuyến đã hình thành nên nhiều loại văn bản điện tử với số lượng lớn như email, blogs, diễn dàn v.v., trong đó có rất nhiều bài viết không rõ tác giả (do vô tình hoặc cố ý). Trong nhiều trường hợp, việc xác định ra các đặc điểm hoặc phát hiện ra tác giả của các bài viết, nhận xét, bình luận vô danh là rất cần thiết, phục vụ cho nhiều mục đích khác nhau như:
  19. 2  Lĩnh vực quảng cáo, bán hàng: Việc xác định các đặc điểm của người dùng giúp cho các thông tin quảng cáo hoặc giới thiệu sản phẩm được hiển thị đúng đối tượng, qua đó thúc đẩy hoạt động tiếp thị, bán hàng trực tuyến.  Lĩnh vực phát triển sản phẩm: Hỗ trợ cho các tổ chức/doanh nghiệp trong việc xác định đặc điểm của những người thích hoặc không thích sản phẩm/dịch vụ của họ thông qua việc xác định tác giả của các bình luận/đánh giá tích cực hoặc tiêu cực.  Lĩnh vực tòa án, điều tra tội phạm: Hỗ trợ cho công tác phân xử hoặc phán xét các tranh chấp thông qua việc chứng minh một văn bản nào đó là do một người tạo ra hoặc không phải do một người tạo ra. Ngoài ra, việc xác định được tác giả của các văn bản cũng giúp ích trong một số lĩnh vực quan trọng khác như xác định những tội phạm gửi thông tin nặc danh hoặc giúp phát hiện ra việc sao chép trái phép tài liệu hoặc văn bản. Theo Zheng et al. [118], lĩnh vực nghiên cứu về phân tích tác giả văn bản có thể chia làm các dạng thức như sau:  Nhận diện tác giả: Là việc xác định xem một người có phải là tác giả của một văn bản không thông qua việc phân tích các văn bản khác do người đó tạo ra.  Xác định đặc điểm tác giả: Là việc chỉ ra các đặc điểm của người đã tạo ra một văn bản cho trước. Các đặc điểm này có thể là về đặc điểm cá nhân, tính cách, trình độ v.v.  Phát hiện văn bản cùng tác giả (phát hiện sao chép): Là việc so sánh hai hoặc nhiều văn bản xem có phải chúng được tạo ra bởi cùng một tác giả hay không. Quá trình phân tích tác giả văn bản liên quan đến hai vấn đề chính, đó là kỹ thuật phân tích và tập đặc trưng phân biệt. Có khá nhiều kỹ thuật được sử dụng trong phân tích tác giả văn bản. Koppel [58] phân chia các kỹ thuật ra làm ba loại. Trong thời gian đầu, các kỹ thuật phân
  20. 3 tích chủ yếu sử dụng phương pháp bất biến đơn nhất (unitary invariant), trong đó một hàm số học đơn nhất của văn bản được sử dụng để phân biệt các tác giả. Phương pháp phân tích đa biến (multivariate analysis) được sử dụng sau đó cho phép thực hiện phân tích đa biến theo thống kê dựa trên tần suất các từ và các đặc trưng số khác. Mặc dù các phương pháp này đã đạt được những kết quả khá tốt trong thời gian đầu, nhưng vẫn còn tồn tại những hạn chế, như khả năng xử lý số lượng lớn các đặc điểm hay sự ổn định trên nhiều lĩnh vực. Để giải quyết các vấn đề này, các kỹ thuật học máy đã được nghiên cứu áp dụng. Sự phát triển của các máy tính tốc độ cao đã cho phép các nhà nghiên cứu thực hiện các thực nghiệm phân tích trên các thuật toán học máy phức tạp trên các tập đặc trưng lớn. Nhiều nghiên cứu về phân tích tác giả văn bản dựa trên các kỹ thuật học máy đã cho ra kết quả tốt, điển hình là các thuật toán như máy véc tơ hỗ trợ (SVM - Support Vector Machine), mạng Bayes (Bayesian Networks), hay cây quyết định (Decision Trees). Nhìn chung, các phương pháp phân tích dựa trên học máy đã có những ưu điểm hơn so với các phương pháp trước đây và các thực nghiệm đã cho thấy kết quả tốt hơn [58]. Tập đặc trưng có thể được xem như một phương pháp biểu diễn văn bản trên khía cạnh phong cách viết hoặc cách sử dụng từ. Với một tập đặc trưng được lựa chọn, một văn bản có thể được biểu diễn bởi một véc tơ đặc trưng, trong đó mỗi thành phần biểu thị tần suất của mỗi đặc trưng trong văn bản hoặc một giá trị biểu thị tính chất đặc thù của văn bản đó [55]. Đã có nhiều tập đặc trưng được thử nghiệm, tuy nhiên không có tập đặc trưng nào là tốt nhất trong mọi trường hợp. Theo Argamon et al. [11], có hai loại đặc trưng chính được sử dụng trong phân tích tác giả văn bản: đặc trưng về phong cách và đặc trưng dựa trên nội dung. Đặc trưng về phong cách bao gồm các đặc trưng liên quan đến cách dùng ký tự, các tính chất từ (lexical), cách sử dụng các cấu trúc ngữ pháp (syntactic), và các đặc trưng về cấu trúc văn bản. Đặc trưng dựa trên nội dung bao gồm các từ nhất định hoặc các nội dung đặc biệt được sử dụng thường xuyên trong lĩnh vực đó hơn là các lĩnh vực khác. Các từ này có thể được chọn theo phương pháp so sánh ngữ nghĩa hoặc trích chọn dựa trên tần suất xuất hiện trong tập dữ liệu.
ADSENSE

CÓ THỂ BẠN MUỐN DOWNLOAD

 

Đồng bộ tài khoản
2=>2