Đánh giá độ ẩn danh của một tweet khi miền dữ liệu blog công khai
lượt xem 2
download
Bài viết "Đánh giá độ ẩn danh của một tweet khi miền dữ liệu blog công khai" nhằm trả lời câu hỏi cho một bài toán mới: liệu quyền tác giả của một tweet duy nhất có thể được xác định thành công (trong một tập hợp hỗn hợp với tác giả khác) và khi dữ liệu huấn luyện đến từ miền dữ liệu khác, không phải là tweet. Ở đây, chúng tôi trình bày một lược đồ nhận dạng tác giả của các văn bản ngắn như dưới dạng tweet, trong trường hợp chỉ có một tin nhắn duy nhất và miền dữ liệu huấn luyện là blog. Mời các bạn cùng tham khảo!
Bình luận(0) Đăng nhập để gửi bình luận!
Nội dung Text: Đánh giá độ ẩn danh của một tweet khi miền dữ liệu blog công khai
- Hội nghị Quốc gia lần thứ 26 về Điện tử, Truyền thông và Công nghệ Thông tin (REV-ECIT2023) Đánh Giá Độ Ẩn Danh Của Một Tweet Khi Miền Dữ Liệu Blog Công Khai Lê Thị Hợi Khoa Công Nghệ Thông Tin, Đại học Công Nghệ, Đại học Quốc Gia Hà Nội Email: hoi_le@vnu.edu.vn Abstract - Trong bài báo này, chúng tôi trả lời câu hỏi cho khác quan trọng đến từ các tình huống trong đó tài một bài toán mới: liệu quyền tác giả của một tweet duy khoản bị đột nhập và các tweet lừa đảo được gửi giả nhất có thể được xác định thành công (trong một tập hợp mạo là người chủ tài khoản. Kịch bản thứ hai là khi một hỗn hợp với tác giả khác) và khi dữ liệu huấn luyện đến từ nhóm cá nhân sử dụng cùng một tài khoản Twitter với miền dữ liệu khác, không phải là tweet. Ở đây, chúng tôi mục tiêu bảo vệ sự riêng tư của họ. trình bày một lược đồ nhận dạng tác giả của các văn bản ngắn như dưới dạng tweet, trong trường hợp chỉ có một Những đóng góp chính của bài báo này như sau: tin nhắn duy nhất và miền dữ liệu huấn luyện là blog. - Chúng tôi phân tích các công trình trước đây và thảo Lược đồ xác định tác giả dựa vào việc lựa chọn các đặc luận về những ưu nhược điểm của các công trình trước trưng hiệu quả nhất trong trường hợp này và kết hợp các đó khi áp dụng vào một bài toán mới. đặc trưng đó để có được độ chính xác tốt hơn. Đây là một - Một lược đồ nhận dạng tác giả của một tweet ẩn danh bài toán khó do kích thước của một tweet là rất ngắn và khi dữ liệu có trước chỉ là một tập blog của các tác giả kỹ thuật này cho thấy kết quả tốt nhất chúng ta có thể đạt đó bằng cách lựa chọn các đặc trưng hiệu quả nhất cho được thông qua các thực nghiệm và có thể làm tiền đề cho bài toán. các nghiên cứu khác. Cùng với đó chúng tôi đưa ra một - Một độ đo cho lượng thông tin rò rỉ của một tác giả phương pháp ước lượng thông tin (tính bằng entropy) về tác giả sẽ được bộc lộ khi các dữ liệu khác (trong trường tweet ẩn danh nếu các dữ liệu khác của tác giả đó (trong hợp này là blog) của tác giả đó bị thu thập trên Internet. trường hợp này là blog) được công khai và thu thập trên Kết quả có thể được sử dụng để ước lượng một phần tính Internet. Độ đo này có thể áp dụng cho các miền dữ liệu riêng tư hay ẩn danh của một tác giả bị ảnh hưởng như bất kỳ khác như các bài viết Reddit, các bài post trên thế nào khi các tác giả có dữ liệu khác trên Internet. mạng xã hội Facebook, … và gửi cảnh báo đến các tác giả về mức độ rò rỉ thông tin của họ. Keywords- Mạng xã hội trực tuyến; Twitter; Sự riêng Kết quả của chúng tôi cho thấy bài toán nhận dạng tư; Ẩn danh tác giả của một tweet duy nhất là một bài toán chưa được thực hiện và là một bài toán khó do kích thước I. GIỚI THIỆU ngắn của tweet, tuy độ chính xác nhận dạng chưa phải Việc áp dụng kỹ thuật nhận dạng tác giả đã được mở là tối ưu nhất nhưng từ đó chúng ta có thể ước lượng rộng đến các miền dữ liệu ngoài văn bản thông thường được lượng thông tin bộc lộ về tác giả thông qua một như báo cáo, trích đoạn sách, tới các văn bản được máy trong các miền dữ liệu công khai là blog. Khi kết hợp tính hỗ trợ (bao gồm mã nguồn, email, blog, bài đăng với các miền dữ liệu công khai khác, có thể thấy được trên mạng xã hội hoặc diễn đàn, đánh giá và bình luận). mức độ ẩn danh, tính riêng tư của một tác giả bị ảnh Tin nhăn Twitter (tweet) thông thường rất ngắn (dưới hưởng như thế nào. 140 ký tự), gây khó khăn cho các thuật toán nhận dạng Phần tiếp theo của bài báo: Phần II là tổng quan các tác giả dựa vào một lượng tương đối các đoạn văn bản. công trình có liên quan. Phân tích các đặc điểm của Điều này đặc biệt đúng khi tác giả của một tweet duy tweet và mô hình hoá bài toán được trình bày trong nhất được xem xét. Các dấu hiệu liên quan tới phong Phần III và IV. Chúng tôi phân tích các công trình trước cách viết chuẩn như sự phong phú về mặt từ vựng, tần đó và mô tả thuật toán ở Phần V. Phần VI trình bày kết số của các từ chức năng hoặc các cú pháp khác; dù hoạt quả thử nghiệm. Phần VII là phần kết luận của bài báo. động tốt với văn bản dài hơn, hoạt động kém hơn nhiều với các văn bản ngắn như tweet. Trong bài báo này, II. CÔNG TRÌNH LIÊN QUAN chúng tôi trả lời câu hỏi cho một bài toán mới về xác Trong các miền văn bản khác như văn học, báo cáo, định tác giả của những văn bản ngắn khi thông tin chúng blog, v.v., phong cách viết được coi là một công cụ ta có chỉ là các blog. Có nhiều động lực khác nhau cho mạnh để phát hiện tác giả của các tài liệu đó. Đối với nghiên cứu này. Ở thế giới ngầm, Twitter có thể được một tài liệu có ít nhất 250 từ, các phương pháp phát hiện sử dụng để gửi những thông tin xúc phạm và bất hợp tác giả truyền thống cho thấy độ chính xác tốt [2] [20], pháp, như đã thấy trong tin tức [11,17]. Đôi khi nghi ngay cả ở quy mô rộng như Internet [10]. Kỹ thuật phát phạm của những tin nhắn tweet đơn lẻ chứa đựng lời đe hiện tác giả có thể được sử dụng để xác định tác giả cho dọa cần phải được xác minh ngay lập tức. Một động lực ISBN ............ 978-604-80-8932-0 358
- Hội nghị Quốc gia lần thứ 26 về Điện tử, Truyền thông và Công nghệ Thông tin (REV-ECIT2023) các bài viết ẩn danh trong các lĩnh vực này với độ chính tác giả và phong cách viết được ghi lại bởi các ký tự 4- xác trên 90% [15,21]. Do đó, kỹ thuật này cũng có thể gram. Coi các đặc trưng này như các loại tính năng độc được sử dụng để phát hiện tính liên kết của các tài khoản lập sẽ dẫn đến tỷ lệ recall thấp vì mô hình tác giả trong trên các trang web. Tuy nhiên, với các tin nhắn vi mô giai đoạn kiểm thử được xây dựng từ các tin nhắn tweet như tweet có độ dài của văn bản ngắn, các kỹ thuật phát đơn lẻ. hiện tác giả truyền thống không thể cung cấp độ chính xác tốt khi chúng được áp dụng cho miền dữ liệu này. IV. ĐỊNH NGHĨA BÀI TOÁN Trong các bài báo đã được công bố có nhiều bài báo đề Giả sử có một tập hỗn hợp các tweet từ một nhóm 𝑁 cập đến phát hiện tác giả và khả năng liên kết tài khoản tác giả 𝑁 > 0: {𝐴% , 𝐴' ,···, 𝐴) }. Giả sử mỗi ứng viên 𝐴+ trong miền tweet. Kết quả đáng chú ý đã đạt được trong (1 ≤ 𝑖 ≤ 𝑁) có một tập các các blog công khai. Mục việc phát hiện tác giả của tweet. Thực nghiệm trên tiêu của bài toán: cho một tập các blog của 𝐴+ , xác định nhóm 75 tweet, trong tập 3 người dùng, trong [14], tác giả của các tweet đơn lẻ trong tập hỗn hợp các tweet. Silva và các đồng tác giả có thể đạt được mức recall 50% với độ chính xác 90%. Các đặc trưng phi truyền V. PHƯƠNG PHÁP thống đã được sử dụng, chẳng hạn như đề cập người 1. Phân tích các phương pháp trước đó dùng (user mention), số lượng hashtag. Sự kết hợp giữa Có hai câu hỏi chính trong việc phát hiện quyền tác giả các đặc trưng truyền thống và phi truyền thống được sử của một tweet: các bộ đặc trưng có thể có là gì và cách dụng trong [6] bởi Layton và cộng sự, các tác giả có thể tinh chỉnh các đặc trưng này sao cho chúng chỉ chứa các phát hiện quyền tác giả của 120 tweet với độ chính xác đặc trưng hiệu quả nhất. Chúng tôi phân tích các bài báo 72% trong số 50 tác giả và trong [4] thuật toán Bhargava trước đây dựa trên hai tiêu chí này và lựa chọn các đặc đạt độ chính xác 80% khi xác định tác giả của 200 tweet trưng phù hợp nhất cho bài toán mới được định nghĩa ở trong nhóm 20 tác giả. Về quy mô, trong [7] (Mishari phần IV. và cộng sự), các tác giả đã cố gắng để liên kết các nhóm 5, 10,... tới 100 tweet với một tập lớn các tài khoản Các đặc trưng. Các đặc trưng được sử dụng bao gồm Twitter. Thuật toán phân loại Naive Bayes được huấn từ 𝑛-gram (word 𝑛-gram) và ký tự 4-gram. luyện trên một tập ký tự 𝑛-gram ( 𝑛=1,2). Kết quả khả Ký tự 𝑛-gram. Theo thống kê ký tự 4-gram cũng như năng liên kết là khoảng 50%. Khi bao gồm hashtag vào các ký tự 𝑛-gram khác là những ứng viên mạnh mẽ có tập các đặc trưng, kết quả cũng được cải thiện. thể biểu diễn phong cách viết của tác giả vì chúng có Gần đây, trong trường hợp miền dữ liệu huấn luyện thể bắt được lỗi chính tả (ví dụ: cả Disney và Disnney không phải là tweet, Overdorf et al. trong [3] và các tác có thể tạo ra từ 'Disn' dài 4-gram), cách sử dụng dấu câu giả trong [12], [18], [19] đã trình bày các thuật toán của khác thường, khoảng trắng hoặc trật tự từ. Đây là những họ để xác định xem một nhóm các tweet (với độ dài phong cách viết thường thấy trên phương tiện truyền khoảng 500 từ) và một nhóm blog hoặc bình luận thông xã hội như Twitter. Từ thống kê này, chúng tôi Reddit (4500 từ) có từ cùng một tác giả hay không. lựa chọn ký tự 𝑛-gram với 𝑛 = 3, 4 để tối đa hóa khả Trong những bài báo này, các đặc trưng không được năng biểu diễn phong cách viết của ký tự 𝑛 -gram. thiết kế cho trường hợp khi chỉ có một tweet duy nhất Từ 𝑛 -gram. Những từ như từ chức năng (function cần phát hiện tác giả. Trong [13] và [16], bài toán phát words) và một số từ thông dụng độc lập với ngữ cảnh hiện tác giả của một tweet được đề cập, tuy nhiên dữ có thể được sử dụng lặp đi lặp lại trong các bài viết của liệu huấn luyện đến từ cùng miền tweet. Những đặc cùng một tác giả. Những từ này phản ánh phong cách trưng này chỉ hoạt động khi có sẵn một tập hợp các viết của một người như thông thường hoặc trang trọng, tweet dành cho cả hai giai đoạn huấn luyện và kiểm thử. không nhất thiết phải gắn liền với một chủ đề cụ thể. Để Chúng tôi xem xét chi tiết các bài báo này trong phần nắm bắt được phần này trong cách viết của tác giả trong V.1. [13], tác giả xem xét từ 𝑛-gram có 2 ⩽ 𝑛 ⩽ 5 và trong [13] lựa chọn từ 𝑛-gram với 𝑛 = 1, 2. III. ĐẶC ĐIỂM CỦA TWEET Tuy nhiên, trong trường hợp dữ liệu huấn luyện đến Tin nhắn trên Twitter (được gọi là “tweet”) bị giới từ một miền khác (trong trường hợp này là blog) và chỉ hạn ở 140 ký tự. Người dùng sử dụng nhiều hashtag tự có các tweet đơn lẻ cho nhiệm vụ nhận dạng, việc lặp định nghĩa và đề cập (mention) trong tweet. Do đặc tính lại nhiều từ trong một tweet là ít khả năng, nếu có thì tỉ ngắn của tweet, người dùng đã phát minh ra nhiều kỹ lệ recall sẽ thấp. Vì vậy, chúng tôi không xem xét đưa thuật để mở rộng ngữ nghĩa của các tin nhắn ngắn. Ví từ 𝑛-gram vào trong tập đặc trưng cho thuật toán. dụ, khi đăng url người dùng thường sử dụng dịch vụ rút Do kích cỡ của các tweet đơn lẻ là nhỏ nên các tính năng gọn url như dịch vụ http://www.bit.ly hoặc truyền thống chẳng hạn như sự phong phú về từ vựng, http://goo.le. Người dùng tweet cũng có xu hướng tạo độ dài câu, số lượng câu và các thông số phân phối về ra nhiều chữ viết tắt, lỗi chính tả,... và thay đổi phong phong cách viết khác không thể được trích xuất như cách viết thông thường của họ như bỏ sót từ hoặc không trong [12]. Mặt khác, những đặc trưng phi truyền thống tuân theo qui tắc cú pháp. Trong trường hợp của chúng được giữ nguyên trong nội dung tweet như đã phân tích tôi, chúng tôi giữ những đặc điểm này trong tweet của ISBN ............ 978-604-80-8932-0 359
- Hội nghị Quốc gia lần thứ 26 về Điện tử, Truyền thông và Công nghệ Thông tin (REV-ECIT2023) trong Phần III và có thể được nắm bắt bởi các đặc trưng lý bao gồm việc ghép các blog theo độ dài nhất định, và ký tự 𝑛-gram. loại bỏ tin nhắn tweet lại (retweet) và tweet lặp đi lặp lại cho phần thử nghiệm. Thuật toán trích xuất và tinh 2. Thuật toán tinh chỉnh bộ đặc trưng chỉnh các tập đặc trưng cho từng tác giả. Các tập đặc Để tinh chỉnh bộ đặc trưng sao cho chỉ bao gồm những trưng này sau đó được kết hợp với nhau để biểu diễn đặc trưng nổi bật nhất cho một tác giả, chúng tôi lựa phong cách viết của một tác giả. Đặc trưng được trích chọn độ đo thông tin tương hỗ (mutual information) xuất từ các tweet trong giai đoạn thử nghiệm không giữa một đặc trưng và một tác giả. Thông tin tương hỗ được điều chỉnh thêm do độ dài nhỏ của các tweet. phản ánh sự xuất hiện riêng lẻ và xuất hiện cùng nhau của một đặc trưng và một tác giả, qua đó phản ánh mối Lựa chọn thuật toán phân lớp. Có rất nhiều thuật toán quan hệ giữa hai đối tượng và có thể được sử dụng để phân lớp để thực hiện phân lớp văn bản. Weka [5], bộ đo tầm quan trọng của đặc trưng đó trong việc đại diện công cụ phân lớp dùng cho nghiên cứu, cung cấp hầu cho tác giả. Giá trị thông tin tương hỗ càng cao có nghĩa hết các phương thức phân lớp này. Bộ công cụ bao gồm là tác giả và đặc trưng càng có nhiều khả năng xuất hiện phần cài đặt cho các thuật toán SVM, Naive Bayes, cùng nhau. Chỉ những đặc trưng quan trọng nhất được mạng neuron, cây quyết định, v.v. Chúng tôi thực thêm trong bộ đặc trưng cuối cùng. nghiệm trên một tập các bộ phân lớp để đánh giá hiệu Thông tin tương hỗ giữa một tác giả 𝐴4 và một đặc suất của các thuật toán phân lớp này. Trình phân lớp trưng 𝑓+ ký hiệu là 𝐼(𝐴4 , 𝑓+ ) được tính như sau. hoạt động tốt hơn là SMO SVM và được chọn là 𝛿 trong thuật toán nhận dạng tác giả. SVM cũng là một thuật Tính 𝑰(𝑨 𝒌 , 𝒇 𝒊 ). toán hiệu quả được sử dụng trong các tài liệu và bài báo Đầu ra: 𝑙 đặc trưng 𝑓+ để thêm vào tập đặc trưng 𝐹 >? liên quan để thực hiện phân lớp văn bản và phân lớp các của tác giả 𝐴4 dữ liệu nhiều chiều khác. Chúng tôi tính toán thông tin tương hỗ giữa mỗi đặc trưng 𝑓+ từ tác giả 𝐴4 và 𝐴4 . Đầu tiên chúng tôi xây Thuật toán 1: Xác định tác giả của một tweet dựng một tập blog 𝒞 thuộc về các tác giả 𝐴% , 𝐴' ,···, 𝐴) . Đầu vào: một tweet đơn lẻ 𝑡 , tập các tác giả Đặt 𝑋BC và 𝑋>? biểu thị hai biến nhị phân đại diện cho sự 𝒜 = {𝐴% , 𝐴' , . . . , 𝐴) }, dữ liệu huấn luyện từ 𝑁 tác giả hiện diện của 𝑓+ trong một blog và 𝐴4 là tác giả của một 𝒟 = {𝐷% , 𝐷' , . . . , 𝐷) } blog. Thông tin tương hỗ giữa 𝑓+ và 𝐴4 được tính như sau: Đầu ra: tác giả của 𝑡 𝐼(𝑋BC , 𝑋>? ) = 𝐻(𝑋BC ) + 𝐻(𝑋>? ) − 𝐻(𝑋BC , 𝑋>? ) 1. Tiền xử lý 𝑡 , 𝐷% , 𝐷' , … , 𝐷) 2. /* Trích chọn các tập đặc trưng 𝑗 cho mỗi tác giả 𝑝(𝑋BC = 1) là xác suất 𝑓+ xuất hiện trong một blog, 𝑝(𝑋>? = 1) là xác suất 𝐴4 là tác giả của một blog và 𝐴+ */ > 𝑝(𝑋B+ = 1, 𝑋>? = 1) là xác suất mà 𝑓+ xuất hiện trong 3. 𝐹𝑒𝑎𝑡𝑢𝑟𝑒𝐸𝑥𝑡𝑟𝑎𝑐𝑡𝑜𝑟(𝐷+ ) ⟵ 𝐹 C ] một blog của 𝐴4 , trong đó xác suất được tính theo tần 4. Trích chọn các tập đặc trưng 𝑗 cho 𝑡 : 𝐹 J ] số tương đối: 5. Kết hợp các tập đặc trưng con: ' ' 𝑁BC,>? > 𝑝(𝑋B+ = 1, 𝑋>? = 1) = 6. 𝐹>C = ^ 𝐹 C , 𝐹J = ^ ] 𝐹]J 𝑁𝒞 ]_% ]_% 𝑁BC ) 𝑝(𝑋B+ = 1) = 7. Tạo tập huấn luyện: 𝐹 = `+_% 𝐴+ > 𝑁𝒞 𝑁>? 8. /* Nhận dạng: */ 𝑝 𝑋>? = 1 = 9. 𝐴𝑢𝑡ℎ𝑜𝑟 = 𝛿(𝐹 J , 𝐹>) 𝑁𝒞 Ở đây 𝑁 𝒞 là số lượng blog trong kho văn bản 𝒞, 𝑁BC,>? là số lượng blog trong 𝒞 có chứa 𝑓+ và thuộc về 𝐴4 , và 3. Các độ đo 𝑁BC , 𝑁>? là số lượng blog trong 𝒞 chứa 𝑓+ và được viết Để xác định tác giả cả các tweet, các độ đo sau đây hữu bởi 𝐴4 . Thông tin tương hỗ của các đặc trưng và tác giả ích để đánh giá một thuật toán: được xếp theo thứ tự giảm dần, và 𝑙 đặc trưng đầu được JK chọn thành tập 𝐹>? . – Precision (= JKLBK) : tỷ lệ các tweet được xác định Thuật toán 1 mô tả thuật toán nhận dạng tác giả, trong chính xác trong số tất cả các tweet được xác định là đó 𝛿 là thuật toán phân lớp được sử dụng. Bước tiền xử thuộc tác giả 𝐴 trong bộ thử nghiệm. Tỉ lệ precision ISBN ............ 978-604-80-8932-0 360
- Hội nghị Quốc gia lần thứ 26 về Điện tử, Truyền thông và Công nghệ Thông tin (REV-ECIT2023) càng cao có nghĩa càng ít tweet bị xác định nhầm là đến 50) và kích cỡ dữ liệu huấn luyện khác nhau. Chúng thuộc tác giả 𝐴. tôi hướng đến các cài đặt tối ưu nhất có thể, do đó chúng tôi thử nghiệm với kích thước huấn luyện nhỏ nhất 2500 JK từ và sau đó tăng lên 5000 từ. – Recall (= JKLBb): tỷ lệ các tweet được xác định chính xác trong số tất cả các tweet thuộc về một tác giả. 2. Kết quả và phân tích Hình 1 minh họa tính hiệu quả của các tập đặc trưng với Trong các công thức trên, 𝑡𝑝: trường hợp dương tính 2500 từ trong tập huấn luyện và trong nhóm từ 2 đến đúng, 𝑡𝑛: trường hợp âm tính đúng, 𝑓𝑝: trường hợp 50 tác giả. Thực nghiệm cho thấy thuật toán có thể phát dương tính giả, 𝑓𝑛: trường hợp âm tính giả. hiện tác giả cho một tweet đơn lẻ trong nhóm 50 tác giả với độ chính xác 4% trong khi xác suất ngẫu nhiên là 4. Đo lượng thông tin rò rỉ 2%. Để đo lượng thông tin rỏ rỉ về một tác giả 𝐴4 khi một tập dữ liệu của họ bị công khai (trong trường hợp này là blog), chúng tôi ước lượng sự bất định của biến 𝑋J bị 60% giảm đi như thế nào khi dữ liệu blog 𝐷4 của 𝐴4 bị công 50% khai. Trong đó biến 𝑋J biểu diễn một tweet 𝑡 có thuộc Precision 40% tác giả 𝐴4 hay không: 30% 20% 𝐼def4 = 𝐻(𝑋J ) − 𝐻(𝑋J |𝑋h? ) 10% 0% Các đại lượng 𝐻(𝑋J ) , 𝐻(𝑋J |𝑋h? ) được tính như sau: 2 5 10 20 25 50 Số tác giả 𝐻(𝑋J ) = − 𝑝(𝑥J )𝑙𝑜𝑔' (𝑝(𝑥J )) jk Thuật toán 1 Ngẫu nhiên 𝐻(𝑋J |𝑋h? ) = − 𝑝(𝑥J , 𝑥h? )𝑙𝑜𝑔' (𝑝(𝑥J |𝑥h? )) jk ,jl? Hình 1: Kết quả thực nghiệm so sánh thuật toán đề xuất và xác suất ngẫu nhiên Trong đó: 𝑝(𝑥J ): xác suất một tweet 𝑡 thuộc về tác giả 𝐴4 𝑝(𝑥J |𝑥h? ): xác suất một tweet 𝑡 thuộc về tác giả 𝐴4 khi 60% có thêm dữ liệu là blog của tác giả 𝐴4 50% Precision 40% VI. THỰC NGHIỆM 30% 1. Mô tả dữ liệu thực nghiệm 20% Chúng tôi đã tìm kiếm các tác giả thực sự sở hữu cả 10% blog và tài khoản Twitter. Tổng cộng chúng tôi thu thập 0% một bộ gồm 100 tác giả, mỗi tác giả có tài khoản Twitter 2 5 10 20 25 50 có ít nhất 300 tweet và blog có tối đa 10000 từ, nguồn blog là Wordpress. Trong các thực nghiệm của chúng Số tác giả tôi, chúng tôi đã chuẩn hóa dữ liệu huấn luyện của tác giả với mỗi blog khoảng 500 từ. Mỗi tác giả có thể có Thuật toán 1 Ngẫu nhiên hàng trăm blog hoặc hàng nghìn tweet trong tài khoản của họ. Sự liên kết giữa blog và tài khoản Twitter của họ được cung cấp trên tài khoản của chính các tác giả. Hình 2: Kết quả thực nghiệm so sánh thuật toán 1 và Chúng tôi đã thu thập các tweet gần đây nhất của tác giả xác suất ngẫu nhiên khi tập huấn luyện là 5000 từ cho bằng cách sử dụng API Twitter4J [8], chỉ các tweet có mỗi tác giả. ít nhất 10 từ được xem xét (url, đề cập (mention) và hashtag được tính là một từ). Trong các thực nghiệm được mô tả dưới đây, tập dữ liệu được chia thành tập Độ chính xác tăng lên khi số lượng ứng viên (tác giả) huấn luyện và tập kiểm thử. Dữ liệu huấn luyện của tác giảm, và được cải thiện như trong hình 2 khi kích thước giả bao gồm một tập hợp các blog. Mỗi dữ liệu kiểm dữ liệu trong tập huấn luyện tăng lên (từ 2500 từ lên thử chứa một tweet duy nhất. 5000 từ, xác suất nhận dạng tác giả trong tập 5 tác giả Các thuật toán được đánh giá thông qua số lượng tăng lên 24%). Trong các thực nghiệm, chúng tôi đặt số lượng đặc ứng viên (tác giả) khác nhau (𝑁 nằm trong khoảng từ 2 trưng 𝑙 (Phần V.2) cho mỗi bộ đặc trưng là 150 (khoảng ISBN ............ 978-604-80-8932-0 361
- Hội nghị Quốc gia lần thứ 26 về Điện tử, Truyền thông và Công nghệ Thông tin (REV-ECIT2023) 2% kích thước của tập đặc trưng) và thu được kết quả Khi có các tập dữ liệu khác của một tác giả chúng ta có tốt nhất. Mặc dù bộ phân loại SVM có thể xử lý các thể sử dụng độ đo này để ước lượng lượng thông tin của vector có số chiều cao hơn, chúng tôi nhận thấy việc tác giả bị bộc lộ nếu các tập dữ liệu đó được công khai tăng kích thước bộ đặc trưng không giúp tăng độ chính là ít hay nhiều và có thể gửi cảnh báo cho các tác giả. xác tổng thể. Từ đó các tác giả có thể điều chỉnh phong cách viết để các đặc trưng của họ không bị bộc lộ và qua đó giữ được 3. Thông tin tương hỗ của các đặc trưng tính riêng tư, sự ẩn danh của mình. Đối với mỗi tweet trong giai đoạn kiểm thử và tập blog trong giai đoạn huấn luyện, chúng tôi trích xuất các đặc VII. KẾT LUẬN trưng sau đó được chuyển đổi thành một vector nhiều Chúng tôi đã trình bày thuật toán nhận dạng tác giả chiều cho giai đoạn huấn luyện và kiểm thử. Những trên các tin nhắn vi mô khi các blog của họ được công vector này là đầu vào cho bộ phân lớp. Các đặc trưng khai sử dụng các tính năng linh hoạt và hiệu quả nhất trong các vector này có thể là được coi là quan trọng và đạt được độ chính xác nhất định do độ ngắn của như nhau. Hình 1 là ví dụ các đặc trưng trong một vector tweet. Thu thập các bộ dữ liệu khác ngoài blog để đánh với giá trị thông tin tương hỗ tương ứng. giá mức độ rò rỉ thông tin của một tác giả là một phần mở rộng thú vị của công việc này trong tương lai. Dựa Đặc trưng Giá trị thông tin tương hỗ trên mức độ rò rỉ thông tin từ các miền dữ liệu khác we b 0.14190206156873514 nhau và dựa trên phân tích thực tế chúng ta có thể gửi nors 0.13551955366459761 cảnh báo đến các tác giả miền dữ liệu nào bộc lộ thông tin nhiều nhất để từ đó các tác giả có sự điều chỉnh. dono 0.13551955366459761 ve h 0.11171140245403499 TÀI LIỆU THAM KHẢO rofi 0.09303298949081995 [1] Tatiana Litvinova, Olga Litvinova, and Polina Panicheva, liab 0.09227353186871134 “Authorship Attribution of Russian Forum Posts with npro 0.0864262774045356 Different Types of N-gram Features”, in Proceedings of the “ad 0.08642627740453562 2019 3rd International Conference on Natural Language Processing and Information Retrieval (Tokushima, Japan), owdr 0.08642627740453562 NLPIR 2019. ldwi 0.08642627740453562 [2] Ahmed Abbasi and Hsinchun Chen. 2008, “Writeprints: A gofu 0.08642627740453562 Stylometric Approach to Identity-level Identification and nonp 0.08642627740453562 Similarity Detection in Cyberspace”, ACM Trans. Inf. Syst. 26, 2, Article 7 April 2008. Bảng 1: Ví dụ về giá trị thông tin tương hỗ của các đặc [3] Sadia Afroz, Aylin Caliskan Islam, Ariel Stolerman, Rachel Greenstadt, and Damon McCoy, “Doppelganger Finder: trưng xếp theo thứ tự giảm dần Taking Stylometry to the Underground”, in Proceedings of the IEEE Symposium on Security and Privacy (SP ’14). IEEE 4. Lượng thông tin rò rỉ của mỗi tác giả Computer Society, Washington, DC, USA, 2014. Để ước lượng lượng thông tin rò rỉ của mỗi tác giả khi [4] Mudit Bhargava, Pulkit Mehndiratta, and Krishna Asawa, các dữ liệu khác của họ có thể thu thập công khai (trong “Stylometric Analysis for Authorship Attribution on Twitter”, trường hợp này là blog), chúng tôi thiết lập giá trị recall in Proceedings of the Second International Conference on Big là 1, tức là tất cả các tweet do tác giả 𝐴 viết đều phải Data Analytics - Volume 8302 pp. 37-47, 2013. được trả lại, để đạt được điều đó chúng tôi giảm ngưỡng [5] Guilherme Ramos Casimiro and Luciano Antonio của bộ phân lớp. Digiampietri, “Authorship Attribution using data from Reddit forum”, in XVI Brazilian Symposium on Information Số tác giả Lượng thông tin rò rỉ Systems, 2020 [6] C. Perez, B. Birregah, R. Layton, M. Lemercier, and P. 2 1.0072255460121917 Watters, “REPLOT: Retrieving profile links on Twitter for 5 0.725844886228187 suspicious networks detection”, in IEEE/ACM International 10 0.4866471325342776 Conference on Advances in Social Networks Analysis and 20 0.29182881360056073 Mining, ASONAM 2013. 25 0.24883870902477645 [7] Mishari Al Mishari, Dali Kaafar, Gene Tsudik, and Ekin Oguz, “Are 140 Characters Enough? A Large-Scale 50 0.15288309288353066 Linkability Study of Tweets”, CoRR abs/1406.2746, 2014. [8] Twitter Inc., Twitter4J API http://twitter4j.org/, 2014. Bảng 2: Ví dụ về lượng thông tin bị rò rỉ của mỗi tác [9] S. Petrasova, N. Khairova, and W. Lewoniewski, “Building giả khi dữ liệu blog được công khai (dù được ẩn danh) the Semantic Similarity Model for Social Network Data Ví dụ về lượng thông tin bị rò rỉ trung bình của các tác Streams”, in IEEE Second International Conference on Data giả (đo bằng bit) trong các trường hợp khác nhau được Stream Mining Processing (DSMP) pp. 21–24, 2018. minh hoạ trong bảng 2. [10] Arvind Narayanan, Hristo Paskov, Neil Zhenqiang Gong, John Bethencourt, Eui Chul, Richard Shin, and Dawn Song, “On the ISBN ............ 978-604-80-8932-0 362
- Hội nghị Quốc gia lần thứ 26 về Điện tử, Truyền thông và Công nghệ Thông tin (REV-ECIT2023) Feasibility of Internet-scale Author Identification”, in [19] Georgios Barlas, Efstathios Stamatatos, “Cross-Domain Proceedings of the 33rd conference on IEEE Sympsoium on Authorship Attribution Using Pre-trained Language Security and Privacy, IEEE, 2012. Models”, AIAI (1), pp. 255-266, 2020. [11] Telegraph News. [n. d.], “Female MPs were sent 25,000 [20] Mahor, U., Kumar, A, “A Comparative Study of Stylometric abusive Twitter messages in just six months - with half of them Characteristics in Authorship Attribution”, in: Joshi, A., directed at Diane Abbott”, 2017. Mahmud, M., Ragel, R.G. (eds) Information and [12] Rebekah Overdorf and Rachel Greenstadt, “Blogs, Twitter Communication Technology for Competitive Feeds, and Reddit Comments: Cross-domain Authorship Strategies,ICTCS 2021. Attribution”, in proceedings on Privacy Enhancing [21] S. Swain, G. Mishra and C. Sindhu, "Recent approaches on Technologies, pp. 155–171, July 2016. authorship attribution techniques — An overview”, [13] Roy Schwartz, Oren Tsur, Ari Rappoport, and Moshe Koppel, International conference of Electronics, Communication and “Authorship Attribution of Micro-Messages”, in EMNLP. Aerospace Technology (ICECA), Coimbatore, India, p. 557- ACL, pp. 1880–1891, 2013. 566, 2017. [14] Rui Sousa Silva, Gustavo Laboreiro, Luís Sarmento, Tim Grant, Eugénio Oliveira, and Belinda Maia, “‘Twazn Me!!! ;(’ Automatic Authorship Analysis of Micro-blogging Messages”, in Proceedings of the 16th International Conference on Natural Language Processing and Information Systems (NLDB’11), 2011. [15] Efstathios Stamatatos, “A Survey of Modern Authorship Attribution Methods”, J. Am. Soc. Inf. Sci. Technol. 60, 3, pp. 538-556, March 2009. [16] Hoi Le and Reihaneh Safavi-Naini, “On De-anonymization of Single Tweet Messages”, in Proceedings of the Fourth ACM International Workshop on Security and Privacy Analytics (Tempe, AZ, USA), IWSPA 2018. [17] www.tripwire.com. [n. d.], “A Guide on 5 Common Twitter Scams. ([n. d.])”. https://www.tripwire.com/state-of- security/security-awareness/a-guide-on-5-common-twitter- scams/, 2023. [1] . [18] Barlas, G., Stamatatos, E, “A transfer learning approach to cross-domain authorship attribution. Evolving Systems 12”, pp. 625–643, 2021. ISBN ............ 978-604-80-8932-0 363
CÓ THỂ BẠN MUỐN DOWNLOAD
-
Báo cáo: Phân tích tài chính dự án đầu tư - Nguyễn Thị Mai Anh
67 p | 734 | 213
-
Cảm biến đo lực_chương 6
9 p | 290 | 153
-
Đánh giá các tác động của quá trình khai thác bauxit đến môi trường đất- Chương 1
10 p | 353 | 125
-
Cảm biến - Chương 6 : Cảm biến đo lực
9 p | 248 | 92
-
XÂY DỰNG HỆ THỐNG ĐIỀU KHIỂN GIÁM SÁT ĐÁNH GIÁ ĐỘ BỀN LỐP HƠI ÔTÔ TRONG VIỆC PHÊ DUYỆT KIỂU LỐP
10 p | 232 | 44
-
Đánh giá độ tin cậy của khả năng chịu lưc cột liên hợp thép - bê tông cốt thép tiết diện tròn có xét đến ăn mòn kim loại trong không khí
14 p | 7 | 4
-
Nghiên cứu độ bền ăn mòn tiếp xúc của thép kết cấu trong môi trường nước mặn
5 p | 66 | 4
-
Ứng dụng hệ thống động hỗ trợ đánh giá phương án đầu tư căn hộ Smarthome
6 p | 7 | 4
-
Đánh giá tính khả thi của phương pháp thúc đẩy ăn mòn cốt thép trong kết cấu bê tông cốt thép bằng dòng điện
8 p | 28 | 3
-
Đánh giá độ bền sun phát của vữa xây dựng chứa bột gạch đất sét nung phế thải
11 p | 6 | 3
-
Đánh giá độ bền và khả năng chống ăn mòn của một số hệ màng sơn tàu thủy trong bảo vệ kết cấu thép xây dựng
5 p | 57 | 3
-
Hình thức hóa mức độ an toàn của hệ thống kỹ thuật công nghệ
6 p | 40 | 3
-
Giải pháp nâng cao trình độ chuyên môn cho nhân sự làm nhiệm vụ giám sát, đánh giá dự án đầu tư xây dựng sử dụng vốn nhà nước
5 p | 16 | 3
-
Bài học kinh nghiệm trong việc đánh giá đồ án tốt nghiệp ngành thiết kế nội thất trường Đại học Kiến Trúc TP. HCM
6 p | 30 | 2
-
Đánh giá độ tin cậy kết cấu dàn phẳng khi thiết kế theo tiêu chuẩn AISC 360-16
8 p | 5 | 2
-
Về một số phương pháp đánh giá độ tin cậy mờ của kết cấu
8 p | 31 | 1
-
Đề xuất hiểu biết cần thiết và thang điểm đánh giá đồ án trong hệ thống đồ án kiến trúc dân dụng đối với ngành Kiến trúc tại trường Đại học Hải Phòng
6 p | 25 | 1
Chịu trách nhiệm nội dung:
Nguyễn Công Hà - Giám đốc Công ty TNHH TÀI LIỆU TRỰC TUYẾN VI NA
LIÊN HỆ
Địa chỉ: P402, 54A Nơ Trang Long, Phường 14, Q.Bình Thạnh, TP.HCM
Hotline: 093 303 0098
Email: support@tailieu.vn