YOMEDIA
ADSENSE
Phân loại web đồi trụy dựa vào văn bản và hình ảnh
46
lượt xem 3
download
lượt xem 3
download
Download
Vui lòng tải xuống để xem tài liệu đầy đủ
Nghiên cứu này tiếp cận theo phương pháp máy học để từ đó có thể phát hiện tự động những website chứa hình ảnh khiêu dâm và văn bản có nội dung đồi trụy. Cụ thể, sử dụng giải thuật SVM để phân lớp hình ảnh dựa vào phân loại màu da cải tiến và Naïve Bayes để phân lớp văn bản.
AMBIENT/
Chủ đề:
Bình luận(0) Đăng nhập để gửi bình luận!
Nội dung Text: Phân loại web đồi trụy dựa vào văn bản và hình ảnh
NGHIÊN CỨU KHOA HỌC<br />
<br />
<br />
Phân loại web đồi trụy dựa vào văn bản và hình ảnh<br />
Pornographic web classification based on text and images<br />
1 2<br />
Phạm Thị Hường , Nguyễn Văn Thanh<br />
Email: phamthihuongdtth@gmail.com<br />
1<br />
Trường Đại học Sao Đỏ<br />
2<br />
Trường THPT Châu Thành<br />
Ngày nhận bài: 15/6/2018<br />
Ngày nhận bài sửa sau phản biện: 23/11/2018<br />
Ngày chấp nhận đăng: 27/12/2018<br />
Tóm tắt<br />
Nghiên cứu này tiếp cận theo phương pháp máy học để từ đó có thể phát hiện tự động những website<br />
chứa hình ảnh khiêu dâm và văn bản có nội dung đồi trụy. Cụ thể, sử dụng giải thuật SVM để phân lớp<br />
hình ảnh dựa vào phân loại màu da cải tiến và Naïve Bayes để phân lớp văn bản. Kết quả cho thấy mô<br />
hình đề xuất có độ chính xác phân lớp cao hơn một số phương pháp đã công bố.<br />
Từ khóa: Máy vector hỗ trợ; phân lớp văn bản; phân lớp hình ảnh; Naïve Bayes; phân loại web.<br />
<br />
<br />
Abstract<br />
<br />
This study approaches a machine learning method to automatically detect websites containing<br />
pornographic images and texts. Specifically, SVM is used to image classify based on the improved skin<br />
color classification, and Naïve Bayes is used to text classify. The results show that the proposed model<br />
has higher classification accuracy than some published methods.<br />
Keywords: Support vector machine; text classification; image classification; Naïve Bayes; web classification.<br />
1. GIỚI THIỆU<br />
<br />
Thực tế hiện nay, số lượng thanh thiếu niên suy giữa các tài liệu web, sau đó mô hình hóa chúng<br />
đồi đạo đức cũng như phạm tội ngày càng tăng dạng vector nhằm phân lớp văn bản, sử dụng<br />
cao. Một trong những nguyên nhân đó là do ảnh phân tích ngữ nghĩa tiềm ẩn (LSA) và đặc trưng<br />
hưởng từ những thông tin không lành mạnh tràn trang web (WPFS) để trích chọn các đặc trưng ngữ<br />
lan trên internet, lượng lớn thông tin đó chưa được nghĩa và văn bản. Kết quả phân lớp có giá trị TP<br />
phân loại hay kiểm soát để giúp người sử dụng trung bình cho hai phương pháp là 96,5%, chưa<br />
tránh truy cập những thông tin xấu. Nghiên cứu phân lớp hình ảnh trong trang web. Theo [13], tác<br />
về phân loại web đồi trụy ở trong nước cũng như giả đưa ra phương pháp phát hiện nội dung web<br />
trên thế giới đã có những kết quả cụ thể và ứng khiêu dâm sử dụng TF-IDF tính trọng số của một<br />
dụng trong thực tế: công cụ chặn website khiêu từ hoặc nhóm từ để thống kê mức độ quan trọng<br />
dâm của nước ngoài như STOP P-O-R-N của của chúng trong một văn bản tiếng Anh và tiếng<br />
PB Software LLC, Media Detective; CyberSitter Nga. Kết quả phân loại tiếng Anh sử dụng Naïve<br />
của Solid Oak Software; iShield và ScreenShield Bayes có độ chính xác phân lớp trung bình 92,9%,<br />
Enterprise của Guardware,... Trong nước có công thời gian trích chọn đặc trưng cho mỗi tài liệu tiếng<br />
cụ chặn web đen Killporn của tác giả Nguyễn Hữu Anh khá lớn (2,7 giây). Theo [14], tác giả sử dụng<br />
Bình, VwebFilter (VWF), Depraved Web Killer SVM với đặc trưng dựa trên thống kê về kết cấu<br />
(DWK) của tác giả Vũ Lương Bằng, MiniFireWall và màu sắc của một hình ảnh, tính score để xác<br />
4.0 (MFW) của tác giả Huỳnh Ngọc Ẩn [11]. Theo định hình ảnh có phải khiêu dâm trẻ em không,<br />
hướng tiếp cận máy học về phân loại web đồi trụy sử dụng các visual words cùng tăng cường màu<br />
đã có một số nghiên cứu trên thế giới. Theo [12], sắc DCT để biểu diễn hình ảnh, kết quả có tỷ lệ<br />
tác giả sử dụng SVM để phân tích ngữ nghĩa nhằm lỗi trong phạm vi 11-24%. Theo [15], tác giả sử<br />
tìm mối quan hệ ngữ nghĩa giữa các từ khóa và dụng trí tuệ nhóm trong nhật ký click qua công cụ<br />
tìm kiếm dựa trên ý tưởng “Hành vi nhấp chuột<br />
trên các trang khiêu dâm phản ánh ý định tìm kiếm<br />
Người phản biện: 1. GS.TSKH. Thân Ngọc Hoàn khiêu dâm của người dùng” và những người dùng<br />
2. TS. Đặng Hồng Hải khác nhau thường sử dụng các truy vấn như nhau<br />
<br />
<br />
26 Tạp chí Nghiên cứu khoa học - Đại học Sao Đỏ, ISSN 1859-4190 Số 4(63).2018<br />
LIÊN NGÀNH ĐIỆN - ĐIỆN TỬ - TỰ ĐỘNG HÓA<br />
<br />
để tìm nội dung khiêu dâm trên web. Từ đó, tập giả biểu diễn ảnh bằng đặc trưng SIFT và dùng<br />
hợp số lượng các nhấp chuột của người dùng và mô hình bag of words (BoW) để thực hiện kết tập<br />
mối tương quan giữa các truy vấn hay URL để các đặc trưng cục bộ SIFT đó. Với phân loại văn<br />
đề xuất phương pháp truyền bá nhãn trên đồ thị bản, tác giả chọn các đặc trưng để phân loại là<br />
lưỡng phân có trọng số, điều này làm cơ sở xác ngưỡng tần suất văn bản (Document Frequency<br />
định một trang web có nội dung khiêu dâm hay thresholding –DF). Theo cách tiếp cận này, việc<br />
không. Tác giả sử dụng phân loại văn bản bằng cả đếm số lượng văn bản có chứa từ cấm đơn giản<br />
SVM và Naïve Bayes bổ sung đặc trưng là điểm nhưng độ chính xác chưa cao (93,65%) và phân<br />
khiêu dâm (pornography score – PS) để làm tăng lớp hình ảnh dựa vào đặc trưng SIFL có độ chính<br />
hiệu quả tìm kiếm. Kết quả cài đặt trên ngôn ngữ<br />
xác 76,3255%.<br />
tiếng Anh và tiếng Trung có giá trị TP tương ứng là<br />
91% và 94%. Theo [16], tác giả sử dụng SVM để Đa phần những công cụ cung cấp bởi các nhà<br />
phân loại văn bản và hình ảnh trong web. Cụ thể, phát triển nước ngoài đều phải trả phí, một số<br />
sử dụng đặc trưng màu da để phát hiện hình ảnh nghiên cứu phân loại web chỉ dựa trên từ khóa,<br />
khiêu dâm và tần suất các thuật ngữ khiêu dâm so URL, chưa phân loại cả văn bản và hình ảnh, một<br />
với tổng số văn bản, khoảng thời gian và mức độ số hạn chế về thời gian phân lớp hay độ chính<br />
của các thuật ngữ khiêu dâm. Kết quả thử nghiệm xác,… Một số công cụ trong nước nhưng chưa<br />
cho độ chính xác phân loại văn bản là 95,8% và được sử dụng rộng rãi và còn một số hạn chế<br />
độ chính xác phân loại hình ảnh là 84%. Ngoài ra, như: DWK, VFW chặn website dựa vào những<br />
độ chính xác của phân loại trang web sau khi hợp từ khóa thông dụng có trong nội dung trang web<br />
nhất thành một bộ lọc gồm cả văn bản và hình ảnh hoặc chặn những URL cụ thể, điều này có thể<br />
là 91,8%. Theo [17], tác giả đưa ra phương pháp<br />
dẫn đến là phần mềm chặn nhầm website bởi<br />
lọc web thông thường, dựa trên phân lớp văn bản<br />
thực tế địa chỉ của một số website có nội dung<br />
sử dụng URL. Phương pháp này chỉ yêu cầu các<br />
khiêu dâm thường thay đổi. Mặt khác, người dùng<br />
tập huấn luyện cho lớp tốt và do đó không phải<br />
không thể liệt kê ra hết những từ khóa và địa chỉ<br />
xây dựng và duy trì tập huấn luyện lớp xấu. Tuy<br />
nhiên, chưa phân lớp được hình ảnh, phân lớp website cần cấm truy cập. Nghiên cứu này tiếp<br />
văn bản mới chỉ dựa trên URL mà không dựa vào cận theo phương pháp máy học để phát hiện tự<br />
nội dung, việc không quan tâm đến huấn luyện động những website chứa hình ảnh khiêu dâm<br />
lớp xấu cũng là hạn chế cho phân lớp web đồi bằng kỹ thuật SVM và website chứa văn bản có<br />
trụy vốn cần quan tâm lớp xấu để chặn. Theo [18], nội dung đồi trụy bằng giải thuật Naïve Bayes. Kết<br />
tác giả trích chọn đặc trưng là vùng da từ ảnh và quả nghiên cứu cho thấy hiệu quả của đề xuất.<br />
tìm mối tương quan giữa vùng đó là da hay không 2. NỘI DUNG NGHIÊN CỨU<br />
phải da, sử dụng SVM để xác định xem một hình<br />
ảnh có là ảnh khiêu dâm hay không. Kết quả thực 2.1. Bài toán phân lớp dữ liệu web<br />
nghiệm cho độ chính xác 75%. Theo [19], tác giả Phân lớp dữ liệu là xếp đối tượng dữ liệu vào<br />
đề xuất mô hình phân loại dựa trên kỹ thuật học một trong các lớp đã xác định trước. Phân lớp<br />
sâu. Việc trích chọn đặc trưng và phân loại bằng<br />
dữ liệu gồm hai bước là xây dựng mô hình và<br />
mạng nơron tích chập nhiều lớp làm cho việc tạo<br />
vận hành mô hình. Cho sẵn một tập dữ liệu các<br />
các đặc trưng và bộ phân loại không phải thực<br />
trang web được gán nhãn là web đồi trụy hay<br />
hiện thủ công. Cụ thể, nghiên cứu tập trung vào<br />
bình thường gọi tắt là lớp xấu và lớp tốt, cần một<br />
tín hiệu thị giác là hình thức khiêu dâm nổi bật<br />
nhất và hệ thống học sâu tự động phân tích hình phương pháp huấn luyện để xây dựng một mô<br />
ảnh (và khung hình video) trước khi phân loại nội hình phân lớp từ tập dữ liệu mẫu đó, sau đó dùng<br />
dung là bình thường hay khiêu dâm. Kết quả thực mô hình này dự đoán lớp của những trang web<br />
nghiệm đạt tỷ lệ phân loại trên 94%. mới chưa biết nhãn.<br />
<br />
Tại Việt Nam, theo [3], tác giả sử dụng SVM 2.2. Phân lớp hình ảnh trong web<br />
để phân lớp nội dung văn bản trong trang web. 2.2.1. Giải thuật SVM<br />
Thực nghiệm được tiến hành trên bộ dữ liệu mẫu<br />
20-newsgroups (là bộ dữ liệu dành cho các thí Cho trước một tập huấn luyện được biểu diễn<br />
nghiệm trong các ứng dụng phân lớp văn bản) trong không gian vector, phương pháp này tìm ra<br />
với độ chính xác trung bình 94%, chưa phân lớp một siêu phẳng quyết định tốt nhất có thể để chia<br />
hình ảnh. Về phân lớp web chứa cả hình ảnh và các điểm trong không gian này thành hai lớp riêng<br />
nội dung văn bản, theo [4], sử dụng thuật toán biệt. Phương pháp này yêu cầu dữ liệu được diễn<br />
SVM để phân lớp văn bản và hình ảnh. Cụ thể, tác tả như các vector của số thực [5].<br />
<br />
<br />
Tạp chí Nghiên cứu khoa học - Đại học Sao Đỏ, ISSN 1859-4190 Số 4(63).2018 27<br />
NGHIÊN CỨU KHOA HỌC<br />
<br />
2.2.2. Huấn luyện SVM (R>95) và (G>40) và (B>20) và (max{R,G,B})<br />
(3)<br />
Huấn luyện SVM thực chất là việc giải bài toán -min{R,G,B}>15 và (|R-G|>15) và (R>G) và (G>B)<br />
quy hoạch toàn phương, yêu cầu phải lưu một ma<br />
trận có kích thước bằng bình phương số lượng Trong điều kiện chiếu sáng là ánh sáng đèn thì<br />
mẫu huấn luyện. Trong thực tế, điều này là không cho bởi công thức:<br />
khả thi vì thông thường số lượng mẫu huấn luyện (R>220)và(G>210)và (B>170)và (max{R,G,B}-<br />
lớn. Có nhiều thuật toán được phát triển để giải (4)<br />
quyết bài toán trên. Những thuật toán này dựa min{R,G,B}>15) và (|R-G|B) và (G>B)<br />
trên việc phân rã tập huấn luyện thành những Ðể kết hợp chung hai điều kiện chiếu sáng khác<br />
nhóm dữ liệu nhỏ hơn, nghĩa là thay vì giải bài<br />
nhau ta sử dụng phép toán OR.<br />
toán toàn phương có kích thước lớn thì đi giải<br />
những bài toán toàn phương có kích nhỏ hơn. 2.2.3.4. Mô hình phát hiện màu da dựa vào phân<br />
Sau đó, những thuật toán này kiểm tra điều kiện phối histogram<br />
để xác định phương án tối ưu. Một trong những<br />
Là mô hình xác định màu da dựa vào phân phối<br />
thuật toán dùng để giải bài toán toàn phương là<br />
Sequential Minimal Optimization – SMO do Platt histogram của các thành phần màu trong không<br />
đưa ra năm 1999. gian màu RGB và quy tắc phân lớp. Trong mô<br />
hình này sử dụng 14,985,845 skin pixels (điểm<br />
2.2.3. Phân đoạn màu da<br />
ảnh màu da) và 304,844,751 non-skin pixels<br />
Phát hiện da là một bước quan trọng đầu tiên (điểm ảnh không phải màu da) để tạo ra RGB<br />
trong việc phát hiện ảnh, được sử dụng làm cơ histogram với kích thước 32*32*32 cho điểm ảnh<br />
sở cho việc phát hiện hình ảnh có nội dung đồi da và không da (mỗi thành phần r, g, b được phân<br />
trụy. Mục tiêu của phát hiện màu da là xây dựng phối vào biểu đồ màu có 32 bins). Với mỗi bin cụ<br />
một bộ quy tắc quyết định sẽ phân biệt màu của thể, ta tính log likelihood để phân lớp:<br />
một điểm ảnh (pixel) là màu da (skin color) hay là<br />
không phải da (non-skin color) dựa trên các thành <br />
phần màu sắc.<br />
2.2.3.1. Mô hình phát hiện màu da trong không Trong đó H(rgb), h(rgb) tương ứng là số skin pixels<br />
gian màu YcrCb và non-skin pixels có trong bin rgb tương ứng của<br />
biểu đồ màu. Với mỗi điểm ảnh rgb sẽ rơi vào 1<br />
Không gian màu YcbCr được biểu diễn bằng<br />
ba giá trị. Thành phần Y đại diện cho cường độ bin trong 32*32*32 bin của mô hình, khi một điểm<br />
của ánh sáng. Hai thành phần Cb và Cr cho biết ảnh rgb được phân lớp là màu da khi thỏa mãn<br />
cường độ của các thành phần màu xanh và đỏ so công thức (4). Trong nghiên cứu này tác giả sử<br />
với thành phần màu xanh lá cây. Mô hình cho bởi dụng file mô hình màu da “skinmodel.bin”(https://<br />
công thức xác định điều kiện để một điểm ảnh có github.com/zhouxc/Adult-WebSite-Classifier)<br />
màu là màu da khi và chỉ khi thỏa mãn điều kiện:<br />
Tuy nhiên, không có một mô hình phát hiện da<br />
85 ≤ Cb ≤ 135, 135 ≤ Cr ≤ 180, Y ≥ 80 (1) nào là chính xác 100%, các vùng ảnh chứa da<br />
2.2.3.2. Mô hình phát hiện màu da trong không rất “trơn” (không chứa biên của ảnh) và hình<br />
gian màu HSV ảnh thuộc lớp “xấu” thường là những hình chứa<br />
những vùng da có kích thước lớn, từ đó tác giả<br />
Không gian màu HSV do A.R. Smith đề xuất năm đề xuất thuật toán cải tiến để phát hiện màu da<br />
1978, còn gọi là không gian màu HSB, là một<br />
của ảnh.<br />
không gian màu dựa trên ba số liệu: H (Hue): Sắc<br />
thái (0=H=360). S (Saturation): Ðộ bão hòa màu Thuật toán cải tiến:<br />
(0=S=1). B (Brightness) hay V (Value): Ðộ sáng<br />
Input: ảnh input_Image (ảnh đen trắng)<br />
(0=V=1). Mô hình cho bởi công thức xác định điều<br />
kiện để một điểm ảnh có màu là màu da khi và chỉ Output: ảnh output_Image (ảnh đen trắng) chứa<br />
khi thỏa mãn điều kiện: màu da được xác định.<br />
0
ADSENSE
CÓ THỂ BẠN MUỐN DOWNLOAD
Thêm tài liệu vào bộ sưu tập có sẵn:
Báo xấu
LAVA
AANETWORK
TRỢ GIÚP
HỖ TRỢ KHÁCH HÀNG
Chịu trách nhiệm nội dung:
Nguyễn Công Hà - Giám đốc Công ty TNHH TÀI LIỆU TRỰC TUYẾN VI NA
LIÊN HỆ
Địa chỉ: P402, 54A Nơ Trang Long, Phường 14, Q.Bình Thạnh, TP.HCM
Hotline: 093 303 0098
Email: support@tailieu.vn