intTypePromotion=1
zunia.vn Tuyển sinh 2024 dành cho Gen-Z zunia.vn zunia.vn
ADSENSE

Bài giảng Xử lý ngôn ngữ tự nhiên: Chương 4 - Nguyễn Kiêm Hiếu (ĐH Bách khoa Hà Nội)

Chia sẻ: Dien_vi10 Dien_vi10 | Ngày: | Loại File: PDF | Số trang:9

91
lượt xem
10
download
 
  Download Vui lòng tải xuống để xem tài liệu đầy đủ

Bài giảng "Xử lý ngôn ngữ tự nhiên - Chương 4: Phân lớp văn bản" cung cấp cho người học các kiến thức: Tiền xử lý, biểu diễn nhị phân, Tf-idf, Bayes rule, LibSVM. Mời các bạn cùng tham khảo nội dung chi tiết.

Chủ đề:
Lưu

Nội dung Text: Bài giảng Xử lý ngôn ngữ tự nhiên: Chương 4 - Nguyễn Kiêm Hiếu (ĐH Bách khoa Hà Nội)

Chương 4 Phân lớp văn bản<br /> Tf-idf<br /> Naive Bayes<br /> LibSVM<br /> IT4772 Xử lý ngôn ngữ tự nhiên<br /> Viện CNTT-TT, ĐHBKHN<br /> <br /> 2<br /> <br /> Chương 4 Phân lớp văn bản<br /> Tf-idf<br /> Tiền xử lý<br /> INFORMATION EXTRACTION<br /> ●<br /> <br /> NATURAL LANGUAGE UNDERSTANDING<br /> <br /> END-TO-END<br /> APPLICATIONS<br /> <br /> NATURAL LANGUAGE GENERATION<br /> <br /> Tại sao cần tiền xử lý?<br /> –<br /> <br /> Loại bỏ nhiễu<br /> <br /> –<br /> <br /> Giảm độ lớn từ vựng<br /> <br /> –<br /> <br /> Tăng độ chính xác<br /> <br /> –<br /> <br /> Tăng tốc độ<br /> <br /> DATA + LINGUISTICS + MACHINE LEARNING<br /> <br /> 3<br /> <br /> 4<br /> <br /> Chương 4 Phân lớp văn bản<br /> Tf-idf<br /> Tiền xử lý<br /> <br /> Chương 4 Phân lớp văn bản<br /> Tf-idf<br /> Tiền xử lý<br /> <br /> 1/ Tách từ<br /> 2/ Loại bỏ dấu câu<br /> 3/ Chuyển về viết thường<br /> 4/ Loại bỏ từ dừng<br /> 5/ Loại bỏ từ hiếm<br /> <br /> túi từ<br /> <br /> 5<br /> <br /> Chương 4 Phân lớp văn bản<br /> Tf-idf<br /> Tiền xử lý<br /> <br /> 6<br /> <br /> Chương 4 Phân lớp văn bản<br /> Tf-idf<br /> Biểu diễn nhị phân<br /> <br /> Biểu diễn n-gram<br /> <br /> boolean(w,d)<br /> = 1 nếu w xuất hiện trong văn b ản d<br /> <br /> học sinh học sinh học<br /> Từ:<br /> <br /> {học_sinh, học, sinh_học}<br /> <br /> Unigram:<br /> <br /> {học, sinh, học, sinh, học}<br /> <br /> Bigram:<br /> <br /> {học-sinh, sinh-học, học-sinh, sinh-học}<br /> <br /> = 0 nếu w không xuất hiện trong d<br /> ●<br /> <br /> 7<br /> <br /> Đơn giản, không phân biệt tần xu ất xu ất hi ện<br /> <br /> 8<br /> <br /> Chương 4 Phân lớp văn bản<br /> Tf-idf<br /> Tf<br /> <br /> Chương 4 Phân lớp văn bản<br /> Tf-idf<br /> Df<br /> <br /> tf(w,d): số lần xuất hiện của từ w trong văn bản d<br /> ●<br /> <br /> ●<br /> <br /> ●<br /> <br /> Số lần xuất hiện càng cao thì từ càng có vai trò<br /> quan trọng trong văn bản<br /> <br /> df(w): số văn bản từ w xuất hiện<br /> ●<br /> <br /> Từ xuất hiện trong rất nhiều văn b ản thì ít quan<br /> trọng<br /> <br /> Từ dừng có tần xuất xuất hiện cao trong h ầu h ết<br /> văn bản nhưng đã bị loại bỏ trong b ước ti ền x ử<br /> lý<br /> Chưa thể hiện vai trò của từ trong c ả tập văn<br /> bản<br /> <br /> 9<br /> <br /> Chương 4 Phân lớp văn bản<br /> Tf-idf<br /> Tf-idf<br /> <br /> 10<br /> <br /> Chương 4 Phân lớp văn bản<br /> Naive Bayes<br /> Bayes rule<br /> <br /> tf-idf(w,d) = tf(w,d) x log N / df(w)<br /> <br /> ●<br /> <br /> trong đó N là số lượng văn bản<br /> <br /> ●<br /> <br /> 11<br /> <br /> Pr(A): xác suất xảy ra sự kiện A<br /> Pr(A|B): xác suất điều kiện x ảy ra A bi ết B đã<br /> xảy ra<br /> <br /> 12<br /> <br /> T2<br /> <br /> T3<br /> <br /> T4<br /> <br /> T5<br /> <br /> T6<br /> <br /> T7<br /> <br /> CN<br /> <br /> Trời<br /> <br /> mưa<br /> <br /> nắng<br /> <br /> râm<br /> <br /> mưa<br /> <br /> râm<br /> <br /> mưa<br /> <br /> ?<br /> <br /> Chuồn<br /> chuồn<br /> <br /> thấp<br /> <br /> cao<br /> <br /> vừa<br /> <br /> thấp<br /> <br /> cao<br /> <br /> vừa<br /> <br /> thấp<br /> <br /> Pr(mưa) = 3/6<br /> Pr(nắng) = 1/6<br /> Pr(râm) = 2/6<br /> <br /> Pr(thấp|mưa) = 2/3<br /> Pr(cao|mưa) = 0/3<br /> Pr(vừa|mưa) = 1/3<br /> <br /> Pr(thấp) = 2/6<br /> Pr(cao) = 2/6<br /> Pr(vừa) = 2/6<br /> <br /> Pr(thấp|nắng) = 0/1<br /> Pr(cao|nắng) = 1/1<br /> Pr(vừa|nắng) = 0/1<br /> <br /> Xác suất tiên nghiệm<br /> <br /> Xác suất biên<br /> <br /> P(A) .P(B|A)<br /> P(B)<br /> Xác suất hậu nghiệm<br /> <br /> Khả năng<br /> <br /> Pr(thấp|râm) = 0/2<br /> Pr(cao|râm) = 1/2<br /> Pr(vừa|râm) = 1/2<br /> 13<br /> <br /> Định luật dây chuyền<br /> <br /> 14<br /> <br /> Ví dụ: Ba người A, B, C tham gia tranh lu ận. A,<br /> B, C chiếm lần lượt 20%, 30%, 50% t ổng s ố<br /> tranh luận đưa ra. Hỏi xác su ất để C đ ưa ra<br /> một tranh luận tiêu cực là bao nhiêu bi ết r ằng t ỉ<br /> lệ tranh luận tiêu cực của A, B, C l ần l ượt là<br /> 5%, 3%, và 1%?<br /> <br /> P(A1,A2,A3..An) = P(A1|A2,A3..An)P(A2|<br /> A3..An)..P(An-1|An)P(An)<br /> <br /> 15<br /> <br /> 16<br /> <br /> P(A)=.2<br /> P(B)=.3<br /> <br /> P(neg) = P(neg|A)P(A) + P(neg|B)P(B) + P(neg|<br /> C)P(C) = .05x.2 + .03x.3 + .01x.5=.024<br /> <br /> P(C)=.5<br /> <br /> P(C|neg) = P(C)P(neg|C)/P(neg)<br /> = .01x.5/.024 = .208<br /> <br /> P(neg|A)=.05<br /> P(neg|B)=.03<br /> P(neg|C)=.01<br /> P(C|neg) = ?<br /> 17<br /> <br /> ●<br /> <br /> P(c|x) = P(c|f1,f2..fn)<br /> <br /> 18<br /> <br /> ●<br /> <br /> = P(c)P(f1,f2..fn|c)/P(f1,f2..fn)<br /> <br /> Giả thiết độc lập: Các đặc trưng là đ ộc l ập v ới<br /> nhau về mặt xác suất<br /> P(fi|fj) = P(fi)<br /> <br /> ~ P(c)P(f1,f2..fn|c)<br /> <br /> P(c|x)~P(f1|f2..fn,c)P(f2|f3..fn,c)..P(fn-1|fn,c)P(fn|c)P(c)<br /> <br /> = P(f1,f2..fn,c)<br /> <br /> =P(f1|c)P(f2|c)..P(fn|c)P(c)<br /> <br /> = P(f1|f2..fn,C)P(f2|f3..fn,C)..P(fn-1|fn,C)P(fn|C)P(C)<br /> <br /> P(c|x) ~ P(f1|c)P(f2|c)..P(fn|c)P(c)<br /> <br /> 19<br /> <br /> 20<br /> <br />
ADSENSE

CÓ THỂ BẠN MUỐN DOWNLOAD

 

Đồng bộ tài khoản
2=>2