intTypePromotion=1

Bài giảng Xử lý ngôn ngữ tự nhiên: Chương 4 - Nguyễn Kiêm Hiếu (ĐH Bách khoa Hà Nội)

Chia sẻ: Dien_vi10 Dien_vi10 | Ngày: | Loại File: PDF | Số trang:9

0
27
lượt xem
6
download

Bài giảng Xử lý ngôn ngữ tự nhiên: Chương 4 - Nguyễn Kiêm Hiếu (ĐH Bách khoa Hà Nội)

Mô tả tài liệu
  Download Vui lòng tải xuống để xem tài liệu đầy đủ

Bài giảng "Xử lý ngôn ngữ tự nhiên - Chương 4: Phân lớp văn bản" cung cấp cho người học các kiến thức: Tiền xử lý, biểu diễn nhị phân, Tf-idf, Bayes rule, LibSVM. Mời các bạn cùng tham khảo nội dung chi tiết.

Chủ đề:
Lưu

Nội dung Text: Bài giảng Xử lý ngôn ngữ tự nhiên: Chương 4 - Nguyễn Kiêm Hiếu (ĐH Bách khoa Hà Nội)

Chương 4 Phân lớp văn bản<br /> Tf-idf<br /> Naive Bayes<br /> LibSVM<br /> IT4772 Xử lý ngôn ngữ tự nhiên<br /> Viện CNTT-TT, ĐHBKHN<br /> <br /> 2<br /> <br /> Chương 4 Phân lớp văn bản<br /> Tf-idf<br /> Tiền xử lý<br /> INFORMATION EXTRACTION<br /> ●<br /> <br /> NATURAL LANGUAGE UNDERSTANDING<br /> <br /> END-TO-END<br /> APPLICATIONS<br /> <br /> NATURAL LANGUAGE GENERATION<br /> <br /> Tại sao cần tiền xử lý?<br /> –<br /> <br /> Loại bỏ nhiễu<br /> <br /> –<br /> <br /> Giảm độ lớn từ vựng<br /> <br /> –<br /> <br /> Tăng độ chính xác<br /> <br /> –<br /> <br /> Tăng tốc độ<br /> <br /> DATA + LINGUISTICS + MACHINE LEARNING<br /> <br /> 3<br /> <br /> 4<br /> <br /> Chương 4 Phân lớp văn bản<br /> Tf-idf<br /> Tiền xử lý<br /> <br /> Chương 4 Phân lớp văn bản<br /> Tf-idf<br /> Tiền xử lý<br /> <br /> 1/ Tách từ<br /> 2/ Loại bỏ dấu câu<br /> 3/ Chuyển về viết thường<br /> 4/ Loại bỏ từ dừng<br /> 5/ Loại bỏ từ hiếm<br /> <br /> túi từ<br /> <br /> 5<br /> <br /> Chương 4 Phân lớp văn bản<br /> Tf-idf<br /> Tiền xử lý<br /> <br /> 6<br /> <br /> Chương 4 Phân lớp văn bản<br /> Tf-idf<br /> Biểu diễn nhị phân<br /> <br /> Biểu diễn n-gram<br /> <br /> boolean(w,d)<br /> = 1 nếu w xuất hiện trong văn b ản d<br /> <br /> học sinh học sinh học<br /> Từ:<br /> <br /> {học_sinh, học, sinh_học}<br /> <br /> Unigram:<br /> <br /> {học, sinh, học, sinh, học}<br /> <br /> Bigram:<br /> <br /> {học-sinh, sinh-học, học-sinh, sinh-học}<br /> <br /> = 0 nếu w không xuất hiện trong d<br /> ●<br /> <br /> 7<br /> <br /> Đơn giản, không phân biệt tần xu ất xu ất hi ện<br /> <br /> 8<br /> <br /> Chương 4 Phân lớp văn bản<br /> Tf-idf<br /> Tf<br /> <br /> Chương 4 Phân lớp văn bản<br /> Tf-idf<br /> Df<br /> <br /> tf(w,d): số lần xuất hiện của từ w trong văn bản d<br /> ●<br /> <br /> ●<br /> <br /> ●<br /> <br /> Số lần xuất hiện càng cao thì từ càng có vai trò<br /> quan trọng trong văn bản<br /> <br /> df(w): số văn bản từ w xuất hiện<br /> ●<br /> <br /> Từ xuất hiện trong rất nhiều văn b ản thì ít quan<br /> trọng<br /> <br /> Từ dừng có tần xuất xuất hiện cao trong h ầu h ết<br /> văn bản nhưng đã bị loại bỏ trong b ước ti ền x ử<br /> lý<br /> Chưa thể hiện vai trò của từ trong c ả tập văn<br /> bản<br /> <br /> 9<br /> <br /> Chương 4 Phân lớp văn bản<br /> Tf-idf<br /> Tf-idf<br /> <br /> 10<br /> <br /> Chương 4 Phân lớp văn bản<br /> Naive Bayes<br /> Bayes rule<br /> <br /> tf-idf(w,d) = tf(w,d) x log N / df(w)<br /> <br /> ●<br /> <br /> trong đó N là số lượng văn bản<br /> <br /> ●<br /> <br /> 11<br /> <br /> Pr(A): xác suất xảy ra sự kiện A<br /> Pr(A|B): xác suất điều kiện x ảy ra A bi ết B đã<br /> xảy ra<br /> <br /> 12<br /> <br /> T2<br /> <br /> T3<br /> <br /> T4<br /> <br /> T5<br /> <br /> T6<br /> <br /> T7<br /> <br /> CN<br /> <br /> Trời<br /> <br /> mưa<br /> <br /> nắng<br /> <br /> râm<br /> <br /> mưa<br /> <br /> râm<br /> <br /> mưa<br /> <br /> ?<br /> <br /> Chuồn<br /> chuồn<br /> <br /> thấp<br /> <br /> cao<br /> <br /> vừa<br /> <br /> thấp<br /> <br /> cao<br /> <br /> vừa<br /> <br /> thấp<br /> <br /> Pr(mưa) = 3/6<br /> Pr(nắng) = 1/6<br /> Pr(râm) = 2/6<br /> <br /> Pr(thấp|mưa) = 2/3<br /> Pr(cao|mưa) = 0/3<br /> Pr(vừa|mưa) = 1/3<br /> <br /> Pr(thấp) = 2/6<br /> Pr(cao) = 2/6<br /> Pr(vừa) = 2/6<br /> <br /> Pr(thấp|nắng) = 0/1<br /> Pr(cao|nắng) = 1/1<br /> Pr(vừa|nắng) = 0/1<br /> <br /> Xác suất tiên nghiệm<br /> <br /> Xác suất biên<br /> <br /> P(A) .P(B|A)<br /> P(B)<br /> Xác suất hậu nghiệm<br /> <br /> Khả năng<br /> <br /> Pr(thấp|râm) = 0/2<br /> Pr(cao|râm) = 1/2<br /> Pr(vừa|râm) = 1/2<br /> 13<br /> <br /> Định luật dây chuyền<br /> <br /> 14<br /> <br /> Ví dụ: Ba người A, B, C tham gia tranh lu ận. A,<br /> B, C chiếm lần lượt 20%, 30%, 50% t ổng s ố<br /> tranh luận đưa ra. Hỏi xác su ất để C đ ưa ra<br /> một tranh luận tiêu cực là bao nhiêu bi ết r ằng t ỉ<br /> lệ tranh luận tiêu cực của A, B, C l ần l ượt là<br /> 5%, 3%, và 1%?<br /> <br /> P(A1,A2,A3..An) = P(A1|A2,A3..An)P(A2|<br /> A3..An)..P(An-1|An)P(An)<br /> <br /> 15<br /> <br /> 16<br /> <br /> P(A)=.2<br /> P(B)=.3<br /> <br /> P(neg) = P(neg|A)P(A) + P(neg|B)P(B) + P(neg|<br /> C)P(C) = .05x.2 + .03x.3 + .01x.5=.024<br /> <br /> P(C)=.5<br /> <br /> P(C|neg) = P(C)P(neg|C)/P(neg)<br /> = .01x.5/.024 = .208<br /> <br /> P(neg|A)=.05<br /> P(neg|B)=.03<br /> P(neg|C)=.01<br /> P(C|neg) = ?<br /> 17<br /> <br /> ●<br /> <br /> P(c|x) = P(c|f1,f2..fn)<br /> <br /> 18<br /> <br /> ●<br /> <br /> = P(c)P(f1,f2..fn|c)/P(f1,f2..fn)<br /> <br /> Giả thiết độc lập: Các đặc trưng là đ ộc l ập v ới<br /> nhau về mặt xác suất<br /> P(fi|fj) = P(fi)<br /> <br /> ~ P(c)P(f1,f2..fn|c)<br /> <br /> P(c|x)~P(f1|f2..fn,c)P(f2|f3..fn,c)..P(fn-1|fn,c)P(fn|c)P(c)<br /> <br /> = P(f1,f2..fn,c)<br /> <br /> =P(f1|c)P(f2|c)..P(fn|c)P(c)<br /> <br /> = P(f1|f2..fn,C)P(f2|f3..fn,C)..P(fn-1|fn,C)P(fn|C)P(C)<br /> <br /> P(c|x) ~ P(f1|c)P(f2|c)..P(fn|c)P(c)<br /> <br /> 19<br /> <br /> 20<br /> <br />

CÓ THỂ BẠN MUỐN DOWNLOAD

 

Đồng bộ tài khoản