Ạ Ọ Đ I H C THÁI NGUYÊN
ƯỜ Ạ Ọ Ệ Ề TR NG Đ I H C CÔNG NGH THÔNG TIN VÀ TRUY N THÔNG
Ề ƯƠ Ạ Ế Đ C Ậ NG CHI TI T LU N VĂN TH C SĨ
Ữ Ậ Ạ Ả
Ề TÊN Đ TÀI Ộ Ố NH N D NG VĂN B N M T S NGÔN NG LA TINH
ướ Giáo viên h ng d n ồ ẫ : TS. H Văn Canh
ự ọ ệ H c viên th c hi n ạ : Lê M nh Đoan
L pớ : CK14H
Thái Nguyên, tháng 5 năm 2016
Ờ Ả Ơ L I C M N
ướ ế ầ Tr ả ơ c h t cho phép em chân thành c m n các Th y giáo, Cô giáo trong
ệ ạ ạ ọ ộ khoa Công ngh thông tin và các cán b , nhân viên phòng Đào t o Sau đ i h c,
ườ ạ ọ ạ ọ ệ ề Tr ng Đ i h c Công ngh Thông tin và Truy n thông Đ i h c Thái Nguyên
ệ ệ ố ề ạ ỡ ấ ố đã luôn nhi t tình giúp đ và t o đi u ki n t t nh t cho em trong su t quá trình
ọ ậ ạ ườ h c t p t i tr ng.
ả ơ ạ ọ ớ ị ọ Xin chân thành c m n các anh, các ch và các b n h c viên l p Cao h c
ườ ạ ọ ạ ọ ệ ề CK14H Tr ng Đ i h c Công ngh Thông tin và Truy n thông – Đ i h c Thái
ộ ỡ ệ ẻ ớ ữ Nguyên đã luôn đ ng viên, giúp đ và nhi t tình chia s v i em nh ng kinh
ọ ậ ệ ố ọ nghi m h c t p, công tác trong su t khoá h c.
ệ ỏ ế ơ ắ ế ồ ườ ặ Đ c bi t em xin bày t lòng bi t n sâu s c đ n TS. H Văn Canh, ng i đã
ậ ỡ ỉ ậ t n tình giúp đ em hình thành và hoàn ch nh lu n văn.
ề ờ ự ạ ố ắ ề ẹ ề ặ ệ M c dù đã có nhi u c g ng, song do s h n h p v th i gian, đi u ki n
ữ ứ ế ế ậ ộ ỏ nghiên c u và trình đ , lu n văn không tránh kh i nh ng khi m khuy t. Em
ậ ượ ự ế ủ ầ chân thành mong nh n đ c s đóng góp ý ki n c a các Th y giáo, Cô giáo và
ệ ồ đ ng nghi p.
ộ ầ ữ ả ơ M t l n n a em xin c m n!
Thái Nguyên, tháng 05 năm 2016
ườ ự ệ ậ Ng i th c hi n lu n văn
ạ Lê M nh Đoan
Ề ƯƠ Ạ Ế Đ C Ậ NG CHI TI T LU N VĂN TH C SĨ
ộ ố ữ ậ ạ ả “Nh n d ng văn b n m t s ngôn ng La tinh” ề Tên đ tài: .
ướ ẫ ồ Giáo viên h ng d n: TS. H Văn Canh
ự ạ ọ ệ H c viên th c hi n: Lê M nh Đoan
ớ L p: CK14H
̀ ̀ ơ ở ạ ̣ ̣ ̣ C s đào t o: Tr ̀ ạ ươ ng Đai hoc Công nghê thông tin va Truyên thông/Đ i
ọ h c Thái Nguyên.
ọ Chuyên ngành: Khoa h c máy tính
ố Mã s chuyên ngành: 60 48 01
ề ặ ấ 1. Đ t v n đ
ế ự ọ ề ự ầ 1.1. S c n thi t l a ch n đ tài
ộ ế ụ ự
ư ạ ạ ề ứ ậ ữ ả ạ
ậ ẩ ứ ụ
ạ ả ướ ả ề ứ ề ấ
ế ự ư i cũng nh trong n ụ ề ế ớ ữ ự ề ầ
ề ề ể ầ ậ ạ ậ ạ ầ
ậ ễ ọ Nh n d ng là m t lý thuy t toán h c có nhi u ng d ng trong th c ti n, ạ ậ nh nh n d ng ti ng nói, nh n d ng hình nh, nh n d ng ch ký, phân lo i ữ ngôn ng , xây d ng tiêu chu n b n rõ ng d ng trong phân tích các b n mã c đã có nhi u nhà nghiên c u v n đ này v.v..Trên th gi ề ầ và đã có nh ng ph n m m áp d ng cho nhi u lĩnh v c khác nhau: ph n m m ế ệ nh n d ng ti ng vi t, ph n m m nh n d ng vân tay, ph n m m ki m soát E ệ ố mail trên h th ng Internet…
ộ Nh n d ng ch là bài toán r t h u ích, quen thu c đ
ấ ữ ự ậ ạ ữ ạ ậ ệ ự ế ặ đ c bi trong th c t t là trong lĩnh v c nh n d ng và phân lo i văn b n vì th ề ụ ượ ứ c ng d ng nhi u ế ả ạ
ậ ề ứ ằ
ố ờ ậ ươ ấ
ạ ậ ạ ề ệ ệ ự ứ
ả ụ ứ ạ ỷ ệ l
ể ơ ạ ư ậ
ẫ ứ ứ ế ụ ậ ạ ố ườ ử ụ ng pháp nh n d ng t
ế ế ị ự ờ i ta v n ti p t c nghiên c u nh ng ph ng đ n dùng cho các thi
ề ự ế ữ ạ
ể ơ ả ủ
ữ ượ ự ư ấ ủ c s t ứ ự ng nghiên c u thi
ẫ ạ ả .
ứ ế ậ ậ ả
ạ ạ ậ
ậ ố ượ ữ ể ọ i quy t bài toán ạ nhiên d a vào phân ho ch không gian (nh n d ng theo ứ c nghiên c u đó là
ạ ả quan tâm nghiên c u b ng các ph ng pháp nh n d ng đã thu hút nhi u tác gi ề ả khác nhau: logic m , gi i thu t di truy n, mô hình xác su t th ng kê, mô hình ấ m ng n ron. Đã có r t nhi u công trình nghiên c u th c hi n vi c nh n d ng, chính xác cao, tuy nhiên các ng d ng đó phân lo i văn b n La Tinh đã đ t t ầ ủ i s d ng v y nên ngày nay cũng ch a th đáp ng hoàn toàn nhu c u c a ng ơ ươ ữ ườ ng t h n ướ ộ h t b di đ ng, và các bài toán th i gian th c. Sau khi ư ậ ộ ủ ệ tìm hi u v s ti n b c a công ngh nh n d ng ch La Tinh cũng nh các tính ậ ề ạ ầ v n c a giáo viên năng c b n c a các ph n m m nh n d ng ch , đ ự ớ ề ế ộ ướ ượ ọ ướ t th c v i đ tài: c m t h h ng d n, tôi đã l a ch n đ ậ ữ ộ ố "Nh n d ng văn b n m t s ngôn ng La tinh" ổ ủ Trong khuôn kh c a lu n văn, tôi t p trung nghiên c u, gi ự ữ ự ộ ớ ế ư ế ữ nh n d ng ngôn ng t th ng kê toán h c), trong đó m t l p ngôn ng tiêu bi u đ ngôn ng La Tinh nh ti ng Anh, ti ng Pháp, v.v.
ứ ủ ề ụ 1.2. M c tiêu nghiên c u c a đ tài
ứ ự ươ ả ứ ậ ạ ớ Nghiên c u và xây d ng ch ng trình nh n d ng văn b n ng v i các ngôn
ữ ự ứ ư ế ế ế ế ng t nhiên nh : Ti ng Anh, Ti ng Pháp, Ti ng Đ c, Ti ng Tây Ban Nha.
ố ượ ứ ạ 2. Đ i t ng và ph m vi nghiên c u
ố ượ 2.1. Đ i t ng
ữ ự ố ượ ủ ề ứ Ngôn ng t nhiên là đ i t ng nghiên c u chính c a đ tài
ứ ạ 2.2. Ph m vi nghiên c u
ể ổ ề ậ ạ Tìm hi u t ng quan v nh n d ng;
ữ ư ủ ể ặ Tìm hi u các đ c tr ng c a ngôn ng La tinh.
ộ ố ỹ ữ ự ặ ậ ậ ạ Xây d ng, cài đ t m t s k thu t nh n d ng ngôn ng La tinh.
ứ ủ ề ướ 3.3. H ng nghiên c u c a đ tài
ữ ạ ứ ạ Nghiên c u quá trình Markov h u h n tr ng thái.
ữ ự ứ ự ứ ớ Nghiên c u và xây d ng mô hình Markov ng v i các ngôn ng t ư nhiên nh :
ứ ế ế ế ế Ti ng Anh, Ti ng Pháp, Ti ng Đ c, Ti ng Tây Ban Nha.
ủ ậ ấ 4. C u trúc c a lu n văn
ự ế ở ầ ậ ầ ồ ươ ậ D ki n lu n văn g m: Ph n m đ u, ba ch ế ng chính, k t lu n và
ệ ả ụ ể tài li u tham kh o c th :
ố ụ ủ ầ ậ ọ ề ở ầ : Nêu lý do ch n đ tài và b c c c a lu n văn Ph n m đ u
ươ Ổ Ậ Ạ Ề Ch ng 1: T NG QUAN V NH N D NG
ươ ề ướ ệ Ch ổ ng này trình bày t ng quan v các h ứ ng nghiên c u hi n nay
ạ ậ ề v nh n d ng.
ươ Ể Ỹ Ậ Ậ Ạ Ằ Ch
ươ ứ ụ ậ ố ỹ ng này trình bày các ng d ng k thu t th ng kê Toán h c đ Ch
ộ ố ữ ự ủ ể ặ Ố ng 2: TÌM HI U K THU T NH N D NG B NG TH NG ọ ể ữ ự ư nhiên và tìm hi u đ c tr ng c a m t s ngôn ng t
KÊ ậ ạ nh n d ng các ngôn ng t nhiên tiêu bi u.ể
ươ Ự Ệ Ch ng 3: TH C NGHI M
ộ ầ ậ ậ ạ ả
N i dung trong ph n này là trình bày thu t toán nh n d ng văn b n La ắ ộ ố ẫ ả ớ ướ ữ ư ế Tinh và đ a ra k t qu v i m t s m u ng n ngôn ng cho tr c .
ế ế ầ ậ ậ ướ ể ậ Ph n k t lu n: Nh n xét, k t lu n và h ng phát tri n
ươ ứ 5. Ph ng pháp nghiên c u
ậ ơ ả ứ ề ậ
ế ạ ệ
ế ậ ổ ứ ữ ệ ả ỹ ự ậ ạ ươ ng pháp c b n v nh n d ng ụ nhiên, trí tu nhân t o, kh o sát lý thuy t các mô hình, công c toán ữ ậ ch c d li u và ngôn ng l p t k và xây d ng thu t toán, k thu t t
ể ậ Tìm hi u và c p nh t các ki n th c và ph ữ ự ngôn ng t ế ế ọ h c, thi trình.
ữ ự ề ể ặ ư Tìm hi u và xây d ng các đ c tr ng ngôn ng mà đ tài quan tâm.
ọ
ế ậ ế ớ ướ ố c và trên th gi
ữ ư ọ
ỹ ộ ữ ự ừ ậ ả ậ ạ ỹ ứ ủ ề ọ Tìm đ c các bài báo, các công trình nghiên c u khoa h c liên quan đ n ch đ ụ ể ệ ứ i. C th là các tài li u k thu t th ng kê nghiên c u trong n ẫ ậ toán h c các quá trình Markov; các quy lu t ngôn ng nh là m t quá trình ng u ậ nhiên. Hình nhiên d ng, không h u qu ; các k thu t nh n d ng ngôn ng t
ượ ổ ố ầ ủ ề ứ c t ng quan t ế ng đ i đ y đ v tình hình nghiên c u liên quan đ n
ủ ề ệ ươ thành đ ế ớ ch đ hi n nay trên th gi i.
ộ ố ỹ ữ ặ ạ ậ
ậ ậ L p trình cài đ t m t s k thu t nh n d ng ngôn ng La Tinh và đánh giá ả ế k t qu .
ọ ủ ề 6. Ý Nghĩa khoa h c c a đ tài
ả ế ứ ượ ầ ậ ạ ể ủ ề K t qu nghiên c u, tìm hi u c a đ tài góp ph n nh n d ng đ
ạ ả ữ ự ở ộ ụ ệ lo i ngôn ng t
ươ ể ệ ặ ả ng trình ki m soát Email đ c bi ng trình phân tích b n mã t
t là ch ệ ề ở ươ ấ ả ậ ch ộ đ ng. V n đ
đây không ph i là công ngh mà là ph ứ ẽ ấ ữ ự ụ ự ễ ậ ả
ngôn ng t ệ ố ớ ệ ặ ầ ậ ạ ỏ c các ự ứ nhiên, có kh năng m r ng ng d ng trong vi c xây d ng ự ươ ạ ng pháp nh n d ng ặ nhiên vì v y kh năng ng d ng s r t cao trong th c ti n, đ c ừ t đ i v i ANQP ho c các xí nghi p v a và nh có nhu c u nh n d ng các bi
ữ ự ạ ự ễ ủ ề ậ ọ lo i ngôn ng t nhiên. Đó là ý nghĩa khoa h c và th c ti n c a đ tài lu n văn.
ế ạ ự ế ề 7. D ki n k ho ch đ tài
ơ ở ế ủ ạ ườ ọ ạ ệ Trên c s k ho ch c a Tr
ạ ọ ử ớ ề ự ế ế ọ Truy n Thông/Đ i h c Thái Nguyên g i t ng Đ i h c Công ngh Thông tin và ạ i các h c viên, em d ki n k ho ch
ư ủ ậ hoàn thành lu n văn c a mình nh sau:
ờ
Th i gian
2016
2017
T T
4 5
6
7
8
9 10 11
12
1
2
3
4
5
6
ệ
X
ệ Công vi c th c hi n ị ề
ề
ự 1 Chu n b đ tài, đăng ký đ tài
ẩ nghiên c uứ ẩ
ị ề ươ
ộ ng, n p và
X X
ệ ề ươ
2 Chu n b đ c ả b o v đ c ng ổ
ề
ể
ậ 3 Tìm hi u t ng quan v nh n
X X
ể
4
ề
X X
ủ
ể
5
ạ
X X
d ngạ ổ Hoàn thành tìm hi u t ng ạ ậ quan v nh n d ng ộ ầ ế Báo cáo ti n đ l n 1. ư ặ Tìm hi u đ c tr ng c a các ữ ự nhiên lo i ngôn ng t ộ ầ ế Báo cáo ti n đ l n 2.
6
ử
ệ
ặ
Hoàn thành cài đ t th nghi m
X X
ỉ
ế
7 Hoàn ch nh vi
t báo cáo toàn
X X
văn.
ộ
ậ N p lu n văn.
8
ả
ỉ Hoàn ch nh báo cáo, làm slide ệ ậ B o v lu n văn
X
ử
ỉ
ộ 9 Ch nh s a, hoàn ch nh n p
X
ỉ quy nể
ệ ả 8. Tài li u tham kh o
ễ ế ế ậ ồ [1]. Nguy n Vi t Th , H Văn Canh ( 2010), Nh p môn Phân tích thông tin có
ề ậ ả b o m t, NXB Thông tin và Truy n thông.
ồ ố ậ ậ ạ Thu t toán nh n d ng các ngôn [2]. H Văn Canh, Ph m Qu c Doanh (2002), ạ
ữ ự ng t nhiên , tr. 320.
ươ ễ ạ ỷ ử ả ậ Nh p môn x lý nh s [3]. L ng M nh Bá, Nguy n Thanh Thu (1999), ố, Nhà
ấ ả ậ ọ ỹ xu t b n khoa h c và k thu t, tr.154170.
ườ ư ễ ầ ọ ậ ạ ự ộ Nh n d ng t đ ng ngôn [4]. Tr n Duy H ng, Nguy n Ng c C ng (2002),
ữ ế ề ạ ọ ọ ng ti ng Anh ọ ể , T p chí "Tin h c và đi u khi n h c", Trung tâm Khoa h c
ự ố ố t ệ nhiên và Công ngh Qu c gia s 3/2002.
ộ ố ấ ự ề [5]. Hoàng Minh Tu n, ấ M t s v n đ trong xây d ng siêu máy tính chi phí thay
ọ ỹ ứ ụ ử cho các ng d ng x lý thông tin và tính toán khoa h c k thu t ậ ậ , Lu n văn
ế ậ ỹ ố Ti n sĩ k thu t, Mã s 62.52.70.01. tr. 3555.
[6]. AndrewR.Web.2002. John Wiley & Sons, Ltd. Statistical Pattern
Recognition, Second Edition.
[7]. Richard O Duda, Peter E Hart, David G Stork . Wileyinterscience. “Bayesian
decision theory”, Pattern Classification, Second Edition: 3978.
[8]. Wilks, S. S. 1962. Mathematical Statitics. New York: John Wiley. Mark
Stam, Richar M.Low ( 2007 ): Applied Cryptanalysis Breaking ciphers in the
Real World. A John wiley & sons, Inc, publication 2007.
ứ ướ ọ ẫ ậ ủ Ch ng nh n c a giáo viên h ng d n H c viên
ạ ồ H Văn Canh Lê M nh Đoan