Ạ Ọ Đ I H C THÁI NGUYÊN

ƯỜ Ạ Ọ Ệ Ề TR NG Đ I H C CÔNG NGH  THÔNG TIN VÀ TRUY N THÔNG

Ề ƯƠ Ạ Ế Đ  C Ậ NG CHI TI T LU N VĂN TH C SĨ

Ữ Ậ Ạ Ả

Ề TÊN Đ  TÀI Ộ Ố NH N D NG VĂN B N M T S  NGÔN NG  LA TINH

ướ Giáo viên h ng d n ồ ẫ : TS. H  Văn Canh

ự ọ ệ H c viên th c hi n ạ : Lê M nh Đoan

L pớ : CK14H

Thái Nguyên, tháng 5 năm 2016

Ờ Ả Ơ L I C M  N

ướ ế ầ Tr ả ơ c h t cho phép em chân thành c m  n các Th y giáo, Cô giáo trong

ệ ạ ạ ọ   ộ khoa Công ngh  thông tin và các cán b , nhân viên phòng Đào t o Sau đ i h c,

ườ ạ ọ ạ ọ ệ ề Tr ng Đ i h c Công ngh  Thông tin và Truy n thông ­  Đ i h c Thái Nguyên

ệ ệ ố ề ạ ỡ ấ ố đã luôn nhi t tình giúp đ  và t o đi u ki n t t nh t cho em trong su t quá trình

ọ ậ ạ ườ h c t p t i tr ng.

ả ơ ạ ọ ớ ị ọ   Xin chân thành c m  n các anh, các ch  và các b n h c viên l p Cao h c

ườ ạ ọ ạ ọ ệ ề CK14H ­ Tr ng Đ i h c Công ngh  Thông tin và Truy n thông – Đ i h c Thái

ộ ỡ ệ ẻ ớ ữ Nguyên đã luôn đ ng viên, giúp đ  và nhi t tình chia s  v i em nh ng kinh

ọ ậ ệ ố ọ nghi m h c t p, công tác trong su t khoá h c.

ệ ỏ ế ơ ắ ế ồ ườ ặ Đ c bi t em xin bày t lòng bi t  n sâu s c đ n TS. H  Văn Canh, ng i đã

ậ ỡ ỉ ậ t n tình giúp đ  em hình thành và hoàn ch nh lu n văn.

ề ờ ự ạ ố ắ ề ẹ ề ặ ệ   M c dù đã có nhi u c  g ng, song do s  h n h p v  th i gian, đi u ki n

ữ ứ ế ế ậ ộ ỏ nghiên c u và trình đ , lu n văn không tránh kh i nh ng khi m khuy t. Em

ậ ượ ự ế ủ ầ chân thành mong nh n đ c s  đóng góp ý ki n c a các Th y giáo, Cô giáo và

ệ ồ đ ng nghi p.

ộ ầ ữ ả ơ M t l n n a em xin c m  n!

Thái Nguyên, tháng 05 năm 2016

ườ ự ệ ậ Ng i th c hi n lu n văn

ạ Lê M nh Đoan

Ề ƯƠ Ạ Ế Đ  C Ậ NG CHI TI T LU N VĂN TH C SĨ

ộ ố ữ ậ ạ ả “Nh n d ng văn b n m t s  ngôn ng  La tinh” ề Tên đ  tài: .

ướ ẫ ồ Giáo viên h ng d n: TS. H  Văn Canh

ự ạ ọ ệ H c viên th c hi n: Lê M nh Đoan

ớ L p: CK14H

̀ ̀ ơ ở ạ ̣ ̣ ̣ C  s  đào t o: Tr ̀ ạ   ươ ng Đai hoc Công nghê thông tin va Truyên thông/Đ i

ọ h c Thái Nguyên.

ọ Chuyên ngành: Khoa h c máy tính

ố Mã s  chuyên ngành: 60 48 01

ề ặ ấ 1. Đ t v n đ

ế ự ọ ề ự ầ 1.1. S  c n thi t l a ch n đ  tài

ộ ế ụ ự

ư ạ ạ ề ứ ậ ữ ả ạ

ậ ẩ ứ ụ

ạ ả ướ ả ề ứ ề ấ

ế ự ư i cũng nh  trong n ụ ề ế ớ ữ ự ề ầ

ề ề ể ầ ậ ạ ậ ạ ầ

ậ ễ   ọ Nh n d ng là m t lý thuy t toán h c có nhi u  ng d ng trong th c ti n, ạ   ậ nh  nh n d ng ti ng nói, nh n d ng hình  nh, nh n d ng ch  ký, phân lo i ữ   ngôn ng  , xây d ng tiêu chu n b n rõ  ng d ng trong phân tích các b n mã c đã có nhi u nhà nghiên c u v n đ  này v.v..Trên th  gi   ề   ầ và đã có nh ng ph n m m áp d ng cho nhi u lĩnh v c khác nhau: ph n m m ế ệ nh n d ng ti ng vi t, ph n m m nh n d ng vân tay, ph n m m ki m soát E­ ệ ố mail trên h  th ng Internet…

ộ Nh n d ng ch  là bài toán r t h u ích, quen thu c đ

ấ ữ ự ậ ạ ữ ạ ậ ệ ự ế ặ  đ c bi trong th c t t là trong lĩnh v c nh n d ng và phân lo i văn b n vì th ề   ụ ượ ứ c  ng d ng nhi u ế  ả ạ

ậ ề ứ ằ

ố ờ ậ ươ ấ

ạ ậ ạ ề ệ ệ ự ứ

ả ụ ứ ạ ỷ ệ l

ể ơ ạ ư ậ

ẫ ứ ứ ế ụ ậ ạ ố ườ ử ụ ng     pháp  nh n  d ng  t

ế ế ị ự ờ i   ta  v n  ti p  t c  nghiên  c u  nh ng  ph ng đ n dùng cho các thi

ề ự ế ữ ạ

ể ơ ả ủ

ữ ượ ự ư ấ ủ c s  t ứ ự ng nghiên c u thi

ẫ ạ ả .

ứ ế ậ ậ ả

ạ ạ ậ

ậ ố ượ ữ ể ọ i quy t bài toán ạ  nhiên d a vào phân ho ch không gian (nh n d ng theo ứ c nghiên c u đó là

ạ   ả  quan tâm nghiên c u b ng các ph ng  pháp nh n d ng đã thu hút nhi u tác gi ề ả   khác nhau: logic m , gi i thu t di truy n, mô hình xác su t th ng kê, mô hình ấ   m ng n  ron. Đã có r t nhi u công trình nghiên c u th c hi n vi c nh n d ng,    chính xác cao, tuy nhiên các  ng d ng đó phân lo i văn b n La Tinh đã đ t t ầ ủ   i s  d ng v y nên ngày nay cũng ch a th  đáp  ng hoàn toàn nhu c u c a ng ơ   ươ ữ ườ ng t  h n ướ ộ   h t b  di đ ng, và các bài toán th i gian th c. Sau khi ư ậ ộ ủ ệ   tìm hi u v  s  ti n b  c a công ngh  nh n d ng ch  La Tinh cũng nh  các tính ậ ề ạ ầ    v n c a giáo viên năng c  b n c a các ph n m m nh n d ng ch , đ ự ớ ề ế ộ ướ ượ ọ ướ   t th c v i đ  tài: c m t h h ng d n, tôi đã l a ch n đ ậ ữ ộ ố "Nh n d ng văn b n m t s  ngôn ng  La tinh" ổ ủ Trong khuôn kh  c a lu n văn, tôi t p trung nghiên c u, gi ự ữ ự ộ ớ ế ư ế ữ nh n d ng ngôn ng  t th ng kê toán h c), trong đó m t l p ngôn ng  tiêu bi u đ ngôn ng  La Tinh nh  ti ng Anh, ti ng Pháp, v.v.

ứ ủ ề ụ 1.2. M c tiêu nghiên c u c a đ  tài

ứ ự ươ ả ứ ậ ạ ớ ­ Nghiên c u và xây d ng ch ng trình nh n d ng văn b n  ng v i các ngôn

ữ ự ứ ư ế ế ế ế ng  t nhiên nh  : Ti ng Anh, Ti ng Pháp, Ti ng Đ c, Ti ng Tây Ban Nha.

ố ượ ứ ạ 2. Đ i t ng và ph m vi nghiên c u

ố ượ 2.1. Đ i t ng

ữ ự ố ượ ủ ề ứ ­ Ngôn ng  t nhiên là đ i t ng nghiên c u chính c a đ  tài

ứ ạ 2.2. Ph m vi nghiên c u

ể ổ ề ậ ạ ­ Tìm hi u t ng quan v  nh n d ng;

ữ ư ủ ể ặ ­ Tìm hi u các đ c tr ng c a ngôn ng  La tinh.

ộ ố ỹ ữ ự ặ ậ ậ ạ ­ Xây d ng, cài đ t m t s  k  thu t nh n d ng ngôn ng  La tinh.

ứ ủ ề ướ 3.3. H ng nghiên c u c a đ  tài

ữ ạ ứ ạ ­ Nghiên c u quá trình Markov h u h n tr ng thái.

ữ ự ứ ự ứ ớ ­ Nghiên c u và xây d ng mô hình Markov  ng v i các ngôn ng  t ư    nhiên nh  :

ứ ế ế ế ế Ti ng Anh, Ti ng Pháp, Ti ng Đ c, Ti ng Tây Ban Nha.

ủ ậ ấ 4. C u trúc c a lu n văn

ự ế ở ầ ậ ầ ồ ươ ậ D  ki n lu n văn g m: Ph n m  đ u, ba ch ế ng chính, k t lu n và

ệ ả ụ ể tài li u tham kh o c  th :

ố ụ ủ ầ ậ ọ ề ở ầ : Nêu lý do ch n đ  tài và b  c c c a lu n văn Ph n m  đ u

ươ Ổ Ậ Ạ Ề Ch ng 1: T NG QUAN V  NH N D NG

ươ ề ướ ệ Ch ổ ng này trình bày t ng quan v  các h ứ ng nghiên c u hi n nay

ạ ậ ề v  nh n d ng.

ươ Ể Ỹ Ậ Ậ Ạ Ằ Ch

ươ ứ ụ ậ ố ỹ ng này trình bày các  ng d ng k  thu t th ng kê Toán h c đ Ch

ộ ố ữ ự ủ ể ặ Ố   ng 2:   TÌM HI U K  THU T NH N D NG B NG TH NG ọ ể  ữ ự ư  nhiên và tìm hi u đ c tr ng c a m t s  ngôn ng  t

KÊ  ậ ạ nh n d ng các ngôn ng  t nhiên tiêu bi u.ể

ươ Ự Ệ Ch ng 3: TH C NGHI M

ộ ầ ậ ậ ạ ả

N i dung trong ph n này là trình bày thu t toán nh n d ng văn b n La ắ ộ ố ẫ ả ớ ướ ữ ư ế Tinh và đ a ra k t qu  v i m t s  m u ng n ngôn ng  cho tr c .

ế ế ầ ậ ậ ướ ể ậ Ph n k t lu n: Nh n xét, k t lu n và h ng phát tri n

ươ ứ 5. Ph ng pháp nghiên c u

ậ ơ ả ứ ề ậ

ế ạ ệ

ế ậ ổ ứ ữ ệ ả ỹ ự ậ ạ   ươ ng pháp c  b n v  nh n d ng ụ    nhiên, trí tu  nhân t o, kh o sát lý thuy t các mô hình, công c  toán ữ ậ    ch c d  li u và ngôn ng  l p t k  và xây d ng thu t toán, k  thu t t

ể ậ ­ Tìm hi u và c p nh t các ki n th c và ph ữ ự ngôn ng  t ế ế ọ h c, thi trình.

ữ ự ề ể ặ ư ­ Tìm hi u và xây d ng các đ c tr ng ngôn ng  mà đ  tài quan tâm.

ế ậ ế ớ ướ ố c và trên th  gi

ữ ư ọ

ỹ ộ ữ ự ừ ậ ả ậ ạ ỹ ứ ủ ề  ọ ­  Tìm đ c các bài báo, các công trình nghiên c u khoa h c liên quan đ n ch  đ ụ ể ệ ứ i. C  th  là các tài li u k  thu t th ng kê nghiên c u trong n   ẫ   ậ toán h c các quá trình Markov; các quy lu t ngôn ng  nh  là m t quá trình ng u ậ    nhiên. Hình nhiên d ng, không h u qu ; các k  thu t nh n d ng ngôn ng  t

ượ ổ ố ầ ủ ề ứ c t ng quan t ế   ng đ i đ y đ  v  tình hình nghiên c u liên quan đ n

ủ ề ệ ươ thành đ ế ớ ch  đ  hi n nay trên th  gi i.

ộ ố ỹ ữ ặ ạ ậ

ậ ậ ­  L p trình cài đ t m t s  k  thu t nh n d ng ngôn ng  La Tinh và đánh giá ả ế k t qu .

ọ ủ ề 6. Ý Nghĩa khoa h c c a đ  tài

ả ế ứ ượ ầ ậ ạ ể ủ ề ­ K t qu  nghiên c u, tìm hi u c a đ  tài góp ph n nh n d ng đ

ạ ả ữ ự ở ộ ụ ệ lo i ngôn ng  t

ươ ể ệ ặ ả ng trình ki m soát E­mail đ c bi ng trình phân tích b n mã t

t là ch ệ ề ở ươ ấ ả ậ ch ộ đ ng. V n đ

đây không ph i là công ngh  mà là ph ứ ẽ ấ ữ ự ụ ự ễ ậ ả

ngôn ng  t ệ ố ớ ệ ặ ầ ậ ạ ỏ c các ự   ứ  nhiên, có kh  năng m  r ng  ng d ng trong vi c xây d ng ự  ươ ạ   ng pháp nh n d ng ặ    nhiên vì v y kh  năng  ng d ng s  r t cao trong th c ti n, đ c ừ   t đ i v i ANQP ho c các xí nghi p v a và nh  có nhu c u nh n d ng các bi

ữ ự ạ ự ễ ủ ề ậ ọ lo i ngôn ng  t nhiên. Đó là ý nghĩa khoa h c và th c ti n c a đ  tài lu n văn.

ế ạ ự ế ề 7. D  ki n k  ho ch đ  tài

ơ ở ế ủ ạ ườ ọ ạ ệ Trên   c   s   k   ho ch   c a   Tr

ạ ọ ử ớ ề ự ế ế ọ Truy n Thông/Đ i h c Thái Nguyên g i t ng   Đ i   h c   Công   ngh   Thông   tin   và   ạ   i các h c viên, em d  ki n k  ho ch

ư ủ ậ hoàn thành lu n văn c a mình nh  sau:

Th i gian

2016

2017

T T

4 5

6

7

8

9 10 11

12

1

2

3

4

5

6

X

ệ Công vi c th c hi n ị ề

ự   1 Chu n b  đ  tài, đăng ký đ  tài

ẩ nghiên c uứ ẩ

ị ề ươ

ộ ng,   n p   và

X X

ệ ề ươ

2 Chu n   b   đ   c ả b o v  đ  c ng ổ

ậ   3 Tìm   hi u   t ng   quan   v   nh n

X X

4

X X

5

X X

d ngạ ổ   ­   Hoàn   thành   tìm   hi u   t ng ạ ậ quan v  nh n d ng ộ ầ ế ­ Báo cáo ti n đ  l n 1. ư ặ ­ Tìm hi u đ c tr ng c a các ữ ự  nhiên  lo i ngôn ng  t ộ ầ ế ­ Báo cáo ti n đ  l n 2.

6

Hoàn thành cài đ t th  nghi m

X X

ế

7 ­ Hoàn ch nh vi

t báo cáo toàn

X X

văn.

ậ ­ N p lu n văn.

8

ỉ ­ Hoàn ch nh báo cáo, làm slide ệ ậ ­ B o v  lu n văn

X

ộ   9 Ch nh   s a,   hoàn   ch nh   n p

X

ỉ quy nể

ệ ả 8. Tài li u tham kh o

ễ ế ế ậ ồ [1]. Nguy n Vi t Th , H  Văn Canh ( 2010), Nh p môn Phân tích thông tin có

ề ậ ả b o m t, NXB Thông tin và Truy n thông.

ồ ố ậ ậ ạ Thu t toán nh n d ng các ngôn [2]. H  Văn Canh, Ph m Qu c Doanh (2002),  ạ

ữ ự ng  t nhiên , tr. 3­20.

ươ ễ ạ ỷ ử ả ậ Nh p môn x  lý  nh s [3]. L ng M nh Bá, Nguy n Thanh Thu  (1999), ố, Nhà

ấ ả ậ ọ ỹ xu t b n khoa h c và k  thu t, tr.154­170.

ườ ư ễ ầ ọ ậ ạ ự ộ Nh n d ng t đ ng ngôn [4]. Tr n Duy H ng, Nguy n Ng c C ng (2002),

ữ ế ề ạ ọ ọ ng  ti ng Anh ọ   ể , T p chí "Tin h c và đi u khi n h c", Trung tâm Khoa h c

ự ố ố t ệ  nhiên và Công ngh  Qu c gia s  3/2002.

ộ ố ấ ự ề [5]. Hoàng Minh Tu n, ấ M t s  v n đ  trong xây d ng siêu máy tính chi phí thay

ọ ỹ ứ ụ ử cho các  ng d ng x  lý thông tin và tính toán khoa h c k  thu t ậ ậ , Lu n văn

ế ậ ỹ ố Ti n sĩ k  thu t, Mã s  62.52.70.01. tr. 35­55.

[6]. AndrewR.Web.2002.   John   Wiley   &   Sons,   Ltd. Statistical   Pattern

Recognition, Second Edition.

[7]. Richard O Duda, Peter E Hart, David G Stork . Wiley­interscience. “Bayesian

decision theory”, Pattern Classification, Second Edition: 39­78.

[8]. Wilks,   S.   S.   1962.  Mathematical   Statitics.   New   York:   John   Wiley.   Mark

Stam, Richar M.Low ( 2007 ): Applied Cryptanalysis Breaking ciphers in the

Real World. A John wiley & sons, Inc, publication 2007.

ứ ướ ọ ẫ ậ ủ Ch ng nh n c a giáo viên h ng d n                               H c viên

ạ ồ H  Văn Canh                                                   Lê M nh Đoan