intTypePromotion=1
zunia.vn Tuyển sinh 2024 dành cho Gen-Z zunia.vn zunia.vn
ADSENSE

Luận văn:Nghiên cứu các phương pháp thám mã một số luật mã thuộc hệ mật mã cổ điển trên bản tiếng Việt

Chia sẻ: Nhung Thi | Ngày: | Loại File: PDF | Số trang:26

103
lượt xem
9
download
 
  Download Vui lòng tải xuống để xem tài liệu đầy đủ

hám mã là quá trình khôi phục lại bản rõ hoặc khóa khi chỉ có bản mã tương ứng cho trước (không biết khóa và quy tắc mã/dịch) gọi là thám mã. II. MỤC TIÊU CỦA THÁM MÃ Mục tiêu của thám mã ( phá mã) là tìm những điểm yếu hoặc không an toàn tong phương pháp mật mã hóa.Thám mã có thể được thực hiện bởi những kẻ tấn công ác ý, nhằm làm hỏng hệ thống; hoặc bởi những người thiết kế ra hệ thống với ý định đánh giá độ an toàn của hệ thống. ...

Chủ đề:
Lưu

Nội dung Text: Luận văn:Nghiên cứu các phương pháp thám mã một số luật mã thuộc hệ mật mã cổ điển trên bản tiếng Việt

  1. 1 B GIÁO D C VÀ ĐÀO T O Đ I H C ĐÀ N NG DƯƠNG ĐÌNH THI N NGHIÊN C U CÁC K THU T XÂY D NG B TÌM KI M (SEARCH ENGINE) Chuyên ngành: KHOA H C MÁY TÍNH Mã ngành: 60.48.01 TÓM T T LU N VĂN TH C SĨ K THU T Đà N ng - Năm 2012
  2. 2 Chương trình ñư c hoàn thành t i Đ I H C ĐÀ N NG Ngư i hư ng d n khoa h c: TS. Nguy n T n Khôi Ph n bi n 1: TS. Nguy n Thanh Bình Ph n bi n 2: PGS.TS. Lê M nh Th nh Lu n văn ñư c b o v trư c H i ñ ng ch m Lu n văn t t nghi p th c sĩ K thu t h p t i Đ i h c Đà N ng vào ngày 03 tháng 03 năm 2012 Có th tìm hi u lu n văn t i: - Trung tâm Thông tin - H c li u, Đ i h c Đà N ng - Trung tâm H c li u, Đ i h c Đà N ng
  3. 3 M Đ U 1. Lý do ch n ñ tài Trên môi trư ng Internet ngày nay, s lư ng thông tin t các Web Site là vô cùng l n và v n ñang còn gia tăng nhanh chóng theo t ng ngày. V i hi n tr ng ñó, tìm ki m thông tin là m t nhu c u không th thi u cho nh ng ngư i s d ng Internet. Ngày nay, lo i thông tin mà ngư i s d ng mu n tìm ki m cũng ñã tr nên phong phú, nó không còn ñơn thu n là tìm ki m n i dung văn b n trên m t trang Web trên Internet, thay vào ñó còn nhi u lo i khác như: hình nh, t p tin âm thanh, t p tin video, tài li u dư i d ng nh ng t p tin ñư c so n th o b ng các trình so n th o. Th nhưng, vi c phát tri n m t công c tìm ki m là m t vi c làm không ñơn gi n. M t công c tìm ki m ph i th a mãn hai tiêu chí: chính xác và nhanh chóng. Đây là m t “thách th c” ñ i v i t t c các nhà phát tri n khi mu n phát tri n m t h th ng tìm ki m ngày nay. B i vì, lư ng thông tin trên Internet là vô cùng l n, không có m t máy ch nào có th ch a toàn b t t c thông tin ñó trong nó, nên các nhà phát tri n ph i chia lư ng thông tin này thành nhi u ph n ñ lưu tr t i các máy ch ñ t nh ng nơi khác nhau. Ngoài ra, cũng do lư ng thông tin l n như v y, nên vi c tìm ki m trên ñó cũng ñòi h i th i gian r t l n n u như chúng không ñư c s p x p m t cách h p lý. Đ ñáp ng ñư c hai tiêu chí ñó, chúng ta c n ph i có ñư c nh ng ki n th c liên quan như: thu t toán, c u trúc d li u, t ch c cơ s
  4. 4 d li u, h phân tán… Có th nh ng chương trình ñư c xây d ng do nh ng ñ tài như th này không có ý nghĩa gì khi so sánh v i các công c tìm ki m hi n nay như: Google hay Yahoo, nhưng ñ i v i b n thân ngư i nghiên c u thì giá tr h c h i và ki n th c là r t to l n. Do ñó, tôi ñã quy t ñ nh ch n ñ tài “Nghiên C u Các K Thu t Xây D ng B Tìm Ki m”. 2. M c ñích nghiên c u M c tiêu chính c a ñ tài là nghiên c u các k thu t chính ñ xây d ng m t máy tìm ki m thông tin trên môi trư ng Internet. T ñó hi u ñư c b n ch t ho t ñ ng c a các máy tìm ki m hi n nay như: Google, Yahoo, MSN và d a trên cơ s lý thuy t ñ xây d ng m t máy tìm ki m hoàn ch nh v i ñ y ñ các thành ph n g m: thu th p d li u trên internet, l p ch m c cho d li u thu th p ñư c, phân tích truy v n t ngư i s d ng và tr v k t qu t i ưu nh t. 3. Đ i tư ng và ph m vi nghiên c u Đ có th xây d ng ñư c máy tìm ki m hoàn ch nh thì ñ i tư ng nghiên c u c a ñ tài bao g m: Nguyên lý ho t ñ ng c a m t máy tìm ki m trên môi trư ng internet, b thu th p d li u, k thu t l p ch m c, phương pháp phân tích câu truy v n. 4. Phương pháp nghiên c u Đ tài ñư c th c hi n d a trên nhi u phương pháp khác nhau: Nghiên c u lý thuy t thông qua các tài li u như: sách, bài báo, các
  5. 5 báo cáo khoa h c. Đ ng th i, th nghi m m t s công c tìm ki m mã ngu n m ñ tìm hi n cách th c phát tri n, cài ñ t và c u hình m t máy tìm ki m. 5. Ý nghĩa khoa h c và th c ti n c a ñ tài Ý nghĩa khoa h c, lu n văn cung c p ñ y ñ và chi ti t b lý thuy t và phương pháp thi t k c a t p h p các k thu t s d ng ñ xây d ng m t b tìm ki m. Trong ph n ng d ng c a ñ tài, tác gi ñã xây d ng m t chương trình “Local Search Engine” v i ch c năng tìm ki m thông tin trên t ng Web Site m t, và có th ñư c g n vào trên chính Web Site ñó ñ s d ng như là m t ch c năng tìm ki m thông tin. B i vì, ñ i v i nh ng Web Site có kh i lư ng thông tin l n, ch c năng tìm ki m cũng là m t ch c năng không th thi u ñ h tr ngư i s d ng nhi u hơn trong quá trình vi ng thăm c a h . Và h u như ñ i ña s các Web Site này, ch c năng tìm ki m là tương ñ i gi ng nhau, t t c ñ u là tìm ki m n i dung trên chính Web Site. Th nhưng công vi c xây d ng ch c năng này luôn ñư c l p ñi l p l i trong m i l n phát tri n m t Web Site m i. Do ñó, “Local Search Engine” có th là c n thi t ñ i v i nh ng nhà phát tri n Web khi mu n Web Site c a mình h tr ch c năng tìm ki m thông tin. 6. C u trúc c a lu n văn CHƯƠNG 1. T NG QUAN V MÁY TÌM KI M Trong chương 1, gi i thi u l ch s phát tri n c a máy tìm ki m b t ñ u t th i kỳ sơ khai c a Internet cho ñ n bây gi , t p
  6. 6 trung tìm hi u v khái ni m và các thành ph n c u t o nên máy tìm ki m. Đ ng th i cũng gi i thi u v các máy tìm ki m ñang phát tri n m nh hi n nay. CHƯƠNG 2. CÁC K THU T XÂY D NG MÁY TÌM KI M Trong chương 2, lu n văn t p trung làm rõ các k thu t nh m xây d ng m t máy tìm ki m bao g m: Crawler, k thu t ñánh ch m c, và k thu t x lý truy v n. Đây là ba k thu t cơ b n nh t c n ph i có khi xây d ng m t máy tìm ki m. CHƯƠNG 3. XÂY D NG LOCAL SEARCH ENGINE D A VÀO CÁC K THU T ĐÃ NGHIÊN C U. Trong chương 3, ng d ng các k thu t xây d ng b tìm ki m ñ xây d ng m t ng d ng cung c p d ch v tìm ki m. Thông qua d ch v này, các Web Site m i ñư c xây d ng có th s d ng d ch v ñ tìm ki m thông tin ngay trên chính Web Site c a mình. CHƯƠNG 1. T NG QUAN V MÁY TÌM KI M Máy tìm ki m là m t trong nh ng công c ñư c ng d ng r ng rãi trong t t c các lĩnh v c, nh t là ñ i v i tìm ki m thông tin trên Internet. Nh có nó mà con ngư i có th gi i quy t ñư c các v n ñ v khan hi m thông tin hay thông tin không ñ y ñ . Ngày nay, ñã có r t nhi u ng d ng và công c tr giúp con ngư i trong vi c tìm ki m thông tin trên Internet như Google hay Yahoo, nên cũng ñã góp ph n giúp gi i quy t ñư c v n ñ tìm ki m thông tin trên Internet
  7. 7 cho ngư i s d ng. Trong chương m t này, lu n văn t p trung vào gi i thi u l ch s phát tri n c a máy tìm ki m b t ñ u t th i kỳ sơ khai c a Internet cho ñ n bây gi , t p trung tìm hi u v khái ni m và các thành ph n c u t o nên máy tìm ki m. Đ ng th i cũng gi i thi u v các máy tìm ki m ñang phát tri n m nh hi n nay. 1.1 T NG QUAN V MÁY TÌM KI M 1.1.1 L ch s phát tri n Trong th i kỳ còn sơ khai c a m ng máy tính, Internet không như nh ng gì chúng ta nghĩ khi ñang s d ng như hi n nay. Đ tìm ñư c m t t p tin c th trong t p h p ñó, ngư i dùng ph i duy t qua t ng t p tin và xem t p tin nào phù h p v i yêu c u. Vào năm 1990, Alan Emtage thu c Đ i H c McGill Montreal – Canada ñã t o ra công c tìm ki m trên môi trư ng Internet ñ u tiên trong l ch s . Công c mà Alan t o ra ch là m t b ch m c c a các t p tin trên Internet, và ñư c g i là Archie. Hi n nay, máy tìm ki m là m t chương trình r t ph c t p, r t nhi u trong s các máy tìm ki m cho phép ta tìm ki m t t c các ñ nh d ng t p tin và tài li u ch b ng nh ng t khóa mà con ngư i v n dùng h ng ngày trong giao ti p. 1.1.2 Gi i thi u v máy tìm ki m Ta có th chia m t máy tìm ki m ra làm hai ph n: Back End và Front End.
  8. 8 Back End c a máy tìm ki m là m t ph n m m s d ng nh ng thu t toán ph c t p ñ ti n hành t ng h p thông tin v nh ng trang Web có trên Internet. Nh ng thông tin ñư c t ng h p thông thư ng là nh ng t khóa, m t nhóm t ñ i di n cho toàn b n i dung bên trong m t trang Web, m t liên k t ñ n m t trang khác… Nh ng thông tin này ñ u ñư c ñánh ch m c và lưu tr trong cơ s d li u c a máy tìm ki m t i Back End. Front End c a máy tìm ki m là ph n m m ñư c trang b m t giao di n ngư i dùng ñ y ñ các thành ph n, nh m h tr cho ngư i s d ng có th nh p vào thông tin mình mu n tìm. Khi ngư i dùng nh n vào nút tìm ki m, s có m t thu t toán ti n hành phân tích thông tin lưu tr trong cơ s d li u Back End và l y v nh ng liên k t ñ n nh ng trang Web phù h p v i nh ng gì mà ngư i s d ng ñã nh p vào. Quá trình thu th p thông tin v các trang Web ñư c th c hi n b ng m t chương trình g i là Crawler, Spider ho c là Robot. Crawler là m t chương trình ñư c s d ng ñ ñi ñ n t t c nh ng trang Web và r i thu th p nh ng t khóa và nh ng nhóm t trong m i trang ñó r i ñưa vào cơ s d li u c a mình. Có kho ng hơn 100 tri u trang Web hi n nay và ñang tăng d n v i 1.5 tri u trang m i tháng. 1.1.3 Ki n trúc t ng quan c a máy tìm ki m
  9. 9 Có r t nhi u thành ph n ñ c u t o nên m t máy tìm ki m hoàn ch nh. Hình 1.1 là mô hình ki n trúc t ng quan c a m t máy tìm ki m. Hình 1.1: C u trúc t ng quan c a máy tìm ki m Crawler: là m t chương trình di chuy n t trang này ñ n trang khác trên h th ng Internet và thu th p thông tin c a nh ng trang ñó. Crawler thư ng b t ñ u phân tích nh ng trang ñư c ngư i qu n lý h th ng tìm ki m cho trư c. Ki m tra trùng l p URL: là m t bư c x lý trong h th ng tìm ki m, nh m ñ m b o Crawler không b x lý hai tài li u gi ng nhau trong quá trình duy t. Cơ s d li u: dùng ñ ch a n i dung các tài li u trên Internet. H cơ s d li u ph i h tr kh năng phân tán vì kh i
  10. 10 lư ng d li u lưu trong nó s là r t l n và có th phân chia v m t n i dung r t nhi u. L p ch m c: là m t quá trình x lý trong h th ng tìm ki m, nh m t o ra b ch m c ñ h tr quá trình tìm ki m cho t t c các tài li u ñư c lưu trong cơ s d li u. Ch m c: là cơ s d li u dùng ñ ch a b ng ch m c c a h th ng tìm ki m. X lý tìm ki m: là m t module quan tr ng trong h th ng tìm ki m. X lý tìm ki m ti p nh n và x lý câu truy v n c a ngư i dùng, sau ñó ti n hành tìm ki m trong cơ s d li u thông qua b ng ch m c. 1.1.4 Phân lo i máy tìm ki m Không có máy tìm ki m nào ñư c t o ra v i ch c năng gi ng hoàn toàn v i m t cái khác. Do ñó, có nhi u lo i máy tìm ki m khác nhau. Và máy tìm ki m ñư c chia thành 3 lo i chính: Primary Search Engine, Secondary Search Engine, và Targeted Search Engine. 1.2 M TS H TH NG TÌM KI M HI N NAY 1.2.1 Google Search 1.2.2 Yahoo Search 1.2.3 MSN Search
  11. 11 CHƯƠNG 2. CÁC K THU T XÂY D NG MÁY TÌM KI M Có r t nhi u k thu t ñư c áp d ng ñ xây d ng m t máy tìm ki m thông tin. M i k thu t ñ u có m t vai trò riêng không th thi u và nó quy t ñ nh ch c năng và m c ñích sinh ra c a máy tìm ki m. Trong chương hai, lu n văn t p trung làm rõ các k thu t nh m xây d ng m t máy tìm ki m bao g m: Crawler, k thu t ñánh ch m c, và k thu t x lý truy v n. Đây là ba k thu t cơ b n nh t c n ph i có khi xây d ng m t máy tìm ki m. 2.1 CRAWLER Crawler là m t trong nh ng thành ph n quan tr ng c a m t h th ng máy tìm ki m, thành ph n quy t ñ nh t o nên cơ s d li u và phân lo i d li u cho m t máy tìm ki m. Crawler cũng có m t s tên g i khác như Robot, Spider. 2.1.1 Gi i thi u v Crawler Nguyên lý ho t ñ ng c a m t Crawler r t ñơn gi n, nó xu t phát t nh ng trang ñ u tiên cho trư c g i là h t gi ng (seed pages), và duy t t trang này ñ n trang khác thông qua nh ng liên k t ch a trong nh ng trang mà nó ñi qua, quá trình này g i là Crawling. Như v y, Crawler s duy t vòng quanh và ngày m t tr i r ng ph m vi ra trên toàn b nh ng Web Site trên Internet. Crawler t ng h p n i
  12. 12 dung (văn b n và nh ng liên k t) t nh ng Web Site và lưu chúng vào trong cơ s d li u, l p ch m c và ñánh giá PageRank cho nh ng trang này d a vào các thu t toán mà m i máy tìm ki m s d ng. 2.1.2 Các k thu t xây d ng Crawler Crawler là m t chương trình ho t ñ ng liên t c và l p ñi l p l i, nó ñi theo các bư c và tuân theo các quy t c nh t ñ nh. Hình 2.1 là mô hình quy trình làm vi c cơ b n c a m t Crawler: Hình 2.1: Quy trình ho t ñ ng c a Crawler
  13. 13 Các thành ph n chính c a m t Crawler: 2.1.2.1 C u trúc d li u c a URL Frontier: Frontier là m t danh sách công vi c c a m t Crawler hay còn ñư c g i là To-do List. Frontier dùng ñ ch a nh ng URL chưa ñư c Crawler duy t qua. 2.1.2.2 B l c ñ a ch : B l c ñ a ch là m t c u trúc d li u quan tr ng th hai trong b t kỳ th hi n nào c a Crawler, nó nh m lưu l i t t c nh ng URL mà Crawler ñã ñi qua và ñã t ng ch a trong Frontier. 2.1.2.3 Trích xu t URL và s chu n hóa: Trích xu t URL là quá trình phân tích mã HTML c a m t trang Web và l y ra nh ng liên k t có trong trang ñó. Chu n hóa URL là s bi n ñ i nh ng liên k t l y v tr thành m t d ng tiêu chu n và th ng nh t v ñ nh d ng. 2.1.2.4 Trình bày các gi i thu t c a Crawler (Crawler Algorithms) Khi m t trang ñư c phân tích b i Crawler, nh ng liên k t trong trang ñó s ñư c ñưa vào danh sách c a nh ng trang chưa ñư c phân tích, danh sách này chính là Frontier. M t trong nh ng bư c quan
  14. 14 tr ng nh t trong ti n trình ho t ñ ng c a m t Crawler là xác ñ nh liên k t ti p theo phù h p nh t v i tiêu chí c a Crawler ñ ti n hành bư c phân tích ti p theo. Có hai thu t toán ñư c s d ng chính cho m t Crawler: Thu t toán tìm ki m theo chi u r ng (Breadth-First) Thu t toán tìm ki m t i ưu (Best-First) 2.2 B ĐÁNH CH M C B ñánh ch m c là m t thành ph n r t quan tr ng ñư c phát tri n phía Back End c a m t h th ng máy tìm ki m. B ñánh ch m c nh m t o nên b ch m c cho n i dung c a các tài li u ch a trong cơ s d li u c a h th ng tìm ki m. B ch m c giúp tăng hi u qu tìm ki m và t c ñ hơn r t nhi u so v i tìm ki m trên t ng tài li u trong cơ s d li u c a h th ng. D li u c a m t h th ng tìm ki m có ñư c là nh s thu th p c a Crawler. Crawler s thu th p t t c m i th theo tiêu chí c a nhà phát tri n và ñưa vào kho lưu tr (Database). M t v n ñ ñ t ra là, ngày nay s lư ng Web Site trên Internet là vô cùng ñ s , con s có th lên ñ n ch c t và nh ng Web Site m i v n gia tăng m t cách chóng m t. Th nhưng, có r t nhi u lo i thông tin mà ta có th tìm ki m ñư c trên máy tìm ki m ch b ng cách g vào m t s t thích h p, r t nhi u trang Web có n i dung liên quan c n tìm trong s hàng t Web Site trên Internet ñư c tìm th y, t t c ch di n ra trong vòng
  15. 15 kho ng m t giây. Vi c tìm ki m m t m u văn b n bên trong hàng t tài li u, và s p x p chúng theo th t phù h p nh t không ph i là vi c làm ñơn gi n, nhưng ñây là công vi c mà các máy tìm ki m v n làm hàng ngày như chúng ta ñã th y, m t thu t ng ñư c s d ng ñ ñ t tên cho công vi c này là: “Full Text Search”. Và ñi u quan tr ng ñ “Full Text Search” th c thi m t cách hi u qu ñó là l p ch m c cho t t c d li u mà máy tìm ki m lưu tr trong nó. Đây là thành ph n quan tr ng và không th thi u ñư c trong m t máy tìm ki m, ta g i là “Full Text Search Indexing” (FTS Indexing). Khái ni m Inverted Index Thông thư ng, các tài li u ñư c lưu tr trong cơ s d li u dư i d ng các danh sách c a nh ng t , k thu t Inverted Index lưu tr ngư c l i b ng cách ñưa ra m t danh sách ñ ch a các tài li u mà m t t xu t hi n trong nó. Ngoài ra, n u chúng ta mu n h tr nhóm t và tìm ki m g n ñúng v i truy v n, chúng ta ph i lưu c v trí c a các t trong m i tài li u tham chi u ñ n. Nh ng v trí này có th là m t ho c r t nhi u, ñi u này ph thu c vào t n s xu t hi n c a t trong tài li u, do ñó chúng ta cũng có th lưu tr t n s xu t hi n c a t trong m i tài li u ñ t ñó máy tìm ki m có th ñánh giá ñư c m c ñ quan tr ng c a tài li u d a vào câu truy v n. Đ mô t các cách mà Inverted Index lưu tr thông tin v m t t trong Database c a nó.
  16. 16 2.3 B X LÝ TRUY V N (SEARCH QUERY PROCESSING) Vi c tìm ki m ngày càng tr nên ph c t p, nh ng câu truy v n ngày nay bao g m r t nhi u th lo i, m t t ñơn gi n, m t nhóm t , m t câu h i, hay là m t ño n văn b n. Trong m t s trư ng h p, máy tìm ki m ph i tr v m t câu tr l i hay m t tài li u thì k t qu ñó m i là chính xác cho câu truy v n ñ t ra. Ví d : chúng ta nh p vào “1+1”, k t qu s là “1+1=2”, ho c nh p vào “Search Engine Optimization 2nd Edition ebook”, k t qu s tr v là m t hay nhi u liên k t d n ñ n t p tin “Search Engine Optimization 2nd Edition.pdf”. Nhưng trong ph n l n m i trư ng h p, máy tìm ki m ph i tr v m t danh sách các liên k t có n i dung thích h p, hay ñ nh hư ng ñ n nh ng thông tin liên quan có th giúp ngư i s d ng hi u th u ñáo v lĩnh v c mình ñang tìm hi u và có ñư c câu tr l i hoàn ch nh nh t. Đ có th tr v nh ng k t qu thích h p nh t, máy tìm ki m bu c ph i hi u chính xác nh ng gì mà m t câu truy v n mu n nói ñ n, ñ ng th i nó cũng ph i bi t ñư c nh ng thông tin hi n t i có quan h th nào ñ n m c ñích c a câu truy v n, và ñư c lưu tr ñâu trên Internet. Đ hoàn thành ñư c nh ng m c ñích ñ ra là m t t p h p c a nh ng k thu t khá ph c t p, và m i ph n ñ u b sung, c ng c cho nhau.
  17. 17 Trong lĩnh v c tìm ki m, thành công th c s ñ n t vi c máy tìm ki m có hi u ñư c yêu c u c a ngư i s d ng thông qua truy v n c a h hay không. M t s câu truy v n khá là ñơn gi n, trong khi m t s khác l i ph c t p hơn như là: m t truy v n ki u logic (“apples AND oranges OR bananas”), ho c hi n h u như là m t ño n văn, m t văn b n v i yêu c u là tìm nh ng n i dung tương t . Như v y, máy tìm ki m ph i ñư c trang b nh ng công c ñ phân tích truy v n nh m hi u chính xác nh ng gì ñư c yêu c u do ngư i dùng ñưa vào. Có hai k thu t ñư c áp d ng ngày nay là Natural Language Processing (NLP) và Linguistic Analysis. NLP dùng ñ phiên d ch nh ng truy v n ki u như: câu h i, c m t ,…, trong khi công c Linguistic Analysis l i có nhi m v x lý nh ng t có nhi u nghĩa (word-sense), t t i nghĩa không rõ ràng. Máy tìm ki m s d ng hai k thu t này ñ phân tích ngôn ng t nhiên c a con ngư i (Human Language) nh m nh n bi t m c ñích c a ngư i s d ng và tr l i nh ng k t qu phù h p nh t. CHƯƠNG 3. XÂY D NG LOCAL SEARCH ENGINE D A VÀO CÁC K THU T ĐÃ NGHIÊN C U Máy tìm ki m ñã ñư c ng d ng r t nhi u trong lĩnh v c tìm ki m tài li u trên các Web Site cũng như trong các ng d ng mang tính lưu tr d li u l n. L i ích mà máy tìm ki m mang l i là giúp cho ngư i s d ng có th tìm th y ngay thông tin mình mu n m t
  18. 18 cách nhanh chóng trong kho d li u kh ng l mà h th ng ñang ch a, gi m thi u ñánh m t thông tin và nh n thông tin không chính xác. Trong chương 3 c a lu n văn, tôi xin trình bày ng d ng c a các k thu t xây d ng b tìm ki m ñ xây d ng m t ng d ng cung c p d ch v tìm ki m. Thông qua d ch v này, các Web Site m i ñư c xây d ng có th s d ng d ch v ñ tìm ki m thông tin ngay trên chính Web Site c a mình. 3.1 PHÁT BI U BÀI TOÁN Ngày nay, nhu c u tìm ki m trên m t Web Site là r t c n thi t cho nh ng trang Web ñư c phát tri n dư i hình th c qu n lý n i dung (Content Management System - CMS). Đa s c a nh ng Site này, các nhà phát tri n ñ u l a ch n s d ng nh ng Framework có s n ñ có th xây d ng Web Site c a mình m t cách nhanh chóng như: Joomla, Drupal,… Nh ng Framework ñ u ñã h tr vi c tìm ki m trên nó. Th nhưng, không ph i t t c các Web Site xây d ng ñ u d a trên nh ng Framework d ng này. Thay vào ñó, các nhà phát tri n v n l a ch n vi c thi t k và ti n hành xây d ng t ñ u ñ n cu i cho Site c a mình v i m c ñích là ñ ñ m b o tính an toàn thông tin và có ñ tin c y cao hơn. V i nh ng Site ñư c phát tri n theo d ng này, vi c xây d ng m t module tìm ki m cũng t n khá nhi u th i gian và công s c cho các nhà phát tri n Web. Local Search Engine là m t h th ng Web Services nh m giúp các nhà phát tri n Web có th tri n khai module tìm ki m trên Site
  19. 19 c a mình m t cách nhanh chóng thông qua các d ch v c a Local Search Engine Server. Sau khi ñã ñăng ký cho Site c a mình m t tài kho ng tìm ki m b ng vi c cung c p URL trang ch c a Site, trên Site ñó có th g i m t truy v n tìm ki m ñ n máy ch c a Local Search Engine và nh n v k t qu tìm ki m là nh ng trang có n i dung liên quan trong Web Site c a mình. 3.2 THI T K Cũng như các máy tìm ki m khác, Local Search Engine cũng bao g m hai thành ph n chính: Back End và Front End. Back End Back End là thành ph n t i quan tr ng c a Local Search Engine, nó ch a t t c nh ng x lý chính c a h th ng. Các thành ph n này là: Web Crawler, Inverted Index và Searching Process. Front End Front End ñư c xem là thành ph n ñóng vai trò giao ti p và trao ñ i d li u v i ngư i s d ng. Nó bao g m: Giao di n c a Local Search Engine, giao di n c a chương trình dùng cho Administrator trên desktop. Local Search Engine Web Services. Các thành ph n c a h th ng Local Search Engine:
  20. 20 Hình 3.1: Các thành ph n c a Local Search Engine Web Site: Site c a ngư i s d ng d ch v Local Search. Web Services: Cung c p các d ch v v tìm ki m c a Local Search trên môi trư ng internet. B tìm ki m: Thành ph n x lý câu truy v n và k t qu tìm ki m tr v cho ngư i s d ng. B tìm ki m có các ch c năng quan tr ng là thông d ch câu truy v n c a ngư i s d ng (s a l i chính t , thêm vào hay lo i b các t trong m t c u truy v n không rõ nghĩa,…), lo i b các k t qu tr v trùng nhau, s p x p và ñánh giá ñ ưu tiên cho các k t qu ñó. B ch m c: L p ch m c m c theo theo t v ng t k t qu thu th p ñư c c a Crawler. Crawler: là b thu th p d li u c a h th ng Local Search. Thi t k cơ s d li u
ADSENSE

CÓ THỂ BẠN MUỐN DOWNLOAD

 

Đồng bộ tài khoản
2=>2