1
B GIÁO DC VÀ ĐÀO TO
ĐẠI HC ĐÀ NNG
L
LÊ
Ê
M
MI
IN
NH
H
T
TR
RÍ
Í
XÂY DNG H THNG
THU NHN VÀ X LÝ THÔNG TIN ĐIN VĂN
PHC V CÔNG TÁC KIM TRA, THNG KÊ
TI TRUNG TÂM QUN LÝ BAY MIN TRUNG
Chuyên ngành : KHOA HC MÁY TÍNH
Mã s : 60.48.01
TÓM TT LUN VĂN THC SĨ K THUT
Đà Nng – Năm 2011
2
Công trình ñược hoàn thành ti
ĐẠI HC ĐÀ NNG
Người hướng dn khoa hc: PGS.TS. Võ Trung Hùng
Phn bin 1:........................................................................
Phn bin 2:………………………………………………
Lun văn s ñược bo v trước Hi ñồng chm Lun
văn tt nghip Thc sĩ Khoa hc Máy tính hp ti Đại hc
Đà Nng vào ngày…..tháng….năm 2011
Có th tìm hiu lun văn ti:
- Trung tâm Thông tin - Hc liu, Đại hc Đà Nng
- Trung tâm Hc liu, Đại hc Đà Nng
3
M ĐU
1. Lý do chn ñề tài
Hin nay, c thông tin trong nh vc ng không ñều ñược trao
ñi trên mt h thng, h thng ñó ñược gọi AMSS (Automatic
Message Switching System) hay n gọi hthng chuyn tiếp ñin
văn tñng. c thông tin ñược trao ñi bao gm thông tin vkế hoạch
bay, thi tiết, thông tin v c chuyến bay… ñược chuyn ñi dưới
ñịnh dng text. H thng này ñược phát trin ñóng gói ñể cài ñặt
cho các trung tâm ñiu hành bay các khu vc các trung tâm.Tuy
nhiên, người dùng không th can thip vào ngun h thng ñể sa
ñổi, b sung nhng tính năng h cn. vy vic thng báo cáo
v mt s thông tin như: các chuyến bay ñi, ñến, quá cnh qua khu vc
min Trung… ñiu ñược thng bng th công, da vào các tp tin
ñin văn ñã ñược in ra trong ngày ñể tp trung li.
Vn ñ ñặt ra m thế o ñể thtrích lc c thông tin
trong ñin văn t h thng AMSS tng hp lại ñể thgiúp cho
nhng kim soát viên không lưu có th dng thng kê, theo i theo
mt thi gian o ñó mà ta mun.
Vi nhng lý do như trên người hin ñang công tác ti
Trung tâm Qun bay min Trung, tôi chn ñề tài Xây dng h
thng thu nhn x thông tin ñin văn phc v công tác kim
tra, thng kê ti Trung tâm Qun lý bay min Trung”.
2. Mc ñích nghiên cu
Hthng ñược xây dng vi mục ñích trích c thông tin tc
tp tin ñin văn, ñể ñưa ra c thông tin cn thiết. Tñó, ta sẽ tng hp
tt c c thông tin ñó lại vi nhau, ñưa ra nhng o o vc
thông tin người ng yêu cu (thi tiết mt ngày o ñó, tng s
chuyến bay ñi và ñến trong mt tháng…).
4
3. Đối tượng và phm vi nghiên cu
Đối tượng nghiên cu ca ñề tài gm nhng tp tin ñin văn
trong hthng AMSS, k thut trích lc thông tin. Phm vi nghiên cu
ca ñề tài h thng chuyn tiếp ñin văn t ñng AMSS, nhu cu tra
cu thông tin lp báo cáo ca kim soát viên không lưu thuc Trung
tâm Qun lý bay min Trung.
4. Phương pháp nghiên cu
Phương pháp ñược s dng trong ñề tài da vào các tp tin
trong h thng AMSS, k thut trích lc thông tin, khai phá d liu, tra
cu thông tin. T ñó to mô-dun ñọc d liu ñin văn, trích lc các
thông tin cha trong các ñin văn t h thng AMSS ñể xây dng phn
mm cho phép người s dng có th tra cu thông tin cn thiết trên ñó.
5. Ý nghĩa khoa hc và thc tin ca ñề tài
Sau quá trình thc hin ñề tài, tôi ñã nghiên cu ng dng
thành công h thng thu nhn x thông tin ñin văn. H thng
ñược s dng ti Trung tâm Qun lý bay min Trung
6. Cu trúc ca lun văn
Lun văn ñược t chc thành 3 chương như sau:
Chương 1: Nghiên cu tng quan: chương này trình bày khái
nim v mng vin thông c ñịnh hàng không, h thng chuyn tiếp
ñin văn t ñộng AMSS. Cơ s lý thuyết v k thut trích lc thông tin,
khai phá d liu.
Chương 2: Gii pháp ñề xut: chương này t các yêu cu
ñối vi h thng, kiến trúc tng th và mô hình hot ñộng ca h thng.
Gii pháp ñể trin khai h thng.
Chương 3: Phát trin ng dng: chương này trình bày công cụ
ñể phát trin h thng, xây dng c mô-dun trích lc thông tin, xây
dng giao din hin thị thông tin cho phép người sdụng tra cu
thông tin. Quá trình cài ñặt, th nghim ng dng và ñánh giá kết qu.
5
CHƯƠNG 1:NGHIÊN CU TNG QUAN
Trong chương này, tôi tp trung trình bày v khái nim v h
thng thông tin ñin văn trong lĩnh vc hàng không, h thng chuyn
tiếp ñin văn t ñộng AMSS, k thut trích lc thông tin, khai phá d
liu. Nhng ni dung trong chương y cơ s ñể thc hin c
chương tiếp theo.
1.1. Hthng thông tin ñin văn trong nh vc ng không
Trung tâm Qun bay dân dng Vit Nam ñơn v nhim
v qun mng AFTN quc gia, ñảm bo duy trì thông tin liên lc
ñin văn phc v công tác ñiu hành bay mt cách liên tc và an toàn.
AFTN loi dch v chuyn bn tin loi store-and-forward (loi
chuyn ñin văn mà các node trung gian s nhn ñầy ñ mt bn tin trưc
khi chuyn tiếp ñến node kc. Loi chuyn ñin văny s yêu cu nhiu
b nh hơn ti c node trung gian) ñể chuyn các bn tin t. Các bn
tin AFTN ñưc chuyn theo tng bước nhy theo nhng tuyến ñưc cu
nh trước ñ chuyn ti ña ch trong thi gian ngn nht.
1.1.1. Mng vin thông c ñịnh hàng không AFTN
1.1.2. Đin văn hàng không
Đin văn hàng không là các bn tin ñược chuyn ñi trên mng
vin thông c ñịnh hàng không. Các bn tin này cha tt c các thông
tin liên quan ñến lĩnh vc hàng không như:
Đin văn kế hoch bay: bao gm thông tin ca mt
chuyến bay sp khi hành hoch sp h cánh.
Đin văn khí tượng: bao gm các thông tin v d báo
thi tiết sân bay ñến, d báo khu vc và ñường bay.
Ngoài ra còn nhng loi ñin văn như: ñin văn dch v không
báo hàng không, ñin văn hàng chính hàng không, các ñin văn s v.
6
1.2. Hthng chuyn tiếp ñin văn tñng AMSS
1.2.1. Gii thiu
H thng AMSS (Automatic Messages Switch System) hay còn
gi là h thng chuyn tiếp ñin văn t ñộng. H thng chc năng
thu nhn x ñin văn trong mng AFTN. Mt h thng AMSS
thun tuý thc hin ñúng chc năng chuyn tiếp ñin văn AFTN. Đồng
thi, ñảm bo cho h thng AMSS giao tiếp m cho phép kết ni
mm do vi các h thng x lý d liu khác có liên quan như: x lý s
liu bay, s liu thi tiết, s v hàng không…
H thng kh năng hot ñộng chế ñộ d phòng nóng. Hai
máy ch hot ñộng song song. Khi máy chính s c, h thng s t
ñộng chuyn sang máy d phòng và cnh báo ñể k thut viên x lý. H
thng ñược thiết kế ñáp ng ñược lưu lượng 30,000 ñin văn mt ngày.
Có kh năng kết ni và qun lý 40 kênh truyn AFTN.
kh năng kim soát tình trng hot ñộng ca tt c các kênh
thiết b trong h thng. Đảm bo kh năng kim soát mch
UP/DOWN.
kh năng s dng hai loi Modem t ñộng kết ni quay
s (leased line , dialup). Tc ñộ kênh truyn ñến các ñầu cui th
thiết lp t 50 bauds ñến 230 kbps theo tng mc ñối vi các ñầu cui
s dng cng RS-232, 10/100 Mbs ñối vi ñầu cui trong mng LAN.
các tp nht ghi nhn các s kin trong quá trình hot ñộng ca
tt c các v trí trong h thng. Các s kin ñược ghi vào tp Log.
H thng kh năng ñịnh cu nh trc tuyến vi mc ñộ tham
s hoá cao cho các tác v mà không phi Reset li h thng.
H thng có cơ chế qun lý người dùng và an ninh ñể ñảm bo ñộ
n ñịnh và an toàn ca toàn cho h thng.
7
1.2.2. Nhng chc năng chính của hthng AMSS
1.2.2.1. Xñin văn
1.2.2.2. Lưu tr ñin văn
1.2.2.3. Truy xut ñin văn
1.2.2.4. Thng kê
1.3. Kỹ thut trích lc thông tin (Information Extraction)
1.3.1. Gii thiu vtrích lc thông tin
Trích lc thông tin là k thut ñược s dng sau khi thông tin qua
tác v thu thp ñã ñược ly v, vic tiếp theo là phi ly ra ñược nhng
thông tin cn thiết ch nhng thông tin mình cn mt cách t
ñộng không cn ti s thao tác ca người s dng. Hu hết các thut
toán trích lc thông tin hin nay ñều da vào các công c khác nhau
trên nn k thut “Wrapper”. Wrapper th ñược hiu nhng hàm
ñể tách thông tin t các tài nguyên. Các hàm này ñược viết da trên các
lut (quy lut) ñã ñược ñúc rút ra sau khi kho sát các bn văn cha
thông tin cn ly. Các Wrapper th xây dng da trên rt nhiu quy
lut khác nhau và tu thuc vào mc ñích ca người s dng.
1.3.2. Các dng trích lc thông tin
Vic trích lc ni dung văn bn ph thuc vào ñnh dng tp tin
người dùng ñịnh nghĩa cho phép nhn din. c tp tin này phi ñược
khai báo trước và có cách ñọc cũng nhưch trích lc khác nhau. Sau ñây
c bước trích lọc ni dung văn bn ca tng ñnh dạng tp tin.
1.3.2.1. Đối vi tp tin HTML
1.3.2.1. Đối vi tp tin PPT
1.4. Khai phá dliu ( Data Mining)
1.4.1. Gii thiu vkhai phá d liu
Khai phá d liu mt khái nim ra ñời vào nhng năm cui
ca thp k 1980. Nó là quá trình khám phá thông tin n ñược tìm thy
trong các cơ s d liu th xem như mt bước trong quá trình
khám phá tri thc. Khai phá d liu là giai ñon quan trng nht trong
8
Đánh giá lut
Tri thc
Mô hình
D liu
ñã làm
sch, tin
x
D liu
D liu
ñích
Gom d liu
Khai phá d liu
Chuyn ñổi d liu
Làm sch, tin x
d
liu
D liu
thô,...
D liu ñã
chuyn ñổi
Trích lc d liu
tến trình khai phá tri thc t cơ s d liu, các tri thc này h tr trong
vic ra quyết ñịnh trong khoa hc kinh doanh. Để hình dung vn ñề
này, ta có th s dng mt ví d ñơn gin sau: khai phá d liu ñược ví
như tìm mt cây kim trong ñống c khô.
1.4.2. Quá trình khai phá dliu
Mt quá trình khai phá d liu bao gm 6 giai ñon chính như
sau:
Hình 1.1: Quá trình phát hin tri thc
a. Gom d liu (Gathering)
b. Trích lc d liu
c. Làm sch, tin x lý và chun b trước d liu
d. Chuyn ñổi d liu
e. Phát hin và trích mu d liu
f. Đánh giá kết qu mu
Trên ñây là 6 giai ñon trong quá trình khai phá d liu, trong ñó
giai ñon 5 giai ñon ñược quan tâm nhiu nht hay còn gi Data
Mining
9
1.4.3. Các kiu khai phá d liu
1.4.3.1. Khai phá d liu d ñoán
Nhim v ca khai phá d liu d ñoán là ñưa ra các d ñoán
da vào các suy din trên d liu hin thi. s dng các biến hay
các trường trong cơ s d liu ñể d ñoán các giá tr không biết hay các
giá tr tương lai. Bao gm các kĩ thut: phân loi (classification), hi
quy (regression)...
a. Phân loi
Mc tiêu ca phương pháp phân loi d liu là d ñoán nhãn lp
cho các mu d liu. Quá trình phân loi d liu thường gm 2 bước:
xây dng mô hình và s dng mô hình ñể phân loi d liu.
Bước 1: Xây dng hình da trên vic phân tích các mu d
liu cho trước. Mi mu thuc v mt lp, ñược xác ñịnh bi mt thuc
tính gi là thuc tính lp. Các mu d liu này còn ñược gi tp d
liu hun luyn. Các nhãn lp ca tp d liu hun luyn ñều phi ñược
xác ñịnh trước khi xây dng hình, vy phương pháp này còn
ñược gi là hc có giám sát.
Bước 2: S dng mô hình ñể phân loi d liu. Trước hết chúng
ta phi tính ñộ chính xác ca hình. Nếu ñộ chính xác chp nhn
ñược, hình s ñược s dng ñể d ñoán nhãn lp cho các mu d
liu khác trong tương lai.
Hay nói cách khác, phân loi là hc mt hàm ánh x mt mc d
liu vào mt trong s các lp cho trước.
b. Hi qui
Phương pháp hi qui khác vi phân loi d liu ch, hi qui
dùng ñể d ñoán v các giá tr liên tc, còn phân loi d liu thì ch
dùng ñể d ñoán các giá tr ri rc.
Hi quy là hc mt hàm ánh x mt mc d liu vào mt biến d
báo giá tr thc. Các ng dng hi quy có nhiu, ví d như ñánh giá xác
xut mt bnh nhân s chết da trên tp kết qu xét nghim chn ñoán,
10
d báo nhu cu ca người tiêu dùng ñối vi mt sn phn mi da trên
hot ñộng qung cáo tiêu dùng.
1.4.3.2. Khai phá d liu mô t
K thut này nhim v t v các tính cht hoc các ñặc
tính chung ca d liu trong CSDL hin có. Bao gm các k thut:
phân cm (clustering), phân tích lut kết hp (association rules)...
a. Phân cm
Mc tiêu chính ca phương pháp phân cm d liu nhóm các
ñối tượng tương t nhau trong tp d liu vào các cm sao cho các ñối
tượng thuc cùng mt cm tương ñồng còn các ñối tượng thuc các
cm khác nhau s không tương ñồng. Phân cm d liu là mt ví d ca
phương pháp hc không giám sát. Không ging như phân loi d liu,
phân cm d liu không ñòi hi phi ñịnh nghĩa trước các mu d liu
hun luyn. thế, th coi phân cm d liu là mt cách hc bng
quan sát (learning by observation), trong khi phân loi d liu hc
bng d (learning by example). Trong phương pháp này ta s không
th biết kết qu các cm thu ñược s như thế nào khi bt ñầu quá trình.
vy, thông thường cn có mt chuyên gia v lĩnh vc ñó ñể ñánh giá
các cm thu ñược. Phân cm d liu ñược s dng nhiu trong các ng
dng v phân ñon th trường, phân ñon khách hàng, nhn dng mu,
phân loi trang Web… Ngoài ra phân cm d liu còn th ñược s
dng như mt bước tin x lí cho các thut toán khai phá d liu khác.
b. Lut kết hp
Mc tiêu ca phương pháp này phát hin ñưa ra các mi
liên h gia các giá tr d liu trong CSDL. Mu ñầu ra ca gii thut
khai phá d liu tp lut kết hp tìm ñược. Khai phá lut kết hp
ñược thc hin qua 2 bước:
Bước 1: tìm tt c các tp mc ph biến, mt tp mc
ph biến ñược xác ñịnh qua tính ñ h tr tha mãn
ñộ h tr cc tiu.