Ộ
Ố
B QU C PHÒNG
Ọ
Ậ
Ỹ
Ệ
Ự
H C VI N K THU T QUÂN S
Ơ
Ồ
Ễ
NGUY N H NG S N
Ứ
ƯƠ
Ữ
NGHIÊN C U PH
Ế NG PHÁP TÌM KI M NG NGHĨA
Ử Ụ
Ứ
Ự
Ụ
S D NG ONTOLOGY VÀ NG D NG XÂY D NG
Ệ Ố
Ứ
Ả
Ẫ
Ế
Ệ
H TH NG TRA C U, TÌM KI M VĂN B N M U B NH
ơ ở
ọ ọ C s toán h c cho tin h c
Chuyên ngành: Mã s :ố
9 46 01 10
Ắ
Ế
Ậ TÓM T T LU N ÁN TI N SĨ
1
Ộ HÀ N I – 2020
ƯỢ CÔNG TRÌNH Đ Ạ C HOÀN THÀNH T I
Ự Ộ Ọ Ậ Ỹ Ệ Ố H C VI N K THU T QUÂN S B QU C
PHÒNG
ẫ
̣
Ng
̀ươ ướ i h
ng d n khoa hoc:
ươ
ọ
ả 1. TS. D ng Tr ng H i
ấ
ắ
2. TS. Hoa T t Th ng
ọ
ệ
ả
ườ
Ph n bi n 1: PGS. TS Lê Tr ng Vĩnh, Tr
ạ ng Đ i
ạ ọ
ố
ọ
ộ h c KHTN, Đ i h c Qu c gia Hà N i
ọ
ệ
ả
ệ Ph n bi n 2: PGS. TS Ngô Thành Long, H c vi n
ỹ
ự
ậ K thu t Quân s
ệ
ả
ấ
Ph n bi n 3: PGS. TS Cao Tu n Dũng, Tr
ườ ng
ạ ọ
ộ Đ i h c Bách khoa Hà N i
ả ượ ệ ạ ộ ồ ậ c b o v t ệ ậ ọ ế ị ủ ệ ậ ọ ỹ
ấ i H i đ ng đánh giá lu n án c p Lu n án đ ố H c vi n theo quy t đ nh s 1109/QĐHV, ngày 15 tháng 04 ự ố năm năm 2020 c a Giám đ c H c vi n K thu t Quân s , 2
ự ồ ờ ọ ạ ệ ọ ỹ i H c vi n K thu t Quân s vào h i …… gi … ậ h p t ngày …. tháng …. năm 2020.
ể ể ậ ạ Có th tìm hi u lu n án t i:
ư ệ ậ ọ ỹ ự ệ Th vi n H c vi n K thu t Quân s
ư ệ
ố
Th vi n Qu c gia
0...
3
M Đ UỞ Ầ
ế ủ ề ấ ậ 1. Tính c p thi t c a đ tài lu n án
́ ả ệ ố ̣
̀ ừ ự ử ụ ̉ , ng khóa
̀ ̀ ẫ v n d a trên cách s d ng t ́ ́ ướ ạ ̣ nôi dung mình cân tim kiêm d i d ng cac t ̀
ữ ữ ụ ả ố khóa (c m t
ệ ả đ m b o m i quan h ng nghĩa gi a các t ̀ ̀ ́ ề ấ ặ ớ ̣ khoa) v i nôi dung cân tim.
ự ầ ườ ể i dùng không hi u v khi ng
ể ệ ấ ượ ườ ̀ ầ ớ Hiên nay, các h th ng tim kiêm văn b n ph n l n ̀ ̃ ̣ ươ i dung phai diên đat ư khoá sao cho ừ ừ ệ t Đây là v n đ khó khăn, đ c bi ế , đi uề ề lĩnh v c c n tìm ki m ự ệ ế i dùng tìm ki m b nh d a c th hi n r t rõ khi ng này đ
ư ượ ứ ệ ầ ể trên các tri u ch ng ban đ u ch a đ ạ c bi u đ t rõ ràng.
ề ươ ứ ữ Đ tài “Nghiên c u ph
ệ ố ứ ụ ự ế ng pháp tìm ki m ng nghĩa ứ ử ụ s d ng Ontology và ng d ng xây d ng h th ng tra c u,
ẫ ệ ế ươ ứ nghiên c u các ph ả tìm ki m văn b n m u b nh”
ế ươ ng pháp
ậ ế ợ trong ontology b nh ệ
ệ ố ữ ự
ườ ử ụ ằ ớ ợ ng tác v i ng ỗ ợ ươ t có h tr
ậ ế ợ ứ ệ ậ ng pháp xây d ngự , trích rút thông tin từ tìm ki m, các ph văn b nả làm giàu ontology b nh, trích rút thông tin từ văn ệ và ngứ b nả , khai phá các lu t k t h p ệ ế d ng ụ xây d ng H th ng tìm ki m ng nghĩa thông tin b nh ự i s d ng b ng các g i ý d a ế ợ ậ k t h p ữ trên t p lu t k t h p gi a các tri u ch ng và lu t
ữ ệ ố ng nghĩa ừ t ệ . các m i quan h trên Ontology b nh
ố ượ ứ ủ ề ậ ạ 2. Đ i t ng và ph m vi nghiên c u c a đ tài lu n án
ươ ậ ằ Ph ặ ng pháp thu th p thông tin b ng trích rút đ c
ư ả tr ng văn b n;
4
ươ ự ổ ứ ư ả Ph ng pháp xây d ng, t ữ ch c l u tr , qu n lý và
ứ ướ ạ ử ụ khai thác s d ng tri th c d i d ng ontology;
ươ ậ ế ợ Ph ng pháp khai phá lu t k t h p trong Ontology
b nh;ệ
Các mô hình tìm ki m;ế
ế ế ệ ố ự Phân tích thi ế t k và xây d ng H th ng tìm ki m
ữ ươ ệ ng nghĩa có t ng tác thông tin b nh.
ứ ề ộ ậ 3. N i dung nghiên c u đ tài lu n án
ặ ư ậ ả ờ Thu th p thông tin nh trích rút đ c tr ng văn b n;
ổ ứ ư ữ ả ự ử ụ ch c l u tr , qu n lý và khai thác s d ng
Xây d ng, t ứ tri th c Ontology b nh ệ DO (Disease Ontology);
ậ ế ợ ệ ị Xác đ nh lu t k t h p trong Ontology b nh;
ả ữ ế ươ i pháp tìm ki m ng nghĩa có t ng tác thông tin
ườ ử ụ ấ ị Gi ợ ệ b nh g i ý ng i s d ng xác đ nh câu truy v n cho phép
ậ ượ ế ả ị nh n đ ế c k t qu tìm ki m đúng ý đ nh;
ệ ố ữ ươ ng tác thông tin ế H th ng tìm ki m ng nghĩa có t
b nh.ệ
ươ ứ ề ậ 4. Ph ng pháp nghiên c u đ tài lu n án
ế ề ơ ở ế ươ ng C s lý thuy t v các mô hình tìm ki m và ph
ệ ố ử ụ ế pháp s d ng ontology trong các h th ng tìm ki m;
ơ ở ự ế C s lý thuy t xây d ng ontology;
ươ ự Ph ệ ng pháp xây d ng và làm giàu Ontology b nh
ế ệ ti ng Vi t;
5
ươ ự ữ ế Ph ệ ố ng pháp xây d ng h th ng ki m ng nghĩa có
ệ ố ụ ươ t ế ự ng tác và áp d ng xây d ng h th ng tìm ki m
ữ ươ ệ ng nghĩa có t ng tác thông tin b nh.
ữ ể 5. Nh ng đi m m i c a lu n ánậ
ớ ủ đ tài ề ươ ấ ề ộ (1) Đ xu t ph
ừ ữ ệ ộ trên mô hình cú pháp, trích rút các b ba t ự ng pháp trích rút b ba (triple) d a ả d li u văn b n
ệ ư ự ụ ụ ủ ả
ươ ệ ề ế ấ (2) Đ xu t ph
ử ụ ệ ế ả
ướ ử ằ ặ ph c v cho vi c xây d ng đ c tr ng c a văn b n [CTLA3]; ữ ệ ng pháp tìm ki m đa di n d li u ữ ệ văn b n và cá nhân hoá tìm ki m đa di n s d ng d li u ủ Wikipedia Disambiguation ậ ng x lý nh p nh ng c a ị đ nh h
[CTLA3], [CTLA4];
ề ấ ươ ậ ế ợ (3) Đ xu t ph ng pháp khai phá lu t k t h p trong
ự ệ ộ Ontology b nh (ASOApriori) [CTLA2] d a trên 02 đ đo
ộ ỗ ợ ở ộ ở ộ ậ ớ ộ m i: đ h tr m r ng và đ tin c y m r ng và khai phá
ậ ế ợ ữ ữ ệ ố
lu t k t h p ng nghĩa gi a các m i quan h trong Ontology b nh;ệ
ự ệ ế ệ (4) Xây d ng Ontology b nh ti ng Vi t [CTLA1];
ề ấ ươ ệ ố (5) Đ xu t ph
ữ ế ỗ ợ ươ ệ ớ ki m ng nghĩa thông tin b nh có h tr t ự ng pháp và xây d ng H th ng tìm ườ i ng tác v i ng
ằ ậ ế ợ ự ữ ậ ợ
ế ợ ữ ứ ệ ử ụ s d ng b ng các g i ý d a trên t p lu t k t h p gi a các ệ ậ k t h p ng nghĩa tri u ch ng và lu t ố các m i quan h ừ t
ệ trên Ontology b nh [CTLA1].
6. Ý nghĩa khoa h cọ ở ậ ớ ề ướ ứ Lu n án m ra h
ậ ế ợ ệ ố ử ụ
ợ ng nghiên c u m i v tích h p ế ontology và s d ng lu t k t h p trong h th ng tìm ki m 6
ươ ệ ố ữ ế thông minh có t
ự ế ự ự ữ ệ , giúp ng tin b nh th c s h u ích trong th c t
ng tác. H th ng tìm ki m ng nghĩa thông ườ ử ụ i s d ng ủ ọ ợ ị ự ấ ọ ớ ễ d dàng l a ch n các truy v n phù h p v i ý đ nh c a h mà
ầ ấ ớ ộ không c n nh toàn b truy v n.
ấ ủ ể ứ ụ ề ậ Các đ xu t c a lu n án còn có th ng d ng trong
ề ư ệ ố ươ ấ các h th ng khác nhau, nh : Đ xu t ph
ự ộ ộ b ba (triple) d a trên mô hình cú pháp, trích rút các b ba t
ụ ụ ư ự ệ ả ặ
ể ử ụ ệ ố ả ạ ng pháp trích rút ừ ủ ữ ệ d li u văn b n ph c v cho vi c xây d ng đ c tr ng c a ậ văn b n có th s d ng trong các h th ng phân lo i, ph n
ắ ề ả ấ ươ ế ụ c m và tóm t t văn b n; Đ xu t ph
ữ ệ ệ ệ ế ả di n d li u văn b n và cá nhân hoá tìm ki m đa di n s
ị ướ ử ằ ng pháp tìm ki m đa ử ủ Wikipedia ữ ệ ụ d ng d li u đ nh h ậ ng x lý nh p nh ng c a
ệ ể ố ế ụ Disambiguation có th áp d ng cho các h th ng khuy n
ị ệ ngh , các h chuyên gia.
ủ ấ ậ 7. C u trúc c a lu n án
ậ ồ ươ Lu n án g m 4 ch ư ng nh sau:
ươ ứ ơ ở ế Ch ng 1. Ki n th c c s
ươ ữ ự ế ả ộ Ch ng 2. Tìm ki m ng nghĩa d a trên n i dung văn b n
ươ ữ ế ươ Ch ng 3.Tìm ki m ng nghĩa có t ng tác
ệ ố ự ứ ữ ế ươ ng 4. Xây d ng H th ng tra c u, tìm ki m ng nghĩa
Ch thông tin b nhệ
Ứ Ơ Ở CH Ế NGƯƠ 1. KI N TH C C S
1.1. Ontology
7
ế ọ Ontology đ t h c cượ
Khái ni m:ệ Theo [36], trong tri ́ ́ ̃ ̃ ̀ự ự ̣ ̀ Triêt ly vê s tôn tai ̀ đinh nghia la “
̃ ̃ ̣ ̣ ̉ ọ ̣ ”. Trong linh v c tin h c, ̀ ươ ng môt biêu diên t ̀ Tom Gruber[36] đinh nghia Ontology la “
́ ̣ ặ ả ườ ứ t ng minh, hình th c và
ẻ ề ̣ ̣ ”, “môt đ c t minh các khai niêm ́ chia s v các khai niêm dùng chung ”.
Ứ ụ ấ Ontology cho phép c u trúc hoá ng d ng Ontology:
ệ ữ ố ượ ố ự ệ ộ các m i quan h gi a các đ i t ng, thu c tính, s ki n, quá
ế ớ ự trình trong th gi i th c [71].
RDF,DAML+OIL,OWL ữ Các ngôn ng Ontology:
ự ế ạ ồ g m 04 giai đo n Ti n trình xây d ng ontology:
1.2. Trích rút thông tin từ văn b nả
ặ ư ổ ế 1.2.1. Trích rút đ c tr ng ph bi n
1.2.1.1. TFIDF trích rút thông tin văn b nả ượ ử ụ ộ TFIDF là mô hình đ ệ c s d ng r ng rãi trong vi c
ả ư ặ
ỗ ừ ộ ố ố ắ ớ ả b n TFIDF g n v i m i t
ứ ộ ủ ừ ọ m c đ quan tr ng c a t
ộ ậ ề ả ả ằ trích rút thông tin văn b n. Mô hình trích rút đ c tr ng văn ể ệ m t con s th ng kê th hi n ữ ả ả này trong văn b n, trong ng c nh ầ ợ văn b n n m trong m t t p h p nhi u văn b n. TF tính t n
ệ ủ ừ ấ ệ ả ắ ố s xu t hi n c a t trong văn b n. Các tài li u dài ng n khác
ế ố ầ ẽ ẫ ộ ừ ủ ấ nhau s d n đ n s l n xu t hi n ệ c a m t t
ệ ủ ầ ố ộ ừ ấ ả ượ ẩ đó, t n s xu t hi n c a m t t ph i đ khác nhau. Do ằ c chu n hóa b ng
ệ ộ cách chia cho đ dài tài li u [64].
ử ụ ả 1.2.1.2. S d ng NER trong trích rút thông tin văn b n
8
ị ừ ả NER cho phép xác đ nh danh t riêng trong văn b n và
ạ ươ ứ ự ể ớ phân lo i chúng vào các l p th c th có tên t
ự ụ ệ ể ộ ị ng ng [64]. ọ Xác đ nh th c th có tên cũng là m t nhi m v quan tr ng
ụ ử ữ ự ệ trong các nhi m v x lý ngôn ng t nhiên.
ả ệ ữ 1.2.2. Trích rút quan h ng nghĩa trong văn b n
H th ng
ừ ự ả ệ ố Open Information Extraction(OpenIE) trích ệ ộ văn b n d a trên các quan h rútcác b ba (arg1, rel, arg2) t
ố ố ủ ệ ớ ộ v i đ ng t ừ ở ,
ệ ố ữ ệ rel là quan h ng nghĩa. Trong khi các h th ng IE khác ch
ượ ướ ệ ậ ị đây arg1 và arg2 là các đ i s c a quan h và ỉ ệ c đ nh nghĩa tr c, h ậ t p trung vào t p các quan h đã đ
ự ố ươ th ng OpenIE d a trên các ph
ố ượ ệ ẽ ộ giám sát. Do đó s l ng pháp khai thác không có ể ng các quan h s linh đ ng. Đi m
ấ ữ ệ ủ ả ạ ầ m nh c a OpenIE là không yêu c u ph i cung c p d li u đã
dán nhãn
1.3. Các mô hình tìm ki mế
ế ươ 1.3.1. Tìm ki m t ng tác
ế ươ Tìm ki m t ng tác (
ươ ự ự ươ [105] là ph ế ng pháp tìm ki m d a vào s t
ườ ớ ệ ố ừ ệ ố ữ ng i dùng v i h th ng, t
ủ ế ớ ị ả ươ ứ ợ Interactive search)[4], [101], ủ ng tác c a ế ư đó h th ng đ a ra nh ng k t ườ i qu t ng ng cho phù h p v i ý đ nh tìm ki m c a ng
dùng.
ữ ế 1.3.2. Tìm ki m ng nghĩa
ớ ệ ề ữ ế 1.3.2.1. Gi i thi u v tìm ki m ng nghĩa
ữ ế Tìm ki m ng nghĩa (Semantic search) [36], [38], [75]
ướ ớ ủ ệ ấ ộ h ng t i tăng đ chính xác c a vi c trích xu t thông tin
9
ắ ượ ủ ế ị ườ ằ b ng cách n m đ c ý đ nh tìm ki m c a ng i dùng, cũng
ư ữ ả ệ ố ế
ữ ế ề ấ ộ ồ ki m ng nghĩa xem xét r t nhi u n i dung g m có: ng
ườ ể ế ệ ị nh là ng c nh trong không gian tìm ki m. H th ng tìm ữ ữ ị ả c nh tìm ki m, đ a đi m, ý đ nh ng i dùng, quan h ng
ữ ệ . nghĩa gi a các khái ni m
ế ữ 1.3.2.2. Các công trình nghiên c u v tìm ki m ng nghĩa
ế ề ứ ự
̃ ủ ế ậ ứ ề Nhìn chung, các nghiên c u v tìm ki m d a trên ng ̃ ư ệ ệ ệ ả ả
ế ướ ữ ố ồ ki m theo b n h ng chính:
ừ ư nh WordNet, UMLS, Sensus;
ử ụ ở ộ ậ Trích rút thông tin t ỹ ấ ; S d ng các k thu t khác đ h và m r ng câu truy v n
ư ử ữ ự ế ợ tr quá trình tìm ki m nh x lý ngôn ng t nhiên, logic m
ử ậ ằ nghia hi n nay ch y u t p trung c i thi n hi u qu tìm ứ Khai thác nh ng ngu n tri th c ệ tài li u ể ỗ ờ ạ classification); Xây d ng,ự (fuzzy), kh nh p nh ng, phân lo i (
ể ễ ấ ớ ệ . bi u di n và so kh p các c u trúc khái ni m
ế ệ 1.3.2.3. Tìm ki m đa di n (faceted search)
ế ế ệ ậ ộ ỹ Tìm ki m đa di n là m t k thu t trong tìm ki m ng
ấ ượ ữ ỉ ụ c đánh ch m c nghĩa cho phép truy xu t thông tin đã đ
ướ ạ ệ ố ệ ớ d i d ng h th ng phân l p đa di n (facet).
ậ ế ợ 1.4. Lu t k t h p
ượ ử ụ Lu t k t h p ( ậ ế ợ Association Rules) đ ộ c s d ng r ng
ể ể ị ự ế ợ ữ ệ
ớ ữ ệ ộ ượ ườ ị rãi đ bi u th s k t h p trong các dòng d li u [97]. Quan ố i ta mu n ng l n d li u các phiên giao d ch, ng sát m t l
ượ ụ ự ậ tìm ra đ
ề ậ ế ợ ứ ọ ụ c các quy lu t, ph c v cho các d đoán [54]. ố Nghiên c u v lu t k t h p đóng vai trò quan tr ng trong s
ươ ữ ệ các ph ng pháp khai phá d li u [97].
10
ươ ế 1.5. K t ch ng
ươ ơ ả ứ ế Ch ng 1 đã trình bày các ki n th c c b n v ề
ươ ừ ontology; các ph ng pháp trích rút thông tin t ả văn b n; các
ế ươ ậ ế ợ mô hình tìm ki m và ph
ề ấ ợ ỗ ợ ươ ơ ở c s cho đ xu t tích h p ontology và h tr t ng pháp khai phá lu t k t h p làm ớ ng tác v i
ườ ử ụ ệ ố ữ ế ng i s d ng trong h th ng tìm ki m ng nghĩa.
ƯƠ Ộ Ữ Ự Ế CH NG 2. TÌM KI M NG NGHĨA D A TRÊN N I DUNG
VĂN B NẢ
ự ữ ừ ự 2.1. Trích rút triple d a trên mô hình ng pháp và t v ng
2.1.1.Trích rút triple
ề ậ ấ ươ Trong [CTLA3], lu n án đ xu t ph
ạ ộ ự ữ ế ấ ng pháp phân ừ , tích c u trúc ng pháp ti ng Anh d a vào lo i đ ng t
ộ ừ ể ề ộ ụ
c m đ ng t ệ
đ phân tích m t m nh đ thành ử ụ predicate>, sau đó s d ng mô hình cú pháp (Syntax Model) ể ầ ộ ế ơ đ phân tích 02 thành ph n này m t cách chi ti ể ệ ữ ượ ệ ữ hình cú pháp không nh ng th hi n đ c quan h gi a ch ể ệ ữ ữ ượ ng và tân ng trong câu mà còn th hi n đ t h n. Mô
ủ
ệ c quan h ữ ừ ẽ ậ ả gi a các t khác trong câu, vì v y s tăng kh năng trích ượ ệ ợ ộ ộ rút đ ề
c các b ba phù h p trong m t m nh đ . ữ ệ ả 2.1.2. Quy trình trích rút thông tin d li u văn b n ự ể ệ ậ 1. NER nh n di n các th c th có tên. ủ ệ ấ ầ ấ ọ ộ ừ 2. Tính t n su t xu t hi n và đ quan tr ng c a các t ấ
xu t ệ ả ộ
hi n trong toàn b văn b n TFIDF. ử ụ ả ủ ậ ế
3. Trích rút triple s d ng k t qu c a NER và xác l p quan ố ượ ữ ữ ng trong câu, các câu trong ệ
h ng nghĩa gi a các đ i t
văn b n. ả
ễ ướ ạ ể ố ượ ấ ả
ăn b n d 4. Bi u di n v i d ng c u trúc các đ i t ng có ệ ữ ố m i quan h ng nghĩa. 2.1.3. Đánh giá ươ ề ấ ấ Ph ầ
ng pháp đ xu t trích rút chính xác g p 1.7 l n ớ ệ ố ủ ớ ươ so v i ClausIE. So v i h th ng c a Ollie, ph ng pháp đ ề ấ ạ ấ ầ xu t đ t g p 2.7–2.8 l n ệ ữ ệ ế ả 2.2. Tìm ki m đa di n d li u văn b n ề ấ ậ ộ Trong [CTLA5], lu n án đã đ xu t m t ph ữ ệ ự ụ ể ệ ế ươ
ng
ả
pháp đ xây d ng công c tìm ki m đa di n d li u văn b n ướ ồ
g m các b c sau: ự ế ị ướ ử ậ 1. Xây d ng tham chi u đ nh h ằ
ng x lý nh p nh ng ử ụ
s d ng Wikipedia ( Wikipedia Disambiguation). ự ữ ế ử ụ
2. Xây d ng không gian tìm ki m ng nghĩa s d ng ị ướ ử ằ ậ ế
tham chi u đ nh h ng x lý nh p nh ng. ế ị ự ướ ử ằ 2.2.1. Xây d ng tham chi u đ nh h ậ
ng x lý nh p nh ng s ử ụ
d ng Wikipedia ữ ệ ử ụ ậ ị ướ Lu n án s d ng các trang d li u đ nh h ự ể ế ậ ằ ị ướ nh p nh ng đ xây d ng các facet tìm ki m đ nh h ử
ng x lý
ử ng x ằ ậ lý nh p nh ng. ử ụ ự ữ ế 2.2.2. Xây d ng không gian tìm ki m ng nghĩa s d ng tham ướ ử ậ ằ ế ị
chi u đ nh h ng x lý nh p nh ng ữ ế ượ Không gian tìm ki m ng nghĩa đ ư ữ ế ệ ướ ị cách l u tr các tài li u theo tham chi u đ nh h ằ
ự
c xây d ng b ng
ử
ng x lý ộ ươ ằ ậ ự ữ ể
nh p nh ng. Đ tính toán đ t ng t ệ
gi a tài li u và khái ừ ụ ử ụ ừ ế ế ậ ệ
ni m (t , c m t ) tham chi u đ n, lu n án s d ng phép đo ự ộ ươ
đ t ng t cosin: ộ ươ ự ữ ệ là đo đ t ng t gi a văn b n ả dj và khái ni m c th
ủ ư ặ ụ ể
ả dj, Wq là vector q, trong đó, Wj là vector đ c tr ng c a văn b n ư
ặ
đ c tr ng c a ủ q. ữ ệ ị ế ướ ả
2.2.3. Đánh giá k t qu trích rút d li u đ nh h ậ
ng lý nh p ằ ừ nh ng t Wikipedia Disambiguation ế ậ ả Lu n án đã ti n hành đánh giá ế
k t qu trích rút d ữ ệ ướ ử ằ ậ ừ ị
li u đ nh h ng x lý nh p nh ng t ớ ế ữ ệ ằ Wikipedia
ả Disambiguation b ng cách so sánh d li u thô v i k t qu ượ ả ộ ế đ c trích rút. K t qu đ chính xác là trên 93%. ươ ế ệ 2.3. Ph ng pháp cá nhân hóa facet trong tìm ki m đa di n ề ấ ươ ậ
Trong [CTLA4], lu n án đ xu t ph ế ệ ử ụ ữ ệ ướ ị nhân hóa tìm ki m đa di n s d ng d li u đ nh h ạ ằ ậ nh p nh ng ( ả ủ ư ế ằ ớ ợ ng pháp cá
ử
ng x lý
ộ
Wikipedia Disambiguation) và m ng xã h i
ườ
i ế
nh m đ a ra k t qu tìm ki m phù h p v i profile c a ng ồ ướ ử ụ
s d ng g m các b c sau: ướ ự ệ ẩ ị ữ ệ
• B c 1: Chu n b d li u, th c hi n các b ướ ấ
c l y ử ị ướ ử ằ Wikipedia ữ ệ
và x lý d li u đ nh h ậ
ng x lý nh p nh ng ( Disambiguation). ị ồ ơ ướ ườ ẩ
• B c 2: Chu n b h s ng ạ
i dùng, t o h s ồ ơ ườ ấ ừ ồ ơ ườ ng i dùng l y t h s ng i dùng Facebook. ế ấ ả ệ ử ụ ủ K t qu cho th y vi c s d ng profile c a ng ế ế ả ị ượ ườ
i
ợ
c các k t qu tìm ki m phù h p dùng đã giúp xác đ nh đ ườ ử ụ ớ
v i ng i s d ng. ươ ế
2.4. K t ch ng ươ ề ự
ng pháp rút trích triple d a Ch ấ ph
ngươ 2 đã đ xu t
ể ụ ụ ậ ơ ở ươ ứ ề ế ấ ự
d ng c s tri th c; đ xu t ph ữ ệ ướ ự ử ả ị ữ ệ
d li u văn b n d a trên d li u đ nh h ủ ề ấ ằ trên mô hình cú pháp dùng đ thu th p thông tin ph c v xây
ệ
ng pháp tìm ki m đa di n
ậ
ng x lý nh p
ươ
ng nh ng c a Wikipedia Disambiguationvà đ xu t ph ế ệ ế ệ ạ ế ả ấ ớ ợ ữ ệ ế ố pháp cá nhân hoá tìm ki m đa di n. Tìm ki m đa di n cho
ệ ử
phép phân lo i k t qu theo các facet r t phù h p v i vi c s
d ngụ ontology trong các h th ng tìm ki m ng nghĩa có
ươ
t ng tác. ƯƠ Ữ Ế ƯƠ CH NG 3. TÌM KI M NG NGHĨA CÓ T NG TÁC ử ụ ữ 3.1. S d ng lu t k t h p ậ ế ợ trong tìm ki m ế ng nghĩa thông tin b nhệ ố ươ ữ ệ m i t ứ
ng quan gi a các tri u ch ng ử ụ ậ ế ợ ể Đ ể xác đ nhị
ậ
ớ
ệ
b nh v i nhau, lu n án ố ệ ề m i quan h trong d li u ứ ể ệ ề ấ ộ s d ng lu t k t h p đ khai thác
ệ
ữ ệ , c thụ ể: M t b nh có nhi u tri u
ộ ệ
ệ ở
ứ
ch ng, m t tri u ch ng có th xu t hi n ộ ố ệ ệ ế ợ ứ ệ
nhi u b nh khác
ấ
ố
nhau. M t s tri u ch ng có m i quan h k t h p, cùng xu t ệ ệ ộ ừ ậ hi n trong m t b nh. T đó lu n án ể
phát bi u bài toán ư [CTLA2] nh sau: ậ ệ D={d1, ..., dn}, v i ớ di, i=1,2,…,n là D là t p các căn b nh, các căn b nh.ệ ộ ậ ứ ứ ệ ệ ồ T là m t t p tri u ch ng bao g m các tri u ch ng khác nhau T={t1, ..., tm}, v i ớ tj, j = 1,2,...,m là các tri u ch ng. ứ ệ ỗ ớ ệ
ứ
ứ tj (tj (cid:0) M i căn b nh ộ ậ
ệ di ng v i m t t p các tri u ch ng T) ư ậ ề ầ ả ậ ệ
Tìm t p các tri u ấ
Nh v y v n đ c n gi ế
i quy t là: ứ ườ ộ ệ ệ ấ ch ng th ng xuyên xu t hi n cùng nhau trong m t b nh, ươ ế ợ ứ ệ ậ tính t ữ
ng quan, tính k t h p gi a các t p tri u ch ng. 3.2. Lu t k t h p ậ ế ợ trong Ontology b nhệ (ASOAssociation rule in DiseaseOntology) ề ấ ậ ộ ươ Lu n án đ xu t m t ph ỗ ợ ệ ậ ế
ng pháp khai phá lu t k t
ọ ườ ự ợ
h p trong Ontology b nh, h tr i dùng l a ch n các ng ứ ự ế ệ ọ ụ ể
tri u ch ng, l a ch n facet trong tìm ki m. C th : ậ ế ợ ứ ệ ượ ử ụ ữ
Lu t k t h p gi a các tri u ch ng đ c s d ng đ ể ệ ế ườ ử ụ ứ
ợ
g i ý các tri u ch ng ti p theo cho ng i s d ng. ữ ữ ế ậ ợ Lu t k t h p ng nghĩa gi a các quan h ệ (subclasses, properties) trong Ontology b nh. Các quan h ệ
ệ ượ ử ụ ỗ ớ ệ subclasses đ ượ ử ụ ệ ộ là m t facet. Các quan h properties đ ế
c s d ng trong tìm ki m đa di n, m i l p con
ể ợ
c s d ng đ g i ý ườ ự ế ọ ộ ng i dùng l a ch n thu c tính (property) ti p theo. ậ ế ợ ử ụ ể ậ Đ khai phá các lu t k t h p trên, lu n án s d ng d ữ ầ ệ ỗ ệ ẽ ộ ệ
li u đ u vào là: Ontology b nh, m i b nh s có m t danh
15 ứ ươ ứ ệ ệ
sách các tri u ch ng t ữ ứ ệ ố ụ ể ứ
ng ng và Ontology tri u ch ng
ệ ổ
[113], trong đó gi a các tri u ch ng có 02 m i quan h t ng
ơ
h n more_generation”), ơ
h n quát c (“ th (“more_specification”. ậ ự * Thu t toán ASOApriori ắ
d a trên 02 nguyên t c sau: ắ ầ ử ế ộ ậ
N u m t t p ph n t ậ
A là t p ph ổ + Nguyên t c 1: ồ ạ ậ bi n (ế frequent itemset), thì không t n t ộ ậ ầ ử ố A có m i quan h “ ầ ử ộ ậ ớ ầ ử
i t p con ph n t
ệ more_specification”
ổ ế thu c t p ph n t
ho c “ặ a_part_of” v i m t t p ph n t không ph bi n khác. ị ầ ử ộ ứ ệ M t ph n t (tri u ch ng) y đ cượ Đ nh nghĩa 3.1: ủ ế ư ọ
g i là ầ ử x n u nh ph n t ầ ử y có m iố ớ InstanceOf c a ph n t
quan h “ệ more_specification” ho c “ặ a_part_of” v i ph n t ầ ử x. y IsOf x. ệ
Ký hi u là: ứ ụ ệ
Ví d , tri u ch ng severe abdominal cramp là IsOf ệ ứ ứ ệ severe abdominal cramp do tri u ch ng ớ ủ
c a tri u ch ng
abdominal cramp có quan h ệ more_specification v i tri u
ệ
ch ng ứ abdominal cramp. ị ộ ậ ầ ử ậ ứ M t t p ph n t ệ
(t p tri u ch ng) Đ nh nghĩa 3.2: ượ ọ ủ ậ Y=y1y2…yk đ c g i là InstanceOf c a t p ph n t ố ư yi=xi ho cặ yi có m i quan h “ ớ ớ ầ ử xiv i m i ầ ử X=x1x2…xk
ệ more_specification”
ọ i=1..k. Y IsOf X. ế
n u nh
ho c “ặ a_part_of” v i ph n t
ệ
Ký hi u là: ụ ậ ứ ệ severe abdominal cramp, Ví d , t p tri u ch ng { ủ ậ abdominal cramp, abdominal discomfort} là IsOf c a t p { ứ ệ severe abdominal abdominal discomfort} vì tri u ch ng ệ ớ cramp có quan h ứ
ệ more_specification v i tri u ch ng abdominal cramp. ị ị ộ ậ
Cho m t t p ph n t ầ ử X, giao d ch Ti. Đ nh nghĩa 3.3: ị ượ ỗ ợ ở ộ ọ Giao d ch Tiđ c g i là h tr m r ng đ i v i t p ố ớ ậ X n uế ư ồ ạ ả nh t n t i m t t p ộ ậ Y là IsOf c a ủ X tho mãn ị ộ ỗ ợ ở ộ
Đ h tr m r ng ( Y(cid:0) Ti
Supportext) Đ nh nghĩa 3.4: ủ ậ ộ ỗ ợ ở ộ
Đ h tr m r ng ( Supportext) c a t p ph n t ị ầ ử X là
ỗ ợ ở ộ
D h tr m r ng ỷ ố ữ ố ượ
t
s gi a s l ng giao d ch trong CSDL ủ ọ ổ ố ị
X và t ng s giao d ch c a D (g i là N). trong đó: δ ố ượ (X*) : s l ị
ng giao d ch trong D có ch a ứ X*. ị ở ộ ậ ộ Đ tin c y m r ng ( Confidenceext) Đ nh nghĩa 3.5: ở ộ ậ ộ Đ tin c y m r ng ( Confidenceext) c a ủ XY là t ị ỗ ợ ở ộ ng giao d ch trong CSDL D h tr ố ượ ị ng giao d ch trong CSDL sỷ ố
ậ
m r ng t p
ỗ ợ ở ộ
D h tr m r ng ữ ố ượ
gi a s l
{X∪Y} và s l
t p ậ X. ố ượ Trong đó:
()δ : s l ị
ng giao d ch trong D có ch a .ứ ố ượ ()δ : s l ị
ng giao d ch trong D có ch a .ứ ề ệ ở ộ ấ Tính ch t Apriori m r ng. M nh đ 3.1: ệ ậ Cho hai t p tri u ch ng ứ X, Y. N u ế X(cid:0) Y thì ≤ ứ Ch ng minh: ị ấ ỳ Xét giao d ch Ti b t k trong CSDL ở ộ ỗ ợ ở ộ D, n u ế Ti h trỗ ợ
ậ ậ m r ng t p ậ Y thì Ti h tr m r ng t p ậ Y. Th t v y:
ộ Y* là IsOf Y mà Y*(cid:0) Ti ứ
ỗ ợ Y, t c là t n t i m t ả ồ ạ
Ti h tr
T ừ Y* là IsOf Y và X(cid:0) Y suy ra t n t ồ ạ X*tho mãn i X*(cid:0) Y*vàX* là IsOf X. ư ậ ị
Nh v y, theo Đ nh nghĩa 3.3 ta có ỗ ợ ở ộ
Ti h tr m r ng X (đpcm). ị ổ ế ệ ậ ứ
T p tri u ch ng ph bi n. Đ nh nghĩa 3.6: ộ ậ ứ ượ ệ ậ ọ X đ ứ
c g i là t p tri u ch ng ổ ế ệ
M t t p tri u ch ng
ư min_sup. ế
ph bi n n u nh ≥ ị ậ ế ợ ứ ệ ậ Lu t k t h p trên t p tri u ch ng Đ nh nghĩa 3.7: ượ ậ ế ợ ứ ệ ậ ọ đ ế
c g i là lu t k t h p trên t p tri u ch ng n u nh ≥ ư minSup và ≥min_conf ắ ậ ế ợ
ứ
Ontology hàm ch a các lu t k t h p + Nguyên t c 2: ể ệ ữ ố ệ
ng nghĩa th hi n qua các m i quan h . ư ưở ủ ậ * T t ng chính c a thu t toán ASOApriori ấ ả ổ ế ừ ứ ệ ậ D Tìm t t c các t p tri u ch ng ph bi n t CSDL ứ ứ ị ươ và t p ậ I,trong đó CSDL D ch a các giao d ch t
ị ộ ậ ứ ứ ệ ệ ỗ ệ ả các b nh, m i giao d ch ch a m t t p tri u ch ng.
ch a ứ ứ
tri u ch ng và m các t c ấ
t ớ
ng ng v i
T p ậ I
ối quan hệ:
ệ ứ ữ “more_specification”, “a_part_of” gi a các tri u ch ng. ậ ế ợ ừ ậ ổ ế ệ Sinh lu t k t h p t ứ
t p tri u ch ng ph bi n. ậ ế ợ ự ố
ữ
Sinh ra lu t k t h p ng nghĩa d a trên các m i ệ ệ quan h trong Ontology b nh. ớ ể ậ Thu t toán ASOApriori có 02 đi m m i sau đây: ử ụ ộ ASOApriori s d ng ộ ỗ ợ ở ộ
đ h tr m r ng và đ tin ổ ế ứ ể ậ ị ậ
ở ộ đ xác đ nh t p tri u ch ng ph bi n và lu t
ệ ậ
c y m r ng ữ ứ ệ ế ợ
k t h p gi a các tri u ch ng. ậ ế ợ ữ ự ố
Khai phá lu t k t h p ng nghĩa d a trên các m i ệ ệ quan h trong Ontology b nh. ậ * Thu t toán ASOApriori ổ ế ứ ệ ạ ậ Giai đo n 1: Sinh t p tri u ch ng ph bi n ASOAprioriGenFrequentSymptom ộ ỗ ợ ở ộ ủ ậ 1. Duy t ệ CSDL, tính đ h tr m r ng c a t p ch ỉ ệ ổ ế ứ ượ ậ ấ ả ể ệ ậ ồ
g m 1 tri u ch ng ph bi n (frequent 1symptom), so sánh
ứ
v i ớ min_sup, đ có đ
t c các t p 1 tri u ch ng c t p t ổ ế ọ ph bi n (g i là L1). ể ố ử ụ
2.1. S d ng Lk1: N i (join) các c p ặ Lk1 đ sinh ra các ệ ọ ậ ứ
t p ng viên ứ
ktri u ch ng, g i là Ck. ứ ạ ỏ ự ệ 2.2. Lo i b các ng viên ứ
ktri u ch ng d a trên ề ệ m nh đ 3.1. ệ ộ ỗ ợ ở ộ ể ể ớ ỗ ổ ế ứ ệ ủ
ị
2.3. Duy t CSDL đ xác đ nh đ h tr m r ng c a
ậ
so sánh v i min_sup đ nh n
k–symptom (g i làọ m i candidate ksymptom,
ượ ậ ktri u ch ng ph bi n frequent c t p đ Lk). ậ ứ ế ặ ạ ừ ướ
i t b c 2 cho đ n khi t p ng viên ktri uệ 3. L p l
ch ng ứ Ck tr ng.ố ả ề ậ ấ ả ổ ế ứ ệ ậ 4. Tr v t p t t c các t p tri u ch ng ph bi n. Giai đo n 2ạ : ầ ậ ấ ả ứ ệ ậ Đ u vào: T p t t c các t p tri u ch ng ph bi n ổ ế Lk, ưỡ ng ng minconf. ậ ầ ậ
Đ u ra: T p lu t 2) { ASOApriori_GenRules (Lk) {
for (frequent symptomset lk ,k(cid:0)
call Genrules (lk, lk); } Genrules(lk:frequent ksymptomset; am: frequent m symptomset) { A={(ml)symptomset am1 | am1(cid:0) am};
for( am1(cid:0) A ) { conf =supportexxt (lk)/supportexxt (am1);
if (conf (cid:0) minconf) { output the rule am1(cid:0) (lk –am1),
With confidence =conf and support=supportext (lk); if (m1> l) { call Genrules(lk, am1); } } ậ ế ợ ữ ắ
Sinh các lu t k t h p ng nghĩa theo Nguyên t c 2: ầ Đ u vào: Ontology O, b nh ệ d; ầ ậ Đ u ra: T p các quan h ệ R (subclasses, properties) c aủ b nh ệ d trong O. ệ ủ ệ ừ ố ASOApriori_GenRulesFromOntology (O, d) { R=;
for (quan h r ệ (cid:0) (O,d) ) { // xét t ng m i quan h c a b nh d trong O; ạ R=R(cid:0) r;// lu t k t h p d ng: d r;
ậ ế ợ } return R; } 3.3. Đánh giá ươ ộ ộ ủ 3.3.1. Ph ng pháp đánh giá đ chính xác và đ bao ph Sử d ngụ ph ủ ộ ngươ pháp đánh giá trong truy h iồ thông
tin v iớ tiêu chí đánh giá F là sự k tế h pợ c aủ hai tiêu chí đánh
giá Precision (độ chính xác) và Recall (đ bao ph ): ộ ậ ợ + Đ chính xác ( Precision): Trong t p h p tìm đ ượ
c ầ ượ thì có bao nhiêu ph n tìm đ c là đúng. ộ ố ầ ử ồ ạ + Đ bao ph ( t n t i thì tìm ượ ủ Recall): Trong s ph n t
ầ ử
. ra đ c bao nhiêu ph n t 3.3.2. K tế quả ệ ệ ố ổ T ng s khái ni m b nh: 9.801 ổ ứ ố ệ
T ng s tri u ch ng: ổ T ng s ế ệ ỗ ộ ế ở ỉ có đ n 9.801 transaction, tuy nhiên ệ ệ ầ ở 3.098
ố Transaction: 1.798
ệ
N u xem m i khái ni m b nh là m t transaction thì ta
ọ ọ
đây NCS ch ch n l c
ồ
1.798 b i vì đa ph n các khái ni m b nh khác không bao g m ệ ệ ứ ớ ố ậ ế ợ ổ 1, thì t ng s lu t k t h p (Association rule) là 692. NCS s ườ ượ ệ ở các tri u ch ng b nh. V i min_support = 2 và Confidence =
ử
ể ự
trên đ th c ụ
d ng 300 b nh th ặ
ng g p đã đ c rút trích ệ ố ệ ớ ả ậ nghi m h th ng v i hai gi i thu t khác nhau: Apriori và ASOApriori. ươ ế
3.4. K t ch ng ươ ươ Ch ng 3 đã trình bày ph ữ ệ ế ươ ớ ậ ế
ử ụ
ng pháp s d ng lu t k t
ấ
ề
ợ
h p trong tìm ki m ng nghĩa thông tin b nh và đ xu t
ệ
ậ ế ợ
ng pháp m i khai phá lu t k t h p trong Ontology b nh ph ượ ọ đ c g i là ASOApriori . ƯƠ Ự Ứ CH NG 4. XÂY D NG H TH NG Ệ Ố TRA C U, TÌM Ữ
KI M Ế NG NGHĨA THÔNG TIN B NHỆ ệ ố ữ ổ ệ ế 4.1. T ng quan h th ng tìm ki m ng nghĩa thông tin b nh ướ ả Hình 4.1 d i đây mô t ữ ế ế ộ ệ tìm ki m ng nghĩa thông tin b nh. Các n i dung ti p theo s ệ ố
ầ ủ
các thành ph n c a H th ng
ẽ ầ ủ ệ ố ỉ ch ra các thành ph n c a h th ng. 4.2. Xây d ng ự Ontology b nhệ ọ 4.2.1. L aự ch n disease ontology ệ Ontology b nh ( ạ ệ ữ ừ ự ế ợ
h p ng nghĩa các lo i b nh và t Disease Ontology – DO) cho phép tích
ơ ở ế
trên c s k t v ng y t ữ ư ệ http://disease ệ
ợ
h p các kho d li u b nh nh : DO ( ừ ể ồ ontology.org), MeSH, ICD, t ề ư ể ớ đi n đ ng nghĩa NCI,
ự ệ
SNOMED và OMIM [1013]. V i nhi u u đi m và s ti n ợ ủ ượ ể ệ l i c a CSDL này, CSDL DO đ c Vi ụ ấ ộ ồ ả ệ ể ả ấ ộ t hoá đ dùng làm
ặ
thông tin. M c tiêu là cung c p cho c ng đ ng y sinh các đ c
ử b nh m t cách nh t quán, có kh năng tái s đi m miêu t ề ữ ụ
d ng và b n v ng. tự đ ngộ Google Translation ự ộ ậ 4.2.2. D chị
ị
D ch t đ ng Google Translation cho phép c p nh t t ậ ự ể ả ớ ộ
đ ng do các phiên b n ontology luôn phát tri n m i. 4.2.3. Tinh ch nhỉ bán tự đ ngộ
ạ
ủ ạ ượ ấ ụ M c tiêu c a giai đo n này là t o đ ự ệ ầ ệ ẩ ban đ u cho Ontology b nh, d a trên các tài li u chu n nh ơ ả
c c u trúc c b n
ư ẽ ượ ể ớ ớ ICD,… Ontology này sau đó s đ c dùng đ so kh p v i DO ử ạ ế ằ ặ ỉ thông qua mã ICD ho c tên ti ng Anh nh m ch nh s a l i các ự ộ ỗ ị
l i d ch t đ ng. 4.2.4. Ch nhỉ
ậ s aử c ngộ tác Ontology b nhệ
ươ ố ớ Lu n án dùng ph ế
ng pháp th ng kê v i hai cách ti p ậ ế ữ ệ ủ ậ ậ ồ ươ ự ệ ế
ậ
c n: ti p c n d li u và ti p c n đ ng thu n c a Bác sĩ
ầ
ng pháp chuyên gia) trong xây d ng Ontology b nh. Đ u (ph ủ ệ ể ẽ ượ ồ ạ tiên, tên c a 6.000 b nh s đ ể
c ki m tra đ xem có t n t ệ ố ệ ế
ệ
b nh qua các h th ng tìm ki m. Các tên b nh không t n t ự ị ế ẽ ượ i tên
ồ ạ
i
ồ
c các bác sĩ phiên d ch d a trên đ ng trong tìm ki m s đ
thu n.ậ ế ậ ữ ệ
a. Ti p c n theo d li u ế ậ ữ ệ ả ư ế Theo ti p c n d li u, có hai gi thuy t nh sau: ệ ượ ị ồ ạ ệ 1. Tên b nh đ c d ch chính xác là tên b nh t n t ườ ườ ỏ ng i dùng th ượ
i, đ
c
ệ ố
ẻ
ng h i đáp, chia s trên các h th ng Internet. ệ ượ ị ệ ồ ạ 2. Tên b nh đ c d ch chính xác là tên b nh t n t i, đ ế ề ậ ổ ứ ượ
c
ệ
đ c p trong các tài li u các chuyên gia hay t ch c y t ạ trên m ng Internet. ế ậ ồ ậ ủ b. Ti p c n đ ng thu n c a các Bác sĩ ự ề ộ ồ ở ệ 1. Xây d ng nhóm c ng tác, g m nhi u Bác sĩ ệ
B nh vi n Ươ Trung ế
ng Hu . ộ ậ ệ ầ ằ ươ 2. Ban đ u, các bác sĩ làm vi c đ c l p, b ng ph ng pháp ệ ặ ố ượ ề ấ th ng kê ho c kinh nghi m có đ c, các bác sĩ đ xu t ra ườ ộ ậ ặ ệ
300 b nh th ng g p đ c l p. ườ ợ ạ ề ộ ố 3. Ng ố ẽ ổ
i đi u ph i s t ng h p l i theo m t th ng kê đ ể ậ ủ ự ồ tính toán s đ ng thu n c a nhóm. ả ế ả ề ừ ườ 4. Sau đó, tr k t qu v cho t ng ng ỗ
i, m i ng ử ế ớ ế ả ủ ợ ỉ ụ
t c ch nh s a k t qu c a mình cho phù h p v i k t qu ư ộ ả ạ ượ ế ườ ế
i ti p
ả
ả
c xem nh m t tham kh o ạ ượ
đ t đ c. K t qu đ t đ ấ ị
nh t đ nh. ự ồ ữ ế ậ 5. Quay l ạ ướ
i b ư ồ ạ ệ ị bác sĩ tham gia d ch các b nh ch a t n t c 2, cho đ n khi có s đ ng thu n gi a các
ệ i trên các h ế ố th ng tìm ki m. ế ộ 6. K t thúc quá trình c ng tác. ậ ữ ệ 4.3. Thu th p d li u ề ơ ệ ậ ạ ượ ệ
H n 3.000 tài li u v các b nh đ c thu th p t ạ ọ ế ư ệ ườ i các
ị
ng đ i h c y danh ti ng trên đ a th vi n uy tín và các tr ư ệ ổ ố ồ ư ợ ư ệ ư ệ ạ ọ ố ồ ượ bàn thành ph H Chí Minh nh Th vi n t ng h p thành
ạ
ph H Chí Minh, Th vi n Đ i h c Y D c, Th vi n Đ i ệ ạ ạ ọ ơ ọ
h c Y Ph m Ng c Th ch, ...Trong CSDL hi n có h n 6.000 ệ ệ ượ ệ ộ ấ khái ni m b nh đã đ c Vi t hóa. ệ ử ế ấ
giá cho vi c x lý các truy v n và tìm ki m các thông tin v Đây là m t CSDL r t quý
ề ệ ề ệ các căn b nh đang có. Các file m m li t kê danh sách các ậ ượ ậ ả ệ
b nh t t đã đ ứ ậ
c nhóm nghiên c u c p nh t và miêu t trong ồ ơ ứ .
CSDL có trong h s minh ch ng ự ươ ữ 4.4. Xây d ng ph ng pháp tìm ki m ế ng nghĩa có t ngươ ề ướ ồ ế tác đi u h ng lu ng tìm ki m ệ ố ườ ư ề Khi h th ng ch a có nhi u ng i dùng, các t ử ụ ườ ề ươ
ng
ậ
ư
i dùng và h th ng ch a nhi u, s d ng lu t ữ
tác gi a ng ệ ố
25 ữ ứ ề ệ ẽ ướ ế ợ
k t h p gi a các tri u ch ng s cho phép đi u h ứ ư ế ợ ườ ồ
ng lu ng
ệ
ệ
i dùng các tri u ch ng b nh tìm ki m, đ a ra g i ý cho ng ế ự ứ ữ ệ ầ ườ i dùng ti p theo d a vào nh ng tri u ch ng ban đ u mà ng
đã cung c p.ấ ệ ố ự 4.5. Xây d ng h th ng 4.5.1. C uấ trúc cơ sở dữ l i uệ ể ử ụ ầ Đ s d ng ontology DO, thì DO c n ph i đ ữ ộ ệ ả ở ị tr trong m t h qu n tr CSDL, ậ
đây lu n án thi ử ụ ệ ệ ả ả ượ ư
c l u
ế ế ượ
t k l
c
ị ữ ệ
ồ
đ CSDL b nh, và s d ng MySQL cho vi c qu n tr d li u
b nh.ệ 4.5.2. Khung tìm ki mế
ừ ế ợ
a. G i ý t khóa tìm ki m ứ ừ ợ
G i ý t khóa tìm ki m Ch c năng ề ươ ấ
ế cung c p tính năng
ườ ử ụ ữ ị ể
ợ
g i ý đ ngh đ tăng tính t ng tác gi a ng i s d ng và ệ ố
h th ng. ừ ợ
b. G i ý t khóa liên quan ứ ừ ớ ợ
G i ý t khóa liên quan Ch c năng ằ
nh m gi ộ ệ ứ ụ ệ ặ tri u ch ng có liên quan ho c thu c b nh khác, ví d khi ng ệ
i thi u các
ườ
i ọ ự ộ ố ừ ố ế
khóa tìm ki m “s t cao” ( fever), ọ ừ ạ ể ừ headache) và h d ng l i đ suy nghĩ, tìm t khóa ử ụ
s d ng l a ch n m t s t
“đau đ u” (ầ
ế ệ ố ẽ ớ ứ ệ ti p theo; lúc này h th ng s gi ệ
i thi u các tri u ch ng liên ứ ệ ớ ợ ậ quan v i các tri u ch ng g i ý là “co gi t” ( convulsions). ả ệ ế ế
c. Tìm ki m k t qu b nh ệ ự ườ ệ ố ế ẽ Khi ng ươ ượ ữ ứ ứ ệ ệ ớ ệ
b nh t i dùng th c hi n tìm ki m, h th ng s tìm
ườ
i c ng ng ng v i nh ng tri u ch ng b nh đ
26 ậ ớ ữ ệ ệ ố ệ dùng đã nh p vào ệ ẽ ọ ố ượ ắ ệ th ng s ch n ra d li u : V i d li u b nh có trong h th ng, h
ươ ứ đ
ữ ệ b nh t
ng ng ế
c s p x p theo ượ ớ ữ ệ ệ ố ượ
s l ng đã xem và đ c đánh giá ư ượ ậ ệ ậ ệ ố
có trong h th ng (ch a đ ; V i d li u b nh không
ệ c c p nh t CSDL b nh), thì h ẽ ố ế
th ng s tìm ki m trên Google. ị ế ế ể ả d. Hi n th k t qu tìm ki m ẽ ể ừ ế ế ả ố ị ỗ
K t qu tìm ki m s hi n th theo t ng kh i cho m i ượ ắ ế ừ ả ừ ố ướ ệ
b nh, và đ c s p x p t trái sang ph i, t trên xu ng d i. ệ ủ ệ ị ả ể ạ ầ Ph n trên hi n th nh đ i di n c a b nh. ố ượ ữ ệ ể ầ ườ ng ng ệ
i xem b nh ị
Ph n gi a hi n th tên b nh, và s l này. ố ể ủ ầ ị ườ ề ộ
i dùng v n i dung Ph n cu i hi n th đánh giá c a ng b nh.ệ ươ ế
4.6. K t ch ng ươ ệ ố ữ ế Ch ườ ử ụ ằ ợ ớ ỗ ợ ươ ng 4 trình bày H th ng tìm ki m ng nghĩa thông tin
ự
i s d ng b ng các g i ý d a ng tác v i ng ệ
b nh có h tr t ậ ứ ệ ậ
trên t p lu t khai thác đ ượ ừ
c t Ontology tri u ch ng và Ontology ệ
b nh [CTLA1]. Ứ Ậ Ế Ế K T LU N VÀ CÁC NGHIÊN C U TI P THEO ế ậ 1. K t lu n ứ ậ ươ Lu n án đã nghiên c u các ph ộ ệ ố ự ứ ữ ụ ế m t h th ng tìm ki m ng nghĩa và ng d ng xây d ng H ự
ng pháp xây d ng
ệ ữ ế ệ ệ ố ố th ng tìm ki m ng nghĩa thông tin b nh. H th ng này ạ ề ệ ệ ệ ả mang l ế
i hi u qu cho vi c tìm ki m thông tin v b nh khi ư ủ ầ ầ ầ ban đ u ch a có đ y đ thông tin đ u vào. Quá trình t ươ
ng ườ ậ ế ợ ệ ố ự ữ
tác gi a ng i dùng và H th ng d a trên lu t k t h p mang ả ệ ệ ễ ơ ớ ạ
l ậ ế ợ ự ế ề ề ố i hi u qu cao trong quá trình suy di n h n so v i vi c tìm
ễ ki m d a trên lu t k t h p truy n th ng. Đi u này cũng d ả ở ả ứ ệ dàng lý gi i b i b n thân Ontology b nh đã hàm ch a các ậ ế ợ ệ ữ ệ ệ ệ ộ ữ ề ệ ệ ấ ộ lu t k t h p bên trong nó – quan h gi a các khái ni m và
ạ
các thu c tính. Ngoài ra, Ontology b nh giúp vi c phân lo i
ễ các tài li u b nh theo m t phân c p ng nghĩa, đi u này d ệ ế ủ ả ậ ồ ươ ề ấ ộ (1) Đ xu t ph ừ ữ ệ ộ ế
dàng cho vi c tìm ki m. Các k t qu chính c a lu n án g m:
ự
ng pháp trích rút b ba (triple) d a
ả
d li u văn b n trên mô hình cú pháp, trích rút các b ba t ụ ụ ư ủ ự ệ ặ ả ph c v cho vi c xây d ng đ c tr ng c a văn b n; ề ấ ươ ữ ệ ế ệ (2) Đ xu t ph ng pháp tìm ki m đa di n d li u văn ệ ử ụ ữ ệ ế ị ả
b n và cá nhân hoá tìm ki m đa di n s d ng d li u đ nh ướ ử ằ h ậ
ng x lý nh p nh ng c a ủ Wikipedia Disambiguation; ấ ề ươ ậ ế ợ (3) Đ xu t ph ự ệ ộ ớ Ontology b nh (ASOApriori) d a trên 02 đ đo m i: đ h ợ ở ộ ậ ộ ng pháp khai phá lu t k t h p trong
ộ ỗ
ậ ế ợ
ở ộ
tr m r ng và đ tin c y m r ng và khai phá lu t k t h p ữ ữ ệ ệ ố ng nghĩa gi a các m i quan h trong Ontology b nh; ự ệ ế ệ (4) Xây d ng Ontology b nh ti ng Vi t; ề ấ ươ ệ ố (5) Đ xu t ph ữ ế ỗ ợ ươ ệ ớ ki m ng nghĩa thông tin b nh có h tr t ự
ng pháp và xây d ng H th ng tìm
ườ
i ng tác v i ng ằ ậ ế ợ ự ữ ậ ợ ế ợ ứ ữ ệ ử ụ
s d ng b ng các g i ý d a trên t p lu t k t h p gi a các
ệ
ậ k t h p ng nghĩa ố
các m i quan h ừ
t tri u ch ng và lu t
trên Ontology b nh.ệ ứ ế 2. Các nghiên c u ti p theo ế ụ ươ Ti p t c nghiên các ph ng pháp trích rút thông tin văn ươ ậ ế ợ ả
b n, các ph ậ ướ ề ế ồ ằ
ử
x lý nh p nh ng và đi u h ng pháp khai phá lu t k t h p trong ontology
,
ử ụ
ng lu ng tìm ki m s d ng ontology. Ọ Ụ
Ố Ủ Ả Ậ Ế DANH M C CÁC CÔNG TRÌNH KHOA H C ĐÃ CÔNG
B C A TÁC GI CÓ LIÊN QUAN Đ N LU N ÁN ễ ươ ắ ả
ứ ọ ấ
ế ệ ệ ự ỳ ễ ồ Hu nh Ái Loan, Nguy n H ng S n ọ ễ ồ Nguy n H ng S n ễ ọ ị ng Trang, ồ
ọ
ơ , D ng Tr ng H i, Hoa
Nguy n H ng S n
[CTLA1].
ươ
ệ ố
ng tác thông minh trong tra c u, tìm
H th ng t
T t Th ng,
ệ , T p chí Nghiên c u Khoa h c và Công
ứ
ạ
ki m thông tin b nh
ự ố
ọ
ngh Quân s , S 53, 02/2018, trang 160169, Vi n Khoa h c
ộ
ệ
và Công ngh Quân s , Hà N i.
Hong Son Nguyen, Minh Hieu Le, Chan Quan
[CTLA2].
Loi Lam, Trong Hai Duong, Smart interactive search for
Vietnamese disease by using data miningbased ontology,
Journal of Information and Telecommunication, volume 1
issue 2, 2017, pages 176191.
ơ , D ngươ
[CTLA3].
ả Triple Extraction Using Lexical Patternbased
Tr ng H i,
Syntax Model, Advanced Computational Methods for
Proceedings of the 4th International Conference on Computer
Science, Applied Mathematics and Applications, ICCSAMA
2016, 23 May, 2016, Vienna, Austria, 2016, vol 453, pages
265279.
ơ , Ph m H ng Phúc, D ng
ươ
ạ
ồ
[CTLA4].
ươ
ả
Personalized Facets for
Tr ng H i, Nguy n Th Ph
Faceted Search Using Wikipedia Disambiguation and Social
Network, Advanced Computational Methods for Knowledge
Engineering: Proceedings of the 4th International Conference on
Computer Science, Applied Mathematics and Applications,
ICCSAMA 2016, 23 May, 2016, Vienna, Austria, 2016, vol 453,
pages 229241. ễ ồ ứ
Đ ng Đ c Bình, ọ ơ , Nguy nễ
ặ
Nguy n H ng S n
[CTLA5].
ả , A framework of faceted
ươ
Thanh Bình, D ng Tr ng H i
search for unstructured documents using wiki disambiguation,
Computational Collective Intelligence, ICCCI 2015, Springer
International Publishing, 2015, pages 502511.11
12
13
14
16
17
18
19
20
21
22
ệ ố
ữ
ệ
ế
Hình 4.1. H th ng tìm ki m ng nghĩa thông tin b nh
23
24
27
28
29
30
31
32