B  QU C PHÒNG

H C VI N K  THU T QUÂN S

Ơ

NGUY N H NG S N

ƯƠ

NGHIÊN C U PH

Ế NG PHÁP TÌM KI M NG  NGHĨA

Ử Ụ

S  D NG ONTOLOGY VÀ  NG D NG XÂY D NG

Ệ Ố

H  TH NG TRA C U, TÌM KI M VĂN B N M U B NH

ơ ở

ọ ọ C  s  toán h c cho tin h c

Chuyên ngành: Mã s :ố

9 46 01 10

Ậ TÓM T T LU N ÁN TI N SĨ

1

Ộ HÀ N I – 2020

ƯỢ CÔNG TRÌNH Đ Ạ C HOÀN THÀNH T I

Ự Ộ Ọ Ậ Ỹ Ệ Ố   H C VI N K  THU T QUÂN S  ­ B  QU C

PHÒNG

̣

Ng

̀ươ ướ i h

ng d n khoa hoc:

ươ

ả 1. TS. D ng Tr ng H i

2. TS. Hoa T t Th ng

ườ

Ph n bi n 1: PGS. TS Lê Tr ng Vĩnh, Tr

ạ   ng Đ i

ạ ọ

ộ h c KHTN, Đ i h c Qu c gia Hà N i

ệ   Ph n bi n 2: PGS. TS Ngô Thành Long, H c vi n

ậ K  thu t Quân s

Ph n   bi n   3:   PGS.   TS   Cao   Tu n   Dũng,   Tr

ườ   ng

ạ ọ

ộ Đ i h c Bách khoa Hà N i

ả ượ ệ ạ ộ ồ ậ c b o v  t ệ ậ ọ ế ị ủ ệ ậ ọ ỹ

ấ   i H i đ ng đánh giá lu n án c p Lu n án đ ố H c vi n theo quy t đ nh s  1109/QĐ­HV, ngày 15 tháng 04   ự   ố năm năm 2020 c a Giám đ c H c vi n K  thu t Quân s , 2

ự ồ ờ ọ ạ ệ ọ ỹ i H c vi n K  thu t Quân s  vào h i …… gi … ậ h p t ngày …. tháng …. năm 2020.

ể ể ậ ạ Có th  tìm hi u lu n án t i:

ư ệ ậ ọ ỹ ự ệ ­ Th  vi n H c vi n K  thu t Quân s

ư ệ

­ Th  vi n Qu c gia

0...

3

M  Đ UỞ Ầ

ế ủ ề ấ ậ 1. Tính c p thi t c a đ  tài lu n án

́ ả ệ ố ̣

̀ ừ ự ử ụ ̉ , ng khóa

̀ ̀ ẫ v n d a trên cách s  d ng t ́ ́ ướ ạ ̣ nôi dung mình cân tim kiêm d i d ng cac t ̀

ữ ữ ụ ả ố khóa (c m t

ệ ả đ m b o m i quan h  ng  nghĩa gi a các t ̀ ̀ ́ ề ấ ặ ớ ̣ khoa) v i nôi dung cân tim.

ự ầ ườ ể i dùng không hi u v khi ng

ể ệ ấ ượ ườ ̀ ầ ớ   Hiên nay, các h  th ng tim kiêm văn b n ph n l n ̀ ̃ ̣   ươ i dung phai diên đat ư khoá sao cho  ừ  ừ ệ   t Đây là v n đ  khó khăn, đ c bi ế , đi uề   ề lĩnh v c c n tìm ki m ự   ệ ế i dùng tìm ki m b nh d a c th  hi n r t rõ khi ng này đ

ư ượ ứ ệ ầ ể trên các tri u ch ng ban đ u ch a đ ạ c bi u đ t rõ ràng.

ề ươ ứ ữ Đ  tài “Nghiên c u ph

ệ ố ứ ụ ự ế ng pháp tìm ki m ng  nghĩa   ứ   ử ụ s  d ng Ontology và  ng d ng xây d ng h  th ng tra c u,

ẫ ệ ế ươ ứ nghiên c u các ph ả tìm ki m văn b n m u b nh”

ế ươ ng pháp

ậ ế ợ trong ontology b nh ệ

ệ ố ữ ự

ườ ử ụ ằ ớ ợ ng tác v i ng ỗ ợ ươ  t có h  tr

ậ ế ợ ứ ệ ậ ng pháp   xây d ngự ,  trích rút  thông tin từ  tìm ki m, các ph văn b nả   làm giàu  ontology b nh, trích rút   thông tin từ  văn  ệ  và  ngứ   b nả , khai phá các lu t k t h p  ệ   ế d ng ụ xây d ng H  th ng tìm ki m ng  nghĩa thông tin b nh ự   i s  d ng b ng các g i ý d a ế ợ   ậ k t h p ữ trên t p lu t k t h p gi a các tri u ch ng và lu t

ữ ệ ố ng  nghĩa ừ t ệ .  các m i quan h  trên Ontology b nh

ố ượ ứ ủ ề ậ ạ 2. Đ i t ng và ph m vi nghiên c u c a đ  tài lu n án

ươ ậ ằ ­ Ph ặ   ng pháp thu th p thông tin b ng trích rút  đ c

ư ả tr ng văn b n;

4

ươ ự ổ ứ ư ả ­ Ph ng pháp xây d ng, t ữ  ch c l u tr , qu n lý và

ứ ướ ạ ử ụ khai thác s  d ng tri th c d i d ng ontology;

ươ ậ ế ợ ­ Ph ng pháp khai phá lu t k t h p trong Ontology

b nh;ệ

­ Các mô hình tìm ki m;ế

ế ế ệ ố ự ­ Phân tích thi ế   t k  và xây d ng H  th ng tìm ki m

ữ ươ ệ ng  nghĩa có t ng tác thông tin b nh.

ứ ề ộ ậ 3. N i dung nghiên c u đ  tài lu n án

ặ ư ậ ả ờ ­ Thu th p thông tin nh  trích rút đ c tr ng văn b n;

ổ ứ ư ữ ả ự ử ụ    ch c l u tr , qu n lý và khai thác s  d ng

­ Xây d ng, t ứ tri th c Ontology b nh ệ DO (Disease Ontology);

ậ ế ợ ệ ị ­ Xác đ nh lu t k t h p trong Ontology b nh;

ả ữ ế ươ i pháp tìm ki m ng  nghĩa có t ng tác thông tin

ườ ử ụ ấ ị ­ Gi ợ ệ b nh g i ý ng i s  d ng xác đ nh câu truy v n cho phép

ậ ượ ế ả ị nh n đ ế c k t qu  tìm ki m đúng ý đ nh;

ệ ố ữ ươ ng tác thông tin ế ­ H  th ng tìm ki m ng  nghĩa có t

b nh.ệ

ươ ứ ề ậ 4. Ph ng pháp nghiên c u đ  tài lu n án

ế ề ơ ở ế ươ   ng ­ C  s  lý thuy t v  các mô hình tìm ki m và ph

ệ ố ử ụ ế   pháp s  d ng ontology trong các h  th ng tìm ki m;

ơ ở ự ế C  s  lý thuy t xây d ng ontology;

ươ ự Ph ệ   ng  pháp  xây  d ng và  làm  giàu  Ontology  b nh ­

ế ệ ti ng Vi t;

5

ươ ự ữ ế Ph ệ ố ng pháp xây d ng h  th ng ki m ng  nghĩa có ­

ệ ố ụ ươ t ế   ự ng tác và áp d ng xây d ng h  th ng tìm ki m

ữ ươ ệ ng  nghĩa có t ng tác thông tin b nh.

ữ ể 5. Nh ng đi m m i c a lu n ánậ

ớ ủ đ  tài ề ươ ấ ề ộ (1) Đ  xu t ph

ừ ữ ệ ộ trên mô hình cú pháp, trích rút các b  ba t ự   ng pháp trích rút b  ba (triple) d a ả    d  li u văn b n

ệ ư ự ụ ụ ủ ả

ươ ệ ề ế ấ (2) Đ  xu t ph

ử ụ ệ ế ả

ướ ử ằ ặ ph c v  cho vi c xây d ng đ c tr ng c a văn b n [CTLA3]; ữ ệ   ng pháp tìm ki m đa di n d  li u ữ ệ   văn b n và cá nhân hoá tìm ki m đa di n s  d ng d  li u ủ Wikipedia Disambiguation ậ ng x  lý nh p nh ng c a ị đ nh h

[CTLA3], [CTLA4];

ề ấ ươ ậ ế ợ (3) Đ  xu t ph ng pháp khai phá lu t k t h p trong

ự ệ ộ Ontology  b nh (ASO­Apriori)  [CTLA2] d a  trên  02  đ   đo

ộ ỗ ợ ở ộ ở ộ ậ ớ ộ m i: đ  h  tr  m  r ng và đ  tin c y m  r ng và khai phá

ậ ế ợ ữ ữ ệ ố

lu t k t h p ng  nghĩa gi a các m i quan h  trong Ontology b nh;ệ

ự ệ ế ệ (4) Xây d ng Ontology b nh ti ng Vi t [CTLA1];

ề ấ ươ ệ ố (5) Đ  xu t ph

ữ ế ỗ ợ ươ ệ ớ ki m ng  nghĩa thông tin b nh có h  tr  t ự ng pháp và xây d ng H  th ng tìm   ườ   i ng tác v i ng

ằ ậ ế ợ ự ữ ậ ợ

ế ợ ữ ứ ệ ử ụ s  d ng b ng các g i ý d a trên t p lu t k t h p gi a các   ệ  ậ k t h p ng  nghĩa tri u ch ng và lu t ố  các m i quan h ừ t

ệ trên Ontology b nh [CTLA1].

6. Ý nghĩa khoa h cọ ở ậ ớ ề ướ ứ Lu n án m  ra h

ậ ế ợ ệ ố ử ụ

ợ   ng nghiên c u m i v  tích h p ế   ontology và s  d ng lu t k t h p trong h  th ng tìm ki m 6

ươ ệ ố ữ ế thông minh có t

ự ế ự ự ữ ệ , giúp ng tin b nh th c s  h u ích trong th c t

ng tác. H  th ng tìm ki m ng  nghĩa thông   ườ ử ụ   i s  d ng ủ ọ ợ ị ự ấ ọ ớ ễ d  dàng l a ch n các truy v n phù h p v i ý đ nh c a h  mà

ầ ấ ớ ộ không c n nh  toàn b  truy v n.

ấ ủ ể ứ ụ ề ậ Các đ  xu t c a lu n án còn có th   ng d ng trong

ề ư ệ ố ươ ấ các h  th ng khác nhau, nh : Đ  xu t ph

ự ộ ộ b  ba (triple) d a trên mô hình cú pháp, trích rút các b  ba t

ụ ụ ư ự ệ ả ặ

ể ử ụ ệ ố ả ạ ng pháp trích rút   ừ  ủ   ữ ệ d  li u văn b n ph c v  cho vi c xây d ng đ c tr ng c a ậ   văn b n có th  s  d ng trong các h  th ng phân lo i, ph n

ắ ề ả ấ ươ ế ụ c m và tóm t t văn b n; Đ  xu t ph

ữ ệ ệ ệ ế ả di n d  li u văn b n và cá nhân hoá tìm ki m đa di n s

ị ướ ử ằ ng pháp tìm ki m đa   ử  ủ Wikipedia ữ ệ ụ d ng d  li u đ nh h ậ ng x  lý nh p nh ng c a

ệ ể ố ế   ụ Disambiguation  có  th   áp   d ng   cho   các   h   th ng   khuy n

ị ệ ngh , các h  chuyên gia.

ủ ấ ậ 7. C u trúc c a lu n án

ậ ồ ươ Lu n án g m 4 ch ư ng nh  sau:

ươ ứ ơ ở ế Ch ng 1. Ki n th c c  s

ươ ữ ự ế ả ộ Ch ng 2. Tìm ki m ng  nghĩa d a trên n i dung văn b n

ươ ữ ế ươ Ch ng 3.Tìm ki m ng  nghĩa có t ng tác

ệ ố ự ứ ữ ế ươ ng 4. Xây d ng H  th ng tra c u, tìm ki m ng  nghĩa

Ch thông tin b nhệ

Ứ Ơ Ở CH Ế NGƯƠ  1. KI N TH C C  S

1.1. Ontology

7

ế ọ  Ontology đ t h c cượ

Khái ni m:ệ Theo [36], trong tri ́ ́ ̃ ̃ ̀ự ự ̣ ̀ Triêt ly vê s  tôn tai ̀ đinh nghia la “

̃ ̃ ̣ ̣ ̉ ọ   ̣ ”. Trong linh v c tin h c, ̀ ươ   ng môt biêu diên t ̀ Tom Gruber[36] đinh nghia Ontology la “

́ ̣ ặ ả ườ ứ t ng minh, hình th c và

ẻ ề ̣ ̣ ”, “môt đ c t minh các khai niêm ́ chia s  v  các khai niêm dùng chung ”.

Ứ ụ ấ Ontology cho phép c u trúc hoá ng d ng Ontology:

ệ ữ ố ượ ố ự ệ ộ các m i quan h  gi a các đ i t ng, thu c tính, s  ki n, quá

ế ớ ự trình trong th  gi i th c [71].

RDF,DAML+OIL,OWL ữ Các ngôn ng  Ontology:

ự ế ạ ồ g m 04 giai đo n Ti n trình xây d ng ontology:

1.2. Trích rút thông tin từ văn b nả

ặ ư ổ ế 1.2.1. Trích rút đ c tr ng ph  bi n

1.2.1.1. TF­IDF trích rút thông tin văn b nả ượ ử ụ ộ TF­IDF là mô hình đ ệ   c s  d ng r ng rãi trong vi c

ả ư ặ

ỗ ừ ộ ố ố ắ ớ ả b n TF­IDF g n v i m i t

ứ ộ ủ ừ ọ m c đ  quan tr ng c a t

ộ ậ ề ả ả ằ trích rút thông tin văn b n. Mô hình trích rút đ c tr ng văn   ể ệ    m t con s  th ng kê th  hi n ữ ả   ả  này trong văn b n, trong ng  c nh ầ   ợ văn b n n m trong m t t p h p nhi u văn b n. TF tính t n

ệ ủ ừ ấ ệ ả ắ ố s  xu t hi n c a t trong văn b n. Các tài li u dài ng n khác

ế ố ầ ẽ ẫ ộ ừ ủ ấ nhau s  d n đ n s  l n xu t hi n ệ  c a m t t

ệ ủ ầ ố ộ ừ ấ ả ượ ẩ đó, t n s  xu t hi n c a m t t ph i đ khác nhau. Do   ằ   c chu n hóa b ng

ệ ộ cách chia cho đ  dài tài li u [64].

ử ụ ả 1.2.1.2. S  d ng NER trong trích rút thông tin văn b n

8

ị ừ ả NER cho phép xác đ nh danh t riêng trong văn b n và

ạ ươ ứ ự ể ớ phân lo i chúng vào các l p th c th  có tên t

ự ụ ệ ể ộ ị ng  ng [64].   ọ   Xác đ nh th c th  có tên cũng là m t nhi m v  quan tr ng

ụ ử ữ ự ệ trong các nhi m v  x  lý ngôn ng  t nhiên.

ả ệ ữ 1.2.2. Trích rút quan h  ng  nghĩa trong văn b n

H  th ng

ừ ự ả ệ ố Open Information Extraction(OpenIE) trích  ệ  ộ văn b n d a trên các quan h rútcác b  ba (arg1, rel, arg2) t

ố ố ủ ệ ớ ộ v i đ ng t ừ ở ,

ệ ố ữ ệ rel là quan h  ng  nghĩa. Trong khi các h  th ng IE khác ch

ượ ướ ệ ậ ị đây arg1 và arg2 là các đ i s  c a quan h  và   ỉ  ệ c đ nh nghĩa tr c, h ậ t p trung vào t p các quan h  đã đ

ự ố ươ th ng OpenIE d a trên các ph

ố ượ ệ ẽ ộ giám sát. Do đó s  l ng pháp khai thác không có   ể   ng các quan h  s  linh đ ng. Đi m

ấ ữ ệ ủ ả ạ ầ m nh c a OpenIE là không yêu c u ph i cung c p d  li u đã

dán nhãn

1.3. Các mô hình tìm ki mế

ế ươ 1.3.1. Tìm ki m t ng tác

ế ươ Tìm   ki m   t ng   tác   (

ươ ự ự ươ [105] là ph ế ng pháp tìm ki m d a vào s  t

ườ ớ ệ ố ừ ệ ố ữ ng i dùng v i h  th ng, t

ủ ế ớ ị ả ươ ứ ợ Interactive   search)[4],   [101],  ủ   ng tác c a ế   ư  đó h  th ng đ a ra nh ng k t ườ   i qu  t ng  ng cho phù h p v i ý đ nh tìm ki m c a ng

dùng.

ữ ế 1.3.2. Tìm ki m ng  nghĩa

ớ ệ ề ữ ế 1.3.2.1. Gi i thi u v  tìm ki m ng  nghĩa

ữ ế Tìm ki m ng  nghĩa (Semantic search) [36], [38], [75]

ướ ớ ủ ệ ấ ộ h ng t i tăng đ  chính xác c a vi c trích xu t thông tin

9

ắ ượ ủ ế ị ườ ằ b ng cách n m đ c ý đ nh tìm ki m c a ng i dùng, cũng

ư ữ ả ệ ố ế

ữ ế ề ấ ộ ồ ki m ng  nghĩa xem xét r t nhi u n i dung g m có: ng

ườ ể ế ệ ị nh  là ng  c nh trong không gian tìm ki m. H  th ng tìm   ữ  ữ ị ả c nh tìm ki m, đ a đi m, ý đ nh ng i dùng, quan h  ng

ữ ệ .  nghĩa gi a các khái ni m

ế ữ 1.3.2.2. Các công trình nghiên c u v  tìm ki m ng  nghĩa

ế ề ứ ự

̃ ủ ế ậ ứ ề Nhìn chung, các nghiên c u v  tìm ki m d a trên ng ̃ ư  ệ ệ ệ ả ả

ế ướ ữ ố ồ ki m theo b n h ng chính:

ừ ư nh  WordNet, UMLS, Sensus;

ử ụ ở ộ ậ Trích rút thông tin t ỹ ấ ; S  d ng các k  thu t khác đ  h và m  r ng câu truy v n

ư ử ữ ự ế ợ tr  quá trình tìm ki m nh  x  lý ngôn ng  t nhiên, logic m

ử ậ ằ nghia hi n nay ch  y u t p trung c i thi n hi u qu  tìm   ứ   Khai thác nh ng ngu n tri th c ệ    tài li u ể ỗ  ờ  ạ classification); Xây d ng,ự (fuzzy), kh  nh p nh ng, phân lo i (

ể ễ ấ ớ ệ . bi u di n và so kh p các c u trúc khái ni m

ế ệ 1.3.2.3. Tìm ki m đa di n (faceted search)

ế ế ệ ậ ộ ỹ Tìm ki m đa di n là m t k  thu t trong tìm ki m ng

ấ ượ ữ  ỉ ụ   c  đánh ch  m c nghĩa cho phép truy xu t thông tin  đã đ

ướ ạ ệ ố ệ ớ d i d ng h  th ng phân l p đa di n (facet).

ậ ế ợ 1.4. Lu t k t h p

ượ ử ụ Lu t k t h p ( ậ ế ợ Association Rules) đ ộ   c s  d ng r ng

ể ể ị ự ế ợ ữ ệ

ớ ữ ệ ộ ượ ườ ị rãi đ  bi u th  s  k t h p trong các dòng d  li u [97]. Quan   ố   i ta mu n ng l n d  li u các phiên giao d ch, ng sát m t l

ượ ụ ự ậ tìm  ra  đ

ề ậ ế ợ ứ ọ ụ c  các  quy  lu t,  ph c  v   cho các  d   đoán  [54].   ố Nghiên c u v  lu t k t h p đóng vai trò quan tr ng trong s

ươ ữ ệ các ph ng pháp khai phá d  li u [97].

10

ươ ế 1.5. K t ch ng

ươ ơ ả ứ ế Ch ng   1   đã   trình   bày   các   ki n   th c   c   b n   v ề

ươ ừ ontology; các ph ng pháp trích rút thông tin t ả  văn b n; các

ế ươ ậ ế ợ mô hình tìm ki m và ph

ề ấ ợ ỗ ợ ươ ơ ở c  s  cho đ  xu t tích h p ontology và h  tr  t ng pháp khai phá lu t k t h p làm   ớ   ng tác v i

ườ ử ụ ệ ố ữ ế ng i s  d ng trong h  th ng tìm ki m ng  nghĩa.

ƯƠ Ộ Ữ Ự Ế CH NG 2. TÌM KI M NG  NGHĨA D A TRÊN N I DUNG

VĂN B NẢ

ự ữ ừ ự 2.1. Trích rút triple d a trên mô hình ng  pháp và t v ng

2.1.1.Trích rút triple

ề ậ ấ ươ Trong [CTLA3], lu n án đ  xu t ph

ạ ộ ự ữ ế ấ ng pháp phân   ừ   , tích c u trúc  ng  pháp ti ng Anh d a vào  lo i   đ ng t

ộ ừ ể ề ộ ụ c m   đ ng t ệ   đ  phân tích  m t  m nh  đ  thành 

ử ụ predicate>, sau đó s  d ng mô hình cú pháp (Syntax Model)

ể ầ ộ ế ơ đ  phân tích 02 thành ph n này m t cách chi ti

ể ệ ữ ượ ệ ữ hình cú pháp không nh ng th  hi n đ c quan h  gi a ch

ể ệ ữ ữ ượ ng  và tân ng  trong câu mà còn th  hi n đ t h n. Mô   ủ  ệ c quan h

ữ ừ ẽ ậ ả gi a các t khác trong câu, vì v y s  tăng kh  năng trích

ượ ệ ợ ộ ộ rút đ ề c các b  ba phù h p trong m t m nh đ .

ữ ệ ả 2.1.2. Quy trình trích rút  thông tin d  li u văn b n

ự ể ệ ậ 1. NER nh n di n các th c th  có tên.

ủ ệ ấ ầ ấ ọ ộ ừ 2. Tính t n su t xu t hi n và đ  quan tr ng c a các t ấ    xu t

ệ ả ộ hi n trong toàn b  văn b n TF­IDF.

11

ử ụ ả ủ ậ ế 3. Trích rút triple s  d ng k t qu  c a NER và xác l p quan

ố ượ ữ ữ ng trong câu, các câu trong

ệ h  ng  nghĩa gi a các đ i t văn b n. ả   ễ ướ ạ ể ố ượ ấ ả ăn b n d 4. Bi u di n v i d ng c u trúc các đ i t ng có

ệ ữ ố m i quan h  ng  nghĩa.

2.1.3. Đánh giá

ươ ề ấ ấ Ph ầ   ng pháp đ  xu t trích rút chính xác g p 1.7 l n

ớ ệ ố ủ ớ ươ so v i ClausIE. So v i h  th ng c a Ollie, ph ng pháp đ ề

ấ ạ ấ ầ xu t đ t g p 2.7–2.8 l n

ệ ữ ệ ế ả 2.2. Tìm ki m đa di n d  li u văn b n

ề ấ ậ ộ Trong   [CTLA5],   lu n   án   đã   đ   xu t   m t   ph

ữ ệ ự ụ ể ệ ế ươ   ng ả   pháp đ  xây d ng công c  tìm ki m đa di n d  li u văn b n

ướ ồ g m các b c sau:

ự ế ị ướ ử ậ 1. Xây d ng tham chi u đ nh h ằ   ng x  lý nh p nh ng

ử ụ s  d ng Wikipedia ( Wikipedia Disambiguation).

ự ữ ế ử ụ   2. Xây d ng không gian tìm ki m ng  nghĩa s  d ng

ị ướ ử ằ ậ ế tham chi u đ nh h ng x  lý nh p nh ng.

ế ị ự ướ ử ằ 2.2.1. Xây d ng tham chi u đ nh h ậ ng x  lý nh p nh ng s ử

ụ d ng Wikipedia

ữ ệ ử ụ ậ ị ướ Lu n án s  d ng các trang d  li u đ nh h

ự ể ế ậ ằ ị ướ nh p nh ng đ  xây d ng các facet tìm ki m đ nh h ử   ng x  lý ử ng x

ằ ậ lý nh p nh ng.

ử ụ ự ữ ế 2.2.2. Xây d ng không gian tìm ki m ng  nghĩa s  d ng tham

ướ ử ậ ằ ế ị chi u đ nh h ng x  lý nh p nh ng

12

ữ ế ượ Không gian tìm ki m ng  nghĩa đ

ư ữ ế ệ ướ ị cách l u tr các tài li u theo tham chi u đ nh h ằ   ự c xây d ng b ng ử   ng x  lý

ộ ươ ằ ậ ự ữ ể nh p nh ng. Đ  tính toán đ  t ng t ệ  gi a tài li u và khái

ừ ụ ử ụ ừ ế ế ậ ệ ni m (t , c m t ) tham chi u đ n, lu n án s  d ng phép đo

ự ộ ươ đ  t ng t cosin:

ộ ươ ự ữ ệ là đo đ  t ng t gi a văn b n

ả dj và khái ni m c  th ủ ư ặ ụ ể  ả dj, Wq là vector q, trong đó, Wj là vector đ c tr ng c a văn b n

ư ặ đ c tr ng c a ủ q.

ữ ệ ị ế ướ ả 2.2.3. Đánh giá k t qu  trích rút d  li u đ nh h ậ   ng lý nh p

ằ ừ nh ng t Wikipedia Disambiguation

ế ậ ả Lu n án đã ti n hành đánh giá ế k t qu  trích rút d ữ

ệ ướ ử ằ ậ ừ ị li u   đ nh   h ng   x   lý   nh p   nh ng   t

ớ ế ữ ệ ằ Wikipedia   ả Disambiguation  b ng cách so sánh d  li u thô v i k t qu

ượ ả ộ ế đ c trích rút. K t qu  đ  chính xác là trên 93%.

ươ ế ệ 2.3. Ph ng pháp cá nhân hóa facet trong tìm ki m đa di n

ề ấ ươ ậ Trong   [CTLA4],   lu n   án   đ   xu t   ph

ế ệ ử ụ ữ ệ ướ ị nhân hóa tìm ki m đa di n s  d ng d  li u đ nh h

ạ ằ ậ nh p   nh ng   (

ả ủ ư ế ằ ớ ợ ng   pháp   cá   ử   ng x  lý ộ   Wikipedia   Disambiguation)  và   m ng   xã   h i ườ   i ế nh m đ a ra k t qu  tìm ki m phù h p v i profile c a ng

ồ ướ ử ụ s  d ng g m các b c sau:

ướ ự ệ ẩ ị ữ ệ • B c 1: Chu n b  d  li u, th c hi n các b ướ ấ   c l y

ử ị ướ ử ằ Wikipedia ữ ệ và x  lý d  li u đ nh h ậ ng x  lý nh p nh ng (

Disambiguation).

13

ị ồ ơ ướ ườ ẩ •   B c   2:   Chu n   b   h   s   ng ạ i   dùng,  t o  h   s ồ ơ

ườ ấ ừ ồ ơ ườ ng i dùng l y t h  s  ng i dùng Facebook.

ế ấ ả ệ ử ụ ủ K t   qu   cho   th y   vi c   s   d ng   profile   c a   ng

ế ế ả ị ượ ườ   i ợ   c các k t qu  tìm ki m phù h p dùng đã giúp xác đ nh đ

ườ ử ụ ớ v i ng i s  d ng.

ươ ế 2.4. K t ch ng

ươ ề ự   ng pháp rút trích triple d a Ch

ấ ph ngươ  2 đã đ  xu t  ể ụ ụ ậ

ơ ở ươ ứ ề ế ấ ự d ng c  s  tri th c; đ  xu t ph

ữ ệ ướ ự ử ả ị ữ ệ d  li u văn b n d a trên d  li u đ nh h

ủ ề ấ ằ trên mô hình cú pháp dùng đ  thu th p thông tin ph c v  xây   ệ   ng pháp tìm ki m đa di n ậ   ng x  lý nh p ươ   ng nh ng   c a   Wikipedia   Disambiguationvà   đ   xu t   ph

ế ệ ế ệ

ạ ế ả ấ ớ ợ

ữ ệ ế ố

pháp cá nhân hoá tìm ki m đa di n. Tìm ki m đa di n cho   ệ ử  phép phân lo i k t qu  theo các facet r t phù h p v i vi c s d ngụ   ontology  trong  các  h   th ng  tìm  ki m  ng  nghĩa  có ươ t ng tác.

ƯƠ Ữ Ế ƯƠ CH NG 3. TÌM KI M NG  NGHĨA CÓ T NG TÁC

ử ụ ữ 3.1. S  d ng lu t k t h p ậ ế ợ trong tìm ki m ế ng  nghĩa thông

tin b nhệ

ố ươ ữ ệ m i  t ứ   ng  quan  gi a  các  tri u ch ng

ử ụ ậ ế ợ ể Đ  ể xác   đ nhị ậ ớ ệ b nh v i nhau, lu n án

ố ệ ề m i quan h  trong d  li u

ứ ể ệ ề ấ ộ s  d ng lu t k t h p đ  khai thác   ệ   ữ ệ , c  thụ ể: M t b nh có nhi u tri u ộ ệ ệ ở ứ ch ng, m t tri u ch ng có th  xu t hi n

ộ ố ệ ệ ế ợ ứ ệ  nhi u b nh khác   ấ   ố nhau. M t s  tri u ch ng có m i quan h  k t h p, cùng xu t

14

ệ ệ ộ ừ ậ hi n   trong   m t   b nh. T   đó lu n   án ể   phát   bi u   bài   toán

ư [CTLA2] nh  sau:

ậ ệ D={d1, ..., dn}, v i ớ di, i=1,2,…,n là ­ D là t p các căn b nh,

các căn b nh.ệ

ộ ậ ứ ứ ệ ệ ồ T là m t t p tri u ch ng bao g m các tri u ch ng khác ­

nhau T={t1, ..., tm}, v i ớ tj,  j = 1,2,...,m là các tri u ch ng.

ứ ệ ỗ ớ ệ ứ ứ tj (tj (cid:0) M i căn b nh ộ ậ ệ di  ng v i m t t p các tri u ch ng

T)

ư ậ ề ầ ả ậ ệ   Tìm t p các tri u ấ Nh  v y v n đ  c n gi ế i quy t là:

ứ ườ ộ ệ ệ ấ ch ng th ng xuyên xu t hi n cùng nhau trong m t b nh,

ươ ế ợ ứ ệ ậ tính t ữ ng quan, tính k t h p gi a các t p tri u ch ng.

3.2. Lu t k t h p ậ ế ợ trong Ontology b nhệ   (ASO­Association

rule in DiseaseOntology)

ề ấ ậ ộ ươ Lu n án đ  xu t m t ph

ỗ ợ ệ ậ ế   ng pháp khai phá lu t k t ọ ườ ự ợ h p trong Ontology b nh, h  tr i dùng l a ch n các ng

ứ ự ế ệ ọ ụ ể tri u ch ng, l a ch n facet trong tìm ki m. C  th :

ậ ế ợ ứ ệ ượ ử ụ ữ ­ Lu t k t h p gi a các tri u ch ng đ c s  d ng đ ể

ệ ế ườ ử ụ ứ ợ g i ý các tri u ch ng ti p theo cho ng i s  d ng.

ữ ữ ế ậ ợ ­   Lu t   k t   h p   ng   nghĩa   gi a   các   quan   h

ệ (subclasses,   properties)   trong   Ontology   b nh.   Các   quan   h ệ  ệ

ượ ử ụ ỗ ớ ệ subclasses đ

ượ ử ụ ệ ộ là m t facet. Các quan h  properties đ ế c s  d ng trong tìm ki m đa di n, m i l p con   ể ợ   c s  d ng đ  g i ý

ườ ự ế ọ ộ ng i dùng l a ch n thu c tính (property) ti p theo.

ậ ế ợ ử ụ ể ậ Đ  khai phá các lu t k t h p trên, lu n án s  d ng d ữ

ầ ệ ỗ ệ ẽ ộ

ệ li u đ u vào là: Ontology b nh, m i b nh s  có m t danh 15

ứ ươ ứ ệ ệ sách   các   tri u   ch ng   t

ữ ứ ệ ố

ụ ể ứ   ng   ng   và   Ontology   tri u   ch ng ệ ổ   [113], trong đó gi a các tri u ch ng có 02 m i quan h  t ng ơ     h n more_generation”), ơ   h n quát c (“ th

(“more_specification”.

ậ ự * Thu t toán ASO­Apriori ắ    d a trên 02 nguyên t c

sau:

ắ ầ ử ế ộ ậ N u m t t p ph n t ậ  A là t p ph ổ + Nguyên t c 1:

ồ ạ ậ bi n  (ế frequent  itemset), thì  không  t n  t

ộ ậ ầ ử ố A có m i quan h  “

ầ ử ộ ậ ớ ầ ử  i  t p con  ph n  t ệ more_specification”  ổ ế thu c t p ph n t ho c “ặ a_part_of” v i m t t p ph n t không ph  bi n khác.

ị ầ ử ộ ứ ệ M t ph n t (tri u ch ng) y  đ cượ Đ nh nghĩa 3.1:

ủ ế ư ọ g i là ầ ử x n u nh  ph n t ầ ử y có m iố

ớ InstanceOf c a ph n t quan h  “ệ more_specification” ho c “ặ a_part_of” v i ph n t ầ ử

x.

y IsOf x. ệ Ký hi u là:

ứ ụ ệ Ví   d ,  tri u  ch ng severe   abdominal   cramp  là  IsOf

ệ ứ ứ ệ severe abdominal   cramp  do   tri u   ch ng

ủ c a   tri u   ch ng   abdominal   cramp  có   quan   h  ệ more_specification  v i   tri u ệ   ch ng ứ abdominal cramp.

ị ộ ậ ầ ử ậ ứ M t t p ph n t ệ  (t p tri u ch ng) Đ nh nghĩa 3.2:

ượ ọ ủ ậ Y=y1y2…yk đ c g i là InstanceOf c a t p ph n t

ố ư yi=xi  ho cặ   yi  có m i quan h  “

ớ ớ ầ ử xiv i m i ầ ử X=x1x2…xk    ệ more_specification”  ọ  i=1..k.

Y IsOf X. ế n u nh   ho c “ặ a_part_of” v i ph n t ệ Ký hi u là:

16

ụ ậ ứ ệ severe   abdominal   cramp, Ví   d ,   t p   tri u   ch ng   {

ủ ậ abdominal   cramp, abdominal   discomfort}   là  IsOf  c a   t p   {

ứ ệ severe   abdominal abdominal   discomfort}   vì   tri u   ch ng

ệ ớ cramp  có   quan   h ứ    ệ more_specification  v i   tri u   ch ng

abdominal cramp.

ị ị ộ ậ  Cho m t t p ph n t ầ ử X, giao d ch Ti. Đ nh nghĩa 3.3:

ị ượ ỗ ợ ở ộ ọ Giao d ch Tiđ c g i là h  tr  m  r ng đ i v i t p ố ớ ậ X  n uế

ư ồ ạ ả nh  t n t i m t t p ộ ậ Y là IsOf c a ủ X tho  mãn

ị ộ ỗ ợ ở ộ Đ  h  tr  m  r ng ( Y(cid:0) Ti Supportext) Đ nh nghĩa 3.4:

ủ ậ ộ ỗ ợ ở ộ Đ  h  tr  m  r ng ( Supportext) c a t p ph n t

ị ầ ử X là    ỗ ợ ở ộ   D h  tr  m  r ng ỷ ố ữ ố ượ t  s  gi a s  l ng giao d ch trong CSDL

ủ ọ ổ ố ị X và t ng s  giao d ch c a D (g i là N).

trong đó:

δ ố ượ ­  (X*) : s  l ị ng giao d ch trong D có ch a ứ X*.

ị ở ộ ậ ộ Đ  tin c y m  r ng ( Confidenceext) Đ nh nghĩa 3.5:

ở ộ ậ ộ Đ  tin c y m  r ng ( Confidenceext) c a  ủ XY  là t

ị ỗ ợ ở ộ ng giao d ch trong CSDL D h  tr

ố ượ ị ng giao d ch trong CSDL sỷ ố  ậ    m  r ng t p ỗ ợ ở ộ   D h  tr  m  r ng

ữ ố ượ gi a s  l {X∪Y} và s  l t p ậ X.

ố ượ Trong đó:  ()δ : s  l ị ng giao d ch trong D có ch a .ứ ­

ố ượ ()δ : s  l ị ng giao d ch trong D có ch a .ứ ­

17

ề ệ ở ộ ấ Tính ch t Apriori m  r ng. M nh đ  3.1:

ệ ậ Cho hai t p tri u ch ng ứ X, Y. N u ế X(cid:0) Y thì ≤

ứ Ch ng minh:

ị ấ ỳ Xét giao d ch Ti  b t k  trong CSDL

ở ộ ỗ ợ ở ộ D, n u  ế Ti  h  trỗ ợ  ậ ậ m  r ng t p ậ Y thì Ti h  tr  m  r ng t p

ậ Y. Th t v y: ộ Y* là IsOf Y mà Y*(cid:0) Ti ứ ỗ ợ Y, t c là t n t i m t

ả ồ ạ Ti h  tr   T  ừ Y*  là  IsOf Y  và  X(cid:0) Y  suy ra t n t ồ ạ X*tho  mãn i

X*(cid:0) Y*vàX* là IsOf X.

ư ậ ị Nh  v y, theo Đ nh nghĩa 3.3 ta có ỗ ợ ở ộ   Ti h  tr  m  r ng

X (đpcm).

ị ổ ế ệ ậ ứ  T p tri u ch ng ph  bi n. Đ nh nghĩa 3.6:

ộ ậ ứ ượ ệ ậ ọ X  đ ứ   c g i là t p tri u ch ng

ổ ế ệ M t t p tri u ch ng   ư min_sup. ế ph  bi n n u nh   ≥

ị ậ ế ợ ứ ệ ậ Lu t k t h p trên t p tri u ch ng Đ nh nghĩa 3.7:

ượ ậ ế ợ ứ ệ ậ ọ đ ế   c g i là lu t k t h p trên t p tri u ch ng n u

nh  ≥ ư minSup và ≥min_conf

ắ ậ ế ợ   ứ Ontology hàm ch a các lu t k t h p + Nguyên t c 2:

ể ệ ữ ố ệ ng  nghĩa th  hi n qua các m i quan h .

ư ưở ủ ậ * T  t ng chính c a thu t toán ASO­Apriori

ấ ả ổ ế ừ ứ ệ ậ D ­ Tìm t t c  các t p tri u ch ng ph  bi n t CSDL

ứ ứ ị ươ

và t p ậ I,trong đó CSDL D ch a các giao d ch t ị ộ ậ ứ ứ ệ ệ ỗ

ệ ả các b nh, m i giao d ch ch a m t t p tri u ch ng.   ch a  ứ ứ tri u   ch ng   và   m các t   c ấ t

ớ   ng  ng v i T p  ậ I   ối   quan   hệ:  ệ ứ ữ “more_specification”, “a_part_of” gi a các tri u ch ng.

18

ậ ế ợ ừ ậ ổ ế ệ ­ Sinh lu t k t h p t ứ  t p tri u ch ng ph  bi n.

ậ ế ợ ự ố   ữ ­ Sinh ra lu t k t h p ng  nghĩa d a trên các m i

ệ ệ quan h  trong Ontology b nh.

ớ ể ậ Thu t toán ASO­Apriori có 02 đi m m i sau đây:

ử ụ ộ ­ ASO­Apriori s  d ng ộ ỗ ợ ở ộ đ  h  tr  m  r ng và đ  tin

ổ ế ứ ể ậ ị ậ   ở ộ  đ  xác đ nh t p tri u ch ng ph  bi n và lu t ệ ậ c y m  r ng

ữ ứ ệ ế ợ k t h p gi a các tri u ch ng.

ậ ế ợ ữ ự ố   ­ Khai phá  lu t k t h p ng  nghĩa d a trên các m i

ệ ệ quan h  trong Ontology b nh.

ậ * Thu t toán ASO­Apriori

ổ ế ứ ệ ạ ậ Giai   đo n   1:   Sinh   t p   tri u   ch ng   ph   bi n   ­

ASO­Apriori­GenFrequentSymptom

ộ ỗ ợ ở ộ ủ ậ 1. Duy t  ệ CSDL,  tính đ  h  tr m  r ng c a t p ch ỉ

ệ ổ ế ứ

ượ ậ ấ ả ể ệ ậ ồ g m 1 tri u ch ng ph  bi n (frequent 1­symptom), so sánh   ứ   v i  ớ min_sup, đ  có đ t c  các t p 1 tri u ch ng c t p t

ổ ế ọ ph  bi n (g i là L1).

ể ố ử ụ 2.1. S  d ng Lk­1: N i (join) các c p ặ Lk­1 đ  sinh ra các

ệ ọ ậ ứ t p  ng viên ứ k­tri u ch ng, g i là Ck.

ứ ạ ỏ ự ệ 2.2.   Lo i   b   các   ng   viên ứ k­tri u   ch ng   d a   trên

ề ệ m nh đ  3.1.

ệ ộ ỗ ợ ở ộ ể

ể ớ ỗ

ổ ế ứ ệ ủ   ị 2.3. Duy t CSDL đ  xác đ nh đ  h  tr  m  r ng c a ậ    so   sánh   v i   min_sup   đ   nh n k–symptom (g i làọ m i   candidate   k­symptom, ượ ậ k­tri u ch ng ph  bi n frequent c t p đ

Lk).

19

ậ ứ ế ặ ạ ừ ướ i t b c 2 cho đ n khi t p  ng viên k­tri uệ

3. L p l ch ng ứ Ck tr ng.ố

ả ề ậ ấ ả ổ ế ứ ệ ậ 4. Tr  v  t p t t c  các t p tri u ch ng ph  bi n.

Giai đo n 2ạ :

ầ ậ ấ ả ứ ệ ậ Đ u vào: T p t t c  các t p tri u ch ng ph  bi n ổ ế Lk,

ưỡ ng ng minconf.

ậ ầ ậ Đ u ra: T p lu t

2) {

ASO­Apriori_GenRules (Lk) { for (frequent symptomset lk ,k(cid:0) call Genrules (lk, lk);

}

Genrules(lk:frequent  k­symptomset;  am:   frequent  m­

symptomset) {

A={(m­l)­symptomset am­1 | am­1(cid:0)  am}; for( am­1(cid:0)  A ) {

conf =supportexxt (lk)/supportexxt (am­1); if (conf (cid:0)  minconf) {

output the rule am­1(cid:0)  (lk –am­1), With confidence =conf

and support=supportext (lk);

if (m­1> l) {

call Genrules(lk, am­1);

}

}

20

ậ ế ợ ữ ắ   ­ Sinh các lu t k t h p ng  nghĩa theo Nguyên t c

2:

ầ Đ u vào: Ontology O, b nh ệ d;

ầ ậ Đ u ra: T p các quan h ệ R (subclasses, properties) c aủ

b nh ệ d trong O.

ệ ủ ệ

ASO­Apriori_GenRulesFromOntology (O, d) {

R=;    for (quan h  r ệ (cid:0)  (O,d) ) { // xét t ng m i quan h  c a b nh d trong O;

ạ R=R(cid:0)  r;// lu t k t h p d ng: d   r; ậ ế ợ

}

return R;

}

3.3.  Đánh giá

ươ ộ ộ ủ 3.3.1. Ph ng pháp đánh giá đ  chính xác và đ  bao ph

Sử  d ngụ   ph

ủ ộ ngươ   pháp  đánh  giá  trong  truy  h iồ   thông  tin v iớ  tiêu chí đánh giá F là sự k tế  h pợ  c aủ  hai tiêu chí đánh  giá Precision (độ chính xác) và Recall (đ  bao ph ):

ộ ậ ợ + Đ  chính xác ( Precision): Trong t p h p tìm đ ượ   c

ầ ượ thì có bao nhiêu ph n tìm đ c là đúng.

ộ ố ầ ử ồ ạ + Đ  bao ph  ( t n t i thì tìm

ượ ủ Recall): Trong s  ph n t ầ ử . ra đ c bao nhiêu ph n t

3.3.2. K tế  quả

21

ệ ệ ố ổ ­ T ng s  khái ni m b nh: 9.801

ổ ứ ố ệ ­ T ng s  tri u ch ng:

ổ ­ T ng s

ế ệ ỗ ộ

ế ở ỉ có đ n 9.801 transaction, tuy nhiên

ệ ệ ầ ở 3.098 ố Transaction: 1.798 ệ N u xem m i khái ni m b nh là m t transaction thì ta   ọ ọ    đây NCS ch  ch n l c ồ   1.798 b i vì đa ph n các khái ni m b nh khác không bao g m

ệ ệ ứ ớ

ố ậ ế ợ ổ 1, thì t ng s  lu t k t h p (Association rule) là 692. NCS s

ườ ượ ệ ở các tri u ch ng b nh. V i min_support = 2 và Confidence =   ử  ể ự    trên đ  th c ụ d ng 300 b nh th ặ ng g p đã đ c rút trích

ệ ố ệ ớ ả ậ nghi m h  th ng v i hai gi i thu t khác nhau: Apriori và

ASO­Apriori.

ươ ế 3.4. K t ch ng

ươ ươ Ch ng 3 đã trình bày ph

ữ ệ ế

ươ ớ ậ ế   ử ụ ng pháp s  d ng lu t k t ấ   ề ợ h p  trong  tìm  ki m  ng  nghĩa  thông  tin  b nh  và đ   xu t ệ   ậ ế ợ ng pháp m i khai phá lu t k t h p trong Ontology b nh ph

ượ ọ đ c g i là ASO­Apriori .

ƯƠ Ự Ứ CH NG 4. XÂY D NG H  TH NG Ệ Ố TRA C U, TÌM

Ữ KI M Ế NG  NGHĨA THÔNG TIN B NHỆ

ệ ố ữ ổ ệ ế 4.1. T ng quan h  th ng tìm ki m ng  nghĩa thông tin b nh

ướ ả Hình 4.1 d i đây mô t

ữ ế ế ộ ệ tìm ki m ng  nghĩa thông tin b nh. Các n i dung ti p theo s ệ ố   ầ ủ  các thành ph n c a H  th ng ẽ

ầ ủ ệ ố ỉ ch  ra các thành ph n c a h  th ng.

22

ệ ố

ế Hình 4.1. H  th ng tìm ki m ng  nghĩa thông tin b nh

4.2. Xây d ng ự Ontology b nhệ

ọ 4.2.1. L aự  ch n disease ontology

ệ Ontology b nh (

ạ ệ ữ ừ ự ế ợ h p ng  nghĩa các lo i b nh và t Disease Ontology – DO) cho phép tích  ơ ở ế    trên c  s  k t v ng y t

ữ ư ệ http://disease­ ệ ợ h p   các   kho   d   li u   b nh   nh :   DO   (

ừ ể ồ ontology.org),   MeSH,   ICD,   t

ề ư ể ớ đi n   đ ng   nghĩa   NCI,   ự ệ   SNOMED và OMIM [10­13]. V i nhi u  u đi m và s  ti n

ợ ủ ượ ể ệ l i c a CSDL này, CSDL DO đ c Vi

ụ ấ ộ ồ

ả ệ ể ả ấ ộ t hoá đ  dùng làm   ặ   thông tin. M c tiêu là cung c p cho c ng đ ng y sinh các đ c ử b nh m t cách nh t quán, có kh  năng tái s đi m miêu t

ề ữ ụ d ng và b n v ng.

tự đ ngộ  Google Translation

ự ộ ậ 4.2.2. D chị ị D ch t đ ng Google Translation cho phép c p nh t t ậ ự

ể ả ớ ộ đ ng do các phiên b n ontology luôn phát tri n m i.

4.2.3. Tinh ch nhỉ

bán tự đ ngộ ạ ủ ạ ượ ấ ụ M c tiêu c a giai đo n này là t o đ

ự ệ ầ ệ ẩ ban đ u cho Ontology b nh, d a trên các tài li u chu n nh ơ ả   c c u trúc c  b n ư

ẽ ượ ể ớ ớ ICD,… Ontology này sau đó s  đ c dùng đ  so kh p v i DO

23

ử ạ ế ằ ặ ỉ thông qua mã ICD ho c tên ti ng Anh nh m ch nh s a l i các

ự ộ ỗ ị l i d ch t đ ng.

4.2.4. Ch nhỉ ậ s aử  c ngộ  tác Ontology b nhệ ươ ố ớ Lu n án dùng ph ế   ng pháp th ng kê v i hai cách ti p

ậ ế ữ ệ ủ ậ ậ ồ

ươ ự ệ ế ậ c n:   ti p   c n   d   li u   và   ti p   c n   đ ng   thu n   c a   Bác   sĩ   ầ   ng pháp chuyên gia) trong xây d ng Ontology b nh. Đ u (ph

ủ ệ ể ẽ ượ ồ ạ tiên, tên c a 6.000 b nh s  đ ể c ki m tra đ  xem có t n t

ệ ố ệ ế ệ b nh qua các h  th ng tìm ki m. Các tên b nh không t n t

ự ị ế ẽ ượ i tên   ồ ạ   i ồ   c các bác sĩ phiên d ch d a trên đ ng

trong tìm ki m s  đ thu n.ậ

ế ậ ữ ệ a. Ti p c n theo d  li u

ế ậ ữ ệ ả ư ế Theo ti p c n d  li u, có hai gi thuy t nh  sau:

ệ ượ ị ồ ạ ệ 1. Tên b nh đ c d ch chính xác là tên b nh t n t

ườ ườ ỏ ng i dùng th ượ   i, đ c ệ ố   ẻ ng h i đáp, chia s  trên các h  th ng

Internet.

ệ ượ ị ệ ồ ạ 2. Tên b nh đ c d ch chính xác là tên b nh t n t i, đ

ế ề ậ ổ ứ ượ   c ệ    đ  c p trong các tài li u các chuyên gia hay t ch c y t

ạ trên m ng Internet.

ế ậ ồ ậ ủ b. Ti p c n đ ng thu n c a các Bác sĩ

ự ề ộ ồ ở ệ 1. Xây d ng nhóm c ng tác, g m nhi u Bác sĩ ệ    B nh vi n

Ươ Trung ế ng Hu .

ộ ậ ệ ầ ằ ươ 2. Ban đ u, các bác sĩ làm vi c đ c l p, b ng ph ng pháp

ệ ặ ố ượ ề ấ th ng kê ho c kinh nghi m có đ c, các bác sĩ đ  xu t ra

ườ ộ ậ ặ ệ 300 b nh th ng g p đ c l p.

24

ườ ợ ạ ề ộ ố 3. Ng ố ẽ ổ i đi u ph i s  t ng h p l i theo m t th ng kê đ ể

ậ ủ ự ồ tính toán s  đ ng thu n c a nhóm.

ả ế ả ề ừ ườ 4. Sau đó, tr k t qu  v  cho t ng ng ỗ i, m i ng

ử ế ớ ế ả ủ ợ ỉ ụ t c ch nh s a k t qu  c a mình cho phù h p v i k t qu

ư ộ ả ạ ượ ế ườ ế   i ti p ả  ả   c xem nh  m t tham kh o ạ ượ đ t đ c. K t qu  đ t đ

ấ ị nh t đ nh.

ự ồ ữ ế ậ 5. Quay l ạ ướ i b

ư ồ ạ ệ ị bác sĩ tham gia d ch các b nh ch a t n t c 2, cho đ n khi có s  đ ng thu n gi a các   ệ i trên các h

ế ố th ng tìm ki m.

ế ộ 6. K t thúc quá trình c ng tác.

ậ ữ ệ 4.3. Thu th p d  li u

ề ơ ệ ậ ạ ượ ệ H n 3.000 tài li u v  các b nh đ c thu th p t

ạ ọ ế ư ệ ườ i các   ị   ng đ i h c y danh ti ng trên đ a th  vi n uy tín và các tr

ư ệ ổ ố ồ ư ợ

ư ệ ư ệ ạ ọ ố ồ ượ bàn thành ph  H  Chí Minh nh  Th  vi n t ng h p thành   ạ   ph  H  Chí Minh, Th  vi n Đ i h c Y D c, Th  vi n Đ i

ệ ạ ạ ọ ơ ọ h c Y Ph m Ng c Th ch, ...Trong CSDL hi n có h n 6.000

ệ ệ ượ ệ ộ ấ khái ni m b nh đã đ c Vi t hóa.

ệ ử ế ấ giá cho vi c x  lý các truy v n và tìm ki m các thông tin v Đây là m t CSDL r t quý   ề

ệ ề ệ các căn b nh đang có. Các file m m li t kê danh sách các

ậ ượ ậ ả ệ b nh t t đã đ ứ ậ c nhóm nghiên c u c p nh t và miêu t trong

ồ ơ ứ .  CSDL có trong h  s  minh ch ng

ự ươ ữ 4.4. Xây d ng ph ng pháp tìm ki m ế ng  nghĩa có  t ngươ

ề ướ ồ ế tác đi u h ng lu ng tìm ki m

ệ ố ườ ư ề Khi h  th ng ch a có nhi u ng i dùng, các t

ử ụ ườ ề ươ   ng ậ   ư i dùng và h  th ng ch a nhi u, s  d ng lu t ữ tác gi a ng

ệ ố 25

ữ ứ ề ệ ẽ ướ ế ợ k t h p gi a các tri u ch ng s  cho phép đi u h

ứ ư ế ợ ườ ồ   ng lu ng ệ   ệ i dùng các tri u ch ng b nh tìm ki m, đ a ra g i ý cho ng

ế ự ứ ữ ệ ầ ườ i dùng

ti p theo d a vào nh ng tri u ch ng ban đ u mà ng đã cung c p.ấ

ệ ố ự 4.5. Xây d ng h  th ng

4.5.1. C uấ  trúc cơ sở dữ l i uệ

ể ử ụ ầ Đ  s  d ng ontology DO, thì  DO  c n ph i đ

ữ ộ ệ ả ở ị tr  trong m t h  qu n tr  CSDL, ậ  đây lu n án thi

ử ụ ệ ệ ả

ả ượ ư   c l u ế ế ượ   t k  l c ị ữ ệ   ồ đ  CSDL b nh, và s  d ng MySQL cho vi c qu n tr  d  li u b nh.ệ

4.5.2. Khung tìm ki mế ừ ế ợ a. G i ý t khóa tìm ki m

ứ ừ ợ G i ý t khóa tìm ki m Ch c năng

ề ươ ấ ế cung c p tính năng ườ ử ụ ữ ị ể ợ g i ý đ  ngh  đ  tăng tính t ng tác gi a ng i s  d ng và

ệ ố h  th ng.

ừ ợ b. G i ý t khóa liên quan

ứ ừ ớ ợ G i ý t khóa liên quan Ch c năng ằ  nh m gi

ộ ệ ứ ụ ệ ặ tri u ch ng có liên quan ho c thu c b nh khác, ví d  khi ng ệ i thi u các   ườ   i

ọ ự ộ ố ừ ố ế  khóa tìm ki m “s t cao” ( fever),

ọ ừ ạ ể ừ headache) và h  d ng l i đ  suy nghĩ, tìm t khóa

ử ụ s  d ng l a ch n m t s  t “đau đ u” (ầ ế ệ ố ẽ ớ ứ ệ ti p theo; lúc này h  th ng s  gi ệ i thi u các tri u ch ng liên

ứ ệ ớ ợ ậ quan v i các tri u ch ng g i ý là “co gi t” ( convulsions).

ả ệ ế ế c. Tìm ki m k t qu  b nh

ệ ự ườ ệ ố ế ẽ Khi ng

ươ ượ ữ ứ ứ ệ ệ ớ ệ b nh t i dùng th c hi n tìm ki m, h  th ng s  tìm   ườ   i c ng

ng  ng v i nh ng tri u ch ng b nh  đ 26

ậ ớ ữ ệ ệ ố ệ dùng đã nh p vào ệ

ẽ ọ ố ượ ắ ệ th ng s  ch n ra d  li u :  V i d  li u b nh có trong h  th ng, h ươ ứ  đ ữ ệ b nh t ng  ng ế c s p x p theo

ượ ớ ữ ệ ệ ố ượ s  l ng đã xem và đ c đánh giá

ư ượ ậ ệ ậ ệ ố có trong h  th ng (ch a đ ; V i d  li u b nh không   ệ c c p nh t CSDL b nh), thì h

ẽ ố ế th ng s  tìm ki m trên Google.

ị ế ế ể ả d. Hi n th  k t qu  tìm ki m

ẽ ể ừ ế ế ả ố ị ỗ   K t qu  tìm ki m s  hi n th  theo t ng kh i cho m i

ượ ắ ế ừ ả ừ ố ướ ệ b nh, và đ c s p x p t trái sang ph i, t trên xu ng d i.

ệ ủ ệ ị ả ể ạ ầ ­ Ph n trên hi n th   nh đ i di n c a b nh.

ố ượ ữ ệ ể ầ ườ ng ng ệ   i xem b nh ị ­ Ph n gi a hi n th  tên b nh, và s  l

này.

ố ể ủ ầ ị ườ ề ộ i dùng v  n i dung ­ Ph n cu i hi n th  đánh giá c a ng

b nh.ệ

ươ ế 4.6. K t ch ng

ươ ệ ố ữ ế Ch

ườ ử ụ ằ ợ ớ ỗ ợ ươ ng 4 trình bày H  th ng tìm ki m ng  nghĩa thông tin   ự   i s  d ng b ng các g i ý d a ng tác v i ng ệ b nh có h  tr  t

ậ ứ ệ ậ trên t p lu t khai thác đ ượ ừ c t Ontology tri u ch ng và Ontology

ệ b nh [CTLA1].

Ứ Ậ Ế Ế K T LU N VÀ CÁC NGHIÊN C U TI P THEO

ế ậ 1. K t lu n

ứ ậ ươ Lu n án đã nghiên c u các ph

ộ ệ ố ự ứ ữ ụ ế m t h  th ng tìm ki m ng  nghĩa và  ng d ng xây d ng H ự   ng pháp xây d ng ệ

ữ ế ệ ệ ố ố th ng   tìm   ki m   ng   nghĩa   thông   tin   b nh.   H   th ng   này

ạ ề ệ ệ ệ ả mang l ế i hi u qu  cho vi c tìm ki m thông tin v  b nh khi

27

ư ủ ầ ầ ầ ban đ u ch a có đ y đ  thông tin đ u vào. Quá trình t ươ   ng

ườ ậ ế ợ ệ ố ự ữ tác gi a ng i dùng và H  th ng d a trên lu t k t h p mang

ả ệ ệ ễ ơ ớ ạ l

ậ ế ợ ự ế ề ề ố i hi u qu  cao trong quá trình suy di n h n so v i vi c tìm   ễ ki m d a trên lu t k t h p truy n th ng. Đi u này cũng d

ả ở ả ứ ệ dàng lý gi i b i b n thân Ontology b nh đã hàm ch a các

ậ ế ợ ệ ữ ệ

ệ ệ ộ

ữ ề ệ ệ ấ ộ lu t k t h p bên trong nó – quan h  gi a các khái ni m và   ạ   các thu c tính. Ngoài ra, Ontology b nh giúp vi c phân lo i ễ các tài li u b nh theo m t phân c p ng  nghĩa, đi u này d

ệ ế ủ ả ậ ồ

ươ ề ấ ộ (1) Đ  xu t ph

ừ ữ ệ ộ ế dàng cho vi c tìm ki m. Các k t qu  chính c a lu n án g m: ự   ng pháp trích rút b  ba (triple) d a ả    d  li u văn b n trên mô hình cú pháp, trích rút các b  ba t

ụ ụ ư ủ ự ệ ặ ả ph c v  cho vi c xây d ng đ c tr ng c a văn b n;

ề ấ ươ ữ ệ ế ệ (2) Đ  xu t ph ng pháp tìm ki m đa di n d  li u văn

ệ ử ụ ữ ệ ế ị ả b n và cá nhân hoá tìm ki m đa di n s  d ng d  li u đ nh

ướ ử ằ h ậ ng x  lý nh p nh ng c a ủ Wikipedia Disambiguation;

ấ ề ươ ậ ế ợ (3) Đ  xu t ph

ự ệ ộ ớ Ontology b nh (ASO­Apriori) d a trên 02 đ  đo m i: đ  h

ợ ở ộ ậ ộ ng pháp khai phá lu t k t h p trong   ộ ỗ  ậ ế ợ   ở ộ tr  m  r ng và đ  tin c y m  r ng và khai phá lu t k t h p

ữ ữ ệ ệ ố ng  nghĩa gi a các m i quan h  trong Ontology b nh;

ự ệ ế ệ (4) Xây d ng Ontology b nh ti ng Vi t;

ề ấ ươ ệ ố (5) Đ  xu t ph

ữ ế ỗ ợ ươ ệ ớ ki m ng  nghĩa thông tin b nh có h  tr  t ự ng pháp và xây d ng H  th ng tìm   ườ   i ng tác v i ng

ằ ậ ế ợ ự ữ ậ ợ

ế ợ ứ ữ ệ ử ụ s  d ng b ng các g i ý d a trên t p lu t k t h p gi a các   ệ  ậ k t h p ng  nghĩa ố  các m i quan h ừ t

tri u ch ng và lu t   trên Ontology b nh.ệ

28

ứ ế 2. Các nghiên c u ti p theo

ế ụ ươ Ti p t c nghiên các ph ng pháp trích rút thông tin văn

ươ ậ ế ợ ả b n, các ph

ậ ướ ề ế ồ ằ ử x  lý nh p nh ng và đi u h ng pháp khai phá lu t k t h p trong ontology ,  ử ụ   ng lu ng tìm ki m s  d ng

ontology.

29

Ụ Ố Ủ Ả Ậ Ế DANH M C CÁC CÔNG TRÌNH KHOA H C ĐàCÔNG B  C A TÁC GI  CÓ LIÊN QUAN Đ N LU N ÁN

ễ ươ

ắ ả ứ

ọ ấ ế

ệ ệ

ỳ ễ ồ Hu nh Ái Loan, Nguy n H ng S n

ễ ồ Nguy n H ng S n

ễ ọ ị ng Trang,

ồ ọ ơ , D ng Tr ng H i, Hoa   Nguy n H ng S n [CTLA1]. ươ ệ ố   ng tác thông minh trong tra c u, tìm  H  th ng t T t Th ng, ệ , T p chí Nghiên c u Khoa h c và Công ứ ạ ki m thông tin b nh   ự ố ọ   ngh  Quân s , S  53, 02/2018, trang 160­169, Vi n Khoa h c ộ ệ và Công ngh  Quân s , Hà N i. Hong Son Nguyen, Minh Hieu Le, Chan Quan  [CTLA2]. Loi   Lam,   Trong   Hai   Duong,  Smart   interactive   search   for   Vietnamese   disease   by   using   data   mining­based   ontology,  Journal   of   Information   and   Telecommunication,   volume   1   ­  issue 2, 2017, pages 176­191. ơ , D ngươ   [CTLA3]. ả Triple   Extraction   Using   Lexical   Pattern­based   Tr ng   H i,   Syntax   Model,   Advanced   Computational   Methods   for  Proceedings of the 4th International Conference on Computer  Science,   Applied   Mathematics   and   Applications,   ICCSAMA  2016, 2­3 May, 2016, Vienna, Austria, 2016, vol 453, pages  265­279. ơ , Ph m H ng Phúc, D ng ươ   ạ ồ [CTLA4]. ươ ả  Personalized Facets for   Tr ng H i, Nguy n Th  Ph Faceted   Search   Using   Wikipedia   Disambiguation   and   Social   Network,   Advanced   Computational   Methods   for   Knowledge  Engineering: Proceedings of the 4th International Conference on  Computer   Science,   Applied   Mathematics   and   Applications,  ICCSAMA 2016, 2­3 May, 2016, Vienna, Austria, 2016, vol 453,  pages 229­241.

30

ễ ồ ứ  Đ ng Đ c Bình,

ơ , Nguy nễ   ặ Nguy n H ng S n [CTLA5]. ả ,  A   framework   of   faceted   ươ Thanh   Bình,   D ng   Tr ng   H i search for unstructured documents using wiki disambiguation,  Computational Collective Intelligence, ICCCI 2015, Springer  International Publishing, 2015, pages 502­511.

31

32