intTypePromotion=1
zunia.vn Tuyển sinh 2024 dành cho Gen-Z zunia.vn zunia.vn
ADSENSE

Tóm tắt luận án Tiến sĩ Công nghệ thông tin: Nghiên cứu nhận dạng thực thể có tên và thực thể biểu hiện trong văn bản và ứng dụng

Chia sẻ: Yi Yi | Ngày: | Loại File: DOCX | Số trang:27

51
lượt xem
5
download
 
  Download Vui lòng tải xuống để xem tài liệu đầy đủ

Luận án tập trung đề xuất một số giải pháp nhận dạng thực thể cho dữ liệu văn bản tiếng Việt và dữ liệu văn bản y sinh tiếng Anh. Các giải pháp tập trung vào vấn đề kết hợp các mô hình học máy cũng như các tri thức nguồn liên quan đến miền dữ liệu nhằm nâng cao hiệu quả đầu ra đối với các bài toán.

Chủ đề:
Lưu

Nội dung Text: Tóm tắt luận án Tiến sĩ Công nghệ thông tin: Nghiên cứu nhận dạng thực thể có tên và thực thể biểu hiện trong văn bản và ứng dụng

  1. ĐẠI HỌC QUỐC GIA HÀ NỘI TRƯỜNG ĐẠI HỌC CÔNG NGHỆ TRẦN MAI VŨ NGHIÊN CỨU NHẬN DẠNG THỰC THỂ CÓ TÊN VÀ  THỰC THỂ BIỂU HIỆN TRONG VĂN BẢN VÀ ỨNG  DỤNG Chuyên ngành: Hệ thống thông tin Mã số: 62.48.05.01 TÓM TẮT LUẬN ÁN TIẾN SĨ CÔNG NGHỆ  THÔNG TIN Hà Nội – 2018 Công trình được hoàn thành tại: Trương Đai hoc Công ̀ ̣ ̣   ̣ ̣ ̣ ̀ ̣ nghê, Đai hoc Quôc gia Ha Nôi ́ Người   hướng   dẫn   khoa   học:  PGS.TS.   Hà   Quang  Thụy            PGS.TS. Nguyễn Lê Minh Phản biện: PGS.TS Lương Chi Mai Phản biện: PGS.TS. Lê Thanh Hương Phản biện: PGS.TS Nguyễn Đình Hóa
  2. Luận án sẽ  được bảo vệ  trước Hội  đồng cấp Đại   học Quốc gia chấm luận án tiến sĩ họp tại  vào hồi 9 giờ ngày 07 tháng 02 năm 2018 Có thể tìm hiểu luận án tại:  Thư viện Quốc gia Việt Nam Trung tâm Thông tin ­ Thư viện, Đại học Quốc gia Hà  Nội
  3. a. DANH MỤC CÔNG TRÌNH CỦA TÁC GIẢ  CÓ LIÊN QUAN ĐẾN LUẬN ÁN 1. [CTLA1] Nigel Collier, Ferdinand Paster, Mai­Vu Tran  (2014).   The   impact   of   near   domain   transfer   on  biomedical   named   entity   recognitions   LOUHI   2014,  EACL 2014, Sweden, 2014. 2. [CTLA2]   Nigel   Collier,   Mai­Vu   Tran,   Hoang­Quynh  Le, Quang­Thuy Ha, Anika Oellrich, Dietrich Rebholz­ Schuhmann (2013). Learning to Recognize Phenotype  Candidates in the Auto­Immune Literature Using SVM  Re­Ranking. PLoS ONE 8(10): e72965, October 2013. 3. [CTLA3] Mai­Vu Tran, Duc­Trong Le (2013). vTools:  Chunker   and   Part­of­Speech   tools,   RIVF­VLSP   2013  Workshop. 4. [CTLA4]   Nigel   Collier,   Mai­Vu   Tran,   Hoang­Quynh  Le,   Anika   Oellrich,   Ai   Kawazoe,   Martin   Hall­May,  Dietrich   Rebholz­Schuhmann   (2012).   A   Hybrid  Approach to Finding Phenotype Candidates in Genetic  Texts, COLING 2012: 647­662. 5. [CTLA5] Mai­Vu Tran, Duc­Trong Le, Xuan­Tu Tran  and Tien­Tung Nguyen (2012). A Model of Vietnamese  Person   Named   Entity   Question   Answering   System,  PACLIC 2012, Bali, Indonesia, October 2012. 6. [CTLA6]  Hoang­Quynh  Le,  Mai­Vu Tran,  Nhat­Nam  Bui, Nguyen­Cuong Phan, Quang­Thuy Ha (2011). An  Integrated Approach Using Conditional Random Fields  for   Named   Entity   Recognition   and   Person   Property  Extraction in Vietnamese Text. IALP 2011:115­118. 7. [CTLA7] Hoang­Quynh Le, Mai­Vu Tran, Thanh Hai  Dang, Nigel Collier (2015). The UET­CAM System in  the BioCreAtIvE V CDR Task. In Proceedings of the  fifth   BioCreative   challenge   evaluation   workshop,  Sevilla, Spain, 2015. 3
  4. 4
  5. MỞ ĐẦU b. Lý do chọn đề tài Nhận dạng thực thể có tên (Named entity recognition:   NER; còn được gọi là “nhận dạng thực thể  định danh”) là  một bài toán chính thuộc lĩnh vực xử  lý ngôn ngữ  tự  nhiên  (NLP). Đây là một bài toán tiền đề cho các hệ thống về hiểu   ngôn ngữ  hay khai phá văn bản như  trích xuất sự  kiện, hỏi   đáp tự động hay tìm kiếm ngữ nghĩa. Chính vì vậy, cùng với  sự  phát triển của dữ  liệu văn bản trên Internet, bài toán này   cũng nhận được sự quan tâm của cộng đồng nghiên cứu trong  khoảng 20 năm trở lại đây.  c. Mặc dù đã có khá nhiều công trình nghiên cứu  cho một số loại thực thể thông thường trong văn  bản   tiếng   Anh   chuẩn   tuy   nhiên   những   nghiên  cứu liên quan đến các thực thể  trong ngôn ngữ  khác như  tiếng Việt hay các miền dữ  liệu đặc  biệt như  miền dữ liệu y sinh vẫn còn rất nhiều  hạn   chế   và   thách   thức.   Có   thể   kể   đến   là   sự  khuyết thiếu các tập dữ liệu gán nhãn chuẩn, tài  nguyên ngôn ngữ  về  tri thức miền hay các định  nghĩa   hình   thức   về   kiểu   thực   thể   cần   nhận  dạng… Luận án này sẽ  tiếp nối những nghiên  cứu trước đó nhằm giải quyết một phần những  hạn chế được nêu ra  ở trên. Mục tiêu cụ thể  và  phạm vi nghiên cứu của luận án sẽ được mô tả  kỹ hơn ở phần tiếp theo. d. Mục tiêu cụ  thể  và phạm vi nghiên cứu của  luận án Luận án sẽ tập trung vào bài toán nhận dạng thực thể  với hai loại dữ liệu thuộc hai ngôn ngữ khác nhau là các thực  thể  thuộc dữ  liệu văn bản tiếng Việt và các thực thể  thuộc  dữ liệu văn bản y sinh học. 5
  6. Mục tiêu cụ  thể của luận án là phát triển vấn đề, đề  xuất giải pháp và xây dựng thực nghiệm cho việc nhận dạng   các loại thực thể thuộc hai miền dữ liệu trên. Cụ  thể, luận án giải đáp các vấn đề  nghiên cứu sau   đây: • Khảo sát và đưa ra các phương án xử lý các đặc điểm   riêng biệt của với dữ liệu tiếng Việt và dữ liệu y sinh   học trong văn bản tiếng Anh. • Đề  xuất phương án tiếp cận mới tận dụng được các  nghiên   cứu   trước   đó   và   tiếp   cận   giải   quyết   được  những  đặc   điểm riêng  biệt của  miền dữ  liệu  đang  xem xét. • Xây dựng bộ dữ liệu phục vụ cho thực nghiệm. • Xây dựng các thực nghiệm để  đánh giá các mô hình   giải quyết bài toán đã đề xuất. • Xây dựng hệ thống chạy thực tế đối với các mô hình  đạt kết quả khả quan. • Định hướng phát triển nâng cấp nghiên cứu. e. Về  nghiên cứu lý thuyết, luận án tập trung đề  xuất một số  giải pháp nhận dạng thực thể  cho  dữ liệu văn bản tiếng Việt và dữ liệu văn bản y   sinh tiếng Anh. Các giải pháp tập trung vào vấn  đề  kết hợp các mô hình học máy cũng như  các  tri thức nguồn liên quan đến miền dữ liệu nhằm   nâng cao hiệu quả  đầu ra đối với các bài toán.  Kết quả của các mô hình đạt hiệu quả khả quan   có thể  áp dụng được trong các hệ  thống chạy  thực tế.  f. Các kết quả nghiên cứu lý thuyết trên đây được  công bố  trong một số   ấn phẩm khoa học có uy  tín là minh chứng cho ý nghĩa khoa học của luận  án. 6
  7. g. Về triển khai ứng dụng, luận án đã đề xuất thực   mô   hình  hỏi   đáp  tự   động   tiếng  Việt  dựa   trên  nhận   dạng   thực   thể   [CTLA6].   Xây   dựng   hệ  thống  tra  cứu và  tham  khảo  các  mối  quan  hệ  giữa thực thể biểu hiện – bệnh PhenoMiner (tại   địa chỉ http://phenominer.mml.cam.ac.uk/).  h. Kết quả  triển khai  ứng dụng thông qua các hệ  thống thử  nghiệm và tra cứu nói trên cho thấy  luận án có ý nghĩa thực tiễn. i. Cấu trúc của luận án  Chương 1  của luận án hệ  thống lại các lý thuyết  cơ bản về nhận dạng thực thể cũng như khảo sát  lịch sử nghiên cứu và điểm lại một số nghiên cứu   tiêu biểu.   Chương 2   trình bày về  bài toán nhận dạng thực  thể và  ứng dụng nhận dạng thực thể vào bài toán  hỏi đáp tự động trong văn bản tiếng Việt.  Chương 3  trình bày một mô hình nhận dạng thực  thể  biểu hiện và các thực thể  liên quan cũng như  vấn đề thích nghi miền giữa các tập dữ liệu y sinh   học  Chương 4 , luận án giới thiệu một kỹ  thuật nâng  cấp hiệu quả của mô hình đề xuất trong chương 3   bằng   kỹ   thuật   lai   ghép   các   mô   hình   (ensemble  models) dựa trên tri thức và dựa trên học máy để  nhận  dạng  thực  thể   trong  văn  bản  y  sinh  tiếng  Anh.   Phần   kết   luận   tổng   hợp   các   kết   quả   đạt   được  cũng như nêu lên một số hạn chế của luận án, và   đồng thời trình bày một số định hướng nghiên cứu  trong tương lai. 7
  8. CHƯƠNG 1 – KHÁI QUÁT VỀ NHẬN DẠNG  THỰC THỂ j. 1.1. Một số khái niệm cơ bản k. 1.1.1. Định nghĩa bài toán nhận dạng thực thể Luận án sử  dụng định nghĩa của bài toán nhận dạng  thực thể được phát biểu bởi Aggarwal và Zhai [AZ12]: “Bài   toán   nhận   dạng   thực   thể   (Named   entity   recognition, NER) là bài toán xác định thực thể  định danh từ   các văn bản dưới dạng tự do và phân lớp chúng vào một tập   các kiểu được định nghĩa trước như  người, tổ  chức và địa   điểm.” l. 1.1.2. Thách thức Tuy là một bài toán cơ  bản, nhưng nhận dạng thực   thể  cũng gặp phải không ít thách thức cần giải quyết do sự  phong phú và các nhập nhằng của ngôn ngữ. Ví dụ, "JFK" có   thể chỉ tới người "John F. Kennedy”, địa điểm "sân bay quốc  tế JFK", hoặc bất kỳ loại nào khác có cùng dạng viết tắt đó.  Tương tự  “Sông Lam Nghệ  An” có thể  là địa điểm chỉ  tên  một con sông tại tỉnh Nghệ  An hay tên một đội bóng “Sông  Lam Nghệ  An”. Để  xác định loại cho thực thể  "JFK" hay  “Sông Lam Nghệ  An” xuất hiện trong một tài liệu cụ  thể,  cần phải xem xét đến ngữ cảnh chứa nó. Bên cạnh yếu tố  về  ngữ  nghĩa, các yếu tố  liên quan   đến đặc trưng ngôn ngữ  cũng góp phần làm bài toán nhận  dạng thực thể trở nên khó khăn. Một số ngôn ngữ như  tiếng  Việt ngoài việc thiếu các tài nguyên xử lý ngôn ngữ tự nhiên   còn phải thực hiện một số bài toán con như tách từ trước khi   nhận dạng thực thể, tỷ  lệ  lỗi của các bài toán con sẽ   ảnh  hưởng đến kết quả  của bài toán nhận dạng thực thể. Ngoài   ra, từng loại thực thể  cũng có những thách thức riêng khác  nhau ảnh hưởng đến hiệu quả của mô hình nhận dạng. 8
  9. m. 1.1.3. Độ đo đánh giá Các số đo đánh giá điển hình được sử dụng cho nhận  dạng thực thể  là độ  chính xác (precision ­ P), độ  hồi tưởng  (recall ­ R) và độ đo F1 (F1­measure). Độ chính xác được tính   bằng phần trăm các kết quả đúng trong tổng số kết quả nhãn  dương của hệ thống.  n. 1.1.4. Ứng dụng của nhận dạng thực thể Có thể  kể  đến nhận dạng thực thể  xuất hiện trong   một số các ứng dụng sau: • Trích xuất quan hệ là bài toán nhận diện các mối quan   hệ ngữ nghĩa giữa hai thực thể hay giữa một thực thể  và một khái niệm [GLR06]. Thành phần nhận diện  thực thể  là pha đầu tiên trước khi giải quyết vấn đề  xác định quan hệ. • Trích xuất sự kiện là bài toán phức tạp hơn trích xuất  quan hệ  khi sự  kiện là một tổ  hợp của nhiều yếu tố  thể hiện các thông tin biểu diễn về ai/cái gì đã làm gì,   với  ai/cái  gì,  bao  giờ,   ở   đâu,  bằng  cách  và  tại sao.  Tương tự  như  trích xuất quan hệ, trong trích xuất sự  kiện vấn đề  nhận dạng thực thể  cũng đặt lên hàng  đầu khi yêu cầu phải nhận ra  đủ  và chính xác các  thành phần cấu thành nên sự kiện.  • Khá nhiều các hệ thống hỏi đáp tự động dựa trên khai  phá văn bản cần đến nhận dạng thực thể như là một  yếu tố  làm tăng khả  năng phân tích, hiểu câu hỏi và  dữ liệu trả lời trong hệ thống [HWY05]. o. 1.2. Lịch sử nghiên cứu và một số hướng tiếp  cận giải quyết bài toán Bài   toán   nhận   dạng   thực   thể   đã   xuất   hiện   từ   đầu  những năm 90 [RA91], nhưng chỉ được chính thức giới thiệu  vào năm 1995 tại hội nghị MUC­6 với tư cách là một bài toán  con của trích xuất thông tin [GS96]. Kể từ đó, NER đã thu hút   nhiều sự  chú ý của cộng đồng nghiên cứu. Đã có khá nhiều  9
  10. hệ  thống và chương trình được xây dựng thực thi bài toán  này, có thể  kể  đến Automatic Content Extraction 1, các công  bố  trong nhiệm vụ cộng đồng thuộc hội nghị  Conference on  Natural   Language   Learning   (CoNLL)   năm   2002   và   2003  [TD03], và chuỗi nhiệm nhận dạng thực thể  y sinh tại hội   thảo   BioCreative2  (Critical   Assessment   of   Information  Extraction Systems in Biology).  Các nghiên cứu đạt hiệu quả  cao đối với nhận dạng  thực thể  thường dựa trên các kỹ  thuật học máy thống kê và  hầu hết trong số đó xử  lý bài toán này như  một bài toán gán  nhãn   chuỗi   (sequence   labeling).  Một   trong   những   phương  pháp học máy đầu tiên được áp dụng cho NER   là mô hình  Markov   ẩn  (Hidden   Markov   Models,   HMM).   Các   phương  pháp học máy cho NER được xây dựng sau đó đã có một sự  chuyển dịch từ mô hình sinh như HMM sang mô hình mô hình  rời rạc (discriminative models) nhằm khắc phục các nhược  điểm của HMM. Một mô hình rời rạc thông dụng được sử  dụng trong nhận dạng thực thể  là  mô hình entropy  cực đại  (Maximum Entropy Model, MaxEnt) [BPP96].  Kết   hợp   mô   hình   MEM   với   một   giả   định   Markov,  được   gọi   là  mô   hình  Markov   entropy  cực   đại  (Maximum  Entropy Markov Models, MEMM). Trường ngẫu nhiên có điều kiện (Conditional Random  Fields, CRF) là một mô hình rời rạc tiêu biểu khác để  xử  lý   bài toán gán nhãn chuỗi. Phương pháp này được giới thiệu   1 Automatic content extraction (ACE) evaluation.  http://www.itl.nist.gov/iad/mig/tests/ace/ 2 http://www.biocreative.org/ 10
  11. bởi   Lafferty   và   các   cộng   sự   cho   bài   toán   gán   nhãn   chuỗi  [LMP01]. p. 1.3. Nhận dạng thực thể  trong dữ  liệu văn  bản   tiếng   Việt   và   một   số   nghiên   cứu   liên  quan Bắt nhịp với tình hình phát triển chung trên toàn thế  giới, các văn bản tiếng Việt cũng ngày càng xuất hiện nhiều   dưới dạng văn bản điện tử, và cùng với đó chính là sự  phát  sinh nhu cầu khai thác thông tin có giá trị từ các văn bản này.   Nhận dạng thực thể đóng một vai trò chủ chốt trong khai phá  văn bản, chính vì thế nó cũng nhanh chóng trở thành một lĩnh  vực nghiên cứu được nhiều nhà khoa học trong nước quan  tâm. Áp dụng được NER cho dữ  liệu tiếng Việt đồng nghĩa  với việc đặt một nền tảng quan trọng trong việc xây dựng  được các hệ thống ứng dụng cho nhiều lĩnh vực khác như tài   chính, kinh tế, xã hội, y sinh học, v.v.. phù hợp với tình hình  trong nước. q. 1.4. Nhận dạng thực thể  trong dữ  liệu văn  bản y sinh tiếng Anh và một số  nghiên cứu  liên quan Hiện nay, số lượng các văn bản y tế và sinh học dưới  dạng điện tử trên Internet cũng như được lưu trữ trong các hệ  thống y tế  đang tăng với tốc độ  chóng mặt. Việc khai thác  hiệu quả nguồn tài nguyên này có thể đưa tới nguồn tri thức  hữu ích cho người dùng như  phát hiện bệnh dịch sớm, tổng   hợp các kinh nghiệm phòng và chữa bệnh, nghiên cứu các cơ  chế di truyền, tuyên truyền và nâng cao sức khỏe cộng đồng,  v.v..   Những   nghiên   cứu   liên   quan   đến   xử   lý   ngôn   ngữ   tự  nhiên cho văn bản y sinh học (Biomedical Natural Language   Processing; BioNLP) đã mang đến nhiều lợi ích cho việc khai  thác nguồn dữ liệu y sinh học, có thể kể đến những cơ sở dữ  liệu hay ontology y sinh được xây dựng tự  động hỗ  trợ  cho  11
  12. những nhà nghiên cứu sinh và hay bác sĩ hay những hệ thống   theo dõi thông tin về diễn biến dịch bệnh truyền nhiễm đang   phát triển trên thế giới.  Trong những hệ thống đấy, nhận dạng thực thể y sinh   là một thành phần quan trọng trong quá trình phân tích và  tổng hợp thông tin từ văn bản y sinh học. Đây là một bài toán   khó vì mỗi một loại thực thể  y sinh lại bao hàm nhiều tính  chất đặc thù khác nhau về  ngôn ngữ  và y sinh học đòi hỏi   người nghiên cứu cần phải có sự kết hợp kiến thức cả xử lý  ngôn ngữ tự nhiên và kiến thức y sinh học mới có thể đưa ra   một phương pháp hay mô hình nhận dạng thực thể hiệu quả.  Chương 2 – NHẬN DẠNG THỰC THỂ TÊN  NGƯỜI KẾT HỢP VỚI NHẬN DẠNG THUỘC  TÍNH THỰC THỂ CÓ TÊN TRONG VĂN BẢN  TIẾNG VIỆT r. 2.1. Giới thiệu Tên người và những thông tin liên quan đến người là   một trong những từ  khóa được tìm kiếm thường xuyên nhất   trên các công cụ  tìm kiếm web, tuy nhiên, các kết quả  tìm  kiếm và thông tin trả  về đôi khi còn rất mơ  hồ. Vì vậy, nhu   cầu về một hệ thống đầy đủ thông tin, chính xác và tập trung  vào thực thể  người là rất lớn. Thực thể  tên người luôn gắn   liền với một số  các thuộc tính [SJ09, JAJ10], đó là các đặc   trưng hoặc tính chất của một thực thể  và trích chọn thuộc  tính là trích chọn các đặc trưng hoặc tính chất tương ứng với  một thực thể  từ  dữ  liệu văn bản [GR08]. Do đó, trích chọn  12
  13. thuộc tính đóng một vai trò chủ  chốt trong việc xử  lý nhập   nhằng tên người [SJ09]. Ngoài ra, việc trích chọn thực thể  tên người cùng với các thuộc tính của chúng cũng góp một  phần quan trọng để mở rộng các cơ sở dữ liệu và ontology. s. 2.2. Cơ sở lý thuyết và mô hình đề xuất t. 2.2.1. Mô hình Entropy cực đại giải mã bằng   tìm kiếm chùm (MEM+BS) Mô hình Entropy  cực đại  (Maximum Entropy Model,  Maxent  Model)  [BPP96]   là   một   thuật   toán   học   máy   thông  dụng dựa trên  xác suất  có điều kiện  được sử  dụng trong   nhiều nghiên cứu về  nhận dạng thực thể  y sinh học [CN02,   BON03, CC03, LTC04]. Trong đó, entropy là độ  đo về  tính  đồng đều hay tính không chắc chắn của một phân phối xác  suất, một phân phối xác suất có Entropy càng cao thì phân  phối của nó càng đều. u. 2.2.2.   Phương   pháp   trường   ngẫu   nhiên   có   điều kiện (CRF)  Trường ngẫu nhiên có điều kiện (Conditional Random  Fields, CRF) là một là một mô hình rời rạc dựa trên ý tưởng  gốc từ  mô hình Markov  ẩn (Hidden Markov Model, HMM)   [RA89] và được cải thiện để khắc phục các nhược điểm của  HMM cũng như  mô hình markov entropy cực đại (Maximum  Entropy Markov Model, MEMM) [MFP00]. CRF  được giới  thiệu bởi Lafferty và các cộng sự cho bài toán trích xuất thông  tin [LMP01]. Tính  ưu việt của CRF so với HMM thể hiện  ở  việc nó  ước lượng các phân phối xác suất có điều kiện theo   trình tự  gán nhãn, tính  ưu việt này đã được chứng minh qua  nhiều nghiên cứu [ML03, SE04]), và cho đến nay CRF vẫn   đang là một trong những phương pháp học máy được  ứng   dụng nhiều trong lĩnh vực NLP. 2.3.3. Mô hình đề xuất 13
  14. Mô hình được đề xuất gồm có ba pha chính, được mô  hình hóa trong hình 2.3. Đầu vào của mô hình là từng câu  trong văn bản và đầu ra là các câu đã được gán nhãn dựa trên   mô hình nhận dạng.  Hình 2.3. Mô hình tích hợp NER và trích chọn thuộc tính   của thực thể tên người Pha 1: Huấn luyện mô hình Pha 2: Gán nhãn dữ  liệu dựa trên mô hình nhân dạng  thực thể và thuộc tính Pha 3 ­ Lọc câu lọc dữ  liệu  đã được gán nhãn thu   được ở pha 2 và chỉ giữ lại các câu nhãn phù hợp.  v. 2.2.3. Tập đặc trưng Bảng 2.3. Tập đặc trưng được sử dụng ST Đặc trưng Ký hiệu 14
  15. T 1 Từ đang xét W0 2 Nhãn từ loại của từ đang xét (POS) POS (W0) Is_Lower(0,0) Từ đang xét là chữ thường, viết hoa đầu từ hay viết hoa  3 Is_Initial_Cap (0,0) toàn bộ? Is_All_Cap (0,0) 4 Ngữ cảnh Wi (i = ­2,­1,1,2)) 5 Liên kết từ vựng Syllable_Conj (­2,2)) 6 Biểu thức chính quy Regex(0,0) 7 Nhận dạng tiếng Việt Is_Valid_Vietnamese_Syllable(0,0) dict:name, dict:first_name 8 Từ điển dict:vname dict:vfirst_name prefix:per 9 Tiền tố prefix:loc prefix:org 2.4. Thực nghiệm, kết quả và đánh giá Thực nghiệm được tiến hành trên  10.000 câu được thu  thập từ  Wikipedia3 tiếng Việt. Các câu này được gán  nhãn thủ  công để  phục vụ  cho huấn luyện và kiểm  thử. Đánh giá dựa trên các độ  đo chính xác (P), độ  đo  hồi tưởng (R) và độ  đo F với phương pháp kiểm thử  chéo 10 lần. Kết quả  được xem xét  ở  cả  mức tổng  thể và cho từng thuộc tính. Kết quả thực nghiệm đánh giá trên toàn hệ thống:  Bảng   2.4.   Kết   quả   đánh   giá   toàn   hệ   thống   trên   hai   phương pháp MEM+BS và CRF 3 http://vi.wikipedia.org/ 15
  16. Độ   chính  Độ   hồi  Đô đo  xác tưởng F MEM   +   BS  (beam=3) 83.72 82.54 83.13 CRF 84 82.56 83.39 Kết quả thực nghiệm đánh giá trên từng nhãn  Bảng 2.5. Kết quả thực nghiệm đối với từng nhãn STT Nhãn P (%) R (%) F (%) STT Nhãn P (%) R (%) F (%) 1 OPer 91.35 90.33 90.84 2 NickPer 89.88 90.44 90.16 12 R_OtherName 91.67 85.19 88.31 3 RPer 80.46 78.65 79.54 13 R_Relationship 81.98 83.30 82.63 4 VBornLoc 83.45 87.91 85.62 14 R_WhereBorn 80.89 81.74 81.31 5 VDeadLoc 80.35 80.09 80.22 15 R_WhereDead 80.23 85.36 82.72 6 VHomeLoc 93.39 91.77 92.57 16 R_WhenDead 85.65 85.99 85.82 7 VJobOrg 78.25 83.69 80.88 17 R_Job 77.35 75.64 76.49 8 VJob 81.49 78.22 79.82 18 R_WhereJob 75.92 73.21 74.54 9 VSex 90.45 87.56 88.98 19 R_Sex 73.29 65.30 69.06 10 VBornTime 83.77 90.39 86.95 20 R_WhenBorn 85.75 83.22 84.47 11 VDeadTime 80.40 87.28 83.70 21 R_WhenDead 76.10 72.77 74.40 w. 2.3. Một mô hình hỏi đáp tên người áp dụng  nhận dạng thực thể tiếng Việt x. 2.3.1. Khái quát bài toán Trong tiếng Việt, câu hỏi về  người thường chứa các  từ  để  hỏi như: là ai, ai là, của ai, do ai, vì ai, người nào…  Hệ thống QA được xây dựng trong luận án yêu cầu đầu vào  là các câu hỏi đơn giản (factoid question) tiếng Việt với kết   quả trả lời là tên người. Có thể xem các câu hỏi đầu vào của  hệ  thống là dạng các câu hỏi WHO/WHOM/WHOSE trong  tiếng Anh. Các khái niệm liên quan đến câu hỏi đơn giản và   16
  17. đặc trưng của câu hỏi trong tiếng Việt sẽ  được giới thiệu   trong phần 3.3.1. y. 2.3.2. Đặc trưng câu hỏi liên quan đến thực   thể người trong tiếng Việt Dạng hai lớp tân ngữ có các câu trúc sau: ­ Chủ thể + Hành động + Tân ngữ trực tiếp ­ Tân ngữ trực tiếp + Chủ thể + Hành động Tân ngữ trực tiếp + Hành động + Chủ thể Dạng ba lớp tân ngữ có các cấu trúc sau: ­ Cấu trúc 1: Chủ thể + Hành động + Tân ngữ trực tiếp  + Tân ngữ gián tiếp ­ Cấu trúc 2: Chủ  thể  + Tân ngữ  trực tiếp + Tân ngữ  gián tiếp z. 2.3.3. Mô hình đề xuất Mô hình hỏi đáp thực thể  tên người cho tiếng Việt được  đề xuất và đặt tên là VPQA. Mô hình sử dụng phương   pháp phân tích câu hỏi bằng kỹ  thuật học máy CRF   cùng với chiến lược trả lời tự động dựa trên thông tin  được truy vấn từ  máy tìm kiếm. Mô hình tổng quát   của hệ thống được nêu ra trong hình 2.4. Hình 2.4. Mô hình hệ  thống hỏi đáp thực thể  tên người   tiếng Việt 17
  18. aa. 2.3.4. Phương pháp và dữ  liệu   đánh  giá mô   hình hỏi đáp tự động Có nhiều phương pháp để  đánh giá kết quả  của hệ  thống hỏi đáp tự  động,  ở  đây nghiên cứu sinh chọn phương   pháp đánh giá phổ  biến nhất là nhóm ba độ  đo gồm độ  đo  chính xác, độ  đo hồi tưởng và độ  đo F, đây cũng là độ  đo   được sử dụng tại chuỗi nhiệm vụ TREC [Vo03]. Tập dữ liệu đánh giá bao gồm 1000 câu hỏi được xây  dựng và gán nhãn thủ công. Các câu hỏi là dạng câu hỏi đơn  giản hỏi về thực thể người và được gán các nhãn thành. ab. 2.3.5. Thực nghiệm và đánh giá a. Thực nghiệm đánh giá hiệu quả  phân tích câu   hỏi 18
  19. Bảng 2.10. Kết quả  đánh giá thành phần phân tích câu   hỏi   Độ chính xác Độ hồi tưởng  Độ đo F Fold 1 89.7 90.2 89.95 Fold 2 94.1 95.05 94.57 Fold 3 96.4 96.83 96.61 Fold 4 93.07 94.23 93.64 Fold 5 94.58 96.11 95.33 Fold 6 92.43 93.45 92.93 Fold 7 91.3 92.67 91.98 Fold 8 88.35 89.45 88.89 Fold 9 91.5 92.11 91.80 Fold 10 93.32 95.01 94.15 Trung bình  92.475 93.51 92.99 a. Thực nghiệm đánh giá hiệu quả  trả lời tự động   của mô hình hỏi đáp Bảng  2.11. Kết  quả   đánh giá  của  hệ  thống  trả   lời  tự   động     Top  Top  Top 5 1 3 T  P R F P R F P R F (ms) Baselin 62 54.3 42.1 47.4 60.1 45.5 51.8 62.7 50.1 55.7 e 6 3 7 9 9 8 8 2 4 KLB 58 79.6 55.6 65.5 89.3 60.3 72.0 90.0 60.2 72.1 8 0 9 2 3 5 SEB 2805 71.4 90 79.6 72.1 91.3 80.6 73.1 91.7 81.3 9 4 5 8 2 7 9 KLB+S 1163 74.6 87.9 80.7 79.6 89.3 84.1 80.0 91.1 85.2 EB 0 3 2 2 8 2 0 19
  20. Chương 3 – NHẬN DẠNG THỰC THỂ BIỂU HIỆN TRONG VĂN  BẢN Y SINH TIẾNG ANH ac. 3.1. Giới thiệu Dưới đây là định nghĩa về  nhận dạng thực thể y sinh  [CTLA5]. “Nhận   dạng   thực   thể   y   sinh   (Biomedical   NER)   là   một   (nhóm) kỹ thuật tính toán được dùng để nhận dạng và   phân lớp các chuỗi văn bản chỉ  đến các khái niệm   quan trọng trong văn bản y sinh học.” ad. 3.2. Vấn đề  về  thích nghi miền trong nhận  dạng thực thể y sinh Một thách thức lớn nữa đối với bài toán NER trong dữ  liệu y sinh và vấn đề thích ứng khi thích nghi miền dữ   liệu. Các nghiên cứu NER y sinh học thường sử dụng   một tập nhỏ các dữ liệu được gán nhãn để nghiên cứu  và   thực   nghiệm.   Vì   tính   chất   phong   phú   và   hướng   chuyên ngành của dữ liệu y sinh học, một bộ dữ liệu  thường sẽ chỉ hướng về một chủ đề  hay có cùng tính   chất nào đó. Hệ thống được xây dựng phù hợp cho dữ  liệu thuộc về chủ đề này chưa chắc có thể hoạt động  hiệu quả  khi chuyển sang tập dữ  liệu thuộc chủ  đề  khác hay các tập dữ  liệu trộn lẫn của nhiều chủ  đề  khác nhau, mặc dù chúng đều là dữ liệu y sinh học và   có nhiều điểm tương đồng.  ae. 3.3. Mô hình nhận dạng thực thể  biểu hiện   và một số thực thể liên quan af. 3.3.1. Dữ liệu đánh giá và tài nguyên hỗ trợ a. Tập dữ liệu Phenominer A về các bệnh tự miễn   dịch di truyền (autoimmune diseases) Tập   dữ   liệu  Phenominer   A  (gọi   tắt   là   Phenominer   A)  được thu thập dựa trên hai tiêu chí sau: 20
ADSENSE

CÓ THỂ BẠN MUỐN DOWNLOAD

 

Đồng bộ tài khoản
3=>0