1
ng dng x lý ngôn ng t nhiên trong h tìm kiếm thông tin trên
văn bn tiếng Vit
Đồng Th Bích Thy#, H Bo Quc#*
#Khoa Công Ngh Thông Tin - Đại hc khoa hc t nhiên TP. HCM
227 Nguyn Văn C - Q5 – TP.HCM
*Laboratoire CLIP – IMAG, Grenoble France
thuy@hcmuns.edu.vn, Ho-Bao.Quoc@imag.fr
0. Dn nhp
Trong các h thng tìm kiếm thông tin văn bn (Text Information Retrieval System), tiến trình
quan trng nht là tiến trình phân tích ni dung văn bn để xác định tp ch mc biu din tt
nht ni dung ca văn bn (tiến trình lp ch mc - indexing). Để th phân tích và rút trích
được các ch mc (index term / term) tt người ta thường ng dng các kết qu ca lĩnh vc x
ngôn ng t nhiên vào tiến trình này.
Ch mc có th là t (word) hay là mt cu trúc phc tp hơn như cm danh t (noun phrase),
khái nim (concept)... Vn đề xác định ch mc cho văn bn tiếng Vit phc tp hơn đối vi ngôn
ng châu Âu do vic xác định gii hn ca mt t (word segmentation) trong tiếng Vit không
đơn gin là ch da vào các khong trng gia chúng. Hơn na ng pháp tiếng Vit vn còn
nhiu vn đề tranh lun gia các nhà ngôn ng hc nên cũng còn nhiu khó khăn trong vic t
động hóa vic phân tích tiếng Vit.
Trong báo cáo này chúng tôi trình bày vic ng dng x lý ngôn ng t nhiên vào h thng
tìm kiến thông tin nói chung, tiếp theo chúng tôi trình bày mt s đặc trưng ca tiếng Vit dưới
góc nhìn ca lĩnh vc tìm kiếm thông tin. Cui cùng chúng tôi trình bày mt s kết quchúng
tôi đã đạt được trong vic xác định ch mc cho văn bn tiếng Vit.
Bài báo chia làm bn phn, phn I gii thiu tng quát v vic ng dng x ngôn ng t
nhiên vào lĩnh vc tìm kiếm thông tin. Phn II chúng tôi trình bày mt s đặc trưng ca tiếng
Vit dưới góc nhìn ca lĩnh vc tìm kiếm thông tin. Phn III mt s kêt qu mà chúng tôi đã đạt
được trong vic lp ch mc cho văn bn tiếng Vit da trên uni-gram, bi-gram, cm danh t
cui cùng là phn kết lun.
2
I. ng dng x lý ngôn ng t nhiên vào tìm kiếm thông tin
1.1 Gii thiu tng quan
Tìm kiếm thông tin (Information retrieval) là lĩnh vc nghiên cu nhm tìm ra các gii pháp
giúp người s dng có thm thy các thông tin mình cn trong mt khi lượng ln d liu.
Nhim v ca mt h thng tìm kiếm thông tin tương t như nhim v t chc phân loi tài liu
và phc v vic tra cu ca mt thư vin. Mt h thng tìm kiếm thông tin có hai chc năng
chính : lp ch mc (indexing) và tra cu (interrogation). Lp ch mc là giai đon phân tích tài
liu (document) để xác định các ch mc (term / index term) biu din ni dung ca tài liu. Vic
lp ch mc có th da vào mt cu trúc phân lp có sn (control vocabulary) nhưch làm ca
các nhân viên thư vin, phân loi tài liu theo mt b phân loi cho trước. Các ch mc trong
cách làm này là tn ti trước và độc lp vi tài liu. Cách th hai để lp ch mc là rút trích các
ch mc t chính ni dung ca tài liu (free text). Trong bài này chúng tôi ch đề cp đến cách th
hai này. Cui giai đon lp ch mc ni dung ca các tài liu có trong kho tài liu (corpus) được
biu din bên trong bng tp các ch mc.
Trong giai đon tra cu, nhu cu thông tin ca người s dng được đưa vào h thng dưới
dng mt câu hi (query) bng ngôn ng t nhiên hay mt dng thc qui ước nào đó, cũng s
được phân tích và biu din thành mt dng biu din trong. H thng s s dng mt hàm so
khp (matching function) để so khp biu din ca câu hi vi các biu din ca các tài liu để
tìm ra các tài liu có liên quan (relevance). Mt h thng tìm kiếm thông tin có th được biu
din như trong hình v sau
Để đánh giá hiu năng ca mt h thng tìm kiếm thông tin người ta da vào hai độ đo chính
độ chính xác (presicion) độ bao ph (recall). Gi s vi mt câu hi cho trước q, P là tp
các tài liu mà h thng tìm được, R là tp các tài liu tht s liên quan đến câu hi q. Độ chính
xác là t s gia s tài liu liên quan đến câu hi được tìm thy trên toàn s tài liu được tìm thy
((P R) /P). Độ bao ph là t s gia s tài liu liên quan đến câu hi được tìm thy trên tng s
các tài liu liên quan ((PR)/R).
Mc dù lĩnh vc tìm kiếm thông tin đã được nghiên cu t my chc năm nay nhưng nhng
k thut mi vn chưa được áp dng vào các h thng thương mi vì nhiu lý do khác nhau. Đa
s các h thng tìm kiếm thông tin văn bn vn da trên các k thut đơn gin dn đến các kết
qu chưa đáp ng được mong đợi ca người s dng. Như chúng ta vn thường gp khi s dng
Nhu cu thông tin i liu
biu dinlp ch mc
Câu hi tp ch mc
So khp
i liu liên quan
Thay đổi câu hi
3
các công c tìm kiếm (search engine) trên Internet. Phn ln các h thng tìm kiếm đều vn đang
da trên gi định nếu mt câu hi và mt tài liu có cha mt s t (t khoá) chung, thì tài liu là
liên quan đến câu hi, và dĩ nhiên là nếu s t chung càng nhiu tđộ liên quan càng được cho
là cao [1]. Để đánh giá độ liên quan gia tài liu và câu hi tt hơn là ch da vào s lượng t
chung, người ta đánh trng s (weight) cho các t để biu din mc độ quan trng ca t trong
tài liu. Vi gi định như vy h thng không th cho mt kết qu chính xác do chúng ta xem
như đã biu din tài liu và câu hi dưới dng các tp hp t khoá độc lp nhau (được gi là túi
các t khoá) và vic so khp là tiến hành so khp cái ‘túi’ t khóa này.
Cách biu din đơn gin này không th cho kết qu cao vì nếu nhìn dưới góc nhìn ca ngôn
ng hc nó đã không x lý các biến th v mt ngôn ng hc (linguistic variation) ca các t như
biến th v hình thái hc (morphological variation), biến th v t vng hc (lexical variation),
biến th v ng nghĩa hc (semantical variation) và biến th v cú pháp hc (syntax variation).
1.2 Các biến th ngôn ng hc
Biến th v hình thái hc là các dng khác nhau v mt cu trúc (nôm na là hình dáng) ca
mt t như vn hay thy trong các ngôn ng châu Âu. Ví d trong tiếng Anh các t computer,
computerize, computers là các biến th v hình thái hc ca t computer. H thng s cho kết qu
không chính xác nếu đối x vi các biến thy như các t độc lp nhau.
Biến th v t vng hc là các t khác nhau mang cùng mt nghĩa. Ví d như trong tiếng Anh
các t: car, auto. H thng s không tr v các tài liu có cha t auto mà không cha t car khi
câu hi ch cha t car.
Biến th v ng nghĩa hc là vn đề mt t đa nghĩa tùy vào ng cnh. Vi d như khi chúng ta
tìm t ‘bands’ có th chúng ta s nhn được các tài liu nói v ‘radio frequency bands’
Biến th v pháp hc là các các kết hp khác nhau v mt cú pháp ca cùng mt nhóm t
s mang các ý nghĩa khác nhau. Do đó nếu h thng không x lý cu trúc ng pháp ca nhóm t
s dn đến vic gim độ chính xác. Ví d mt tài liu cha câu ‘near to the river, air pollution is a
major problem’ thì không liên quan gì đến ‘river pollution’ c mc dù c hai t đều có xut hin
trong tài liu.
Do vy để nâng cao hiu qu ca các h tìm kiếm thông tin, người ta phi có các gii thut để
x lý các biến thiên ngôn ng hc như đã nêu
1.3 Các thut toán x lý ngôn ng t nhiên
Đối vi các biến thiên v hình thái hc người ta có hai cách để x lý: cách th nht là m rng
câu hi (query expansion) bng cách thêm vào câu hi tt c các biến th hình thái hc ca tt c
các t có trong câu hi, cách th hai là chun hoá các biến th hình thái hc (stemming) ca mt
t v mt chun chung (stem). Ví d như các t computer, computed, computes, computerize s
được chun hoá thành mt stem là compute. Hai thut toán stemming được biết đến nhiu cho
tiếng Anh là Lovins và Porter.
Để x lý các biến th v t vng hc người ta hoc là m rng câu hi bng cách thêm vào
câu hi tt c các t đồng nghĩa có th có ca tt c các t trong câu hi hoc là x giai đon
so khp bng cách đưa ra các độ đo khong cách ca các khái nim (conceptual distance
measures). Đối vi cách th nht chúng ta cn có mt t đin đồng nghĩa, đối vi cách th hai
chúng ta phi xây dng mt t đin t vng (thesaurus) trong đó có định nghĩa khong cách gia
các t như mng ng nghĩa WORDNET.
4
Biến th v ng nghĩa thường kết hp cht ch vi biến th v t vng hc. Để x lý các biến
th này chúng ta cn mt công đon x lý s đa nghĩa ca t (word sense disambiguiation), hiu
năng ca h thng tìm kiếm s ph thuc vào kết qu ca giai đon x lý này.
Các k thut x lý các biến th v cú pháp hc hay nói c th hơn là x lý cu trúc ca mt
cm t (phrase) có th được chia làm hai loi: k thut lp ch mc da vào các cm t (phase
based indexing) và k thut lp ch mc là các cu trúc cây phân tích được t các mnh đề. Các
k thut lp ch mc da trên cm t nhm tăng độ chính xác ca h thng. Vi gi định rng khi
dùng các cm t như các ch mc thay cho các t đơn thì độ chính xác s tăng do cm t biu
din chính xác hơn ni dung ca tài liu. Các h thng tìm kiếm da trên ch mc là các cm t
ngày càng thu hút nhiu nhóm nghiên cu và vn đề làm thế nào để rút trích được các cm t mt
cách t động t tài liu tr thành vn đề chính trong các h này. Các gii pháp rút trích cm t
thường da vào hai cách tiếp cn: tiếp cn dùng thông tin thng kê tn sut đồng xut hin (co-
occurrence) hay cách tiếp cn da vào tri thc v ngôn ng hc. Cách tiếp cn th hai đòi hi
phi áp dng nhiu k thut ca lĩnh vc x lý ngôn ng t nhiên.
K thut lp ch mc cu trúc da vào các cu trúc cây có được t vic phân tích các mnh đề
trong câu ca tài liu và quá trình so khp là so khp các cu trúc ca câu hi vi các cu trúc
ca tài liu. Cách tiếp cn này không thu hút nhiu nhóm nghiên cu do độ phc tp ca vic
phân tích mnh đề để xây dng cách cu trúc cao nhưng li không tăng đưc hiu năng ca h
thng tìm kiếm.
1.4 H thng tra cu thông tin ng dng x lý ngôn ng t nhiên
Theo [1], quá trình lp ch mc ca mt h thng tìm kiếm thông tin ng dng các k thut
x lý ngôn ng t nhiên phi bao gm các chc năng như sau:
1. Xác định t (tokenization/ word segmentation)
2. Xác định t loi cho t (Part-of-speech tagging)
3. Chun hoá các biến th v hình thái hc ca t
4. Xác định các t ghép
5. Chun hoá các biến th v t vng hc và ng nghĩa hc
6. Phân tích cú pháp
7. Chun hoá các biến th v cú pháp hc
8. Đánh trng s cho các biu thc ch mc
Bước xác định t thc hin vic xác định các câu trong tài liu và xác định các t trong câu.
Đối vi các ngôn ng châu Âu bước này có th được cài đặt da vào các lut v viết hoa, khong
trng và các ký t phân cách khác. Đối vi tiếng Vit đây là mt bước khá phc tp bi vì các t
tiếng Vit không th xác định ch da theo cách này.
Sau khi đă xác định được các t, h thng tiến hành gán t loi (category) cho tng t ph
thuc vào ng cnh ca t. Đây cũng là mt công đon rt phc tp do mt t có th mang nhiu
t loi khác nhau tùy thuc vào ng cnh xut hin ca t. Vic xác định t loi cho t nhm
phc v cho giai đon tiếp theo ca tiến trình đó là xác định t ghép, các cm danh t có trong
câu.
Bước tiếp theo ca h thng là xác định các t ghép (compound noun) ví d như t ‘hot dog’
để x lý chúng như mt đơn v duy nht thay vì x lý riêng r các t hot và dog trong trường hp
này. Vic xác định các t ghép thường dùng phương pháp thng kê tn sut đồng xut hin ca
5
các t trong tài liu hoc dùng các mu (patern) t hp các t loi, ví d như danh t - tính t,
danh t - danh t
Tiếp theo là quá trình chun hoá các biến th và t vng hc và ng nghĩa để xây dng phân
nhóm các ch mc theo các nhóm ng nghĩa (semantical clustering)
Phân tích cú pháp là giai đon nhm xác định các liên h v mt cú pháp gia các t trong
cm t. Khi chúng ta đã xác định được các cm t và các liên h cú pháp gia các t trong cm
t, chúng ta tiến hành chun hóa các cm t v mt chun chung và cui cùng tiến hành đánh
trng s cho các cm t ch mc.
Phn trên chúng tôi đã trình bày mt kiến trúc ca mt h thng tìm kiếm thông tin có ng
dng các x lý ngôn ng t nhiên. Tuy nhiên ví các bước x lý ngôn ng t nhiên là rt phc tp
vi thi gian x lý nhiu nên vic trin khai các h thng như vy trong thc tế vn còn nhiu
hn chế.
II. Mt s đặc trưng ca tiếng Vit
2.1. T tiếng Vit
Mt vn đề khó khăn đầu tiên trong x lý t động tiếng Vit là vic định nghĩa t trong tiếng
Vit vn còn nhiu tranh lun. Để thun tin cho vic trình bày v sau chúng tôi theo quan đim
ca Đinh Đin [2] sau: mt câu tiếng Vit bao gm nhiu t, mi t bao gm mt hay nhiu
‘tiếng’, mi ‘tiếng’ là mi chui ký t lin nhau phân bit vi các tiếng khác bng mt hay nhiu
khong trng. Ví d :
t ‘hc’ là mt t gm mt tiếng
t ‘hc sinh’ là mt t gm hai tiếng
cm t ‘khoa hc t nhiên’ gm 2 t hay 4 tiếng
Chúng tôi đã s dng phương pháp hc da vào các lut biến đổi (transformation based
learning) [3] để thc hin công vic này và đạt được độ chính xác khong 80-85%.
Trong các h thng tìm kiếm thông tin văn bn trên các tiếng Châu âu, người ta có th đơn
gin ly xác định các t nh vào các khong trng phân cách t và chn các t đặc trưng cho ni
dung văn bn (da vào tn sut xut hin ca t) làm ch mc mà hiu qu tìm kiếm vn chp
nhn được. Đối vi tiếng Vit chúng ta không th làm tương t bi nếu chúng ta xác định t ch
da các khong trng phân cách thì chúng ta có th ch nhn được các ‘tiếng’ vô nghĩa và do đó
độ chính xác ca h thng s rt thp. Theo các nhà ngôn ng hc thì tiếng Vit có đến 80% là
các t 2 ‘tiếng’ [6]. Chúng tôi s trình bày các kết qu thc nghim chng minh điu này phn
sau.
Mt đặc đim ca tiếng Vit là t tiếng Vit không có biến th v hình thái hc do đó công
đon chun hóa v hình thái hc là không hiu qu đối vi tiếng Vit. Dĩ nhiên tiếng Vit cũng
có mt s hình thc biến th v hình thái hc như trường hp thêm tiếng ‘s’ trước mt động t
để biến nó thành danh t tương đương ví d như: động t ‘la chn’ và danh t ‘s la chn’ hay
vic thêm tiếng ‘hóa’ sau mt danh t để biến nó thành động t tương đương như : danh t ‘tin
hc’ và động t ‘tin hc hóa’
2.2 T loi