Xử lý ngôn ngữ tự nhiên
Bởi:
Học Viện Công Nghệ Bưu Chính Viễn Thông
XỬ LÝ NGÔN NGỮ TỰ NHIÊN VÀ TRÍ TUỆ NHÂN TẠO
Sự tiến hóa của ngôn ngữ
Vấn đề để hiểu được lời nói hành động giống như việc hiểu các vấn đề khác, tương tự
như việc hiểu hình ảnh hoặc chẩn đoán y học. Chúng ta đưa ra một tập các đầu vào đa
nghĩa từ đó chúng ta làm ngược lại để quyết định trạng thái nào của thế giới thể
được tạo ra đầu vào. Hiểu được vấn đề của lời nói hành động phần đặc t của ngôn
ngữ. Một phần của hiểu vấn đề thể giải thích bằng các do logic. Chúng ta nhận thấy
rằng các chuỗi logic liên kết lại cách tốt để tả cách các từ c cụm từ phối
hợp để tạo ra một cụm từ lớn. Phần khác của việc hiểu vấn đề thể chỉ được giải thích
bởi các do thuật không ràng. Thông thường nhiều trạng thái của thế giới
tất cả đều hướng dẫn đến một lời nói hành động tương tự, vậy người hiểu phải quyết
định cái mà nó dễ xảy ra hơn.
Cơ sở của ngôn ngữ
Một ngôn ngữ hình thức được định nghĩa như một tập các chuỗi tự, trong đó mỗi
chuỗi tự một chuỗi các biểu tượng được lấy ra từ một tập hữu hạn được gọi biểu
tượng terminal. Một trong những phiền toái khi làm việc với cả ngôn ngữ tự nhiên
ngôn ngữ hình thức quá nhiều sự khác biệt hình thức hiệu cho việc viết ngữ
pháp. Tuy nhiên, hầu hết chúng đều tương tự như cách chúng căn cứ vào ý ởng
của cấu trúc cụm từ - các chuỗi tự được soạn thảo của các chuỗi t sở được gọi
cụm từ, dẫn đến các phạm trù khác nhau. Các phạm trù như cụm danh từ, cụm động
từ, câu được gọi biểu tượng nonterminal. Trong pháp BNF quy luật viết phù hợp
của biểu tượng nonterminal đơn bên trái liên kết của đầu cuối hoặc không đầu cuối
viết ở bên phải. Quy luật được viết như trong ví dụ sau:
S → NP VP
nghĩa chúng ta thể đem bất cụm từ NP thêm vào sau bất cụm từ VP kết
quả là một cụm từ dạng câu.
Các bước thành phần của giao tiếp:
Xử lý ngôn ngữ tự nhiên
1/31
Một đoạn giao tiếp điển hình, trong đó người nói S muốn truyền đạt lời thông báo P đến
người nghe H sử dụng từ W, được sắp xếp trong 7 tiến trình. Ba bước đối với người nói:
Mục đích: S muốn H tin P (trong đó S đặc biệt tin P)
Phát sinh: S chọn từ W (bởi vì chúng nhấn mạnh nghĩa của P)
Tổng hợp: S phát âm từ W ( thường chuyển thẳng chúng đến H)
Bốn bước đối với người nghe
Nhận thức: H nhận thức W’( W’=W, nhưng mất nhận thức là có thể)
Phân tích : H suy luận W’ thể mang các nghĩa P1…,Pn (từ cụm từ thể cónhiều
nghĩa)
Ý nghĩa hóa: H suy luận rằng S ý định truyền đạt Pi (trong đó ý nghĩa Pi=P, nhưngsự
mất giải thích là có thể)
Hợp nhất : H quyết định tin tưởng vào Pi, (hoặc loại bỏ nếu không được Hchắc
chắn tin tưởng)
Khả năng phát sinh
Ngữ pháp hình thức thể được phân loại bởi khả năng phát sinh của chúng: tập c
ngôn ngữ chúng thể trình bày. Chomsky (1957) tả bốn lớp của ngữ pháp hình
thức suy luận. Các lớp này được sắp xếp trong một trật tự thứ bậc, trong đó mỗi lớp
thể được tả bởi ít nhất một lớp quyền, giống như việc thể thêm vài ngôn ngữ
vào. Dưới đây là danh sách các lớp theo cấp bậc từ trên xuống dưới:
Ngữ pháp đệ quy liệt sử dụng quy luật không giới hạn: kích thước của quy luật viết
lại thể chứa số lượng bất biểu tượng terminal không đầu cuối. Ngữ pháp y
tương đương với máy Turing.
Ngữ pháp nhạy ngữ cảnh được giới hạn chỉ bên phải phải chứa ít nhất một số biểu
tượng phía bên trái. Tên “nhạy ngữ cảnh” xuất phát từ một thực tế một quy luật
tương tự như ASB→AXB nghĩa một S thể được viết lại như một X trong ngữ
cảnh của một A có trước và một sự kéo theo B.
Trong ngữ pháp phi ngữ cảnh phía bên phải chứa một biểu tượng nonterminal đơn.
vậy mỗi quy luật cho phép viết lại không đầu cuối bên phải trong bất ngữ cảnh nào.
Ngữ pháp thông thường lớp được giới hạn nhất. Ngữ pháp thông thường tương
đương trong máy số trạng thái hạn chế. Chúng không phù hợp lắm cho ngôn ngữ lập
Xử lý ngôn ngữ tự nhiên
2/31
trình, chúng không thể xây dựng được cách trình bày giống như sự cân bằng của dầu
mở và đóng ngoặc đơn.
Để đưa ra cho các bạn một ý tưởng ngôn ngữ nào được điều khiển bởi lớp o, ngôn
ngữ anbn (một chuỗi n bản sao của a kéo theo bởi một số lượng tương tự của b) thể
được phát sinh bởi ngữ pháp phi ngữ cảnh, nhưng không phải ngữ pháp thông thường.
Ngôn ngữ đó yêu cầu một ngữ pháp nhạy ngữ cảnh, trong khi ngôn ngữ a*b* (một sự
phối hợp của bất một số của a theo sau bởi một số bất của b) thể được tả bởi
một trong 4 lớp trên. Một bảng tóm tắt của 4 lớp:
Lớp Quy luật ví dụ Ngôn ngữ ví dụ
Ngữ pháp liệt kê đệ quy AB →C Bất kì
Nhạy ngữ cảnh AB→BA anbncn
Ngữ cảnh tự do S→ a S b anbn
Thông thường S→ a S a*b*
Vấn đề nói và nghe.
Mục đích: Bằng cách này hay cách khác người nói quyết định rằng sẽ một số i
đáng để nói với người nghe. Điều này thường bao gồm cả đức tin mục đích của
người nghe thế khi nói sẽ sự tác dụng ao ước. Trong dụ của chúng ta người nói
có mục đích cho người nghe biết wumpus không còn sống nữa.
Sự phát sinh: Người nói sử dụng kiến thức về ngôn ngữ để quyết định xem nói như thế
nào. Trong nhiều cách sẽ khó khăn hơn việc lật ngược vấn đề của sự hiểu biết (ví dụ như
phân tích chuyển thành nghĩa). Sự phát sinh này không bị ép nhiều như sự hiểu biết
trong trí tuệ nhân tạo, chủ yếu bởi con người chúng ta hay băn khoăn khi nói với máy,
nhưng lại không bị kích động khi chúng nói lại. Bâygiờ chúng ta chỉ cho rằng người
nghe có thể chọn từ “the wumpus is dead”.
Tổng hợp: Hầu hết các ngôn ngữ đều căn cứ vào dạng hệ thống phân tích đầu ra của trí
tuệ nhân tạo trên màn hình hoặc trên giấy. Tổng hợp lời nói đang được phát triển rộng
rãi một vài hệ thống đã bắt đầu nghe tiếng người. Chi tiết của pháp không quan
trọng, điều này nghĩa âm thanh được phân tích rất khác với từ được nhân vật phát
sinh. Mặc dù các từ phải đi liền với nhau, đây là một đặc điểm của việc nói nhanh.
Nhận thức. Bình thường lời nói, bước nhận thức được gọi nhận dạng lời nói, khi
được đưa ra máy in, được gọi nhận dạng đặc điểm quang học. Cả hai đều chuyển
đến người quan tâm. Chẳng hạn, chúng ta cho rằng người nghe nhận thức được âm thanh
và thu lại hoàn toàn lời nói.
Xử lý ngôn ngữ tự nhiên
3/31
Phân tích. Chúng ta phân tích chúng thành hai phần chính: cách hiểu về pháp (hay
phân tích pháp) sự giải thích về ngữ nghĩa. Sự giải thích về ngữ nghĩa bao gồm cả
việc hiểu nghĩa của từ hợp nhất kiến thức của tình huống hiện tại (cũng được gọi
sự giải thích thực tế).
Phân tích pháp từ. Xuất phát từ cụm từ Latin par orationis, hoặc “part of speech”
ám chỉ sự chuyển nhượng một phần của lời nói (danh từ, động từ) đến mỗi từ trong câu
và nhóm các từ trong cụm từ.
Một cây phân tích từ loại một cây bên trong các nút tương ứng với các cụm từ,
liên kết với các ứng dụng của quy luật ngữ pháp, các nút tương úng với các từ. Nếu
chúng ta định nghĩa số lượng của một nút như một danh sách tất cả c bên dưới
của nút đó theo thứ tự từ trái sang phải. Khi đó, chúng ta thể nói rằng ý nghĩa của một
cây phân tích từ loại mỗi nút, với nhãn X xác định số lượng của nút đó một cụm t
của phạm trù X.
Giải thích ngữ nghĩa quá trình rút ra ý nghĩa của một lời nói của một sự diễn đạt
trong một sự trình diễn ngôn ngữ. Chúng ta sử dụng logic như sự trình diễn ngôn ngữ,
nhưng sự trình diễn ngôn ngữ khác không được sử dụng.
Giải thích thực tế một phần của sự giải thích về ngữ nghĩa mang tình huống
hiện thời vào bảng mô tả.
Chuyển thành ý nghĩa. Hầu hết các người nói đều không cố ý nói đa nghĩa, nhưng hầu
hết lời nói đều nhiều sự giải thích hợp lí. Giao tiếp làm việc bởi người nghe đã làm
việc định hình một nghĩa người nghe hầu như chắc chắn truyền đạt. chú ý rằng đây
lần đầu tiên chúng sử dụng từ hầu như chắc chắn việc chuyển thành ý nghĩa này
tiến trình đầu tiên phụ thuộc rất nhiều vào do không chắc chắn. Phân tích sự
giải thích thể: nếu nhiều hơn một sự giải thích được tìm thấy, khi đó việc chuyển
thành ý nghĩa sẽ chọn lấy một ý nghĩa tốt nhất.
Hợp nhất.
Về tổng thể, một nhân vật thể tin vào mọi thứ anh ta nghe thấy, nhưng một người
thông minh sẽ xem xét từ W xuất phát từ sự giải thích Pinhư một phần thêm vào
của các bằng chứng được cân nhắc kỹ lưỡng với tất cả các bằng chứng khác chống lại
Pi.
Nó chỉ làm nên câu để sử dụng ngôn ngữ khi các nhân vật giao tiếp với người (a) hiểu
được ngôn ngữ thông thường, người (b) có một ngữ cảnh mà nó căn cứ vào cuộc hội
thoại đó, và người (c) ít nhất có một phần lý trí. Giao tiếp không làm việc khi các nhân
vật hoàn toàn không hợp lí,bởi vì không có cách nào để dự báo một nhân vật không
hợp lí sẽ phản ứng lại một lời nói hành động.
Xử lý ngôn ngữ tự nhiên
4/31
Hai mô hình của giao tiếp
Nghiên cứu của chúng ta về trung tâm giao tiếp cách một niềm tin của nhân vật
thay đổi vào từ trở lại với niềm tin kiến thức bản của một nhân vật khác. hai
cách để xem xét quá trình này:
Mô hình bản tin mã hóa
hình bản tin hóa nói rằng người nói xác định một nhận định P trong ý nghĩ
hóa gợi ý này vào trong từ (hoặc hiệu) W. Người nghe sau đó sẽ cố gắng mã hóa
bản tin W để lấy lại nguyên bản P (ví dụ như Morse). Dưới hình này ý nghĩa
trong đầu người nói, bản tin được chuyển đi người nghe nhận được tất cả ý
nghĩ số lượng tương tự. Khi chúng không giống nhau thì nguyên nhân do tiếng ồn
trong khi giao tiếp hoặc một lỗi trong khi mã hay giải mã.
Mô hình tình huống giao tiếp
Hạn chế của bản tin hóa dẫn đến hình tình huống giao tiếp, hình cho rằng
ý nghĩa của một bản tin phụ thuộc vào cả từ ngữ cả tình huống trong đó các từ
được phát âm. Trong hình này, chỉ cần trong một phép tính tình huống, các hàm
giải đã thêm vào một đối số điển hình cho một tình huống mới. Bản tả cho sự
việc mà những từ tương tự có thể có rất nhiều nghĩa cho những tình huống khác nhau.
hình tình huống ngôn ngữ chỉ ra một nguồn của giao tiếp không thành công: nếu
như người nói người nghe những ý tưởng khác nhau của tình huống hiện thời
thể, khi đó bản tin có thể không được thông qua như ý định.
Giao tiếp sử dụng ngôn ngữ hình thức
Hầu hết các đối tượng giao tiếp thông qua ngôn ngữ hơn thông qua truy cập trực tiếp
đến kiến thức sở. Hình 1 cho một đồ giao tiếp kiểu này. Đối tượng thể thực hiện
hành động sinh ra ngôn ngữ, với đối tượng khác thể nhận biết được. Ngôn ngữ
giao tiếp bên ngoài thể khác so với ngôn ngữ tả bên trong, mỗi đối ợng thể
ngôn ngữ bên trong khác nhau. Chúng không cần thiết phải đồng ý trên bất một
hiệu bên trong nào miễn mỗi một đối tượng thể vẽ một bản đồ đáng tin cậy từ ngôn
ngữ bên ngoài đến kí hiệu bên trong của chính nó.
Xử lý ngôn ngữ tự nhiên
5/31