1
CHƢƠNG 4:
VĂN PHẠM PHI NGỮ CẢNH
ÔTÔMÁT ĐẨY XUỐNG
CFG Context-Free Grammar
and
PDA Pushdown Automata
NỘI DUNG
1. Xuất xứ định nghĩa của văn phạm phi ngữ cảnh
2. Cây dẫn xuất sự nhập nhằng trong VPPNC
3. Dạng chuẩn Chomsky (CNF)
4. Dạng chuẩn Greibach (GNF)
5. Định nghĩa Ôtômát đẩy xuống (PDA)
6. Ngôn ngữ được chấp nhận bởi PDA
7. Ôtômát đẩy xuống ngôn ngữ phi ngữ cảnh.
2
XUẤT XỨ ĐỊNH NGHĨA CỦA VPPNC
Xuất xứ đầu tiên của VPPNC việc tả các ngôn ngữ tự nhiên.
Hãy trở lại hình cây chương 1. diễn tả cấu trúc của câu “An sinh
viên giỏi”. Các từ trong móc nhọn, như <Câu đơn>, <Chủ ngữ>, <Vị
ngữ> các phạm trù pháp, cho ta vai trò của các bộ phận hợp
thành một câu.
Ta thấy một câu đơn được sinh ra qua các bước triển khai dần dần các
phạm trù pháp theo các quy tắc pháp như sau:
<câu đơn> <chủ ngữ> <vị ngữ>
<chủ ngữ> <danh từ>
<danh từ> sinh viên | An
<vị ngữ> <động từ> <bỗ ngữ>
3
XUẤT XỨ ĐỊNH NGHĨA CỦA VPPNC (TT)
<động từ>
<bổ ng> <danh từ> < tính từ>
<tính từ> giỏi
Các quy tắc pháp như trên chính thuộc dạng của các quy
tắc trong văn phạm phi ng cảnh.
Chính các nhà Tin học, với nhu cầu biểu diễn các ngôn ngữ
lập trình, đã tìm thấy văn phạm phi ngữ cảnh một khuôn khổ
thích hợp.
Các dạng chuẩn Backus Naur (BNF) các nhà Tin học
dùng để diễn tả pháp của các ngôn ngữ lập trình cấp cao
4
2
XUẤT XỨ ĐỊNH NGHĨA CỦA VPPNC (TT)
Định nghĩa: Một văn phạm phi ngữ cảnh, viết tắt VPPNC, một hệ
thống:
G = (, , P, S), trong đó:
một tập hữu hạn các hiệu, gọi hiệu kết thúc (còn gọi
hiệu cuối).
một tập hữu hạn các hiệu, gọi hiệu không kết thúc (hay
còn gọi các biến) với =
S gọi hiệu đầu.
P một tập hữu hạn các sản xuất dạng
A với A ( )*. Nếu = thì A biến bắt
đầu không được xuất hiện vế phải của bất kỳ luật sinh nào.
Vậy VPPNC tương tự như văn phạm ta đã nghiên cứu, nhưng chỉ
khác ta đã thêm hạn chế đối với các sản xuất.
5
XUẤT XỨ ĐỊNH NGHĨA CỦA VPPNC (TT)
Với các sản xuất trong P, văn phạm G trở nên một hệ viết lại sản sinh
(V, P) với bảng chữ cái V = tiên đề S.
Định nghĩa ngôn ngữ sản được sinh bởi văn phạm G :
L(G) = {w | w * S * w}
L(G) được gọi ngôn ng phi ng cảnh (NNPNC).
Đối với các hiệu *, khi cần chỉ văn phạm, thì ta đưa thêm
chỉ số dưới G *G.
Hai văn phạm G1 G2 được gọi các văn phạm tương đương nếu
L(G1) = L(G2).
Nếu S * ( )* thì được gọi một dạng câu.
6
XUẤT XỨ ĐỊNH NGHĨA CỦA VPPNC (TT)
dụ 4.1: Xét VPPNC G = (, , P, S) với = {a, b}, =
{S} P = {S aSb, S ab}
Nếu ta áp dụng sản xuất đầu n-1 lần, rồi đến sản xuất thứ
hai thì ta dẫn xuất sau:
S aSb aaSbb a3Sb3 an-1Sbn-1 anbn.
Như vậy, L(G) = {anbn | n 1}
7
S aSb S aSb S aSb S ab
QUY ƢỚC
Để tiện cho việc theo dõi, ta quy ước về cách viết như sau:
Biến: dùng các chữ in hoa A, B, C, D, E S.
hiệu kết thúc: dùng các chữ thường a, b, c, d, e các con số.
hiệu cuối hoặc biến: dùng các chữ in hoa X, Y, Z.
Chuỗi các hiệu kết thúc: dùng các chữ thường u, v, w, x, y, z
Các chuỗi gồm các biến hiệu kết thúc: dùng các chữ Hy Lạp ,
,
Qui tắc viết gộp vế trái: nếu A A thì viết gộp
A |
8
3
XUẤT XỨ ĐỊNH NGHĨA CỦA VPPNC (TT)
dụ 4.2: Cho VPPNC G = (, , P, S)
với :
= {a, b}
= {S, A, B}
P = {
S aB | bA
A aS | bAA | a
B bS | aBB | b }
9
Ngôn ngữ L(G) tập mọi chuỗi trong + chứa cùng một số a số b.
CÂY DẪN XUẤT SỰ NHẬP NHẰNG TRONG VPPNC
Cây dẫn xuất trong một VPPNC G = (, , P, S) một cây trong đó:
Mọi nút một nhãn, một hiệu thuộc {},
1 nút gốc duy nhất nhãn S,
Nếu một nút nhãn A một nút trong, thì A ,
Nếu nút n nhãn A các nút n1, n2, , nk các con của nút n,
theo thứ tự từ trái sang phải, lần lượt mang các nhãn X1, X2, , Xk
thì A X1X2Xk phải một sản xuất trong P,
Nếu nút n mang nhãn , thì n phải một , con duy nhất của
bố .
10
CÂY DẪN XUẤT SỰ NHẬP NHẰNG TRONG VPPNC
(TT)
dụ 4.3: Cho VPPNC G = ({a, b}, {S, A}, P, S), Trong đó:
P= { S aAS | a
A SbA | SS | ba }
Ta một cây dẫn xuất như sau:
11
S
a
S b A
a b a
S A
a
Kết quả của cây: w = aabbaa
CÂY DẪN XUẤT SỰ NHẬP NHẰNG TRONG VPPNC
(TT)
Các con của một nút được xếp từ trái qua phải”. Ta thể mở
rộng thứ tự từ trái sang phải” đó cho các nút con của cây.
Nếu ta đọc các nhãn của các , theo thứ tự từ trái qua phải” ta
một dạng câu gọi đó kết quả của cây dẫn xuất. Chẳng hạn
aabbaa kết quả của cây dẫn xuất hình trên.
Ta gọi cây con của một cây dẫn xuất một nút nào đó cùng với các
nút con bên dưới của , các nhánh nối chúng các nhãn kèm
theo.
Nếu nhãn của của cây con A, thì đó cây con nhãn A còn gọi
A-cây.
12
4
CÂY CON A (A-CÂY)
13
S
a
S b A
a b a
S
A
MỐI LIÊN QUAN GIỮA
DẪN XUẤT CÂY DẪN XUẤT
Định 4.1: Cho G = (, , P, S) một VPPNC, thế thì S * khi
chỉ khi cây dẫn xuất trong G kết quả .
Ta gọi dẫn xuất bên trái nhất (nói gọn dẫn xuất trái), nếu mỗi
bước dẫn xuất, biến được thay thế biến nằm bên trái nhất trong
dạng câu.
Tương tự ta gọi dẫn xuất bên phải nhất (nói gọn dẫn xuất phải),
nếu mỗi bước dẫn xuất, biến được thay thế biến nằm bên phải
nhất trong dạng câu.
Mỗi cây dẫn xuất với kết quả tương ứng với nhiều dẫn xuất S *
. Các dẫn xuất này cùng độ dài, chúng chỉ khác nhau thứ tự áp
dụng các sản xuất. Trong số các dẫn xuất này chỉ một dẫn xuất bên
trái nhất một dẫn xuất bên phải nhất.
14
MỐI LIÊN QUAN GIỮA
DẪN XUẤT CÂY DẪN XUẤT
Tuy nhiên với một xâu L(G), rất th nhiều cây dẫn xuất với
kết quả chung . Điều đó nghĩa xâu thể phân tích pháp
theo nhiều cách khác nhau.
Ta nói một VPPNC G nhập nhằng nếu một xâu kết quả của
hai cây dẫn xuất khác nhau trong G. Tuy nhiên cũng thể nói rằng
văn phạm G nhập nhằng nếu một xâu với hai dẫn xuất bên trái
nhất (hay hai dẫn xuất bên phải nhất) S * .
Một ngôn ngữ PNC L được gọi ngôn ngữ nhập nhằng cố hữu nếu
mọi VPPNC sản sinh ra L đều nhập nhằng.
dụ 4.4: Xét VPPNC G0 cho bởi các sản xuất sau:
E E + E | E * E | (E) | a
15
MỐI LIÊN QUAN GIỮA
DẪN XUẤT CÂY DẪN XUẤT
Văn phạm này cho ta viết các biểu thức số học với các phép toán
+ *. Cây dẫn xuất sau cho kết quả a + a * a.
dẫn xuất trái nhất :
E E * E E + E * E a + E * E a + a * E a + a*a
dẫn xuất phải nhất:
E E * E E * a E + E * a E + a * a a + a * a
16
E
E * E
E + E a
a a
5
MỐI LIÊN QUAN GIỮA DẪN XUẤT CÂY DẪN XUẤT
(TT)
Tuy nhiên ta còn thấy một cây dẫn xuất khác với kết quả a + a * a
như hình sau:
17
E
E + E
a *
E E
a a
Điều đó nghĩa biểu thức a + a * a thể hiểu theo hai cách khác
nhau: thực hiện cộng trước hay thực hiện phép nhân trước.
MỐI LIÊN QUAN GIỮA
DẪN XUẤT CÂY DẪN XUẤT (TT)
Để khắc phục sự nhập nhằng của G0 đó, ta thể:
Phép * được ưu tiên hơn phép +:
E E + T | T
T T * F | F
F (E) | a
Phép cộng phép nhân luôn thực hiện từ trái sang phải ( trừ khi gặp vòng
đơn)
E E + T | E * T | T
T (E) | a
18
GIẢN LƢỢC CÁC VPPNC
Một VPPNC th còn chứa đựng nhiều yếu tố thừa ích, chẳng
hạn những hiệu không thật sự tham gia vào quá trình sinh sản
xâu, hoặc những sản xuất dạng A B làm kéo dài các dẫn xuất
một cách không cần thiết.
Vấn đề giản lược VPPNC:
Loại bỏ các hiệu không dẫn ra được hiệu kết thúc (bổ đề 4.1)
Loại bỏ các hiệu không được dẫn xuất từ S (bổ đề 4.2)
Loại bỏ các dẫn xuất đơn dạng A B
Loại bỏ các qui tác rống dạng A
19
CÁC HIỆU ÍCH
G = (, , P, S) một VPPNC. Ta nói một hiệu X ích nếu
một dẫn xuất S * X * w, với ,  ( )* w *.
Nếu không thế thì X ích.
Như vậy hai khía cạnh cần phải xem xét của hiệu ích:
Từ X thể dẫn xuất ra một xâu các hiệu cuối nào đó (X
hữu sinh).
X phải xuất hiện trong một xâu dẫn xuất từ S (X đến được).
Tuy nhiên hai điều kiện đó chưa đủ để đảm bảo rằng X ích.
20