Nguyễn Thu Hương và Đtg<br />
<br />
Tạp chí KHOA HỌC & CÔNG NGHỆ<br />
<br />
189(13): 23 - 30<br />
<br />
ỨNG DỤNG PHÂN CỤM BÁN GIÁM SÁT MỜ TRONG PHÂN TÍCH VÀ DỰ<br />
BÁO DỮ LIỆU SẢN LƯỢNG CÂY NÔNG NGHIỆP TỈNH THÁI NGUYÊN<br />
Nguyễn Thu Hương1*, Trần Duy Minh1, Nguyễn Thu Huyền2<br />
1<br />
<br />
Trường Đại học Công nghệ thông tin & Truyền thông – ĐH Thái Nguyên,<br />
2<br />
Đại học Nội vụ Hà Nội<br />
<br />
TÓM TẮT<br />
Phân tích dữ liệu và xử lý thống kê thông tin sao cho có hiệu quả là một trong những vấn đề đã và<br />
được nhiều nhà khoa học quan tâm. Từ các số liệu thống kê chúng ta phân tích nhằm thu được các<br />
thông tin hữu ích cho người sử dụng đồng thời từ đó dự báo các số liệu tương lai là một trong<br />
những bài toán đã được nhiều nhà khoa học quan tâm. Nhằm giải quyết bài toán này, trong thời<br />
gian gần đây các người ta quan tâm đến các phương pháp tính toán thông tin kết hợp với hệ thống<br />
thông tin địa lý để phân tích và dự báo các số liệu thống kê. Trong bài báo này, nhóm nghiên cứu<br />
của chúng tôi đề xuất một mô hình kết hợp giữa phân cụm bán giám sát mờ với hệ thống thông<br />
tin địa lý để phân tích và dự báo số liệu thống kê. Trong đó kỹ thuật phân cụm bán giám sát mờ sử<br />
dụng để phân tích số liệu thống kê, hệ thống thông tin địa lý dùng để dự báo các số liệu thống kê.<br />
Trên cơ sở mô hình mới đề xuất chúng tôi thực nghiệm với dữ liệu thực tế về một số chỉ số về sản<br />
lượng cây nông nghiệp của tỉnh Thái Nguyên.<br />
Keywords: Dữ liệu thống kê, dự báo, thông tin địa lý, phân cụm mờ, phân cụm bán giám sát, độ<br />
đo, sản lượng cây nông nghiệp<br />
<br />
GIỚI THIỆU*<br />
Khai phá dữ liệu là một khái niệm ra đời vào<br />
cuối những năm 1980. Nó là quá trình khám<br />
phá thông tin ẩn được tìm thấy trong các cơ<br />
sở dữ liệu (CSDL) và có thể xem là một bước<br />
trong quá trình khám phá tri thức. Khai phá<br />
dữ liệu là giai đoạn quan trọng nhất trong tiến<br />
trình khai phá tri thức từ CSDL, các tri thức<br />
này sẽ hỗ trợ trong việc ra quyết định trong<br />
các lĩnh vực như: khoa học, giáo dục, kinh<br />
doanh, dự báo,…<br />
Trong những năm trở lại, đây việc nghiên cứu<br />
về khai phá dữ liệu đã có xu hướng chuyển<br />
từ cơ sở dữ liệu quan hệ và cơ sở dữ liệu giao<br />
dịch sang cơ sở dữ liệu không gian [12, 17].<br />
Sự thay đổi này không những giúp hiểu được<br />
dữ liệu không gian mà còn giúp khám phá<br />
được mối quan hệ giữa dữ liệu không gian và<br />
phi không gian, các mô hình dựa trên tri thức<br />
không gian, phương pháp tối ưu câu truy vấn,<br />
tổ chức dữ liệu trong cơ sở dữ liệu không<br />
gian, ... Khai phá dữ liệu không gian được sử<br />
dụng nhiều trong các hệ thống thông tin địa lý<br />
(GIS) [5], viễn thám [16], khai phá dữ liệu<br />
*<br />
<br />
Email: nthuong@ictu.edu.vn<br />
<br />
ảnh, ảnh y học [1],… Khám phá tri thức từ dữ<br />
liệu không gian có thể được thực hiện dưới<br />
nhiều hình thức khác nhau như sử dụng các<br />
quy tắc đặc trưng và quyết định, trích rút và<br />
mô tả các cấu trúc hoặc cụm nổi bật, kết hợp<br />
không gian,…<br />
Các dữ liệu về kinh tế, xã hội, môi trường …<br />
đều gắn với các địa phương, tức là các dữ liệu<br />
địa lý, và nhiều bài toán thực tế đòi hỏi phải<br />
khai phá dữ liệu. Có nhiều phương pháp khai<br />
phá dữ liệu, trong đó phân cụm là một<br />
phương pháp được sử dụng khá nhiều. Hiện<br />
nay đã có nhiều cách tiếp cận thuật toán phân<br />
cụm khác nhau như: dựa trên phân hoạch,<br />
phân cấp, dựa trên lưới, dựa trên mật độ hay<br />
dựa trên mô hình [6,18], dựa trên đồ thị… và<br />
phân cụm dữ liệu địa lý là một hướng nghiên<br />
cứu nhiều triển vọng.<br />
Trong các phương pháp phân cụm bao gồm<br />
phân cụm có giám sát, phân cụm không giám<br />
sát và phân cụm bán giám sát thì các thuật<br />
toán phân cụm bán giám sát, đặc biệt là phân<br />
cụm bán giám sát mờ rất hiệu quả trong các<br />
lĩnh vực như xử lý ảnh [4, 6, 9], nhận dạng<br />
mẫu, nhận dạng khuôn mặt [1, 7], đánh giá rủi<br />
ro [3], dự báo phá sản [8]. Trong báo cáo này,<br />
23<br />
<br />
Nguyễn Thu Hương và Đtg<br />
<br />
Tạp chí KHOA HỌC & CÔNG NGHỆ<br />
<br />
189(13): 23 - 30<br />
<br />
nhóm tác giả đề cập đến các thuật toán phân<br />
cụm bán giám sát mờ với dữ liệu thông tin về<br />
một số chỉ số về sản lượng cây nông nghiệp<br />
trên địa bàn tỉnh Thái Nguyên. Trên cơ sở tìm<br />
hiểu nắm vững kỹ thuật xử lý dữ liệu không<br />
gian và vận dụng được vào chương trình thực<br />
hiện thuật toán phân cụm bán giám sát mờ với<br />
dữ liệu không gian, chúng tôi sẽ áp dụng với<br />
các dữ liệu thực tế, phân tích diễn giải ý nghĩa<br />
kết quả phân cụm bán giám sát mờ. Do vậy,<br />
đóng góp chính của bài báo đã đưa ra một mô<br />
hình kết hợp phân cụm bán giám sát mờ với<br />
hệ thống thông tin địa lý (GIS: geographic<br />
information system) để phân tích và dự báo<br />
các số liệu thống kê thông qua việc thu thập<br />
các số liệu thống kê về sản lượng cây lương<br />
thực có hạt phân theo huyện/thị xã/thành phố<br />
của tỉnh Thái Nguyên từ 2011 đến 2015, từ đó<br />
cài đặt thực nghiệm mô hình đề xuất với các<br />
số liệu thống kê thu thập được.<br />
<br />
cùng một cụm là tương đồng cao, còn các<br />
phần tử dữ liệu thuộc các cụm khác nhau sẽ<br />
tương đồng thấp.<br />
<br />
Ý nghĩa của nghiên cứu này đưa ra một mô<br />
hình hiệu quả trong việc phân tích các số liệu<br />
thống kê để từ đó dự báo số liệu trong thời<br />
gian sắp tới. Quá trình phân tích và dự báo<br />
này có ý nghĩa rất lớn với nhà quản lý và<br />
doanh nghiệp để hoạch định các chiến lược<br />
phát triển nông nghiệp tại tỉnh Thái Nguyên<br />
trong thời gian tiếp theo.<br />
<br />
+ m là số mờ hóa<br />
+ C là số cụm, N là số phần tử dữ liệu, r là số<br />
chiều của dữ liệu.<br />
+ ukj là độ thuộc của phần tử dữ liệu Xk vào<br />
cụm j.<br />
+ X k R r là phần tử thứ k của dữ liệu<br />
<br />
Trong các phần tiếp theo của báo cáo chúng<br />
tôi trình bày như sau: phần 2, trình bày về các<br />
kiến thức cơ sở bao gồm kiến thức về phân<br />
cụm bán giám sát mờ và kiến thức về dữ liệu<br />
địa lý. Phần 3 đưa ra mô hình kết hợp giữa<br />
phân cụm bán giám sát mờ với hệ thống<br />
thông tin địa lý để phân tích và dự báo số liệu<br />
thống kê. Phần 4 là một số kết quả thực<br />
nghiêm mô hình kết hợp đề xuất dựa trên bộ<br />
dữ liệu thực tế. Cuối cùng là kết luận và các<br />
hướng phát triển trong thời gian tới.<br />
<br />
Khi đó ràng buộc của bài toán là:<br />
<br />
Phân cụm dữ liệu cứng là phương pháp phân<br />
cụm mà mỗi phần tử thuộc CSDL chỉ thuộc<br />
vào đúng một cụm. Còn trong phân cụm dữ<br />
liệu mờ, mỗi phần tử dữ liệu có thể thuộc vào<br />
nhiều hơn một cụm và tương ứng với các<br />
điểm dữ liệu là ma trận độ thuộc, với các giá<br />
trị phần tử của ma trận này sẽ chỉ ra mức độ<br />
các phần tử dữ liệu thuộc vào các cụm khác<br />
nhau [2].<br />
Phân cụm mờ<br />
Thuật toán phân cụm mờ (Fuzzy C-Means<br />
clustering – FCM) được Bezdek [2] đề xuất dựa<br />
trên độ thuộc ukj của phần tử dữ liệu Xk từ cụm<br />
j. Hàm mục tiêu được xác định như sau:<br />
N<br />
<br />
C<br />
<br />
J ukjm X k V j<br />
<br />
2<br />
<br />
min (1)<br />
<br />
k 1 j 1<br />
<br />
X X 1 , X 2 ,..., X N .<br />
<br />
+ Vj là tâm của cụm j.<br />
C<br />
<br />
u<br />
j 1<br />
<br />
kj<br />
<br />
ukj 0,1;<br />
<br />
1;<br />
<br />
k 1, N (2)<br />
<br />
Giải bài toán tối ưu (1)-(2) bằng phương pháp<br />
Lagrange ta xác định được nghiệm tối ưu bao<br />
gồm tâm của cụm dựa vào phương trình (3) và<br />
độ thuộc dựa vào phương trình (4) dưới đây:<br />
<br />
(3)<br />
<br />
KIẾN THỨC CƠ SỞ<br />
Phân cụm<br />
Phân cụm dữ liệu [2] là quá trình nhóm một<br />
tập các phần tử dữ liệu trong tập dữ liệu vào<br />
các cụm sao cho các phần tử dữ liệu thuộc<br />
24<br />
<br />
1<br />
<br />
u kj <br />
<br />
X k Vj<br />
<br />
<br />
X k Vi<br />
i 1<br />
<br />
C<br />
<br />
1<br />
<br />
m 1<br />
<br />
<br />
<br />
<br />
(4)<br />
<br />
Nguyễn Thu Hương và Đtg<br />
<br />
Tạp chí KHOA HỌC & CÔNG NGHỆ<br />
<br />
Khi đó các bước của thuật toán FCM được<br />
trình bày trong bảng 1.<br />
Bảng 1. Fuzzy C-Means clustering<br />
<br />
Input<br />
<br />
Tập dữ liệu X gồm N phần tử<br />
trong không gian r chiều; số cụm<br />
C; số mờ hóa m; ngưỡng ; số<br />
lần lặp lớn nhất MaxStep>0.<br />
Ma trận U và tâm cụm V.<br />
<br />
Output<br />
FCM<br />
Bước 1: Đặt t=0<br />
Bước 2: u kjt random;<br />
<br />
N<br />
<br />
k 1 j 1<br />
<br />
(5)<br />
Với điều kiện ràng buộc (2), khi đó hàm độ<br />
thuộc bổ trợ của phần tử X k với cụm C j là<br />
<br />
u kj 0,1 đồng thời thỏa mãn:<br />
<br />
<br />
<br />
C<br />
<br />
k 1, N ; j 1, C thỏa<br />
<br />
<br />
<br />
u ; k 1, N ; j 1, C <br />
<br />
kj<br />
<br />
<br />
<br />
1 , k 1, N<br />
<br />
thức (4)<br />
<br />
Bước 4 : Until U t U t 1 hoặc t ><br />
<br />
Khi đó dựa vào điều kiện (2) và hàm mục tiêu<br />
(5) chúng ta có<br />
Vj <br />
<br />
u<br />
k 1<br />
N<br />
<br />
kj<br />
<br />
ukj<br />
<br />
m<br />
<br />
ukj ukj<br />
<br />
Xk<br />
<br />
, j 1, C<br />
<br />
m<br />
<br />
k 1<br />
<br />
(6)<br />
Và ukj được xác định theo 2 trường hợp sau<br />
- m 1 :<br />
2<br />
<br />
MaxStep<br />
Phân cụm bán giám sát mờ<br />
Thông tin bổ trợ: Các thuật toán phân cụm<br />
bán giám sát mờ xây dựng dựa trên các thuật<br />
toán phân cụm mờ kết hợp với các thông tin<br />
bổ trợ được người dùng cung cấp. Các thông<br />
tin bổ trợ nhằm mục đích hướng dẫn, giám sát<br />
và điều khiển quá trình phân cụm. Thông tin<br />
bổ trợ thường được xây dựng dựa trên 3 loại<br />
cơ bản [15] là :<br />
+ Các ràng buộc Must-link và Cannot-link:<br />
Ràng buộc Must-link yêu cầu 2 phần tử nên<br />
thuộc vào cùng 1 cụm, ngược lại ràng buộc<br />
Cannot-link chỉ ra 2 phần tử không nên thuộc<br />
cùng 1 cụm.<br />
+ Các nhãn lớp của một phần dữ liệu: Một<br />
phần của dữ liệu được gán nhãn và phần còn<br />
lại không được gán nhãn.<br />
+ Độ thuộc được xác định trước.<br />
Thuật toán phân cụm bán giám sát mờ<br />
chuẩn (Semi-Supervised Standard Fuzzy<br />
Clustering-SSSFC)<br />
Yasunori et al. [14] đã đề xuất một thuật toán<br />
phân cụm bán giám sát mờ. Khi đó hàm mục<br />
tiêu [14] được xác định như sau:<br />
<br />
<br />
<br />
j 1<br />
<br />
N<br />
<br />
bởi công<br />
<br />
<br />
<br />
U u kj | u kj 0,1, k 1, N , j 1, C ,<br />
<br />
Tính V jt ; j 1, C bởi công thức (3)<br />
t<br />
kj<br />
<br />
C<br />
<br />
J (U ,V ) | ukj ukj |m || X k V j ||2 min<br />
<br />
u<br />
<br />
mãn điều kiện (2)<br />
Bước 3 : Repeat<br />
t=t+1<br />
<br />
Tính<br />
<br />
189(13): 23 - 30<br />
<br />
<br />
m 1<br />
1<br />
<br />
<br />
X V <br />
C<br />
k<br />
j<br />
,<br />
<br />
<br />
<br />
u kj u kj 1 u kj <br />
2<br />
i 1<br />
<br />
C <br />
m 1<br />
1<br />
<br />
<br />
<br />
<br />
<br />
i 1 X k Vi <br />
<br />
k 1, N , j 1, C .<br />
<br />
(7)<br />
<br />
- m 1:<br />
C<br />
<br />
u<br />
<br />
1<br />
<br />
u kj , k arg min X k Vi<br />
kj<br />
<br />
<br />
i<br />
u kj <br />
j 1<br />
<br />
, otherwise .<br />
u kj<br />
<br />
k 1, N , j 1, C .<br />
<br />
2<br />
<br />
,<br />
<br />
(8)<br />
<br />
Các bước thực hiện thuật toán SSSFC được<br />
mô tả cụ thể trong bảng 2 dưới đây:<br />
Bảng 2. Semi-Supervised Standard Fuzzy Clustering<br />
Input<br />
<br />
Tập dữ liệu X gồm N phần tử , số<br />
cụm C, ma trận độ thuộc bổ trợ U ,<br />
ngưỡng , số lần lặp tối đa maxStep<br />
> 0.<br />
Ma trận U và tâm cụm V.<br />
<br />
Output<br />
SSSFC<br />
Bước 1: Đặt t = 0<br />
<br />
Bước 2: Khởi tạo ngẫu nhiên V j ; ( j 1, C )<br />
(t )<br />
<br />
Bước 3: Repeat<br />
<br />
25<br />
<br />
Nguyễn Thu Hương và Đtg<br />
<br />
Tạp chí KHOA HỌC & CÔNG NGHỆ<br />
<br />
Tính U(t) bởi ukj ( k 1, N ; j 1, C ) theo<br />
công thức (7) với<br />
với m 1 .<br />
t=t+1<br />
Tính V j<br />
<br />
( t 1)<br />
<br />
m 1 hoặc công thức (8)<br />
<br />
( j 1, C ) bởi công thức (6)<br />
<br />
Bước 4: Until V<br />
<br />
(t )<br />
<br />
V<br />
<br />
( t 1)<br />
<br />
hoặc t ><br />
<br />
maxStep<br />
<br />
Hệ thống thông tin địa lý và dữ liệu địa lý.<br />
Hệ thống thông tin địa lý<br />
Hệ thống thông tin địa lý (Geographical<br />
Information System – GIS) là tập hợp các<br />
công cụ để thu thập, lưu trữ, chỉnh sửa, truy<br />
cập, phân tích và cập nhật các thông tin địa lý<br />
cho một mục đích chuyên biệt. Ngoài ra cũng<br />
có nhiều định nghĩa khác về GIS [11].<br />
Dữ liệu địa lý.<br />
Dữ liệu địa lý là dữ liệu bao gồm dữ liệu<br />
không gian và dữ liệu thuộc tính [19] được<br />
kết hợp với nhau một cách tương ứng.<br />
Dữ liệu không gian là những mô tả số của<br />
các đối tượng thực tế được thể hiện hình ảnh<br />
bản đồ [19]. Đó có thể là thửa đất, con đường,<br />
sông ngòi, hồ ao, rừng núi, tòa nhà, sân bay,<br />
bến cảng ….. Chúng bao gồm toạ độ, quy<br />
luật và các ký hiệu dùng để thể hiện thành<br />
một hình ảnh cụ thể trên bản đồ. Hệ thống<br />
thông tin địa lý dùng các dữ liệu không gian<br />
để tạo ra một bản đồ hay hình ảnh bản đồ trên<br />
màn hình hoặc trên giấy thông qua thiết bị<br />
ngoại vi, v.v.<br />
Có hai mô hình dữ liệu không gian được sử<br />
dụng đồng thời trong hệ thống thông tin địa lý,<br />
là mô hình vector và mô hình raster. Mỗi mô<br />
hình có những ưu điểm và nhược điểm riêng.<br />
Mô hình vector: Mô tả vị trí và phạm vi của<br />
các đối tượng không gian bằng tọa độ cùng<br />
các kết hợp hình học gồm các điểm nút, các<br />
cung trên đường biên, các vùng mặt phẳng và<br />
quan hệ giữa chúng. Về mặt hình học, các đối<br />
tượng được phân biệt thành 3 dạng: đối tượng<br />
dạng điểm (point) được xác định bằng một<br />
cặp tọa độ (X,Y), đối tượng dạng đường (line)<br />
là một chuỗi các cặp tọa độ (X,Y) liên tục và<br />
26<br />
<br />
189(13): 23 - 30<br />
<br />
đối tượng dạng vùng (region hay polygon) là<br />
khoảng không gian được giới hạn bởi một tập<br />
hợp các cặp tọa độ (X,Y) trong đó điểm đầu và<br />
điểm cuối trùng nhau. Với đối tượng vùng, mô<br />
hình vector phản ánh đường bao của vùng [19].<br />
Mô hình raster: Có thể hiểu đơn giản là một<br />
“ảnh” chứa các thông tin về một chuyên đề.<br />
Nó mô hình hóa bề mặt trái đất và các đối<br />
tượng trên đó bằng một lưới (đều hoặc không<br />
đều) gồm các hàng và cột. Những phần tử nhỏ<br />
này gọi là những pixel hay cell. Giá trị của<br />
pixel là thuộc tính của đối tượng [19]. Kích<br />
thước pixel càng nhỏ thì đối tượng càng được<br />
mô tả chính xác. Một mặt phẳng chứa đầy các<br />
pixel tạo thành raster.<br />
Dữ liệu thuộc tính diễn tả các đặc tính của<br />
các đối tượng thực tế được thể hiện trên bản<br />
đồ [11]. Dữ liệu thuộc tính có thể là định tính<br />
- mô tả chất lượng như xếp hạng độ màu mỡ<br />
của thửa đất, mức độ phát triển kinh tế một<br />
tỉnh... hay là định lượng như chiều dài đoạn<br />
đường, diện tích thửa đất, độ sâu hồ nước,<br />
dân số của một đơn vị hành chính (xã, huyện,<br />
tỉnh..) cụ thể.<br />
Về nguyên tắc, số lượng các thuộc tính của<br />
một đối tượng là không có giới hạn. Để quản<br />
lý dữ liệu thuộc tính của các đối tượng địa lý<br />
trong CSDL, GIS đã sử dụng phương pháp<br />
gán các giá trị thuộc tính cho các đối tượng<br />
thông qua các bảng số liệu. Mỗi bản ghi đặc<br />
trưng cho một đối tượng địa lý, mỗi cột của<br />
bảng tương ứng với một kiểu thuộc tính của<br />
đối tượng đó.<br />
Thông thường hệ thống thông tin địa lý có 4<br />
loại số liệu thuộc tính [11]: Đặc tính của đối<br />
tượng; Số liệu hiện tượng, tham khảo địa lý;<br />
Chỉ số địa lý; Quan hệ giữa các đối tượng<br />
trong không gian.<br />
LƯỢC ĐỒ TỔNG QUÁT CỦA PHÂN CỤM<br />
DỮ LIỆU ĐỊA LÝ<br />
Đề xuất sơ đồ tổng quan<br />
Trong Hình 1 nhóm tác giả đề xuất một mô<br />
hình kết hợp giữa phân cụm bán giám sát mờ<br />
với mô hình hệ thống thông tin địa lý để phân<br />
<br />
Nguyễn Thu Hương và Đtg<br />
<br />
Tạp chí KHOA HỌC & CÔNG NGHỆ<br />
<br />
tích và dự báo số liệu thống kê. Trong mô<br />
hình này, chúng tôi sử dụng phân cụm bán<br />
giám sát mờ để phân chia dữ liệu ban đầu<br />
thành các cụm có cùng đặc tính. Sau khi phân<br />
cụm sau, kết hợp với các thuộc tính không<br />
gian biểu diễn dữ liệu trên bản đồ, phân tích<br />
sự xếp chồng nhau để dự báo dữ liệu trong<br />
thời gian tới.<br />
Dữ liệu vào và tham số<br />
<br />
Phân tích dữ liệu bằng phân cụm bán giám sát mờ<br />
<br />
Sử dụng GIS dự báo từ dữ liệu phân tích<br />
<br />
Kết quả dự báo<br />
<br />
Hình 1. Sơ đồ tổng quát<br />
<br />
Phân tích tích dữ liệu bằng phân cụm<br />
Với dữ liệu đầu vào cần phân tích, nhóm tác<br />
giả sử dụng thuật toán FCM phân cụm thu<br />
được ma trận độ thuộc, lấy ma trận độ thuộc<br />
của thuật toán FCM làm thông tin bổ trợ của<br />
phân cụm bán giám sát mờ.<br />
<br />
189(13): 23 - 30<br />
<br />
thời gian để phân tích sự phát triển trong các<br />
năm đã qua từ đó dự báo cho năm tiếp theo.<br />
KẾT QUẢ ĐÁNH GIÁ<br />
Chuẩn bị dữ liệu vào:<br />
Dữ liệu địa lý:<br />
Dữ liệu không gian cần chuẩn bị là dữ liệu<br />
không gian của tỉnh Thái Nguyên chi tiết đến<br />
các Huyện/Thị xã/Thành phố gồm các lớp dữ<br />
liệu sau: 1/ Lớp ranh giới tỉnh; 2/ Lớp ranh<br />
giới Huyện.<br />
Dữ liệu thuộc tính:<br />
Trong báo cáo này sẽ sử dụng dữ liệu sản lượng<br />
cây lương thực có hạt phân theo huyện/thị<br />
xã/thành phố của tỉnh Thái Nguyên được lấy từ<br />
nguồn niên giám thống kê của Chi cục thống kê<br />
tỉnh Thái Nguyên năm 2016.<br />
Tập tin bao gồm các dòng và các cột. Vị trí<br />
với dòng và cột thể hiện dữ liệu tương ứng:<br />
dòng là số đối tượng huyện/thị xã/thành phố,<br />
cột là số liệu sản lượng cây lương thực có hạt<br />
của các huyện/thị xã/thành phố thuộc tỉnh<br />
Thái Nguyên tương ứng với các năm số liệu<br />
được thống kê.<br />
<br />
- Bước 1: Từ dữ liệu đầu vào, sử dụng thuật<br />
toán phân cụm FCM, xác định ma trận độ<br />
thuộc của các điểm dữ liệu vào các cụm.<br />
- Bước 2: Tại mỗi điểm dữ liệu gán giá trị của<br />
cụm có độ thuộc nhỏ nhất bằng 0. Khi đó ta<br />
thu được ma trận thông tin bổ trợ.<br />
Sau khi có thông tin bổ trợ, sử dụng phân cụm<br />
bán giám sát mờ (SSSFC) để phân tích dữ<br />
liệu. Khi đó thông tin đầu vào của phân cụm<br />
bán giám sát mờ là dữ liệu phân tích và thông<br />
tin bổ trợ thu được từ quá trình phân tích trên.<br />
Sử dụng GIS để dự báo<br />
Dựa trên các dữ liệu phân tích số liệu của<br />
từng vùng với các mức độ khác nhau (trong<br />
các cụm khác nhau). Dựa trên các dữ liệu<br />
không gian kết hợp với các số liệu phân tích<br />
hàng năm hiện thị các mức độ của các khu<br />
vực theo từng năm dựa trên công nghệ<br />
ArcGIS. Xếp chồng các mức độ phân bố theo<br />
<br />
Các kết quả thực nghiệm<br />
Kết quả phân tích số liệu của sản lượng cây<br />
lương thực có hạt hàng năm với phân tích<br />
phân cụm với số cụm là 3 tương ứng với mức<br />
độ ở các khu vực: cao, trung bình, thấp. Giá<br />
trị trung tâm của các mức được xác định ở các<br />
tâm cụm (theo bảng 3).<br />
Bảng 3. Kết quả xác định tâm của phân cụm<br />
Cụm<br />
1<br />
2<br />
3<br />
<br />
2012<br />
21,578<br />
37,972<br />
62,927<br />
<br />
2013<br />
30,018<br />
49,999<br />
68,218<br />
<br />
2014<br />
29,193<br />
49,294<br />
69,902<br />
<br />
2015<br />
31,457<br />
52,313<br />
72,661<br />
<br />
2016<br />
32,240<br />
51,924<br />
72,799<br />
<br />
27<br />
<br />