intTypePromotion=1
zunia.vn Tuyển sinh 2024 dành cho Gen-Z zunia.vn zunia.vn
ADSENSE

Ứng dụng phân cụm bán giám sát mờ trong phân tích và dự báo dữ liệu sản lượng cây nông nghiệp tỉnh Thái Nguyên

Chia sẻ: ViMessi2711 ViMessi2711 | Ngày: | Loại File: PDF | Số trang:8

55
lượt xem
2
download
 
  Download Vui lòng tải xuống để xem tài liệu đầy đủ

Trong bài viết "Ứng dụng phân cụm bán giám sát mờ trong phân tích và dự báo dữ liệu sản lượng cây nông nghiệp tỉnh Thái Nguyên" đề xuất một mô hình kết hợp giữa phân cụm bán giám sát mờ với hệ thống thông tin địa lý để phân tích và dự báo số liệu thống kê. Trong đó kỹ thuật phân cụm bán giám sát mờ sử dụng để phân tích số liệu thống kê, hệ thống thông tin địa lý dùng để dự báo các số liệu thống kê. Trên cơ sở mô hình mới đề xuất chúng tôi thực nghiệm với dữ liệu thực tế về một số chỉ số về sản lượng cây nông nghiệp của tỉnh Thái Nguyên

Chủ đề:
Lưu

Nội dung Text: Ứng dụng phân cụm bán giám sát mờ trong phân tích và dự báo dữ liệu sản lượng cây nông nghiệp tỉnh Thái Nguyên

Nguyễn Thu Hương và Đtg<br /> <br /> Tạp chí KHOA HỌC & CÔNG NGHỆ<br /> <br /> 189(13): 23 - 30<br /> <br /> ỨNG DỤNG PHÂN CỤM BÁN GIÁM SÁT MỜ TRONG PHÂN TÍCH VÀ DỰ<br /> BÁO DỮ LIỆU SẢN LƯỢNG CÂY NÔNG NGHIỆP TỈNH THÁI NGUYÊN<br /> Nguyễn Thu Hương1*, Trần Duy Minh1, Nguyễn Thu Huyền2<br /> 1<br /> <br /> Trường Đại học Công nghệ thông tin & Truyền thông – ĐH Thái Nguyên,<br /> 2<br /> Đại học Nội vụ Hà Nội<br /> <br /> TÓM TẮT<br /> Phân tích dữ liệu và xử lý thống kê thông tin sao cho có hiệu quả là một trong những vấn đề đã và<br /> được nhiều nhà khoa học quan tâm. Từ các số liệu thống kê chúng ta phân tích nhằm thu được các<br /> thông tin hữu ích cho người sử dụng đồng thời từ đó dự báo các số liệu tương lai là một trong<br /> những bài toán đã được nhiều nhà khoa học quan tâm. Nhằm giải quyết bài toán này, trong thời<br /> gian gần đây các người ta quan tâm đến các phương pháp tính toán thông tin kết hợp với hệ thống<br /> thông tin địa lý để phân tích và dự báo các số liệu thống kê. Trong bài báo này, nhóm nghiên cứu<br /> của chúng tôi đề xuất một mô hình kết hợp giữa phân cụm bán giám sát mờ với hệ thống thông<br /> tin địa lý để phân tích và dự báo số liệu thống kê. Trong đó kỹ thuật phân cụm bán giám sát mờ sử<br /> dụng để phân tích số liệu thống kê, hệ thống thông tin địa lý dùng để dự báo các số liệu thống kê.<br /> Trên cơ sở mô hình mới đề xuất chúng tôi thực nghiệm với dữ liệu thực tế về một số chỉ số về sản<br /> lượng cây nông nghiệp của tỉnh Thái Nguyên.<br /> Keywords: Dữ liệu thống kê, dự báo, thông tin địa lý, phân cụm mờ, phân cụm bán giám sát, độ<br /> đo, sản lượng cây nông nghiệp<br /> <br /> GIỚI THIỆU*<br /> Khai phá dữ liệu là một khái niệm ra đời vào<br /> cuối những năm 1980. Nó là quá trình khám<br /> phá thông tin ẩn được tìm thấy trong các cơ<br /> sở dữ liệu (CSDL) và có thể xem là một bước<br /> trong quá trình khám phá tri thức. Khai phá<br /> dữ liệu là giai đoạn quan trọng nhất trong tiến<br /> trình khai phá tri thức từ CSDL, các tri thức<br /> này sẽ hỗ trợ trong việc ra quyết định trong<br /> các lĩnh vực như: khoa học, giáo dục, kinh<br /> doanh, dự báo,…<br /> Trong những năm trở lại, đây việc nghiên cứu<br /> về khai phá dữ liệu đã có xu hướng chuyển<br /> từ cơ sở dữ liệu quan hệ và cơ sở dữ liệu giao<br /> dịch sang cơ sở dữ liệu không gian [12, 17].<br /> Sự thay đổi này không những giúp hiểu được<br /> dữ liệu không gian mà còn giúp khám phá<br /> được mối quan hệ giữa dữ liệu không gian và<br /> phi không gian, các mô hình dựa trên tri thức<br /> không gian, phương pháp tối ưu câu truy vấn,<br /> tổ chức dữ liệu trong cơ sở dữ liệu không<br /> gian, ... Khai phá dữ liệu không gian được sử<br /> dụng nhiều trong các hệ thống thông tin địa lý<br /> (GIS) [5], viễn thám [16], khai phá dữ liệu<br /> *<br /> <br /> Email: nthuong@ictu.edu.vn<br /> <br /> ảnh, ảnh y học [1],… Khám phá tri thức từ dữ<br /> liệu không gian có thể được thực hiện dưới<br /> nhiều hình thức khác nhau như sử dụng các<br /> quy tắc đặc trưng và quyết định, trích rút và<br /> mô tả các cấu trúc hoặc cụm nổi bật, kết hợp<br /> không gian,…<br /> Các dữ liệu về kinh tế, xã hội, môi trường …<br /> đều gắn với các địa phương, tức là các dữ liệu<br /> địa lý, và nhiều bài toán thực tế đòi hỏi phải<br /> khai phá dữ liệu. Có nhiều phương pháp khai<br /> phá dữ liệu, trong đó phân cụm là một<br /> phương pháp được sử dụng khá nhiều. Hiện<br /> nay đã có nhiều cách tiếp cận thuật toán phân<br /> cụm khác nhau như: dựa trên phân hoạch,<br /> phân cấp, dựa trên lưới, dựa trên mật độ hay<br /> dựa trên mô hình [6,18], dựa trên đồ thị… và<br /> phân cụm dữ liệu địa lý là một hướng nghiên<br /> cứu nhiều triển vọng.<br /> Trong các phương pháp phân cụm bao gồm<br /> phân cụm có giám sát, phân cụm không giám<br /> sát và phân cụm bán giám sát thì các thuật<br /> toán phân cụm bán giám sát, đặc biệt là phân<br /> cụm bán giám sát mờ rất hiệu quả trong các<br /> lĩnh vực như xử lý ảnh [4, 6, 9], nhận dạng<br /> mẫu, nhận dạng khuôn mặt [1, 7], đánh giá rủi<br /> ro [3], dự báo phá sản [8]. Trong báo cáo này,<br /> 23<br /> <br /> Nguyễn Thu Hương và Đtg<br /> <br /> Tạp chí KHOA HỌC & CÔNG NGHỆ<br /> <br /> 189(13): 23 - 30<br /> <br /> nhóm tác giả đề cập đến các thuật toán phân<br /> cụm bán giám sát mờ với dữ liệu thông tin về<br /> một số chỉ số về sản lượng cây nông nghiệp<br /> trên địa bàn tỉnh Thái Nguyên. Trên cơ sở tìm<br /> hiểu nắm vững kỹ thuật xử lý dữ liệu không<br /> gian và vận dụng được vào chương trình thực<br /> hiện thuật toán phân cụm bán giám sát mờ với<br /> dữ liệu không gian, chúng tôi sẽ áp dụng với<br /> các dữ liệu thực tế, phân tích diễn giải ý nghĩa<br /> kết quả phân cụm bán giám sát mờ. Do vậy,<br /> đóng góp chính của bài báo đã đưa ra một mô<br /> hình kết hợp phân cụm bán giám sát mờ với<br /> hệ thống thông tin địa lý (GIS: geographic<br /> information system) để phân tích và dự báo<br /> các số liệu thống kê thông qua việc thu thập<br /> các số liệu thống kê về sản lượng cây lương<br /> thực có hạt phân theo huyện/thị xã/thành phố<br /> của tỉnh Thái Nguyên từ 2011 đến 2015, từ đó<br /> cài đặt thực nghiệm mô hình đề xuất với các<br /> số liệu thống kê thu thập được.<br /> <br /> cùng một cụm là tương đồng cao, còn các<br /> phần tử dữ liệu thuộc các cụm khác nhau sẽ<br /> tương đồng thấp.<br /> <br /> Ý nghĩa của nghiên cứu này đưa ra một mô<br /> hình hiệu quả trong việc phân tích các số liệu<br /> thống kê để từ đó dự báo số liệu trong thời<br /> gian sắp tới. Quá trình phân tích và dự báo<br /> này có ý nghĩa rất lớn với nhà quản lý và<br /> doanh nghiệp để hoạch định các chiến lược<br /> phát triển nông nghiệp tại tỉnh Thái Nguyên<br /> trong thời gian tiếp theo.<br /> <br /> + m là số mờ hóa<br /> + C là số cụm, N là số phần tử dữ liệu, r là số<br /> chiều của dữ liệu.<br /> + ukj là độ thuộc của phần tử dữ liệu Xk vào<br /> cụm j.<br /> + X k  R r là phần tử thứ k của dữ liệu<br /> <br /> Trong các phần tiếp theo của báo cáo chúng<br /> tôi trình bày như sau: phần 2, trình bày về các<br /> kiến thức cơ sở bao gồm kiến thức về phân<br /> cụm bán giám sát mờ và kiến thức về dữ liệu<br /> địa lý. Phần 3 đưa ra mô hình kết hợp giữa<br /> phân cụm bán giám sát mờ với hệ thống<br /> thông tin địa lý để phân tích và dự báo số liệu<br /> thống kê. Phần 4 là một số kết quả thực<br /> nghiêm mô hình kết hợp đề xuất dựa trên bộ<br /> dữ liệu thực tế. Cuối cùng là kết luận và các<br /> hướng phát triển trong thời gian tới.<br /> <br /> Khi đó ràng buộc của bài toán là:<br /> <br /> Phân cụm dữ liệu cứng là phương pháp phân<br /> cụm mà mỗi phần tử thuộc CSDL chỉ thuộc<br /> vào đúng một cụm. Còn trong phân cụm dữ<br /> liệu mờ, mỗi phần tử dữ liệu có thể thuộc vào<br /> nhiều hơn một cụm và tương ứng với các<br /> điểm dữ liệu là ma trận độ thuộc, với các giá<br /> trị phần tử của ma trận này sẽ chỉ ra mức độ<br /> các phần tử dữ liệu thuộc vào các cụm khác<br /> nhau [2].<br /> Phân cụm mờ<br /> Thuật toán phân cụm mờ (Fuzzy C-Means<br /> clustering – FCM) được Bezdek [2] đề xuất dựa<br /> trên độ thuộc ukj của phần tử dữ liệu Xk từ cụm<br /> j. Hàm mục tiêu được xác định như sau:<br /> N<br /> <br /> C<br /> <br /> J   ukjm X k  V j<br /> <br /> 2<br /> <br />  min (1)<br /> <br /> k 1 j 1<br /> <br /> X  X 1 , X 2 ,..., X N .<br /> <br /> + Vj là tâm của cụm j.<br /> C<br /> <br /> u<br /> j 1<br /> <br /> kj<br /> <br /> ukj  0,1;<br /> <br />  1;<br /> <br /> k  1, N (2)<br /> <br /> Giải bài toán tối ưu (1)-(2) bằng phương pháp<br /> Lagrange ta xác định được nghiệm tối ưu bao<br /> gồm tâm của cụm dựa vào phương trình (3) và<br /> độ thuộc dựa vào phương trình (4) dưới đây:<br /> <br /> (3)<br /> <br /> KIẾN THỨC CƠ SỞ<br /> Phân cụm<br /> Phân cụm dữ liệu [2] là quá trình nhóm một<br /> tập các phần tử dữ liệu trong tập dữ liệu vào<br /> các cụm sao cho các phần tử dữ liệu thuộc<br /> 24<br /> <br /> 1<br /> <br /> u kj <br /> <br />  X k Vj<br /> <br /> <br />  X k  Vi<br /> i 1<br /> <br /> C<br /> <br /> 1<br /> <br />  m 1<br /> <br /> <br /> <br /> <br /> (4)<br /> <br /> Nguyễn Thu Hương và Đtg<br /> <br /> Tạp chí KHOA HỌC & CÔNG NGHỆ<br /> <br /> Khi đó các bước của thuật toán FCM được<br /> trình bày trong bảng 1.<br /> Bảng 1. Fuzzy C-Means clustering<br /> <br /> Input<br /> <br /> Tập dữ liệu X gồm N phần tử<br /> trong không gian r chiều; số cụm<br /> C; số mờ hóa m; ngưỡng  ; số<br /> lần lặp lớn nhất MaxStep>0.<br /> Ma trận U và tâm cụm V.<br /> <br /> Output<br /> FCM<br /> Bước 1: Đặt t=0<br /> Bước 2: u kjt   random;<br /> <br /> N<br /> <br /> k 1 j 1<br /> <br /> (5)<br /> Với điều kiện ràng buộc (2), khi đó hàm độ<br /> thuộc bổ trợ của phần tử X k với cụm C j là<br /> <br /> u kj  0,1 đồng thời thỏa mãn:<br /> <br /> <br /> <br /> C<br /> <br /> k  1, N ; j  1, C  thỏa<br /> <br /> <br /> <br /> u   ; k  1, N ; j  1, C <br /> <br /> kj<br /> <br /> <br /> <br />  1 , k  1, N<br /> <br /> thức (4)<br /> <br /> Bước 4 : Until U t   U t 1   hoặc t ><br /> <br /> Khi đó dựa vào điều kiện (2) và hàm mục tiêu<br /> (5) chúng ta có<br /> Vj <br /> <br /> u<br /> k 1<br /> N<br /> <br /> kj<br /> <br />  ukj<br /> <br /> m<br /> <br />  ukj  ukj<br /> <br /> Xk<br /> <br /> , j  1, C<br /> <br /> m<br /> <br /> k 1<br /> <br /> (6)<br /> Và ukj được xác định theo 2 trường hợp sau<br /> - m 1 :<br /> 2<br /> <br /> MaxStep<br /> Phân cụm bán giám sát mờ<br /> Thông tin bổ trợ: Các thuật toán phân cụm<br /> bán giám sát mờ xây dựng dựa trên các thuật<br /> toán phân cụm mờ kết hợp với các thông tin<br /> bổ trợ được người dùng cung cấp. Các thông<br /> tin bổ trợ nhằm mục đích hướng dẫn, giám sát<br /> và điều khiển quá trình phân cụm. Thông tin<br /> bổ trợ thường được xây dựng dựa trên 3 loại<br /> cơ bản [15] là :<br /> + Các ràng buộc Must-link và Cannot-link:<br /> Ràng buộc Must-link yêu cầu 2 phần tử nên<br /> thuộc vào cùng 1 cụm, ngược lại ràng buộc<br /> Cannot-link chỉ ra 2 phần tử không nên thuộc<br /> cùng 1 cụm.<br /> + Các nhãn lớp của một phần dữ liệu: Một<br /> phần của dữ liệu được gán nhãn và phần còn<br /> lại không được gán nhãn.<br /> + Độ thuộc được xác định trước.<br /> Thuật toán phân cụm bán giám sát mờ<br /> chuẩn (Semi-Supervised Standard Fuzzy<br /> Clustering-SSSFC)<br /> Yasunori et al. [14] đã đề xuất một thuật toán<br /> phân cụm bán giám sát mờ. Khi đó hàm mục<br /> tiêu [14] được xác định như sau:<br /> <br /> <br /> <br /> j 1<br /> <br /> N<br /> <br /> bởi công<br /> <br /> <br /> <br /> U  u kj | u kj  0,1, k  1, N , j  1, C ,<br /> <br /> Tính V jt  ; j  1, C bởi công thức (3)<br /> t<br /> kj<br /> <br /> C<br /> <br /> J (U ,V )   | ukj  ukj |m || X k  V j ||2  min<br /> <br /> u<br /> <br /> mãn điều kiện (2)<br /> Bước 3 : Repeat<br /> t=t+1<br /> <br /> Tính<br /> <br /> 189(13): 23 - 30<br /> <br /> <br />  m 1<br /> 1<br /> <br /> <br />  X V <br /> C<br /> k<br /> j<br /> ,<br /> <br /> <br /> <br /> u kj  u kj  1   u kj  <br /> 2<br /> i 1<br /> <br />  C <br />  m 1<br /> 1<br /> <br /> <br /> <br /> <br /> <br /> i 1  X k  Vi <br /> <br /> k  1, N , j  1, C .<br /> <br /> (7)<br /> <br /> - m 1:<br /> C<br /> <br /> u<br /> <br /> 1<br /> <br /> u kj , k  arg min X k  Vi<br /> kj<br /> <br /> <br /> i<br /> u kj  <br /> j 1<br /> <br /> , otherwise .<br /> u kj<br /> <br /> k  1, N , j  1, C .<br /> <br /> 2<br /> <br /> ,<br /> <br /> (8)<br /> <br /> Các bước thực hiện thuật toán SSSFC được<br /> mô tả cụ thể trong bảng 2 dưới đây:<br /> Bảng 2. Semi-Supervised Standard Fuzzy Clustering<br /> Input<br /> <br /> Tập dữ liệu X gồm N phần tử , số<br /> cụm C, ma trận độ thuộc bổ trợ U ,<br /> ngưỡng  , số lần lặp tối đa maxStep<br /> > 0.<br /> Ma trận U và tâm cụm V.<br /> <br /> Output<br /> SSSFC<br /> Bước 1: Đặt t = 0<br /> <br /> Bước 2: Khởi tạo ngẫu nhiên V j ; ( j  1, C )<br /> (t )<br /> <br /> Bước 3: Repeat<br /> <br /> 25<br /> <br /> Nguyễn Thu Hương và Đtg<br /> <br /> Tạp chí KHOA HỌC & CÔNG NGHỆ<br /> <br /> Tính U(t) bởi ukj ( k  1, N ; j  1, C ) theo<br /> công thức (7) với<br /> với m  1 .<br /> t=t+1<br /> Tính V j<br /> <br /> ( t 1)<br /> <br /> m  1 hoặc công thức (8)<br /> <br /> ( j  1, C ) bởi công thức (6)<br /> <br /> Bước 4: Until V<br /> <br /> (t )<br /> <br /> V<br /> <br /> ( t 1)<br /> <br />   hoặc t ><br /> <br /> maxStep<br /> <br /> Hệ thống thông tin địa lý và dữ liệu địa lý.<br /> Hệ thống thông tin địa lý<br /> Hệ thống thông tin địa lý (Geographical<br /> Information System – GIS) là tập hợp các<br /> công cụ để thu thập, lưu trữ, chỉnh sửa, truy<br /> cập, phân tích và cập nhật các thông tin địa lý<br /> cho một mục đích chuyên biệt. Ngoài ra cũng<br /> có nhiều định nghĩa khác về GIS [11].<br /> Dữ liệu địa lý.<br /> Dữ liệu địa lý là dữ liệu bao gồm dữ liệu<br /> không gian và dữ liệu thuộc tính [19] được<br /> kết hợp với nhau một cách tương ứng.<br /> Dữ liệu không gian là những mô tả số của<br /> các đối tượng thực tế được thể hiện hình ảnh<br /> bản đồ [19]. Đó có thể là thửa đất, con đường,<br /> sông ngòi, hồ ao, rừng núi, tòa nhà, sân bay,<br /> bến cảng ….. Chúng bao gồm toạ độ, quy<br /> luật và các ký hiệu dùng để thể hiện thành<br /> một hình ảnh cụ thể trên bản đồ. Hệ thống<br /> thông tin địa lý dùng các dữ liệu không gian<br /> để tạo ra một bản đồ hay hình ảnh bản đồ trên<br /> màn hình hoặc trên giấy thông qua thiết bị<br /> ngoại vi, v.v.<br /> Có hai mô hình dữ liệu không gian được sử<br /> dụng đồng thời trong hệ thống thông tin địa lý,<br /> là mô hình vector và mô hình raster. Mỗi mô<br /> hình có những ưu điểm và nhược điểm riêng.<br /> Mô hình vector: Mô tả vị trí và phạm vi của<br /> các đối tượng không gian bằng tọa độ cùng<br /> các kết hợp hình học gồm các điểm nút, các<br /> cung trên đường biên, các vùng mặt phẳng và<br /> quan hệ giữa chúng. Về mặt hình học, các đối<br /> tượng được phân biệt thành 3 dạng: đối tượng<br /> dạng điểm (point) được xác định bằng một<br /> cặp tọa độ (X,Y), đối tượng dạng đường (line)<br /> là một chuỗi các cặp tọa độ (X,Y) liên tục và<br /> 26<br /> <br /> 189(13): 23 - 30<br /> <br /> đối tượng dạng vùng (region hay polygon) là<br /> khoảng không gian được giới hạn bởi một tập<br /> hợp các cặp tọa độ (X,Y) trong đó điểm đầu và<br /> điểm cuối trùng nhau. Với đối tượng vùng, mô<br /> hình vector phản ánh đường bao của vùng [19].<br /> Mô hình raster: Có thể hiểu đơn giản là một<br /> “ảnh” chứa các thông tin về một chuyên đề.<br /> Nó mô hình hóa bề mặt trái đất và các đối<br /> tượng trên đó bằng một lưới (đều hoặc không<br /> đều) gồm các hàng và cột. Những phần tử nhỏ<br /> này gọi là những pixel hay cell. Giá trị của<br /> pixel là thuộc tính của đối tượng [19]. Kích<br /> thước pixel càng nhỏ thì đối tượng càng được<br /> mô tả chính xác. Một mặt phẳng chứa đầy các<br /> pixel tạo thành raster.<br /> Dữ liệu thuộc tính diễn tả các đặc tính của<br /> các đối tượng thực tế được thể hiện trên bản<br /> đồ [11]. Dữ liệu thuộc tính có thể là định tính<br /> - mô tả chất lượng như xếp hạng độ màu mỡ<br /> của thửa đất, mức độ phát triển kinh tế một<br /> tỉnh... hay là định lượng như chiều dài đoạn<br /> đường, diện tích thửa đất, độ sâu hồ nước,<br /> dân số của một đơn vị hành chính (xã, huyện,<br /> tỉnh..) cụ thể.<br /> Về nguyên tắc, số lượng các thuộc tính của<br /> một đối tượng là không có giới hạn. Để quản<br /> lý dữ liệu thuộc tính của các đối tượng địa lý<br /> trong CSDL, GIS đã sử dụng phương pháp<br /> gán các giá trị thuộc tính cho các đối tượng<br /> thông qua các bảng số liệu. Mỗi bản ghi đặc<br /> trưng cho một đối tượng địa lý, mỗi cột của<br /> bảng tương ứng với một kiểu thuộc tính của<br /> đối tượng đó.<br /> Thông thường hệ thống thông tin địa lý có 4<br /> loại số liệu thuộc tính [11]: Đặc tính của đối<br /> tượng; Số liệu hiện tượng, tham khảo địa lý;<br /> Chỉ số địa lý; Quan hệ giữa các đối tượng<br /> trong không gian.<br /> LƯỢC ĐỒ TỔNG QUÁT CỦA PHÂN CỤM<br /> DỮ LIỆU ĐỊA LÝ<br /> Đề xuất sơ đồ tổng quan<br /> Trong Hình 1 nhóm tác giả đề xuất một mô<br /> hình kết hợp giữa phân cụm bán giám sát mờ<br /> với mô hình hệ thống thông tin địa lý để phân<br /> <br /> Nguyễn Thu Hương và Đtg<br /> <br /> Tạp chí KHOA HỌC & CÔNG NGHỆ<br /> <br /> tích và dự báo số liệu thống kê. Trong mô<br /> hình này, chúng tôi sử dụng phân cụm bán<br /> giám sát mờ để phân chia dữ liệu ban đầu<br /> thành các cụm có cùng đặc tính. Sau khi phân<br /> cụm sau, kết hợp với các thuộc tính không<br /> gian biểu diễn dữ liệu trên bản đồ, phân tích<br /> sự xếp chồng nhau để dự báo dữ liệu trong<br /> thời gian tới.<br /> Dữ liệu vào và tham số<br /> <br /> Phân tích dữ liệu bằng phân cụm bán giám sát mờ<br /> <br /> Sử dụng GIS dự báo từ dữ liệu phân tích<br /> <br /> Kết quả dự báo<br /> <br /> Hình 1. Sơ đồ tổng quát<br /> <br /> Phân tích tích dữ liệu bằng phân cụm<br /> Với dữ liệu đầu vào cần phân tích, nhóm tác<br /> giả sử dụng thuật toán FCM phân cụm thu<br /> được ma trận độ thuộc, lấy ma trận độ thuộc<br /> của thuật toán FCM làm thông tin bổ trợ của<br /> phân cụm bán giám sát mờ.<br /> <br /> 189(13): 23 - 30<br /> <br /> thời gian để phân tích sự phát triển trong các<br /> năm đã qua từ đó dự báo cho năm tiếp theo.<br /> KẾT QUẢ ĐÁNH GIÁ<br /> Chuẩn bị dữ liệu vào:<br /> Dữ liệu địa lý:<br /> Dữ liệu không gian cần chuẩn bị là dữ liệu<br /> không gian của tỉnh Thái Nguyên chi tiết đến<br /> các Huyện/Thị xã/Thành phố gồm các lớp dữ<br /> liệu sau: 1/ Lớp ranh giới tỉnh; 2/ Lớp ranh<br /> giới Huyện.<br /> Dữ liệu thuộc tính:<br /> Trong báo cáo này sẽ sử dụng dữ liệu sản lượng<br /> cây lương thực có hạt phân theo huyện/thị<br /> xã/thành phố của tỉnh Thái Nguyên được lấy từ<br /> nguồn niên giám thống kê của Chi cục thống kê<br /> tỉnh Thái Nguyên năm 2016.<br /> Tập tin bao gồm các dòng và các cột. Vị trí<br /> với dòng và cột thể hiện dữ liệu tương ứng:<br /> dòng là số đối tượng huyện/thị xã/thành phố,<br /> cột là số liệu sản lượng cây lương thực có hạt<br /> của các huyện/thị xã/thành phố thuộc tỉnh<br /> Thái Nguyên tương ứng với các năm số liệu<br /> được thống kê.<br /> <br /> - Bước 1: Từ dữ liệu đầu vào, sử dụng thuật<br /> toán phân cụm FCM, xác định ma trận độ<br /> thuộc của các điểm dữ liệu vào các cụm.<br /> - Bước 2: Tại mỗi điểm dữ liệu gán giá trị của<br /> cụm có độ thuộc nhỏ nhất bằng 0. Khi đó ta<br /> thu được ma trận thông tin bổ trợ.<br /> Sau khi có thông tin bổ trợ, sử dụng phân cụm<br /> bán giám sát mờ (SSSFC) để phân tích dữ<br /> liệu. Khi đó thông tin đầu vào của phân cụm<br /> bán giám sát mờ là dữ liệu phân tích và thông<br /> tin bổ trợ thu được từ quá trình phân tích trên.<br /> Sử dụng GIS để dự báo<br /> Dựa trên các dữ liệu phân tích số liệu của<br /> từng vùng với các mức độ khác nhau (trong<br /> các cụm khác nhau). Dựa trên các dữ liệu<br /> không gian kết hợp với các số liệu phân tích<br /> hàng năm hiện thị các mức độ của các khu<br /> vực theo từng năm dựa trên công nghệ<br /> ArcGIS. Xếp chồng các mức độ phân bố theo<br /> <br /> Các kết quả thực nghiệm<br /> Kết quả phân tích số liệu của sản lượng cây<br /> lương thực có hạt hàng năm với phân tích<br /> phân cụm với số cụm là 3 tương ứng với mức<br /> độ ở các khu vực: cao, trung bình, thấp. Giá<br /> trị trung tâm của các mức được xác định ở các<br /> tâm cụm (theo bảng 3).<br /> Bảng 3. Kết quả xác định tâm của phân cụm<br /> Cụm<br /> 1<br /> 2<br /> 3<br /> <br /> 2012<br /> 21,578<br /> 37,972<br /> 62,927<br /> <br /> 2013<br /> 30,018<br /> 49,999<br /> 68,218<br /> <br /> 2014<br /> 29,193<br /> 49,294<br /> 69,902<br /> <br /> 2015<br /> 31,457<br /> 52,313<br /> 72,661<br /> <br /> 2016<br /> 32,240<br /> 51,924<br /> 72,799<br /> <br /> 27<br /> <br />
ADSENSE

CÓ THỂ BẠN MUỐN DOWNLOAD

 

Đồng bộ tài khoản
2=>2