Tóm tắt luận án Tiến sĩ Kỹ thuật: Nghiên cứu, phát triển kỹ thuật định vị trong nhà sử dụng tín hiệu Wi-Fi

Chia sẻ: Gaocaolon6 Gaocaolon6 | Ngày: | Loại File: PDF | Số trang:27

Thêm vào BST

Báo xấu

36
lượt xem 2
download

Download Vui lòng tải xuống để xem tài liệu đầy đủ

Luận án với mục tiêu nghiên cứu phát triển kỹ thuật định vị trong nhà dựa trên dấu vân tay RSSI sử dụng tín hiệu Wi-Fi trong WLAN nhằm giảm thiểu sai số định vị, tối ưu thời gian định vị.

Chủ đề:

Bình luận(0) Đăng nhập để gửi bình luận!

Lưu

Nội dung Text: Tóm tắt luận án Tiến sĩ Kỹ thuật: Nghiên cứu, phát triển kỹ thuật định vị trong nhà sử dụng tín hiệu Wi-Fi

BỘ GIÁO DỤC VÀ ĐÀO TẠO BỘ KHOA HỌC VÀ CÔNG NGHỆ VIỆN ỨNG DỤNG CÔNG NGHỆ VŨ TRUNG KIÊN NGHIÊN CỨU, PHÁT TRIỂN KỸ THUẬT ĐỊNH VỊ TRONG NHÀ SỬ DỤNG TÍN HIỆU Wi-Fi tãm t¾t luËn ¸n tiÕn sÜ kü thuËt HÀ NỘI - 2019
Công trình được hoàn thành tại: Viện Ứng dụng Công nghệ Người hướng dẫn khoa học: GS. TS Lê Hùng Lân Phản biện 1: PGS.TS Thái Quang Vinh Phản biện 2: PGS.TS Hà Hải Nam Phản biện 3: PGS.TS Hoàng Văn Phúc Luận án sẽ được bảo vệ trước Hội đồng chấm luận án Tiến sĩ cấp Viện họp tại Viện Ứng dụng Công nghệ vào hồi ... giờ ... ngày.... tháng ... năm 20...... Có thể tìm hiểu luận án tại: Thư viện Viện Ứng dụng Công nghệ. Thư viện quốc gia.
DANH MỤC CÁC CÔNG TRÌNH ĐÃ CÔNG BỐ [CT1] Hoang Manh Kha, Duong Thi Hang, Vu Trung Kien, Trinh Anh Vu (2017), Enhancing WiFi based Indoor Positioning by Modeling measurement Data with GMM, IEEE International Conference on Advanced Technologies for Communications, IEEE, Quy Nhon, Vietnam, pp. 325-328 [CT2] Vu, T.K., Hoang, M.K., and Le, H.L. (2018), "WLAN Fingerprinting based Indoor Positioning in the Precence of Dropped Mixture Data", Journal of Military Science and Technology. 57A(3), pp. 25-34. https://drive.google.com/file/d/1jv2U3tmJq1vUEez6nt6Cq8DzJW EWZu6-/view [CT3] Vu, Trung Kien and Le, Hung Lan (2018), "Gaussian Mixture Modeling for Wi-Fi Fingerprinting based Indoor Positioning in the Presence of Censored Data", Vietnam Journal of Science, Technology and Engineering. 61(1), pp. 3-8, DOI: https://doi.org/10.31276/VJSTE.61(1).03-08 [CT4](ISI-Q2) Vu, Trung Kien, Hoang, Manh Kha, and Le, Hung Lan (2019), "An EM algorithm for GMM parameter estimation in the presence of censored and dropped data with potential application for indoor positioning", ICT Express, 5(2), pp. 120-123, DOI: 10.1016/j.icte.2018.08.001 Bài báo đã được chấp nhận: [CT5](ISI-Q3) Vu, Trung Kien, Hoang, Manh Kha, and Le, Hung Lan (2019), “Performance Enhancement of Wi-Fi Fingerprinting based IPS by Accurate Parameter Estimation of Censored and Dropped Data”, Radioengineering, ISSN: 1805-9600. Submission: 06/04/2019, Reviews Opened: 27/05/2019, Accepted: 03/09/2019.
1 GIỚI THIỆU LUẬN ÁN 1.Tính cấp thiết của đề tài Các hệ thống định vị dựa trên vệ tinh điển hình như GPS (Global Positioning System) của Mỹ có thể định vị chính xác các đối tượng ở môi trường ngoài trời. Tuy nhiên ở môi trường trong nhà, do tín hiệu từ vệ tinh không được truyền thẳng tới thiết bị được định vị nên độ chính xác của các hệ thống này giảm đi rất nhiều. Mặt khác, ngày càng xuất hiện nhiều các nhu cầu định vị trong nhà, ví dụ như định vị cho người sử dụng điện thoại thông minh di chuyển trong nhà ga, sân bay, trung tâm thương mại; định vị cho hàng hóa trong kho; định vị cho ô tô trong bãi đỗ xe...Vì những lý do này, trong những năm gần đây, hệ thống định vị trong nhà (IPS: Indoor Positioning System) rất được quan tâm nghiên cứu, phát triển. Trong số các công nghệ định vị trong nhà hiện nay, công nghệ định vị dựa trên tín hiệu Wi-Fi trong mạng nội bộ không dây (WLAN: Wireless Local Area Network) được sử dụng phổ biến nhất do hầu hết các khu vực trong nhà đều có sẵn WLAN, hầu hết các thiết bị di động như điện thoại, máy tính đều được trang bị các bộ thu phát tín hiệu Wi-Fi. Xuất phát từ những thực tế trên, tác giả đã chọn đề tài “Nghiên cứu, phát triển kỹ thuật định vị trong nhà sử dụng tín hiệu Wi-Fi”, trong đó đi sâu vào nghiên cứu kỹ thuật định vị dựa trên “dấu vân tay” RSSI (RSSIF-IPT: Received Signal Strength Indication Fingerprinting based Indoor Positioning Technique). 2. Đối tượng và phạm vi nghiên cứu Nghiên cứu kỹ thuật định vị cho đối tượng tĩnh trong không gian 2 chiều ở môi trường trong nhà. Kỹ thuật định vị được tập trung nghiên cứu là RSSIF-IPT, sử dụng tín hiệu Wi-Fi trong WLAN. Các vấn đề được nghiên cứu bao gồm: Đặc điểm của Wi-Fi RSSI; mô hình xác suất mô tả phân bố của Wi-Fi RSSI; thuật toán ước lượng các tham số, tối ưu hóa các tham số của mô hình được sử dụng mô tả phân bố của Wi-Fi RSSI; thuật toán định vị trực tuyến.
2 3. Mục tiêu nghiên cứu của đề tài - Mục tiêu chung: Nghiên cứu phát triển kỹ thuật định vị trong nhà dựa trên dấu vân tay RSSI sử dụng tín hiệu Wi-Fi trong WLAN nhằm giảm thiểu sai số định vị, tối ưu thời gian định vị. - Các mục tiêu cụ thể: + Xây dựng thuật toán ước lượng các tham số, số thành phần Gauss trong GMM khi một phần dữ liệu không quan sát được; + Xây dựng thuật toán định vị với mục tiêu giảm thiểu sai số định vị, tối ưu thời gian định vị; 4. Phương pháp nghiên cứu Phương pháp thống kê (toán) để xác định xu hướng diễn biến của tập dữ liệu (Wi-Fi RSSI) thu thập được từ đó đề xuất mô hình toán học mô tả phân bố của dữ liệu; phương pháp giải tích để tính toán các tham số của mô hình và vị trí của đối tượng cần định vị; phương pháp Monte Carlo để đánh giá sai số của các tham số mô hình; cuối cùng, các phương pháp thực nghiệm trên cả dữ liệu mô phỏng và dữ liệu thực tế để kiểm chứng hiệu quả của các đề xuất khi áp dụng cho IPS. 5. Các đóng góp mới của luận án - Đề xuất 03 thuật toán ước lượng các tham số của mô hình mô tả phân bố của Wi-Fi RSSI (mô hình hỗn hợp Gauss - GMM) tương ứng với các 03 trường hợp không quan sát được một phần dữ liệu [CT2- CT4]. - Đề xuất thuật toán ước lượng số thành phần Gauss trong GMM mở rộng [CT5]. - Đề xuất thuật toán định vị trong trường hợp không quan sát được một phần dữ liệu (Wi-Fi RSSI) do đối tượng được định vị (OB: Object) thu thập trong giai đoạn định vị trực tuyến [CT5]. 6. Bố cục luận án Bố cục của luận án gồm bốn chương, phần mở đầu, kết luận, danh mục các công trình, bài báo khoa học đã được công bố, tài liệu tham
3 khảo và phụ lục. Chương 1: Tổng quan về kỹ thuật định vị trong nhà sử dụng tín hiệu Wi-Fi. Chương 2: Ước lượng tham số của mô hình mô tả phân bố Wi-Fi RSSI. Chương 3: Ước lượng số thành phần Gauss trong mô hình mô tả phân bố Wi-Fi RSSI. Chương 4: Xây dựng thuật toán định vị và các kết quả thực nghiệm IPS. CHƯƠNG 1. TỔNG QUAN VỀ KỸ THUẬT ĐỊNH VỊ TRONG NHÀ SỬ DỤNG TÍN HIỆU Wi-Fi 1.1. Các kỹ thuật định vị trong nhà sử dụng tín hiệu Wi-Fi Các kỹ thuật định vị sử dụng tín hiệu Wi-Fi trong WLAN có thể chia thành hai nhóm chính: - Nhóm các kỹ thuật định vị dựa trên thuộc tính về không gian và thời gian của tín hiệu thu được (TSARS: Time and Space Attributes of Received Signal). TSARS có thể là thời gian tới (ToA: Time of Arrival), chênh lệch về thời gian tới (TDoA: Time Difference of Arrival) hoặc góc tới (AoA: Angle of Arrival). - Nhóm các kỹ thuật định vị sử dụng chỉ số cường độ tín hiệu nhận được (RSSI: Received Signal Strength Indication). Nhóm này bao gồm: Kỹ thuật định vị tiệm cận; kỹ thuật định vị sử dụng mô hình suy hao đường truyền và RSSIF-IPT. RSSIF-IPT gồm hai giai đoạn: giai đoạn huấn luyện ngoại tuyến và định vị trực tuyến. Ở giai đoạn huấn luyện, RSSI được thu thập tại các điểm tham chiếu (RP: Reference Point) có vị trí xác định để xây dựng cơ sở dữ liệu. Ở giai đoạn định vị trực tuyến, RSSI do OB thu thập được so sánh với cơ sở dữ liệu, từ đó ước lượng ra vị trí của OB thông qua vị trí của 1 hoặc một số RP. Trong số các kỹ thuật định vị, RSSIF-IPT có nhiều ưu điểm nhất. RSSIF-IPT có thể sử dụng phương pháp tất định (D-RSSIF-IPT: Deterministic RSSIF-IPT) hoặc phương pháp xác suất (P-RSSIF-IPT: Probabilistic RSSIF-IPT). So với D-RSSIF-IPT, P-RSSIF-IPT có sai số định vị thấp hơn do cơ sở dữ liệu của phương pháp này thể hiện được sự
4 biến đổi của RSSI. P-RSSIF-IPT có thể sử dụng mô hình không tham số (ví dụ biểu đồ tần suất) hoặc mô hình có tham số (ví dụ phân phối Gauss, GMM) để mô tả phân bố của Wi-Fi RSSI. P-RSSIF-IPT dùng mô hình có tham số cho ra kết quả định vị tốt hơn, cơ sở dữ liệu cần lưu ít tham số hơn so với P-RSSIF-IPT dùng mô hình không có tham số. 1.2. Đặt vấn đề đã nghiên cứu Phân bố của Wi-Fi RSSI có thể tuân theo phân phối Gauss hoặc bao gồm nhiều thành phần Gauss khi được thu thập trong điều kiện môi trường xung quanh thay đổi (cửa đóng/mở, người đi lại). Vì vậy so với phân phối Gauss, GMM mô tả phân bố của Wi-Fi RSSI chính xác hơn. Tuy nhiên trên thực tế một số mẫu dữ liệu có thể không quan sát được do một trong hai nguyên nhân sau: - Thiết bị thu thập Wi-Fi RSSI không đo được các giá trị nhỏ hơn ngưỡng thu, khi đó sẽ trả về giá trị bằng với ngưỡng thu (thông thường là – 100dBm với các điện thoại thông minh). Hiện tượng này được gọi tắt là “censoring”. - Đôi khi tín hiệu Wi-Fi đột ngột bị mất do AP ngừng hoạt động, khi đó thiết bị thu thập Wi-Fi RSSI cũng trả về giá trị bằng với ngưỡng thu. Hiện tượng này được gọi tắt là “dropping”. Từ kết quả khảo sát Wi-Fi RSSI từ kết quả nghiên cứu trong các công trình đã công bố, tập dữ liệu (Wi-Fi RSSI) thu thập tại một RP, từ một AP có đặc điểm tương ứng với một trong số tám trường hợp sau: (1) Dữ liệu có phân bố tuân theo phân phối Gauss, quan sát được toàn bộ tập dữ liệu; (2) Dữ liệu có phân bố tuân theo phân phối Gauss, một phần dữ liệu không quan sát được do bị censoring; (3) Dữ liệu có phân bố tuân theo phân phối Gauss, một phần dữ liệu không quan sát được do bị dropping; (4) Dữ liệu có phân bố tuân theo phân phối Gauss, một phân dữ liệu không quan sát được do censoring và dropping;
5 (5) Dữ liệu có phân bố gồm đa thành phần Gauss, quan sát được toàn bộ tập dữ liệu; (6) Dữ liệu có phân bố gồm đa thành phần Gauss, một phần dữ liệu không quan sát được do censoring (hình 1.10a); (7) Dữ liệu có phân bố gồm đa thành phần Gauss, một phần dữ liệu không quan sát được do dropping (hình 1.10b); (8) Dữ liệu có phân bố gồm đa thành phần Gauss, một phần dữ liệu không quan sát được do censoring và dropping (hình 1.10c). a. b. c. Hình 1.10. Biểu đồ tần suất của Wi-Fi RSSI thể hiện các vấn đề censoring, dropping và đa thành phần Gauss Các tác giả trong các bài báo khác nhau đã giải quyết được tập dữ liệu có các đặc điểm như các trường hợp (1)-(5). Tuy nhiên chưa có nghiên cứu nào giải quyết được tập dữ liệu có các đặc điểm như các trường hợp (6)-(8). Vì lý do này, luận án tập trung nghiên cứu, đề xuất giải pháp phát triển RSSIF-IPT để giải quyết đồng thời các vấn đề censoring, dropping và đa thành phần Gauss (các trường hợp (6)-(8)) và vẫn đảm bảo đúng khi dữ liệu có các đặc điểm như các trường hợp (1)-(5). 1.3. Kết luận chương 1 Trong chương này, luận án trình bày các kỹ thuật định vị trong nhà sử dụng tín hiệu Wi-Fi. Chương 1 cũng tổng hợp và phân tích các công trình nghiên cứu về RSSIF-IPT. Trên cơ sở nghiên cứu các vấn đề đã và chưa được giải quyết đối với RSSIF-IPT, luận án đề ra định hướng nghiên cứu.
6 CHƯƠNG 2. ƯỚC LƯỢNG THAM SỐ CỦA MÔ HÌNH MÔ TẢ PHÂN BỐ Wi-Fi RSSI 2.1. Đặt vấn đề Trong thực tế, tập dữ liệu bao gồm các phép đo chỉ số cường độ tín hiệu nhận được của tín hiệu Wi-Fi (Wi-Fi RSSI) thu thập tại 1 điểm tham chiếu (RP) từ 1 điểm truy cập (AP) có phân bố tuân theo GMM với từ 1 đến J thành phần Gauss (J là một số hữu hạn). Gọi yn là giá trị RSSI thu thập được ở lần thứ n từ một AP tại một RP ( yn  , n  1  N ), N là số lần thu thập. Do các lần thu thập là độc lập với nhau nên các yn độc lập với nhau. Nếu coi yn là các biến ngẫu nhiên có phân bố tuân theo GMM khi đó hàm mật mật độ xác suất (PDF: Probability Density Function) sẽ là: J p  yn ; Θ    w j  ( yn ; j ), (2.1) j 1 với Θ là bộ tham số của GMM, w j và  j là trọng số và tham số của thành phần Gauss thứ j. Gọi c là ngưỡng thu của thiết bị thu thập Wi-Fi RSSI, thay vì thu thập được tập dữ liệu đầy đủ y   y1 ,y2 ,...,yN  , thiết bị thu thập Wi-Fi RSSI chỉ thu thập được tập dữ liệu không đầy đủ x   x1 ,x2 ,...,xN  với:  yn khi yn  c xn   ,n  1 N. (2.4)  c khi yn  c Đây chính là hiện tượng hiện tượng một phần dữ liệu không quan sát được do censoring. Gọi d   d1 ,d2 ,...,d N  là tập các biến nhị phân biểu thị khi một mẫu dữ liệu ( yn ) không quan sát được do dropping (dn  1) hoặc quan sát được (dn  0) . Khi đó, thay vì thu thập được tập dữ liệu đầy đủ (y) , ở một số
7 trường hợp, thiết bị thu thập Wi-Fi RSSI chỉ thu thập được tập dữ liệu không đầy đủ (x) với:  y khi d n =0 xn   n , n  1 N. (2.5)  c khi d n =1 Các mẫu dữ liệu có giá trị bằng c trong trường hợp này là các mẫu dữ liệu không quan sát được do dropping. Censoring và dropping hoàn toàn có thể xảy ra đồng thời, khi đó:  y khi yn  c vaø d n =0 xn   n , n  1 N. (2.6)  c khi y n  c hoaë c d n =1 Mục tiêu đặt ra của chương 2 là ước lượng các tham số (Θ) của mô hình mô tả phân bố của tập dữ liệu y (GMM) khi thu thập được tập dữ liệu x. 2.2. Giới thiệu thuật toán EM Thuật toán EM được sử dụng giải bài toán tìm hợp lý cực đại (ML: Maximum Likelihood) hoặc cực đại xác suất hậu nghiệm (MaP: Maximum a Posteriori) của một mô hình thống kê có các biến ẩn (unobservable variables) bằng cách thực hiện liên tiếp các vòng lặp, mỗi vòng lặp gồm 2 bước: - Bước E (E-step): Tính giá trị kỳ vọng (expected value) của hàm hợp lý (LF: Likelihood Function). - Bước M (M-step): Ước lượng tham số của mô hình để cực đại hóa giá trị kỳ vọng của hàm hợp lý đã tính được ở bước E. 2.3. Ước lượng các tham số của GMM khi một phần dữ liệu không quan sát được do censoring Thuật toán EM ước lượng các tham số của GMM khi một phần dữ liệu không quan sát được do censoring (EM-C-GMM) [CT3]: Gọi Δnj ( n  1  N, j  1 J ) là tập các biến nhị phân tiềm ẩn (latent variables), Δnj  1 khi yn thuộc thành phần Gauss thứ j ; Δ nj  0 với các
8 trường hợp khác. Khi đó, kỳ vọng của logarit hàm hợp lý cho trước bởi tập dữ liệu quan sát được (x) và các tham số ở lần lặp thứ (k) được xác định như sau: Bước E:    Q Θ; Θ( k )   ln   Θ; y, Δ   x; Θ( k )  N J  (2.17) n 1 j 1         nj ln  w j p  yn ; j   p yn ,  nj | xn ; Θ( k ) dyn .    Hàm Q Θ;Θ(k ) được tính cho trường hợp xn  yn và trường hợp xn  c , kết quả như sau:    1  z    x ;   ln  w   ln    x ;   N J Q  Θ; Θ (k ) n n (k ) j j n j n 1 j 1 (2.19) N J  (k )  c   yn ; j( k )    znβ   j  ln  w j    ln    yn ; j     dy n  . 0 j   (k ) n 1 j 1   I  Trong công thức (2.19), zn (n 1 N ) là các biến nhị phân thể hiện các mẫu dữ liệu quan sát được hoặc không quan sát được. zn  0 khi xn  yn , khi đó yn  c ; zn  1 khi xn  c , khi đó yn  c . Ngoài ra ( xn ; (jk ) ) , β((jk ) ) và I0 ( (j k ) ) được xác định như sau:  w(jk )  xn ; (j k )    xn ; (jk )   J ; (2.20)  j 1 w(jk )   x ;  n (k ) j  ; w(jk ) I0  (j k )  β (jk )   J (2.21)  w(jk ) I   0 (k ) j j 1 c  c   (j k )  I0        y ;  (k ) j n (k ) j 1 dyn  erfc   2  2 (jk )  . (2.22)    Bước M:
9 Các tham số ước lượng được ở lần lặp thứ (k+1) được xác định bằng cách lần lượt lấy đạo hàm riêng của Q Θ;Θ(k ) trong công thức (2.19)   theo  j , j , w j và gán bằng 0, kết quả như sau: N I1  (j k )  N  1  z    x ;   x n 1 n n (k ) j n  β  (k ) j I  (k )   z n 1 n  (j k 1)  0 j . (2.23) N I1   z (k ) N  1  zn    xn ; (jk )   β  (jk )     j (k ) n n 1 I0 j n 1 N  1  zn    xn ; (jk )  xn   (jk )  2  2j  ( k 1)  N n1 N  1  z    x ;    β     z n 1 n n (k ) j (k ) j n 1 n (2.24)  I 2  (j k )  2 (j k ) I1  (j k )   N β  j   (k )     j    zn (k ) 2  0  j   0 j   (k ) (k ) I I  n1 . + N N  1  z    x ;    β     z n1 n n (k ) j (k ) j n1 n N N ( k 1)  1  z    x ;    β     z n n (k ) j (k ) j n (2.25) w j  n1 . n 1 N Trong các công thức (2.23)- (2.25), I1  (j k ) và I2  (j k ) được xác định     như sau:   (k )   2 c     I1  (j k )   (jk ) I0  (j k )    1 (k ) 2  j exp   ( j  2 j   k )  ; (2.26)       (k )   2 c            1 (k )   2 2 I2  (j k )    (jk )   (jk )  I0  (j k )   j c   (jk ) exp   j  .   2  2 j   ( k )     (2.27)
10 2.4. Ước lượng các tham số của GMM khi một phần dữ liệu không quan sát được do dropping Thuật toán EM ước lượng các tham số của GMM khi một phần dữ liệu không quan sát được do dropping (EM-D-GMM) [CT2]: Bước E: N J  Q Θ;Θ (k )   d w n1 j 1 n (k )  j ln   w   ln   j (2.30)   N J   1  dn   xn ; (jk ) ln  w j   ln 1    ln   xn ; j   . n1 j 1 Trong công thức (2.30),   P(dn 1) là xác suất xảy ra hiện tượng dropping. Bước M: 1  dn    xn ; (jk )  xn N    (jk 1)  n1 . (2.31) 1  dn    xn ; (jk )  N  n1     N 2  1  dn   xn ; (jk ) xn   (jk )   ( k 1) 2 j  n1 N . (2.32)  1  dn    xn ; (jk )  n 1 N N   1  dn   xn ; (jk )  dn w(jk )  (2.33) w(jk 1)  n 1 n 1 . N N  dn (2.34)  ( k 1)  n1 . N 2.5. Ước lượng các tham số của GMM khi một phần dữ liệu không quan sát được do censoring và dropping Thuật toán EM ước lượng các tham số của GMM khi một phần dữ liệu không quan sát được do censoring và dropping (EM-CD-GMM) [CT4]:
11 Bước E:  Q Θ;Θ(k )    N J     1  vn   xn ; (jk ) ln  w j   ln 1    ln   xn ; j   n 1 j 1    yn ; (j k )  dy   N J c vnβ  (jk )  α Θ (k ) , (k )   ln  w 1    ln  y ;    j  n 1 j 1   n j     I0  (j k ) n N J  vn w(jk ) 1  α Θ( k ) , ( k )  ln   . n 1 j 1   (2.52) Trong công thức (2.52): vn (n 1  N ) là các biến nhị phân thể hiện các mẫu dữ liệu quan sát được hoặc không quan sát được ( vn  0 khi yn  c và dn  0, khi đó xn  yn ; vn  1 khi yn  c hoặc dn  1, khi đó xn  c); J 1     w (k ) (k ) j 0I  (j k )  α  Θ ( k ) , ( k )   J j 1 1     w (k ) (k ) j 0 I  (j k )    ( k ) j 1 Bước M: N   v I1  (j k ) N  1  v    n1  x  βn  α  Θ ,  xn ; (jk ) I    n (jk ) (k ) (k ) (k ) n1 n  ( k 1)  . 0 j (2.53) j N N  1  v    x ;    β    α Θ ,   v n1 n n (k ) j (k ) j (k ) (k ) n1 n  1  v    x ;   x    N 2 (k ) (k ) n n j n j    ( k 1) 2 n 1 j N N  1  v    x ;    β    α Θ ,   v n 1 n n (k ) j (k ) j (k ) (k ) n 1 n β    α  Θ ,   I   (k )   2 I   (k )      v (k ) 2 (k ) j (k ) j 1 (k ) j (k ) 2 N (2.54)    I  I    j (k ) (k ) j n n 1 +   . 0 j 0 j  1  v    x ;    β    α Θ ,   v N N (k ) (k ) (k ) (k ) n n j j n n 1 n 1
12 N N  1  vn    xn ; (jk )   β (jk )  α Θ (k ) , (k ) v n w(jk 1)  n1 n1 N N (2.55)  1  α Θ ( k ) , ( k )  v    n 1 n  . N N   1  α Θ( k ) , ( k )  v   n1 n (2.56)  ( k 1)  . N Từ các công thức (2.53) - (2.56) có thể nhận thấy: - Nếu vn  0 (dữ liệu thu thập được đầy đủ), (2.52)- (2.55) rút gọn về các công thức của thuật toán EM ước lượng tham số trong GMM (EM- GMM, trường hợp 5); - Nếu J 1, (2.52)- (2.56) rút gọn về các công thức của thuật toán EM ước lượng tham số của phân phối Gauss khi một phần dữ liệu không quan sát được do censoring và dropping (EM-CD-G, các trường hợp (1)- (4)); Từ các lập luận trên có thể kết luận: EM-CD-GMM [CT4] ngoài việc giải quyết được đồng thời cả 3 vấn đề, bao gồm đa thành phần Gauss trong phân bố của Wi-Fi RSSI, censoring và dropping (các trường hợp (5)-(8), mục 1.2) còn hoàn toàn đúng với khi dữ liệu có phân bố tuân theo phân phối Gauss (các trường hợp (1)-(4), mục 1.2). 2.6. Đánh giá sai số của các tham số trong GMM ước lượng được bằng các thuật toán EM Trong mục này, thuật toán EM-CD-GMM sẽ được kiểm nghiệm và so sánh với các thuật toán EM khác đã được công bố trên tập dữ liệu mô phỏng, thông qua khoảng cách Kullback Leibler (KLD: Kullback Leibler Divergence). Sau 1000 lần thực nghiệm, giá trị trung bình KLD (KLD ) của các thuật toán được thể hiện như bảng 2.1 và độ lệch chuẩn (  KLD ) được thể hiện như bảng 2.2 (khi c= – 90dBm). Bảng 2.1.  KLD của các thuật toán EM sau 1000 lần thực nghiệm
13 c  Thuật toán (dBm) 0 0.075 0.15 0.225 0.3 EM-GMM 3.1491 3.2325 3.3142 3.5054 6.1253 –90 EM-CD-G 0.0798 0.0864 0.1096 0.1329 0.1998 EM-CD-GMM 0.0098 0.0111 0.0229 0.0334 0.0364 Bảng 2.2.  KLD của các thuật toán EM sau 1000 lần thực nghiệm c  Thuật toán (dBm) 0 0.075 0.15 0.225 0.3 EM-GMM 0.0351 0.3535 1.7911 2.202 2.4937 –90 EM-CD-G 0.1199 0.1364 0.1535 0.1963 0.296 EM-CD-GMM 0.0227 0.0601 0.0857 0.1005 0.1302 Từ các kết quả thực nghiệm trong bảng 2.1 và bảng 2.2 có thể nhận thấy: - Với   0 và c  96 , dữ liệu quan sát được gần như đầy đủ. Khi đó không có sự sai lệch lớn giữa các tham số được ước lượng bằng EM- GMM và các tham số được ước lượng bằng EM-CD-GMM. EM-CD-G có sai số lớn hơn do coi phân bố của dữ liệu tuân theo phân phối Gauss. - Với các trường hợp khác,  KLD và  KLD của EM-CD-GMM luôn nhỏ nhất. Bởi vậy EM-CD-GMM là thuật toán có thể ước lượng chính xác nhất mô hình mô tả phân bố của Wi-Fi RSSI khi tập dữ liệu thu thập được có phân bố gồm đa thành phần Gauss, một phần không quan sát được do censoring và dropping. 2.7. Kết luận chương 2 Trong chương 2, tác giả đề xuất ba thuật toán ước lượng các tham số của GMM trong các trường hợp: Một phần dữ liệu không quan sát được do censoring; một phần dữ liệu không quan sát được do dropping; một phần dữ liệu không quan sát được do censoring và dropping. Các kết quả thực nghiệm đã chứng minh hiệu quả của thuật toán EM-CD-GMM so với EM-GMM và EM-CD-G.
14 CHƯƠNG 3. ƯỚC LƯỢNG SỐ THÀNH PHẦN GAUSS TRONG MÔ HÌNH MÔ TẢ PHÂN BỐ Wi-Fi RSSI 3.1. Đặt vấn đề Trên thực tế, Wi-Fi RSSI thu thập tại từng RP khác nhau từ mỗi AP khác nhau có phân bố khác nhau, có thể gồm một hoặc nhiều thành phần Gauss. Nếu sử dụng GMM với J thành phần Gauss, số tham số của GMM sẽ là NPs=3J-1. Điều này có nghĩa là số lượng tham số cần lưu trong cơ sở dữ liệu và số phép toán của thuật toán định vị tỉ lệ thuận với số thành phần Gauss được sử dụng mô tả phân bố của Wi-Fi RSSI. Vì vậy cần có một giải pháp ước lượng số thành phần Gauss trong GMM mô tả phân bố của Wi-Fi RSSI nhằm tối ưu cơ sở dữ liệu và làm giảm mức độ phức tạp của các phép tính trong thuật toán định vị của IPS. 3.2. Các phương pháp ước lượng số thành phần Gauss trong GMM 3.2.1. Ước lượng số thành phần Gauss trong GMM bằng phương pháp hàm phạt (PF: Penalty Function) Gọi x là tập dữ liệu quan sát được, có phân bố tuân theo GMM; N là số mẫu dữ liệu trong tập x ; Θˆ là bộ tham số của GMM với J thành J phần Gauss mô tả phân bố của x ; N Ps là số tham số trong GMM; ˆ | x) là hàm hợp lý. PF của AIC, AIC3 và BIC được định nghĩa lần (Θ J lượt như trong các công thức (3.3)-(3.5). PFAIC (Θˆ J )  2ln[(Θˆ J | x)]  2NPs . (3.3) PFAIC3 (Θˆ J )  2ln[(Θˆ J | x)]  3NPs . (3.4) PFBIC (Θˆ J )  2ln [(Θˆ J | x)]  N Ps ln  N . (3.5) 3.2.2. Ước lượng số thành phần Gauss trong GMM bằng phương pháp hàm đặc trưng (CF: Characteristic Function) Phương pháp CF sử dụng sự hội tụ của tổng có trọng số của các phần thực trong logarit của hàm đặc trưng (SWRLCF: Sum of Weighted Real
15 parts of all Log-Characteristic Functions) để xác định số thành phần Gauss như sau: J SWRLCF( J )   wˆ jˆ j . (3.6) j 1 3.3. Ước lượng số thành phần Gauss trong GMM khi một phần dữ liệu không quan sát được do censoring và dropping [CT5] Thành phần ln [(Θˆ J | x)] của PFBIC trong (3.5) được tính như sau:     wˆ j   xn ;ˆj  N  J  ln  Θ  ˆ ,ˆ | x   J    1  vn  ln  1 ˆ n 1  j 1  (3.7)   N  J    vn ln  1 ˆ   wˆ j I0 ˆ j ˆ . n 1  j 1  Gọi PFBICCD (Θˆ J ,ˆ ) là PF tương ứng với trường hợp một phần dữ liệu không quan sát được do censoring và dropping, ta có:     N  J  ˆ ,ˆ  2 1  vn  ln 1 ˆ  wˆ j  xn ;ˆj  PFBICCD Θ J   n1  j 1 (3.12)   N  J    2 vn ln  1 ˆ   wˆ j I0 ˆj ˆ   3J ln  N . n1  j 1  Thuật toán ước lượng số thành phần Gauss và các tham số trong GMM khi một phần dữ liệu không quan sát được do censoring và dropping (EM-CD-GMM-PFBIC-CD) được đề xuất như sau (hình 3.4): Các tham số đầu vào:Tập dữ liệu (x) với một phần không quan sát được do censoring và dropping; ngưỡng hội tụ của thuật toán EM-CD- GMM ( EM ) ; số thành phần Gauss tối đa ( Jmax ) được sử dụng để tính các hàm PFBIC-CD . Các tham số đầu ra: Các tham số ước lượng được, bao gồm số thành ˆ ,ˆ ) mô tả phân bố của phần Gauss ( Jˆ ) và các tham số trong GMM (Θ ˆ J tập x.
16 Bắt đầu J 1 k  1; khôûi taïo  j =   j , j , w j  , j =1  J vaø  EM-CD-GMM k  k 1 Böôùc E: Tính   xn ; (jk )  , I 0  j( k )  , β   (jk )  , α  ( k ) , ( k )  , I1  j( k )  vaø I 2  j( k )    theo EM-CD-GMM; tính ln   Θ (Jk ) , ( k ) | x  theo (3.11) ôû voøng laëp thöù (k ) Böôùc M: Tính (jk 1) =   (j k 1) , j ( k 1) , w(j k 1)  , j =1  J vaø  ( k 1) theo EM-CD-GMM; tính ln    Θ (Jk 1) , ( k 1) | x   theo (3.11) ôû voøng laëp thöù (k +1) Sai ln   ( k 1) ΘJ , ( k 1)  | x   ln    Θ(Jk ) , (k )  | x    EM Đúng Löu taïm thôøi caùc tham soá trong GMM vôùi J thaønh phaàn Gauss, öôùc löôïng baèng EM-CD-GMM: ˆ   ˆ ˆ  ˆ  1 ,...,  J  ,vôùi  j   j =   j , j , w j  , j =1  J vaø    Θ J ( k 1)  ( k 1) ( k 1) ( k 1)  ˆ ( k 1)  ˆ ,ˆ theo (3.12) Tính PFBIC CD Θ J  Sai J=Jmax J  J 1 Đúng Choïn PFBIC CD nhoû nhaát trong soá J max caùc PFBIC CD : PFBIC CD Θ Jˆ  ˆ ,ˆ  min  PF  Θˆ ,ˆ ,..., PF  BIC CD J 1 ˆ  BIC CD Θ J  J max , ˆ      Löu soá thaønh phaàn Gauss öôùc löôïng ñöôïc (Jˆ ) vaø caùc tham soá trong GMM Jˆ 1 1 1  ˆ =  ˆ ,ˆ ,wˆ  ,...,  ˆ ,ˆ ,wˆ  ;ˆ vôùi Jˆ thaønh phaàn Gauss: Θ  Jˆ Jˆ Jˆ   Kết thúc Hình 3.4. Thuật toán EM-CD-GMM-PFBIC-CD
17 3.4. Đánh giá các thuật toán ước lượng số thành phần Gauss trong GMM Trong mục này, các thuật toán ước lượng số thành phần Gauss trong GMM được đánh giá thông qua các lần thực nghiệm khác nhau trên các tập dữ liệu mô phỏng. Các thuật toán được thực nghiệm bao gồm: - Thuật toán ước lượng số thành phần Gauss sử dụng EM-GMM và PFAIC (EM-GMM-PFAIC), các tham số đầu vào được khởi tạo gồm  EM  106 , Jmax  6 ; - Thuật toán ước lượng số thành phần Gauss sử dụng EM-GMM và PFBIC (EM-GMM-PFBIC), các tham số đầu vào được khởi tạo gồm  EM  106 , Jmax  6 ; - Thuật toán ước lượng số thành phần Gauss sử dụng EM-GMM và SWRLCF (EM-GMM-SWRLCF), các tham số đầu vào được khởi tạo gồm  EM  106 , CF  0.02; - Thuật toán EM-CD-GMM-PFBIC-CD được tác giả đề xuất, các tham số đầu vào được khởi tạo gồm  EM  106 , Jmax  6 . Sau 1000 lần thực nghiệm, kết quả thể hiện như trong bảng 3.2, với P(J =Jˆ) , P(| J  Jˆ |1) và P(J  Jˆ | 2) lần lượt là xác suất số thành phần Gauss ước lượng ( Jˆ ) được bằng số thành phần Gauss thực ( J ) , xác suất Jˆ lệch so với J 1 thành phần Gauss và xác suất Jˆ lệch so với J từ 2 thành phần Gauss trở lên. Từ các kết quả trong bảng 3.2. có thể thấy, trong mọi trường hợp, EM- CD-GMM-PFBIC-CD đều có kết quả tốt hơn so với các thuật toán khác. Cụ thể, tính trung bình xác suất ước lượng đúng số thành phần Gauss trong GMM của EM-CD-GMM-PFBIC-CD cao hơn so với xác suất ước lượng đúng số thành phần Gauss trong GMM của EM-GMM-PFAIC, EM-GMM-PFBIC và EM-GMM-SWRLCF lần lượt là 76%, 69% và 67%.