intTypePromotion=1
zunia.vn Tuyển sinh 2024 dành cho Gen-Z zunia.vn zunia.vn
ADSENSE

Bài giảng Thống kê kinh doanh - Trường ĐH Hoa Sen

Chia sẻ: _ _ | Ngày: | Loại File: PDF | Số trang:88

22
lượt xem
10
download
 
  Download Vui lòng tải xuống để xem tài liệu đầy đủ

(NB) Bài giảng Thống kê kinh doanh được biên soạn gồm các nội dung chính sau: thống kê mô tả - thu thập và khám phá dữ liệu; trình bày và mô tả dữ liệu định tính; trình bày và mô tả dữ liệu định lượng; tính ngẫu nhiên và xác suất; các công thức tính xác suất;...Mời các bạn cùng tham khảo!

Chủ đề:
Lưu

Nội dung Text: Bài giảng Thống kê kinh doanh - Trường ĐH Hoa Sen

  1. TRƯỜNG ĐẠI HỌC HOA SEN BỘ MÔN KHOA HỌC TỔNG QUÁT -------------------------------- BÀI GIẢNG THỐNG KÊ KINH DOANH (Giáo trình lưu hành nội bộ) Thành phố Hồ Chí Minh – 2021 Trang 1
  2. BÀI GIẢNG THỐNG KÊ KINH DOANH (Năm học 2020 – 2021. Trường Đại học Hoa Sen) PHẦN I. THỐNG KÊ MÔ TẢ - THU THẬP VÀ KHÁM PHÁ DỮ LIỆU I.1. THU THẬP DỮ LIỆU 1. Thống kê là gì? Thống kê là một hệ thống các phương pháp bao gồm thu thập, tổng hợp, trình bày số liệu, tính toán các đặc trưng của đối tượng nghiên cứu nhằm phục vụ cho quá trình phân tích, dự đoán và ra quyết định. Như vậy, thống kê có hai lĩnh vực: - Thống kê mô tả: Bao gồm các phương pháp thu thập, trình bày dữ liệu và tính toán các đặc trưng nhằm mô tả đối tượng nghiên cứu. - Thống kê suy diễn: Bao gồm các phương pháp mô hình hoá trên các dữ liệu quan sát để đưa ra các suy diễn về tập hợp các đơn vị được nghiên cứu. Thống kê kinh doanh là một môn học thuộc thống kê học, nghiên cứu hệ thống các phương pháp thu thập, xử lý và phân tích các con số (mặt lượng) của những hiện tượng số lớn trong lĩnh vực kinh doanh để tìm hiểu bản chất và tính quy luật vốn có của chúng (mặt chất) trong những điều kiện thời gian và địa điểm cụ thể. Thống kê kinh doanh là khoa học về ra quyết định khi đối mặt với sự không chắc chắn và được sử dụng trong nhiều lĩnh vực như: phân tích tài chính, kinh tế lượng, kiểm toán, sản xuất và hoạt động, nghiên cứu tiếp thị, … Nó cung cấp kiến thức và kỹ năng để giải thích và sử dụng các kỹ thuật thống kê trong các ứng dụng kinh doanh. 2. Các khái niệm cơ bản 2.1. Tổng thể, đơn vị tổng thể, mẫu Tổng thể thống kê (hay tổng thể - population) là tập hợp tất các các đối tượng mà ta nghiên cứu. Các đơn vị (hay phần tử - elements) tạo thành tổng thể được gọi là đơn vị tổng thể. Mẫu (sample) là một bộ phận lấy ra từ tổng thể. Ví dụ 1. Khi nghiên cứu đặc điểm của nhóm khách hàng sử dụng một loại sản phẩm nào đó trên địa bàn Thành phố Hồ Chí Minh (Tp. HCM) ta chọn ra 500 khách hàng đang sử dụng sản phẩm đó tại Tp. HCM. Cho biết tổng thể, đơn vị tổng thể và mẫu. 2.2 Biến Biến là đặc điểm của đơn vị tổng thể, được chia thành hai loại: - Biến định tính (categorical/qualitative variable): Thể hiện tính chất của đơn vị được khảo sát; - Biến định lượng (Quantitative variable): Thể hiện bằng các con số. Ví dụ 2. a) Khi nghiên cứu đặc điểm của khách hàng, có các biến: giới tính, tuổi, nghề nghiệp, thu nhập, … b) Khi nghiên cứu các doanh nghiệp, mỗi doanh nghiệp có thể nghiên cứu trên các biến như: số lượng công nhân, vốn cố định, vốn lưu động, giá trị sản xuất, … Trang 2
  3. Một số biến có thể đồng thời là biến định tính và biến định lượng. Chẳng hạn, “tuổi” là biến định lượng vì nó thể hiện bằng con số. Tuy nhiên, nếu chúng ta phân loại tuổi thành 4 nhóm: trẻ em, thiếu niên, thanh niên, người già thì nó lại là biến định tính. 2.3 Dữ liệu Dữ liệu là kết quả quan sát được của các biến, giá trị nhận được có thể thay đổi từ đơn vị này sang đơn vị khác. Dữ liệu cũng được phân biệt thành hai loại: - Dữ liệu định tính; - Dữ liệu định lượng. Các doanh nghiệp luôn dựa vào nguồn dữ liệu để lập kế hoạch và nâng cao hiệu quả kinh doanh. Tất cả các dữ liệu được thu thập trong một nghiên cứu cụ thể được gọi là bộ dữ liệu (data warehouses). Dữ liệu được thu thập để ghi lại các giao dịch của công ty còn được gọi là dữ liệu giao dịch (transactional data). Quá trình sử dụng dữ liệu giao dịch nhằm để đưa ra các quyết định hoặc phân tích dự báo (data mining/predictive analytics). Dữ liệu thường được trình bày dưới dạng bảng. Mỗi dòng là một đơn vị tổng thể mà chúng ta cần phải quan sát, thu thập. Mỗi biến của đơn vị tổng thể được thể hiện trong một cột. Ví dụ 3. Đây là một bảng dữ liệu: Bộ dữ liệu cũng có thể được chia thành nhiều bảng có mối liên hệ với nhau. Ví dụ: Trang 3
  4. Ba bảng trên có mối liên hệ với nhau. Chúng ta có thể nhìn vào các khách hàng đề tìm những sản phẩm mà họ đã mua, hoặc cũng có thể nhìn vào một sản phẩm để tìm khách hàng đã mua nó. 2.4. Nguồn dữ liệu Khi nghiên cứu, ta có thể sử dụng các dữ liệu từ những nguồn có sẵn, đã được công bố hoặc chưa công bố, hay có thể tự mình đi thu thập dữ liệu mới. - Dữ liệu thứ cấp: Dữ liệu từ nguồn có sẵn, thường đã qua tổng hợp, xử lí. - Dữ liệu sơ cấp: Dữ liệu thu thập trực tiếp từ đối tượng nghiên cứu. Ví dụ 4. Khi nghiên cứu về ảnh hưởng của việc đi làm thêm đối với kết quả học tập, thì đâu là nguồn dữ liệu thứ cấp, đâu là nguồn dữ liệu sơ cấp? a) Nguồn dữ liệu thứ cấp khá đa dạng, có thể là: - Các báo cáo nội bộ cơ quan, doanh nghiệp: các số liệu báo cáo về tình hình sản xuất, tiêu thụ, tài chính,… - Các số liệu của Cơ quan Thống kê nhà nước, Cơ quan Chính phủ: dân số, việc làm, mức sống dân cư, tài nguyên, … - Báo, tạp chí, mạng Internet,… b) Nguồn dữ liệu sơ cấp được thu thập qua các cuộc điều tra khảo sát. Có hai phương pháp thu thập nguồn dữ liệu sơ cấp: Thu thập trực tiếp: - Quan sát - Phỏng vấn trực tiếp Thu thập gián tiếp: - Phỏng vấn bằng điện thoại - Phương pháp gửi thư, email Ưu điểm, nhược điểm của các phương pháp thu thập thông tin trên đây có thể tóm tắt trong bảng sau: Tính chất Phương pháp Phỏng vấn Phỏng vấn gửi thư, email qua tel trực tiếp Linh hoạt Kém TB Tốt Khối lượng thông tin Đầy đủ Hạn chế Đầy đủ Tốc độ thu thập Chậm Nhanh Nhanh thông tin Tỉ lệ câu hỏi Thấp TB Cao được trả lời Chi phí Tiết kiệm Tốn kém Tốn kém 2.5. Cấp bậc đo lường và thang đo dữ liệu Dữ liệu có thể được phân loại theo các cấp bậc đo lường. Thang đo rất quan trọng trong việc xác định các phương pháp để mô tả và phân tích dữ liệu. Có bốn cấp bậc đo lường theo mức độ thông tin tăng dần, đó là thang đo: định danh, thứ bậc, khoảng và tỉ lệ. Trang 4
  5. - Thang đo định danh (hay thang đo phân loại) là bậc thấp nhất, không thể hiện sự hơn kém. Thang đo này được sử dụng cho các dữ liệu định tính, chỉ khác biệt nhau về tên gọi. Ví dụ 5. Giới tính, màu sắc, nhãn hiệu, tình trạng hôn nhân,… là thang đo định danh. - Thang đo thứ bậc thể hiện sự hơn kém của dữ liệu nhưng không biết chính xác mức độ hơn kém đó. Thang đo này cũng được sử dụng cho các dữ liệu định tính. Ví dụ 6. Trình độ văn hoá, xếp loại học lực,… là thang đo thứ bậc. - Thang đo khoảng thể hiện được mức độ hơn kém giữa các giá trị đo lường, trong đó giá trị 0 chỉ là quy ước mà không có ý nghĩa. Thang đo khoảng được xem là thang đo thứ bậc có khoảng cách đều nhau. Thang đo này được sử dụng cho các dữ liệu định lượng. Ví dụ 7. Để đo lường sở thích của khách hàng, có thể dùng thang đo khoảng như sau: (1) Rất không thích; (2) Không thích; (3) Không có ý kiến gì; (4) Thích; (5) Rất thích. - Thang đo tỉ lệ là loại thang đo dùng cho các dữ liệu định lượng, có đầy đủ các tính chất của thang đo khoảng, trong đó giá trị 0 có nghĩa thật sự, cho phép lấy tỉ lệ so sánh giữa hai giá trị thu thập. Đây là thang đo ở bậc cao nhất trong hệ thống thang đo. Ví dụ 8. Tiền tệ, mét, kg,… là thang đo tỉ lệ. 3. Các kĩ thuật chọn mẫu Việc nghiên cứu trên tổng thể trong trường hợp tổng thể có số lượng phần tử (đơn vị) quá lớn sẽ dẫn đến:  Mất nhiều thời gian;  Tốn nhiều tiền bạc;  Cần nhiều nhân lực,… Trong trường hợp không có đủ các nguồn lực cho nghiên cứu trên tổng thể hoặc muốn tiết kiệm các nguồn lực này, người ta có thể tiến hành nghiên cứu trên mẫu. Mục đích của việc chọn mẫu là bảo đảm cho mẫu được chọn thực sự phản ánh trung thực, đại diện cho toàn bộ tổng thể. Sau đây là bốn phương pháp chọn mẫu phổ biến. a) Phương pháp chọn mẫu ngẫu nhiên đơn giản: là mẫu mà ở đó mỗi đơn vị của tổng thể được chọn với sự ngẫu nhiên như nhau. Ví dụ 9. Từ danh sách hơn 10.000 SV, muốn chọn ra 200 SV để phỏng vấn, ta có thể dùng lệnh RAND (.) trong Excel để có được một danh sách ngẫu nhiên. b) Đối với phương pháp chọn mẫu hệ thống, trước tiên lập danh sách các đơn vị của tổng thể chung theo một trật tự quy ước nào đó, sau đó đánh số thứ tự các đơn vị trong danh sách. Đầu tiên chọn ngẫu nhiên 1 đơn vị trong danh sách; sau đó cứ cách đều k đơn vị lại chọn ra 1 đơn vị vào mẫu,… cứ như thế cho đến khi chọn đủ số đơn vị của mẫu. Trang 5
  6. Ví dụ 10. Dựa vào danh sách bầu cử tại 1 thành phố, ta có danh sách theo thứ tự tên chủ hộ, bao gồm 240.000 hộ. Ta muốn chọn ra một mẫu có 2000 hộ. Vậy khoảng cách chọn là: k = 240000/2000 = 120, có nghĩa là cứ cách 120 hộ thì ta chọn một hộ vào mẫu. c) Trong phương pháp chọn mẫu cả khối (hay lấy mẫu nhiều giai đoạn), đầu tiên tổng thể được chia thành nhiều khối, lẫy ngẫu nhiên m khối sau đó khảo sát hết (hay một số) các đối tượng trong các khối mẫu đã được lấy ra. Đối với phương pháp này ta không cần phải có danh sách các đơn vị chọn mẫu. Ví dụ 11. Cần khảo sát tất cả các hộ dân thường trú tại TP. HCM, ta chọn ngẫu nhiên một số quận, rồi khảo sát tất cả (hay một số) hộ dân trong các quận đã chọn ra. d) Ta sử dụng phương pháp chọn mẫu phân tầng khi các đơn vị quá khác nhau về tính chất liên quan đến vấn đề cần nghiên cứu và khảo sát. Ví dụ 12. khi khảo sát mức độ hài lòng của sinh viên một trường đại học về cảm nhận của sinh viên về chất lượng đào tạo, thường sẽ có sự khác biệt lớn về số lượng sinh viên và điều kiện học tập giữa các hệ khác nhau như hệ chính quy, hệ hoàn chỉnh đại học, hệ đại học… Theo phương pháp này tổng thể nghiên cứu được chia thành các tầng lớp, từ kích thước mẫu đã chọn ta phân bổ tỷ lệ cho từng tầng lớp rồi tiến hành lấy mẫu ngẫu nhiên hay có thệ thống. Ví dụ 13. Các ví dụ sau đây sử dụng phương pháp chọn mẫu gì? a) Để nghiên cứu tỉ lệ trẻ em được tiêm phòng ở tỉnh X, người ta chọn ngẫu nhiên 10 xã trong tỉnh để điều tra toàn bộ. b) Để thăm dò tỉ lệ yêu thích sản phẩm A của mọi đối tượng khách hàng, công ty yêu cầu khảo sát ngẫu nhiên 1000 người, trong đó 50% nam và 50% nữ, 50% trên 40 tuổi và 50% trong độ tuổi từ 15 đến 40. c) Để kiểm tra mức độ chính xác của thông tin về 800 khách hàng do các nhân viên thu thập, nhà quản lý dựa vào danh sách quyết định chọn 10% khách hàng để kiểm tra lại thông tin. 4. Nguyên tắc thiết kế bảng câu hỏi Để một cuộc khảo sát mang lại những thông tin hữu ích về tổng thể mà chúng ta quan tâm. Trước khi tiến hành, cần phải trả lời các câu hỏi sau:  Tôi muốn biết điều gì?  Ai là người trả lời đúng?  Thế nào là câu hỏi đúng?  Điều gì sẽ được thực hiện với kết quả thu được? Những câu hỏi này có vẻ hiển nhiên, nhưng nó giúp cho chúng ta xác định những nguyên tắc đúng đắn trong việc tiến hành một cuộc khảo sát:  Chỉ tìm những gì bạn muốn biết. Trước khi khảo sát, cần phải rõ ràng những gì chúng Trang 6
  7. ta muốn biết về tổng thể, nếu không chắc điều này, chúng ta không thể có một cuộc khảo sát tốt. Lỗi phổ biến nhất trong trường hợp này là chúng ta thường thiết kế các bảng câu hỏi (công cụ khảo sát) quá dài, làm hạn chế đối tượng mà chúng ta có thể khảo sát và thông tin thu được thường không trung thực.  Hãy đặt những câu hỏi thật cụ thể, hạn chế những câu hỏi chung chung. Ví dụ 14. Thay cho câu hỏi: “Bạn có dành nhiều thời gian cho việc học không?” thì nên đặt: “Mỗi ngày, bạn dùng mấy giờ cho việc học?”.  Sử dụng bảng khảo sát phù hợp với đối tượng. Chẳng hạn, nếu bạn muốn thăm dò khách hàng về mức độ hài lòng của họ đối với sản phẩm hay dịch vụ của mình, đối tượng có thể là bất kì khách hàng nào. Nhưng nếu bạn muốn cải tiến sản phẩm hay dịch vụ của mình, thì đối tượng nên tập trung vào những khách hàng đã và đang có những khiếu nại hoặc từ chối sử dụng những sản phẩm hay dịch vụ đó.  Cẩn thận với những thành kiến hay sự chủ quan. Việc thiết kế một câu hỏi và các phương án trả lời đôi khi dựa trên kinh nghiệm của người thiết kế hơn là những ghi nhận khách quan khoa học, điều này dẫn đến sự áp đặt đối với người trả lời, và do đó thông tin thu được không khách quan. Ví dụ 15. Trong các đề tài khảo sát của SV Hoa Sen với chủ đề về “Trà sữa”, SV thường đặt câu hỏi: “Bạn uống bao nhiêu ly trà sữa mỗi tuần” với các phương án: a) 1 – 2 b) 3 – 4 c) 5 – 6 d) 7 – 8 Như vậy, đều này đã dẫn đến sự áp đặt tất cả người được khảo sát đều phải uống trà sữa ít nhất 1 lần/tuần.  Cẩn thận với các câu hỏi hoặc các phương án trả lời gây nhiễu. Các câu hỏi và các phương án trả lời nên được thiết kế rõ ràng, đảm bảo đối tượng được khảo sát không hiểu nhầm hoặc khó khăn trong việc xác định câu trả lời. Ví dụ 15. Với câu hỏi: “Bao nhiêu người trong gia đình bạn đang sở hữu một chiếc xe gắn máy?” thì nên làm rõ “gia đình” được hiểu theo nghĩa nào? Dựa vào quan hệ huyết thống hay phải ở chung một nhà? Còn với câu hỏi: “Bạn có thường xuyên xem phim ở rạp không?” với các phương án: a) Không bao giờ b) Hiếm khi c) Thỉnh thoảng d) Thường xuyên Thì việc phân biệt giữa các phương án b), c) và d) có thể gây khó khăn khi lựa chọn. Bài tập thực hành: Sử dụng Google Docs, thiết kế và soạn một bảng khảo sát, sau đó viết một email có nội dung mời tham gia khảo sát kèm link của bảng khảo sát. Trang 7
  8. I.2. TRÌNH BÀY VÀ MÔ TẢ DỮ LIỆU ĐỊNH TÍNH 1. Bảng tần số, tần suất Bảng tần số, tần suất là một bảng tổng hợp, trình bày dữ liệu bằng cách phân chia chúng thành từng nhóm khác nhau. Bảng tần số thường bao gồm ba cột: - Cột thứ nhất liệt kê tất các các biểu hiện có thể có của tập dữ liệu. - Cột thứ hai ghi tần số (số lần từng biểu hiện đó xuất hiện trong tập dữ liệu). Tổng của cột tần số phải bằng số phần tử của tập dữ liệu. - Cột thứ ba ghi tần suất (bằng cách lấy tần số chia cho số phần tử của tập dữ liệu và nhân với 100%). Tổng của cột tần suất phải bằng 100%. Ví dụ 1. Bảng tần số, tần suất ngành học của sinh viên một trường đại học như sau: Ngành học Tần số (sinh viên) Tần suất (%) Quản trị kinh doanh 500 50 Điện tử viễn thông 300 30 Công nghệ thông tin 200 20 Tổng 1000 100 Ví dụ 2. Dưới đây là kết quả của 40 câu trả lời từ một khảo sát về việc liệu người xem TV quan tâm đến một chương trình Gameshow hay các quảng cáo xuất hiện trong chương trình: Bảng tần số, tần suất tương ứng: Trang 8
  9. 2. Đồ thị thống kê 2.1. Biểu đồ dạng thanh (Bar Chart: thanh đứng hay thanh ngang) Trên biểu đồ này, mỗi thanh đại diện một phân loại của biến (đặc điểm thống kê) mà ta quan tâm, chiều dài của thanh thể hiện tần số của các quan sát thuộc về phân loại đó. Còn chiều rộng của các thanh bằng nhau. Ví dụ 3. Dữ liệu về việc sử dụng các trang mạng xã hội để mua một mặt hàng có bảng tần số sau: Biểu đồ dạng thanh sẽ là: Trang 9
  10. 2.2 Biểu đồ hình tròn: Thường dùng để mô tả kết cấu (%) của vấn đề đang nghiên cứu. Ví dụ 4. Biểu đồ hình tròn của bảng dữ liệu trong VD 3 như sau Trên biểu đồ, toàn bộ diện tích hình tròn được chia thành nhiều mảnh nhỏ hình rẻ quạt, diện tích mỗi mảnh tương ứng với tỉ lệ của phân loại mà nó đại diện trong toàn thể và mang một màu khác nhau. Thứ tự của các phân loại (theo chiều ngược kim đồng hồ) là thứ tự nó được sắp xếp trong bảng tổng hợp. 3. Bảng kết hợp nhiều biến định tính Ví dụ 5. Bảng dưới đây mô tả việc sử dụng mạng xã hội để mua hàng của khách hàng ở các nước. Ví dụ 6. Bảng dưới đây được khảo sát từ 1008 thanh niên ở Mỹ về việc quan tâm đến một chương trình Gameshow hay các quảng cáo xuất hiện trong chương trình: Trang 10
  11. Để thấy được việc lựa chọn chương trình để xem và giới tính có mối liên hệ như thế nào, chúng ta có thể tính phần trăm của việc lựa chọn chương trình để xem theo từng giới tính và sau đó lập biểu đồ dạng thanh theo tần suất: Bài tập thực hành: Sử dụng Excel để lập bảng tần số, tần suất của dữ liệu trong Ví dụ 2. Sau đó vẽ các biểu đồ dạng thanh và biểu đồ hình tròn cho dữ liệu đó. Trang 11
  12. I.3. TRÌNH BÀY VÀ MÔ TẢ DỮ LIỆU ĐỊNH LƯỢNG 1. Lý thuyết phân nhóm Trường hợp dữ liệu có ít giá trị: Mỗi giá trị quan sát hình thành một nhóm. Ví dụ 1. Khảo sát điểm thi môn Toán của một số sinh viên, ta được bảng dữ liệu sau: Điểm thi Tần số (số sinh viên) Tần suất (%) 3 3 3,75 4 12 15 5 15 18,75 6 20 25 7 16 20 8 8 10 9 4 5 10 2 2,5 Tổng 80 100 Trường hợp dữ liệu có nhiều giá trị: Trước hết ta phân nhóm cho các giá trị rồi mới lập bảng tần số trên cơ sở dữ liệu đã phân nhóm. Ví dụ 2. Khảo sát 1200 người trong độ tuổi lao động (từ 18 đến 60 tuổi), nếu lập bảng như ở Ví dụ 1 thì sẽ rất dài, làm mất đi tác dụng tóm lược thông tin. Do đó ta sẽ phân thành các nhóm, chẳng hạn: Từ 18 đến 20, từ 21 đến 30, từ 31 đến 40, từ 40 đến 50, từ 51 đến 60. Đây là kiểu phân nhóm theo kinh nghiệm. Trên thực tế người ta thường phân nhóm với khoảng cách đều nhau. Giả sử mẫu dữ liệu có n phần tử, giá trị lớn nhất, nhỏ nhất của dữ liệu lần lượt là và . Gọi k là số nhóm cần chia và h là khoảng cách giữa các nhóm. Khi đó, người ta thường xác định k và h bởi công thức: = √2 , ℎ = . Tuy nhiên trên thực tế khi xác định cận trên và cận dưới của các khoảng người ta có thể xử lý linh động hơn để đảm bảo tính khoa học và mỹ thuật. Mỗi khoảng thể hiện sự tồn tại của các giá trị quan sát xi sao cho: Cận dưới  xi < Cận trên Ví dụ 3. Năng suất (tạ/ha) của một loại cây thu hoạch được tại 40 vùng như sau: 153 154 156 157 158 159 159 160 160 160 161 161 161 162 162 162 163 163 163 164 164 164 165 165 166 166 167 167 168 168 170 171 172 173 174 175 176 177 178 179 Với = 40, = 179, = 153, ta có số nhóm = √2.40 ≈ 4,3 ≈ 4, khoảng cách giữa các nhóm ℎ = = 6,5. Nếu chọn h = 7 thì các nhóm được lập như sau: 152 – 159, 159 – 166, 166 – 173, 173 – 180. Ta có bảng tần số là: Trang 12
  13. Năng suất Tần số Tần suất (%) 152 - 159 5 12,5 159 - 166 19 47,5 166 - 173 9 22,5 173 - 180 7 17,5 Tổng 40 100 Chú ý. Một số điều kiện phải tuân thủ khi phân nhóm: - Các nhóm không được trùng nhau, mỗi giá trị chỉ thuộc về một nhóm. - Tất cả các nhóm phải bảo đảm bao quát hết tất cả các giá trị của mẫu số liệu. - Không có nhóm rỗng (tức là nhóm không có phần tử nào). Ví dụ 4. Một doanh nghiệp có 28 cửa hàng bán lẻ. Số tiền (triệu đồng) bán được trong ngày của các cửa hàng được ghi lại như sau: 57,8 57,5 52,4 50,9 50,2 53,3 50,1 43,3 42,5 41,7 41,1 45,8 47,2 46,9 56,9 45,5 38,8 50,3 37,6 38,9 52,3 49,2 47,5 47 49,6 46,2 49,8 36,8 Theo kinh nghiệm người ta thấy rằng chia 6 nhóm mới hợp lí nên ta chọn k = 6. Ta có giá trị nhỏ nhất là 36,8; giá trị lớn nhất là 57,8. Do đó ta tìm được 57,8  36,8 h  3,5  4 . 6 Nếu chọn nhóm thứ nhất bắt đầu từ 36,8 thì số khá lẻ nên ta có thể bắt đầu từ 36. Mặt khác, các số liệu trong mẫu cũng lẻ nên ta cho giới hạn trên và giới hạn dưới của hai nhóm kế tiếp trùng nhau với quy ước là khi có một giá trị bằng giới hạn trên của một nhóm thì đơn vị đó được xếp vào nhóm kế tiếp, nghĩa là ta có các khoảng: [36 – 40), [40 – 44), [44 – 48), [48 – 52), [52 – 56), [56 – 60). Khi đó ta có bảng tần số sau đây: Tiền bán hàng (triệu đồng) Tần số Tần suất (%) 36 – 40 4 14,3 40 – 44 4 14,3 44 – 48 7 25 48 – 52 7 25 52 – 56 3 10,7 56 – 60 3 10,7 Tổng 28 100 Chú ý. Trong bảng tần số đôi khi người ta còn thêm vào cột tần số tích luỹ (hoặc tần suất tích luỹ) thể hiện số lần quan sát (hoặc % số lần quan sát) cộng dồn đến giới hạn trên của một nhóm nào đó. Nói cách khác, tần số tích luỹ cho thấy có bao nhiêu quan sát bằng hoặc nhỏ hơn một trị số nào đó của biến khảo sát. Ví dụ 5. (Tiếp Ví dụ 4) Ta có bảng tần suất tích luỹ sau đây. Từ bảng ta thấy có 15 cửa hàng, chiếm 53,6%, có số tiền bán hàng trong ngày dưới 48 triệu đồng. Tiền bán hàng (triệu đồng) Tần số Tần suất (%) Tần suất tích luỹ(%) 36 – 40 4 14,3 14,3 40 – 44 4 14,3 28,6 Trang 13
  14. 44 – 48 7 25 53,6 48 – 52 7 25 78,6 52 – 56 3 10,7 89,3 56 – 60 3 10,7 100 Tổng 28 100 Phân nhóm mở: Ngoài cách phân nhóm như trên ta còn có thể phân nhóm mở, trong đó nhóm đầu tiên không có giới hạn dưới và nhóm cuối cùng không có giới hạn trên, các nhóm còn lại có khoảng cách đều hoặc không đều. Mục đích của phân nhóm mở là để nhóm đầu tiên và nhóm cuối cùng chứa được các đơn vị có giá trị đột biến và tránh việc lập quá nhiều tổ. Khi tính toán đối với phân nhóm mở người ta quy ước lấy khoảng cách của nhóm mở bằng khoảng cách của nhóm gần nó nhất. Ví dụ 6. Bảng năng suất lúa của một số hộ gia đình như sau: Năng suất lúa (tạ/ha) Số gia đình
  15. Sử dụng Excel: 1 2 Select Data Tab Click on Data Analysis 3 4 ( Input data range and bin range (bin range is a cell range containing the upper interval endpoints for each class grouping) Select Chart Output and click OK 2.2. Đa giác tần số Phương pháp thứ hai để biểu diễn phân phối tần số bằng đồ thị là dùng đa giác tần số. Để vẽ đa giác này, ta nối các trung điểm của cạnh đỉnh các cột trong Histogram lại với nhau bằng các đoạn thẳng. Muốn đường biểu diễn không có vẻ lơ lửng trên không, ta thêm vào hai bên của Histogram hai nhóm có tần số bằng 0. Trang 15
  16. Ví dụ 8. Đa giác tần số của Ví dụ 7 có dạng sau đây: 20 18 16 14 12 Tần số 10 8 6 4 2 0 152 - 159 159 - 166 166 - 173 173 - 180 Năng suất 3. Các đại lượng thống kê mô tả Đối với dữ liệu định lượng, chúng ta có thể tóm tắt tốt hơn khi số lượng dữ liệu lớn, đó là dùng các đại lượng thống kê mô tả. Các đại lượng này được chia thành hai nhóm: nhóm các đại lượng thể hiện mức độ tập trung của dữ liệu và nhóm thể hiện độ phân tán của dữ liệu. Ở nhóm thứ nhất ta có trung bình cộng (được sử dụng nhiều nhất), mốt, trung vị. Ở nhóm thứ hai ta có khoảng biến thiên, độ lệch tuyệt đối bình quân, phương sai, độ lệch chuẩn (được sử dụng nhiều nhất) và hệ số biến thiên. 3.1. Các đặc trưng đo lường khuynh hướng tập trung 3.1.1. Trung bình cộng (Arithmetic mean) Trung bình cộng được xác định bằng cách cộng tất cả các giá trị của từng phần tử (các quan sát), sau đó đem chia cho tổng số phần tử (tổng số quan sát). Có hai loại trung bình cộng là trung bình cộng đơn giản (mean) và trung bình cộng có trọng số (weighted mean). a) Trung bình cộng đơn giản - Trung bình tổng thể: Giả sử tổng thể có phần tử (quan sát), là giá trị của phần tử thứ i. Khi đó trung bình cộng của tổng thể là = ∑ . (1) - Trung bình mẫu: Giả sử mẫu có n phần tử (hay còn nói cỡ mẫu là n), khi đó trung bình cộng của mẫu (hay trung bình mẫu) là = ∑ . (2) Trang 16
  17. Ví dụ 9. Vốn đầu tư của các doanh nghiệp trong Khu công nghiệp A (2017, Triệu $) được cho ở bảng sau: Mã số của quan sát Vốn đầu tư Mã số quan sát Vốn đầu tư 1 10 14 30 2 20 15 40 3 15 16 35 4 20 17 35 5 20 18 35 6 15 19 35 7 25 20 30 8 25 21 40 9 25 22 40 10 25 23 45 11 30 24 45 12 30 25 50 13 30 Giá trị trung bình của vốn đầu tư của các doanh nghiệp (DN) trong mẫu là: 10  20  ...  45  50 X   30 . 25 b) Trung bình cộng có trọng số là trường hợp đặc biệt của trung bình cộng đơn giản khi giá trị xuất hiện nhiều lần. Giả sử giá trị xuất hiện lần, = 1,2, … , (ta nói là trọng số, hay tần số của giá trị ). Khi đó ∑ = (3) ∑ với ∑ = là số phần tử của mẫu. Ví dụ 10. Dữ liệu trong Ví dụ 9 có thể viết lại thành bảng phân bố tần số như sau: Vốn đầu tư 10 15 20 25 30 35 40 45 50 Số DN 1 2 3 4 5 4 3 2 1 Áp dụng công thức (3) ta có X  10.1  15.2  ...  45.2  50.1  30 . 1  2  ...  2  1 Chú ý. Trường hợp dữ liệu phân nhóm có khoảng cách thì trung bình mẫu được tính ∑ gần đúng bởi công thức = (4) ∑ với = là trị số giữa của nhóm i ( , là giới hạn trên, giới hạn dưới của nhóm i) và là tần số của nhóm i. Trang 17
  18. Ví dụ 11. Trong một đợt sản suất người ta chọn 50 sản phẩm và ghi nhận khối lượng. Sản phẩm được phân nhóm theo khối lượng như sau: Khối lượng (gam) Trị số giữa ( ) Số sản phẩm ( ) 484 – 490 487 5 490 – 496 493 10 496 – 502 499 15 502 – 508 505 13 508 – 514 511 7 Cộng 50 1 Áp dụng (4), ta có trung bình mẫu là X  50  487.5  493.10  ...  511.7   499,84 . c) Đặc điểm của trung bình cộng - Trung bình cộng thường rất nhạy cảm với các đột biến (giá trị quá lớn hoặc quá nhỏ), giá trị trung bình sẽ kém tiêu biểu nếu trong dãy số có các giá trị đột biến. - Trung bình cộng được sử dụng để so sánh giữa hai hay nhiều tổng thể. - Tổng độ lệch giữa các giá trị với trung bình cộng bằng 0, nghĩa là ∑ − = 0. 3.1.2. Mốt (Mode) a) Khái niệm Mốt là giá trị xuất hiện nhiều nhất trong một dãy số, kí hiệu là . Ví dụ 12. Xem lại bảng dữ liệu ở Ví dụ 10, ta có = 30 triệu USD vì nó xuất hiện 5 lần (có tần số lớn nhất). b) Đặc điểm của mốt - Mốt là đặc trưng đo lường khuynh hướng tập trung không bị ảnh hưởng bởi các giá trị đột biến. - Mốt có thể xác định cho dữ liệu sử dụng các thang đo khác như thang đo định danh, thang đo thứ bậc. - Khác với trung bình cộng và trung vị, một tập dữ liệu có thể không xác định được mốt vì không có giá trị nào xuất hiện nhiều nhất. Ngược lại, có một số trường hợp có nhiều mốt. 3.1.3. Trung vị (Median) Trong một tập dữ liệu đã được sắp xếp theo thứ tự tăng dần thì trung vị, kí hiệu , là giá trị đứng giữa của tập dữ liệu. Điều này có nghĩa là 50% của mẫu sẽ có các giá trị nhỏ hơn trung vị, và 50% của mẫu sẽ có giá trị lớn hơn số trung vị. Cách xác định: Sắp dữ liệu theo thứ tự tăng dần - Trường hợp số phần tử của mẫu n là số lẻ: = (trung vị là giá trị đứng giữa, tức là ở vị trí thứ trong dãy các giá trị tăng dần của mẫu số liệu). - Trường hợp n là số chẵn: = (trung vị là trung bình cộng của hai giá trị đứng giữa trong dãy số trên). Trang 18
  19. Ví dụ 13. a) Mẫu rút ra từ tổng thể có n = 5 quan sát: X (Vốn đầu tư của DN, triệu USD) 10 12 15 18 20 Thứ tự quan sát 1 2 3 4 5 Vì n = 5 lẻ nên = = 15 triệu USD. Điều này có nghĩa là 50% của mẫu sẽ có các giá trị nhỏ hơn 15 triệu USD và 50% của mẫu sẽ có giá trị lớn 15 triệu USD. b) Mẫu rút ra từ tổng thể có n = 6 quan sát: X (Vốn đầu tư của DN, triệu USD) 10 12 15 18 20 25 Thứ tự quan sát 1 2 3 4 5 6 X3  X4 15  18 Vì n = 6 chẵn nên M e    16, 5 triệu USD. 2 2 Ví dụ 14. Tính trung bình cộng và trung vị của dãy số liệu sau a) 12,4 14,6 13,1 16,8 16,5 16,2 17,4 17,5 13,6 14,9 13,2 12,8. b) 144,3 98,7 89,5 123,4 146,0 138,8 154,1 145,7 136,3 147,9 139,2. b) Đặc điểm của trung vị - Trung vị là trị số duy nhất có thể xác định được trong một dãy số. - Trung vị là đặc trưng đo lường khuynh hướng tập trung không bị ảnh hưởng bởi các giá trị đột biến. - Trung vị có thể tính cho các dữ liệu sử dụng các thang đo tỉ lệ, khoảng, thứ bậc. 3.1.4. Tứ phân vị Phân vị cung cấp thông tin về cách dữ liệu được trải đều trong khoảng từ nhỏ nhất giá trị đến giá trị lớn nhất. Phân vị thứ p là một giá trị sao cho ít nhất p phần trăm của các quan sát nhỏ hơn hoặc bằng giá trị này giá trị và ít nhất (100 - p) phần trăm của các quan sát lớn hơn hoặc bằng giá trị này Tứ phân vị chia dãy số lượng biến thành bốn phần, mỗi phần có số quan sát bằng nhau. Q1 = first quartile, or 25th percentile Q2 = second quartile, or 50th percentile (also the median) Q3 = third quartile, or 75th percentile Cách xác định: - Sắp thứ tự dữ liệu theo thứ tự tăng dần Trang 19
  20. - Xác định vị trí của các phân vị như sau: - : Tứ phân vị thứ nhất là lượng biến đứng ở vị trí thứ . ( ) - : Tứ phân vị thứ hai chính là số trung vị, đứng ở vị trí = . ( ) - : Tứ phân vị thứ ba là lượng biến đứng ở vị trí thứ . Nếu + 1 không chia hết cho 4 thì tứ phân vị được xác định bằng cách thêm vào. n1 1 3( n  1) 3 Chẳng hạn, với n = 12 (đơn vị), ta có 3 ,  9 . Do đó, tứ phân vị thứ 4 4 4 4 nhất bằng lượng biến ở vị trí thứ ba cộng với 1/4 giá trị chêch lệch giữa lượng biến ở vị trí thứ ba và thứ tư. Còn tứ phân vị thứ ba bằng lượng biến ở vị trí thứ chín cộng với 3/4 giá trị chênh lệch giữa lượng biến ở vị trí thứ chín và thứ mười. Ví dụ 15. Giá trị của 11 quan sát về vốn đầu tư của các DN: X (Vốn đầu tư của DN, triệu USD) 10 12 14 16 18 20 22 24 26 28 30 Thứ tự quan sát 1 2 3 4 5 6 7 8 9 10 11 Vì n = 11 nên n + 1 chia hết cho 4. Do đó, = = 14; = = 20; = = 26 Ví dụ 16. Giá trị của 8 quan sát về vốn đầu tư của các DN: X (Vốn đầu tư của DN, triệu USD) 10 12 14 16 18 20 22 24 Thứ tự quan sát 1 2 3 4 5 6 7 8 n1 1 2( n  1) 1 3( n  1) 3 Vì n + 1 không chia hết cho 4 và 2 ; 4 ;  6 . Do đó 4 4 4 2 4 4 1 Q1  12  (14  12)  12,5 4 1 Q2  16  (18  16)  17 2 3 Q3  20  (22  20)  21,5 4 Áp dụng 1.Một mẫu dữ liệu về mức lương khởi điểm gồm 30 sinh viên tốt nghiệp ngành Kỹ thuật ở Iceland(đơn vị: ngàn Euro) a. Trung bình mức lương khởi điểm là bao nhiêu? b. Trung vị mức lương khởi điểm là bao nhiêu? c. Mốt là bao nhiêu? d. Tứ phân vị thứ nhất và thứ 3 là bao nhiêu? Trang 20
ADSENSE

CÓ THỂ BẠN MUỐN DOWNLOAD

 

Đồng bộ tài khoản
2=>2