Nguyễn Văn Huân và Đtg<br />
<br />
Tạp chí KHOA HỌC & CÔNG NGHỆ<br />
<br />
135(05): 191 - 198<br />
<br />
GIẢI PHÁP XÂY DỰNG HỆ THỐNG PHÂN TÍCH DỮ LIỆU VÀ DỰ BÁO<br />
DOANH THU CHO DOANH NGHIỆP VỪA VÀ NHỎ TẠI VIỆT NAM<br />
Nguyễn Văn Huân*, Lê Anh Tú<br />
Trường Đại học Công nghệ thông tin và Truyền thông – ĐH Thái Nguyên<br />
<br />
TÓM TẮT<br />
Trong thực tế, phân tích và dự báo doanh thu đóng một vai trò quan trọng, giúp cho các nhà quản<br />
lý chủ động trong việc đề ra các kế hoạch và các quyết định cần thiết phục vụ cho quá trình sản<br />
xuất kinh doanh, đầu tư, quảng bá, quy mô sản xuất, kênh phân phối sản phẩm, nguồn cung cấp tài<br />
chính,…<br />
Bài báo đã đề xuất giải pháp xây dựng hệ thống phân tích dữ liệu và dự báo doanh thu cho doanh<br />
nghiệp vừa và nhỏ trên cơ sở thu thập, phân tích và kiểm định dữ liệu nhằm đưa ra những giải<br />
pháp xây dựng kế hoạch hoạt động sản xuất kinh doanh sao cho đạt hiệu quả cao nhất.<br />
Từ khoá: phân tích dữ liệu, dự báo, hồi quy tuyến tính, trung bình động, doanh thu<br />
<br />
GIỚI THIỆU*<br />
Phân tích dữ liệu và dự báo là một bài toán có<br />
ý nghĩa quan trọng trong việc hỗ trợ các nhà<br />
quản lý đưa ra quyết định đúng đắn dựa vào<br />
các dữ liệu đã thu thập được. Khi tiến hành dự<br />
báo cần căn cứ vào việc thu thập, xử lý số liệu<br />
trong quá khứ và hiện tại để xác định xu hướng<br />
vận động của các hiện tượng trong tương lai<br />
nhờ vào một số mô hình toán học[3].<br />
Trên thế giới đã có nhiều tác giả đưa ra cách<br />
phân loại các phương pháp dự báo khác nhau.<br />
Tuy nhiên, theo Gordon trong hai thập kỷ gần<br />
đây, có các phương pháp dự báo được áp<br />
dụng rộng rãi trên thế giới như: Tiên đoán,<br />
ngoại suy xu hướng, dự báo tổng<br />
hợp,…[1],[2].<br />
Hiện nay, ở Việt Nam có rất nhiều đơn vị<br />
tham gia công tác phân tích dữ liệu và dự<br />
báo phục vụ việc lập và triển khai các kế<br />
hoạch phát triển kinh tế xã hội như: Bộ Kế<br />
hoạch và Đầu tư, Trung tâm Thông tin và Dự<br />
báo Kinh tế Xã hội Quốc gia, Viện Chiến<br />
lược phát triển, Tổng cục Thống kê và Vụ<br />
Tổng hợp kinh tế quốc dân,… Bên cạnh đó,<br />
bài toán phân tích dữ liệu và dự báo đã được<br />
một số nhà quản lý, chuyên gia kinh tế<br />
nghiên cứu và đề xuất một số giải pháp ứng<br />
dụng vào một số lĩnh vực cụ thể: Phân tích<br />
và dự báo tình hình tài chính [9], tiền tệ [7],<br />
hoạch định và điều hành chính sách tài chính<br />
*<br />
<br />
Tel: 0987 118623<br />
<br />
[5], xây dựng mô hình dự báo chỉ số thống<br />
kê xã hội chủ yếu [4], dự báo biến động giá<br />
chứng khoán [8], dự báo sự tác động của vốn<br />
đầu tư từ nước ngoài [10], dự báo giá một số<br />
mặt hàng tư liệu sản xuất [6]. Tuy nhiên,<br />
những nghiên cứu này chưa tập trung nhiều<br />
vào việc dự báo doanh thu cho các doanh<br />
nghiệp vừa và nhỏ nhằm có được những kế<br />
hoạch hoạt động sản xuất kinh doanh đạt<br />
hiệu quả cao.<br />
Một trong các chỉ tiêu quan trọng để đánh giá<br />
kết quả hoạt động sản xuất kinh doanh của<br />
doanh nghiệp vừa và nhỏ là chỉ tiêu doanh<br />
thu. Doanh thu là tổng giá trị các mặt hàng<br />
sản phẩm của doanh nghiệp đã được tiêu thu<br />
và thanh toán trong kỳ. Đây là chỉ tiêu tổng<br />
hợp phản ánh kết quả kinh doanh, là cơ sở để<br />
đánh giá việc thực hiện mục tiêu kinh doanh<br />
của doanh nghiệp vừa và nhỏ.<br />
Xuất phát trong hoàn cảnh đó, bài báo này đề<br />
xuất giải pháp xây dựng hệ thống phân tích<br />
dữ liệu và dự báo doanh thu cho doanh nghiệp<br />
vừa và nhỏ trên cơ sở thu thập, phân tích và<br />
kiểm định dữ liệu từ đó đưa ra những giải<br />
pháp xây dựng kế hoạch hoạt động sản xuất<br />
kinh doanh sao cho đạt hiệu quả cao nhất.<br />
PHÂN TÍCH DỮ LIỆU VÀ DỰ BÁO<br />
KINH TẾ<br />
Quy trình phân tích và dự báo<br />
Quy trình phân tích và dự báo được chia thành 9<br />
bước. Các bước này bắt đầu và kết thúc với sự<br />
191<br />
<br />
Nitro PDF Software<br />
100 Portable Document Lane<br />
Wonderland<br />
<br />
Nguyễn Văn Huân và Đtg<br />
<br />
Tạp chí KHOA HỌC & CÔNG NGHỆ<br />
<br />
135(05): 191 - 198<br />
<br />
trao đổi, hợp tác và cộng tác giữa những người<br />
sử dụng và những người làm dự báo.<br />
<br />
+ Nguồn thông tin thứ cấp:<br />
<br />
Bước 1: Xác định mục tiêu<br />
<br />
Bên ngoài: sách báo, tạp chí, internet, các tài<br />
liệu thống kê,…<br />
<br />
- Các mục tiêu liên quan đến các quyết định<br />
cần đến dự báo phải được nói rõ. Nếu quyết<br />
định vẫn không thay đổi bất kể có dự báo<br />
hay không thì mọi nỗ lực thực hiện dự báo<br />
cũng vô ích.<br />
- Nếu người sử dụng và người làm dự báo có<br />
cơ hội thảo luận các mục tiêu và kết quả dự<br />
báo sẽ được sử dụng như thế nào, thì kết quả<br />
dự báo sẽ có ý nghĩa quan trọng.<br />
Bước 2: Xác định dự báo cái gì<br />
<br />
Bên trong: nội bộ công ty, sổ sách kế toán.<br />
<br />
- Cần phải lưu ý dạng dữ liệu sẵn có ( thời<br />
gian, đơn vị tính,…).<br />
- Dữ liệu thường được tổng hợp theo cả biến<br />
và thời gian, nhưng tốt nhất là thu thập dữ<br />
liệu chưa được tổng hợp.<br />
- Cần trao đổi giữa người sử dụng và người<br />
làm dự báo.<br />
Bước 5: Lựa chọn mô hình<br />
<br />
Khi các mục tiêu tổng quát đã rõ ta phải xác<br />
định chính xác là dự báo cái gì.<br />
<br />
- Để chọn một phương pháp dự báo thích hợp<br />
người làm dự báo phải:<br />
<br />
Bước 3: Xác định khía cạnh thời gian<br />
<br />
+ Xác định bản chất của vấn đề dự báo.<br />
<br />
Có 2 loại khía cạnh thời gian cần xem xét:<br />
<br />
+ Bản chất của dữ liệu đang xem xét.<br />
<br />
- Thứ nhất: Độ dài dự báo, cần lưu ý:<br />
<br />
+ Mô tả các khả năng và hạn chế của các<br />
phương pháp dự báo tiềm năng.<br />
<br />
+ Dự báo dài hạn: Là những dự báo có thời<br />
gian dự báo từ 5 năm trở lên. Thường dùng để<br />
dự báo những mục tiêu, chiến lược về kinh tế<br />
chính trị, khoa học kỹ thuật trong thời gian<br />
dài ở tầm vĩ mô.<br />
+ Dự báo trung hạn: Là những dự báo có thời<br />
gian dự báo từ 3 đến 5 năm. Thường phục vụ<br />
cho việc xây dựng những kế hoạch trung hạn về<br />
kinh tế văn hoá xã hội… ở tầm vi mô và vĩ mô.<br />
+ Dự báo ngắn hạn: Là những dự báo có thời<br />
gian dự báo dưới 3 năm, loại dự báo này<br />
thường dùng để dự báo hoặc lập các kế hoạch<br />
kinh tế, văn hoá, xã hội chủ yếu ở tầm vi mô<br />
và vĩ mô trong khoảng thời gian ngắn nhằm<br />
phục vụ cho công tác chỉ đạo kịp thời.<br />
- Thứ hai: Người sử dụng và người làm dự<br />
báo phải thống nhất tính cấp thiết của dự báo.<br />
Bước 4: Xem xét dữ liệu<br />
- Dữ liệu cần để dự báo có thể từ 2 nguồn:<br />
+ Nguồn thông tin sơ cấp:<br />
Thu thập qua các cuộc khảo sát, chọn mẫu<br />
hoặc các số liệu ghi chép các biến số trong<br />
doanh nghiệp.<br />
Các phương pháp thu thập: phỏng vấn trực<br />
tiếp, gửi thư, điện thoại.<br />
<br />
+ Xây dựng các tiêu chí để ra quyết định lựa chọn.<br />
+ Một nhân tố chính ảnh hưởng đến việc lựa<br />
chọn mô hình dự báo là nhận dạng và hiểu<br />
được bản chất số liệu lịch sử.<br />
Bước 6: Đánh giá mô hình<br />
- Đối với các phương pháp định tính thì bước này<br />
ít phù hợp hơn so với phương pháp định lượng.<br />
- Đối với các phương pháp định lượng, cần<br />
phải đánh giá mức độ phù hợp của mô hình<br />
(trong phạm vi mẫu dữ liệu).<br />
- Đánh giá mức độ chính xác của dự báo<br />
(ngoài phạm vi mẫu dữ liệu).<br />
- Nếu mô hình không phù hợp, quay lại bước 5.<br />
Bước 7: Chuẩn bị dự báo<br />
- Nếu có thể nên sử dụng hơn một phương<br />
pháp dự báo, và nên là những loại phương pháp<br />
khác nhau (ví dụ mô hình hồi quy và san mũ<br />
Holt, thay vì cả 2 mô hình hồi quy khác nhau).<br />
Bước 8: Trình bày kết quả dự báo<br />
- Kết quả dự báo phải được trình bày rõ ràng<br />
cho ban quản lý sao cho họ hiểu các con số<br />
được tính toán như thế nào và chỉ ra sự tin<br />
cậy trong kết quả dự báo.<br />
<br />
192<br />
<br />
Nitro PDF Software<br />
100 Portable Document Lane<br />
Wonderland<br />
<br />
Nguyễn Văn Huân và Đtg<br />
<br />
Tạp chí KHOA HỌC & CÔNG NGHỆ<br />
<br />
- Người dự báo phải có khả năng trao đổi các<br />
kết quả dự báo theo ngôn ngữ mà các nhà<br />
quản lý hiểu được.<br />
- Trình bày cả ở dạng viết và dạng nói.<br />
- Bảng biểu phải ngắn gọn, rõ ràng.<br />
- Chuỗi dữ liệu dài có thể được trình bày dưới<br />
dạng đồ thị (cả giá trị thực và dự báo).<br />
- Trình bày thuyết trình nên theo cùng hình thức<br />
và cùng mức độ với phần trình bày viết.<br />
Bước 9: Đánh giá kết quả dự báo<br />
- Lệch giữa giá trị dự báo và giá trị thực phải<br />
được thảo luận một cách tích cực, khách<br />
quan và cởi mở.<br />
- Mục tiêu của việc thảo luận là để hiểu tại sao<br />
có các sai số, để xác định độ lớn của sai số.<br />
- Trao đổi và hợp tác giữa người sử dụng và<br />
người làm dự báo có vai trò rất quan trọng<br />
trong việc xây dựng và duy trì quy trình dự<br />
báo thành công.<br />
Phân tích và xử lý dữ liệu<br />
Xử lý và phân tích dữ liệu nghiên cứu là một<br />
trong các bước cơ bản của một nghiên cứu,<br />
bao gồm xác định vấn đề nghiên cứu; thu<br />
thập số liệu; xử lý số liệu; phân tích số liệu<br />
và báo cáo kết quả. Xác định rõ vấn đề<br />
nghiên cứu giúp việc thu thập số liệu được<br />
nhanh chóng và chính xác hơn. Để có cơ sở<br />
phân tích số liệu tốt thì trong quá trình thu<br />
thập số liệu phải xác định trước các yêu cầu<br />
của phân tích để có thể thu thập đủ và đúng<br />
số liệu như mong muốn.<br />
Điều cốt lõi của phân tích số liệu là suy diễn<br />
thống kê, nghĩa là mở rộng những hiểu biết<br />
từ một mẫu ngẫu nhiên thành hiểu biết về<br />
tổng thể, hay còn gọi là suy diễn quy nạp.<br />
Muốn có được các suy diễn này phải phân<br />
tích số liệu dựa vào các test thống kê để đảm<br />
bảo độ tin cậy của các suy diễn. Bản thân số<br />
liệu chỉ là các số liệu thô, qua xử lý phân tích<br />
trở thành thông tin và sau đó trở thành tri<br />
thức. Đây chính là điều mà tất cả các nghiên<br />
cứu đều mong muốn.<br />
Tiền xử lý dữ liệu<br />
Nguyên nhân dữ liệu cần tiền xử lý<br />
<br />
135(05): 191 - 198<br />
<br />
Dữ liệu không hoàn chỉnh có thể xảy ra vì<br />
một số nguyên nhân:<br />
- Một vài thuộc tính quan trọng không được<br />
cung cấp. Ví dụ: thông tin khách hàng đối với<br />
giao dịch bán hàng vì lý do cá nhân có thể<br />
khách hàng không muốn cung cấp thông tin<br />
của họ, hay thuộc tính mã số bằng lái xe đối<br />
với người không có bằng lái xe họ không thể<br />
cung cấp thông tin được yêu cầu,…<br />
- Một số dữ liệu không được chọn lựa đơn<br />
giản bởi vì nó không được xem làm quan<br />
trọng tại thời điểm nhập dữ liệu. Hay nói cách<br />
khác, việc xem xét dữ liệu tại thời điểm nhập<br />
dữ liệu và thời điểm phân tích là khác nhau.<br />
- Vấn đề con người/ phần mềm/ phần cứng.<br />
- Dữ liệu không nhất quán với những dữ liệu<br />
đã được lưu trước đó có thể bị xóa, dẫn đến<br />
việc mất mát dữ liệu.<br />
Dữ liệu nhiễu có thể xảy ra vì một số nguyên<br />
nhân:<br />
- Công cụ lựa chọn dữ liệu được sử dụng bị<br />
lỗi.<br />
- Lỗi do con người hay máy tính lúc ghi<br />
chép dữ liệu.<br />
- Lỗi trong quá trình truyền tải dữ liệu.<br />
- Dữ liệu không chính xác cũng có thể là do<br />
không nhất quán trong việc đặt tên, định dạng<br />
dữ liệu.<br />
Dữ liệu không nhất quán có thể là do:<br />
- Dữ liệu được tập hợp từ nhiều nguồn khác<br />
nhau.<br />
- Vài thuộc tính được biểu diễn bằng những<br />
tên khác nhau trong cơ sở dữ liệu. Ví dụ:<br />
thuộc tính customer indentification có thể là<br />
customer_id trong cơ sở dữ liệu này nhưng là<br />
cust_id trong cơ sở dữ liệu khác.<br />
Tầm quan trọng của việc tiền xử lý dữ liệu<br />
- Quá trình làm sạch dữ liệu sẽ lắp đầy những<br />
giá trị bị thiếu, làm mịn các dữ liệu nhiễu, xác<br />
định và xóa bỏ những dữ liệu sai miền giá trị,<br />
và giải quyết vấn đề không nhất quán.<br />
- Nếu người dùng cho rằng dữ liệu là chưa<br />
được làm sạch thì họ sẽ không tin tưởng vào<br />
bất kỳ kết quả khai thác nào từ dữ liệu đó.<br />
193<br />
<br />
Nitro PDF Software<br />
100 Portable Document Lane<br />
Wonderland<br />
<br />
Nguyễn Văn Huân và Đtg<br />
<br />
Tạp chí KHOA HỌC & CÔNG NGHỆ<br />
<br />
135(05): 191 - 198<br />
<br />
- Ngoài ra, dữ liệu chưa được tiền xử lý có thể<br />
là nguyên nhân gây ra sự lộn xộn trong quá<br />
trình khai thác, cho ra kết quả không đáng tin.<br />
Việc có một số lượng lớn dữ liệu dư thừa có<br />
thể làm giảm tốc độ và làm hỗn loạn quá trình<br />
tìm kiếm tri thức.<br />
- Rõ ràng, việc thêm vào quá trình làm sạch<br />
dữ liệu giúp chúng ta tránh những dữ liệu<br />
dư thừa không cần thiết trong quá trình<br />
phân tích dữ liệu.<br />
- Làm sạch dữ liệu là một bước quan trọng<br />
trong quá trình tìm kiếm tri thức vì dữ liệu<br />
không có chất lượng thì kết quả khai thác cũng<br />
không có chất lượng. Những quyết định có chất<br />
lượng phải dựa trên dữ liệu có chất lượng.<br />
- Quá trình làm sạch dữ liệu và mã hóa dữ<br />
liệu có vai trò quan trọng trong việc xây<br />
dựng kho dữ liệu.<br />
<br />
sai sót trong quá trình nhập số liệu từ bảng số<br />
liệu ghi tay vào file số liệu trên máy tính.<br />
<br />
Nhiệm vụ chính trong quá trình tiền xử lý<br />
dữ liệu<br />
<br />
a: Hệ số tự do (hệ số chặn), là điểm xuất phát<br />
của đường hồi quy lý thuyết, nêu lên ảnh<br />
hưởng của các nhân tố khác (tiêu thức nguyên<br />
nhân khác) ngoài t tới sự biến động của y.<br />
b: Hệ số hồi quy (hệ sốgóc,độ dốc), phản ánh<br />
ảnh hưởng trực tiếp của tiêu thức nguyên<br />
nhân t đến tiêu thức kết quả y. Mỗi khi t tăng<br />
lên 1 đơn vị thì y sẽ thay đổi trung bình b đơn<br />
vị. b nói lên chiều hướng của mối liên hệ: b>0:<br />
Mối liên hệ thuận; b