Thống kê mô tả với thủ tục Explore là một phần rất quan trọng thuộc P3 trong series Thống kê mô tả SPSS. Điểm quan trọng nhất trong phần này là vẽ, đọc bảng kết quả biểu đồ thân và lá (steam and leaf) trong SPSS.
Bạn đang xem: Thống kê mô tả trong spss
#1 Mục đích thống kê mô tả với thủ tục Explore
Như đã trình bày trong bài chia sẻ về thống kê mô tả và cách tính đại lượng thống kê mô tả thì bảng tần số Frequencies và bảng tính toán Descriptives đều áp dụng chủ yếu cho đơn biến.
Trong trường hợp muốn kiểm tra những sự khác biệt trong các đại lượng thống kê mô tả của 1 biến định lượng (ví dụ thu nhập) giữa các nhóm biến khác (ví dụ tuổi và giới tính) khác nhau thì phải dùng một thủ tục kiểm định Explore.
Lưu ý: Thủ tục thống kê mô tả cho thủ tục Explore áp dụng cho biến định lượng.
Với cách thống kê mô tả bằng lệnh Explore mang lại các ý nghĩa:
Tính toán các đại lượng thống kê mô tả cho tất cả các trường hợp trong dữ liệu hoặc cho các nhóm thuộc tính của chúng.Tính các giá trị thập phân vị của phân phốiNhận diện các giá trị lạ: Tương tự với tính năng kiểm tra dữ liệu của thống kê tần số (link) thì với thủ tục Explore dữ liệu của bạn sẽ được thống kê phát hiện các giá trị bất thường. Khi đó, kết quả kiểm tra dữ liệu sẽ cho biết đó thực sự là giá trị đặc biệt hay do lỗi sót khi nhập liệu.
#2 Thực hành thống kê mô tả với thủ tục Explore
Bước 1: Thao tác lệnh Explore trong spss bằng cách:
Chọn Analyze / Descriptives Statistics / Explore

Bước 2: Chọn các biến (một hoặc nhiều biến) bạn muốn so sánh sự khác biệt về các đại lượng thống kê mô tả theo nhóm, chuyển sang Dependent List. Ví dụ trong biến này chọn biến thunhap.
Chọn vào ô Both (Gồm cả Statistics và Plot)

Bước 3: Chọn list biến (có thể một hoặc nhiều biến) dùng để làm điều kiện phân tách list biến định lượng ở bước 2 để so sánh.
Lưu ý: Các biến này ở cửa sổ Factor list thì gọi là biến nhân tố, các biến này có các nhóm con là các nhóm được phân chia theo các biểu hiện của biến định tính (như giới tính có nhóm con là nam và nữ).
List biến nhân tố phải ở dạng Categorial càng ít nhóm giá trị thì sự phân tách và so sánh càng ý nghĩa (ví dụ giới tính)
Bước 4: Chọn vào tùy chọn Statistics bên góc phải cửa sổ để mở hộp thoại Explore: Statistics.
Tại đây bạn để mặc định ở ô Descriptives và tích thêm ô Percentile (tứ phân vị). Cửa sổ trong đó gồm có các tùy chọn:

Descriptives: Được mặc định tích chọn sẵn tính toán các đại lượng thống kê mô tả.M-estimators: Các số thống kê tương đồng với số trung bình nhưng tạo ra các trọng số để cân bằng các quan sát phụ thuộc vào khoảng cách từ chúng đến tâm (tốt hơn Mean và Median nếu dữ liệu phân tán nhiều).Percentile: Tứ phân vị
Đóng cửa sổ Explore: Statistics.
Bước 5: Nhấn vào tùy chọn Plot để mở cửa sổ cài đặt Explore: Plot
Tại mục Descriptives: Tích chọn vào các ô Stem and Leaf (thân và lá); Histogram (Biểu đồ thân và lá cung cấp nhiều thông tin chi tiết hơn, Biểu đồ Histogram cung cấp thông tin gốc về dữ liệu).Tại mục Boxplots: Để mặc địnhTại mục Normality Plots with Tests: Tích vào ô này. Lựa chọn này yêu cầu phần mềm vẽ biểu đồ Q-Q Plot (biểu đồ xác suất chuẩn) giúp kiểm tra biến có phân phối chuẩn hay không.Tại biểu đồ xác suất chuẩn này mỗi giá trị quan sát sẽ được vẽ dựa vào giá trị kỳ vọng từ nhóm phân phối chuẩn. (Sẽ còn gặp trong phần kiểm tra phân phối chuẩn phần dư tại bài phân tích kết quả Hồi quy tuyến tính)
Bước 6: Kiểm tra hộp thoại Explore: Options (click vào mục Options)
Tích chọn ở ô Exclude Cases listwise.Cài đặt này dùng để kiểm tra cách xử lý các giá trị dữ liệu của biến bị thiếu (missing)Exclude Cases listwise: Những giá trị bị thiếu (Missing) ở bất kỳ một biến nào kể cả trong list biến phụ thuộc hay biến nhân tố sẽ bị bỏ qua khi thực hiện lệnh.Đóng cửa sổ cài đặt.
#3 Đọc bảng kết quả thống kê mô tả với lệnh Explore
a. Bảng kết quả thống kê các đại lượng Descriptives
Trong giao diện output kết quả chạy sẽ có cây menu bên trái rất chi tiết về các nội dung kết quả kiểm định. Đầu tiên sẽ xem về bảng thống kê descriptives.

Phân tích mức thu nhập trung bình theo Thành Phố: Nhìn vào giá trị mean có thể thấy thu nhập trung bình của người tham gia khảo sát ở Hà Nội (21,94 Triệu đồng/tháng) cao hơn so với thu nhập trung bình của người tham gia khảo sát tại thành phố Hồ Chí Minh (21,54 Triệu đồng/tháng).
Khoảng ước lượng với độ tin cậy 95% về thu nhập trung bình tổng thể của người tại Hà Nội và TP HCM lần lượt là (19,15;24,73) và (18,51; 24,57).
Nhiều chỉ số khác có thể phân tích trong bảng này như giá trị mức thu nhập thấp nhất của người tại Hà Nội là 3 triệu đồng/tháng, cao nhất là 40 Triệu đồng/tháng.
Thu nhập thấp nhất của người tham gia khảo sát ở TPHCM cũng là 3 Triệu đồng/tháng, cao nhất là 39 Triệu đồng/tháng.
Độ lệch chuẩn của thu nhập người ở hà nội là 9,832; thu nhập ở TP HCM là 10,645. Do đó, sự biến thiên của thu nhập người tham gia khảo sát ở TP.HCM ít hơn Hà Nội.
Và còn nhiều chỉ số khác có thể phân tích sâu hơn như tứ phân vị, median, …
Tương tự cho phân tích mức thu nhập trung bình theo Giới tính: Trong phạm vi mẫu nghiên cứu thì thu nhập trung bình của giới tính nam (20,86 Triệu đồng/tháng) thấp hơn thu nhập trung bình giới tính nữ (22,91 Triệu đồng/tháng)….
b. Cách đọc bảng biểu đồ thân và lá trong SPSS (Stem and Leaf Plot)
Bảng biểu đồ thân và lá (steam and leaf plot) trong spss biểu diễn khá hay về sự phân bổ và tần số của các nhóm về một giá trị định lượng. Nhìn vào đó có thể thấy ngay sự phân tầng dữ liệu được sắp xếp thành dạng hình cây và lá từ nhỏ đến lớn, quy định theo hàng chục và đơn vị.

Cách đọc biểu đồ thân và lá trong spss cũng khá đơn giản. Nhìn bảng kết quả cần chú ý 2 điểm đầu tiên:
Stem Width: Trong biểu đồ thân và lá (Stem vs Leaf) độ rộng của thân là 10 (Stem Width).
Each Leaf – 1 Cases: mỗi lá là 1 giá trị quan sát.
Do đó mỗi con số ở phần thân đại diện cho hàng chục, ở lá đại diện cho hàng đơn vị.
Chiếu theo bảng biểu đồ thân và lá của thu nhập với nhân tố giới tính gồm có 2 bảng cho nhóm giới tính nam và nhóm giới tính nữ.
Nhóm giới tính nam tại dòng đầu tiên có 2 trường hợp có thu nhập trung bình là 03 Triệu đồng/tháng. Dòng thứ 2 có 11 trường hợp có thu nhập từ 5 đến dưới 10 triệu (5, 6, 7, 8 , 9 … Triệu). Xem tương tự cho các dòng còn lại.
Nhóm giới tính nữ dòng đầu tiên cho thấy không có trường hợp nào có thu nhập dưới 5 Triệu. Dòng thứ hai có 5 trường hợp thu nhập từ 5 – dưới 10 triệu (5, 6, 9, 9, 9 triệu). Xem tương tự cho các dòng bên dưới.
Kết luận
Như vậy trong bài viết này, tôi đã trình bày cách xử lý thống kê mô tả với thủ tục explore trong SPSS thuộc phần 3 trong series thống kê mô tả spss một cách đơn giản. Bạn có thể tự thực hành, áp dụng thử các cách làm trên.
Ở bài viếtThống kê mô tả trên SPSS: Thống kê tần số và biểu đồ chúng ta đã nắm được cơ bản về lý thuyết thống kê mô tả và cách thực hiện thống kê tần số, xuất biểu đồ đối với các biến định tính. Nếu như thống kê tần số mạnh về phần đưa ra số lượng các giá trị, cơ cấu phần trăm các giá trị của biến thì thống kê trung bình thiên về cung cấp các giá trị tính toán tổng quát của biến như giá trị nhỏ nhất, giá trị lớn nhất, giá trị trung bình, độ lệch chuẩn,… Do kết quả của thống kê trung bình đến từ các phép tính toán, nên các biến được đưa vào thống kê trung bình cần phải là biến định lượng.

1. Mục đích sử dụng thống kê trung bình
Dựa trên kết quả thống kê trung bình, chúng ta sẽ biết được phạm vi giá trị của biến thông qua giá trị nhỏ nhất/giá trị lớn nhất. Dựa vào đây, chúng ta sẽ đánh giá khoảng giá trị đó có phù hợp với tính chất bài nghiên cứu hay không. Ví dụ, nếu câu hỏi sử dụng thước đo Likert 5 mức độ từ 1 đến 5, nhưng kết quả thống kê trung bình lại cho thấy giá trị nhỏ nhất của câu hỏi là 0 và giá trị lớn nhất là 55. Chúng ta biết được đã có vấn đề trong dữ liệu của mình và cần phải rà soát, xử lý. Giá trị trung bình Mean cho biết trung bình giá trị của biến nằm ở mức độ nào so với ngưỡng giá trị nhỏ nhất, lớn nhất. Ví dụ, câu hỏi A sử dụng thước đo Likert 5 mức độ đồng ý tăng dần từ 1 đến 5 (1 – rất không đồng ý và 5 – rất đồng ý). Kết quả thống kê cho thấy trung bình Mean của A là 1.82, mức điểm này nằm sát giá trị 2 và nhỏ hơn mức 3 trung lập, điều này cho thấy rằng đáp viên không đồng ý với ý kiến của câu hỏi đưa ra.
Thống kê mô tả như thống kê tần số hay thống kê trung bình, chức năng chính của chúng là mô tả đặc điểm dữ liệu một cách khái quát. Các chỉ số thống kê cần dùng cũng như cách đọc kết quả, diễn giải hoàn toàn tùy thuộc vào mục đích, ý đồ của người làm nghiên cứu, không có bất kỳ quy định hay quy tắc ràng buộc cứng nhắc nào về cách nhận xét.
2. Đánh giá điểm trung bình theo thước đo Likert
Likert là loại thước đo thường được sử dụng trong các nghiên cứu kinh tế để đo lường những khái niệm trừu tượng liên quan đến hành vi, thái độ. Thước đo Likert gốc biểu thị cho mức độ đồng ý tăng dần, tuy nhiên, tùy tính chất đề tài nghiên cứu thước đo này có thể được điều chỉnh cho phù hợp. Thước đo Likert có mức giá trị là một số lẻ như 3 mức độ, 5 mức độ, 7 mức độ… với một giá trị trung lập ở giữa chia đều giá trị ở hai phía.
Ví dụ thước đo Likert-3 có giá trị trung lập là 2 (giữa 1 và 3), thước đo Likert-5 có giá trị trung lập là 3 (giữa 1-2 và 4-5). Phạm vi tài liệu này sẽ giới thiệu phần đánh giá điểm trung bình đối với Likert 5 mức độ đồng ý, các thước đo Likert-3, Likert-7, Likert-9… sẽ áp dụng tương tự. Dưới đây là hai phép đánh giá trung bình theo thước đo Likert được sử dụng phổ biến hiện nay. Thước đo Likert 5 mức độ gồm các giá trị:
Hướng đánh giá 1: Dựa theo quy tắc làm tròn toán học
Theo nguyên tắc toán học, nếu giá trị trung bình làm tròn tới số nguyên đầu tiên gần mức giá trị nào của thước đo Likert nhất, chúng ta sẽ đánh giá nó ở mức giá trị đó.
Chúng ta sẽ có các đoạn giá trị:
1.00 – 1.49 (làm tròn thành 1): Rất không đồng ý1.50 – 2.49 (làm tròn thành 2): Không đồng ý2.50 – 3.49 (làm tròn thành 3): Trung lập3.50 – 4.49 (làm tròn thành 4): Đồng ý4.50 – 5.00 (làm tròn thành 5): Rất đồng ýXét về tính ứng dụng, cách đánh giá này dễ hiểu, dễ nhớ, dễ thực hiện bởi nguyên tắc làm tròn toán học hầu như chúng ta ai cũng đều nắm rõ. Tuy nhiên, việc làm tròn khiến cho hai giá trị nhỏ nhất là 1 và lớn nhất là 5 có mức giá trị dao động nhỏ hơn so với ba giá trị còn lại. Ví dụ, từ 1.00 đến 1.49, phạm vi dao động giá trị là 0.49, trong khi đó từ 1.50 đến 2.49, mức dao động lên tới 0.99.
Hướng đánh giá 2: Dựa theo giá trị khoảng cách
Chia thước đo Likert 5 mức độ đồng ý thành 5 phần đều nhau và phân phối mỗi phần tương ứng với một giá trị của thước đo:
Giá trị khoảng cách = (Maximum – Minimum) / 5 = (5-1)/5 = 0.8
Chúng ta sẽ có các đoạn giá trị:
1.00 – 1.80 (làm tròn thành 1): Rất không đồng ý1.81 – 2.60 (làm tròn thành 2): Không đồng ý2.61 – 3.40 (làm tròn thành 3): Trung lập3.41 – 4.20 (làm tròn thành 4): Đồng ý4.21 – 5.00 (làm tròn thành 5): Rất đồng ýVới hướng đánh giá thứ hai, dễ dàng thấy được các đoạn giá trị được chia đều nhau, tạo nên sự cân bằng giữa từng mức đánh giá. Nhưng nhược điểm lại là cách chia đoạn giá trị tương đối phức tạp, khó nhớ. Một nhược điểm khác đó là khi chúng ta đã quá quen thuộc với quy tắc làm tròn toán học sẽ gặp nhiều bối rối khi nhận xét kết quả. Ví dụ, giá trị 1.80 theo hướng đánh giá thứ hai sẽ được làm tròn thành 1, trong khi theo nguyên tắc làm tròn toán học thì nó sẽ bằng 2.
3. Thống kê trung bình trên SPSS 26
Mình sẽ thống kê trên một tệp dữ liệu mẫu với các biến định lượng được đo bằng thang đo Likert 5 mức độ. Từ giao diện SPSS, vào Analyze > Descriptive Statistics > Descriptives…

Tại cửa sổ Descriptives, đưa các biến cần thống kê trung bình vào mục Variable(s), có thể đưa cùng lúc nhiều biến vào thực hiện thống kê. Trong hướng dẫn này, tác giả sẽ thực hành mẫu với nhóm biến Tiền lương (từ TL1 đến TL4) nên tác giả sẽ đưa các biến này vào mục Variable(s).

Bên phải có các mục Options, Style và Bootstrap để chúng ta lựa chọn loại thống kê trung bình cũng như định dạng kết quả xuất ra. Tuy nhiên, thường chúng ta chỉ sử dụng đến mục Options.

Trong Options, có các loại thống kê để chúng ta lựa chọn tùy theo mục đích đánh giá, SPSS thiết lập mặc định các mục trong phần này gồm:
Mean: giá trị trung bìnhMinimum: giá trị nhỏ nhất
Maximum: giá trị lớn nhất
Tác giả không tích vào thống kê nào thêm mà chỉ sử dụng mặc định SPSS đề xuất. Nhấp chuột vào Continue để quay lại cửa sổ ban đầu, nhấp vào OK để xuất kết quả ra output.
Chúng ta sẽ đọc kết quả ở bảng Descriptive Statistics. N là cột cần quan tâm trước nhất để xem có dữ liệu giá trị khuyết Missing hay không, nếu có Missing Value thì giá trị N này sẽ khác với cỡ mẫu. Tiếp tục nhìn vào kết quả giá trị nhỏ nhất, lớn nhất để xem có tình trạng giá trị vượt ngoài giới hạn thang đo hay không. Hai giá trị còn lại là trung bình và độ lệch chuẩn thường sẽ đi theo kết quả của giá trị nhỏ nhất, lớn nhất. Nếu có tình trạng giá trị vượt ngoài thang điểm đánh giá, giá trị trung bình và độ lệch chuẩn sẽ có sự đột biến.

Để đọc kết quả một cách trực quan hơn, với thống kê trung bình, chúng ta nên đưa nội dung câu hỏi vào bảng kết quả và tùy chỉnh lại bảng như bên dưới.

Đọc kết quả theo hướng đánh giá thứ nhất (làm tròn toán học), giá trị trung bình của TL2, TL3 xấp xỉ bằng 3, như vậy đáp viên có ý kiến trung lập với quan điểm “Phân phối công bằng tiền lương, thưởng và phụ cấp theo đóng góp của nhân viên” và “Chính sách tăng lương của công ty hợp lý”. Giá trị trung bình của TL1, TL4 xấp xỉ 4, như vậy đáp viên có xu hướng đồng ý với các quan điểm “Anh/Chị được trả lương tương xứng với kết quả làm việc của mình”, “Mức lương hiện tại của Anh/Chị phù hợp so với mặt bằng chung của thị trường lao động”.
Xem thêm: Cách tính biển số xe 5 số đẹp, cách tính biển số xe đẹp theo phong thủy
Nhìn chung, kết quả này cho thấy rằng công ty đang có chính sách về Tiền lương khá tốt khi nhân viên đều cảm thấy tương đối hài lòng với mức lương họ được nhận, về chính sách tăng lương, phân phối lương giữa các nhân viên.