8 Bước hướng dẫn thực hành hồi quy đa biến trên Spss

Bài viết trình bày đầy đủ và có hệ thống quy trình xử lý số liệu bằng SPSS trong nghiên cứu định lượng, từ khâu Cài đặt phần mềm SPSS, chuẩn bị dữ liệu, thống kê mô tả, kiểm định thang đo, phân tích EFA, tương quan Pearson đến hồi quy tuyến tính. Nội dung được minh họa bằng ví dụ thực tế, giúp bạn thao tác nhanh, dễ hiểu và áp dụng hiệu quả trong luận văn, đề tài khoa học và báo cáo nghiên cứu của mình.

1. Tải và cài đặt phần mềm SPSS

Bạn có thể tự tải và cài đặt SPSS theo hướng dẫn Tải SPSS 26, 27 full miễn phí – Hướng dẫn cài đặt chi tiết. Trong trường hợp chưa quen với thao tác kỹ thuật hoặc gặp khó khăn về máy tính, bạn cũng có thể tham khảo dịch vụ hỗ trợ cài đặt SPSS đầy đủ bản quyền của Resdata để tiết kiệm thời gian và tránh lỗi phát sinh.

2. Vì sao xử lý số liệu SPSS là bước quan trọng nhất trong luận văn?

Trong nghiên cứu định lượng, xử lý số liệu trên SPSS không chỉ là thao tác kỹ thuật, mà còn quyết định:

  • Độ tin cậy của kết quả nghiên cứu

  • Tính hợp lệ của mô hình

  • Khả năng được hội đồng chấp nhận

Nhiều luận văn bị đánh giá thấp không phải vì đề tài yếu, mà do xử lý dữ liệu SPSS sai quy trình, dẫn đến kết luận không có giá trị khoa học.

3. Tổng quan quy trình xử lý số liệu trong SPSS

Một quy trình xử lý dữ liệu SPSS đầy đủ thường gồm 8 giai đoạn chính:

Bước 1. Chuẩn bị dữ liệu và mã hóa dữ liệu.
Bước 2. Khai báo biến .
Bước 3. Thống kê mô tả và biểu đồ .
Bước 4. Thống kê trung bình thang đo .
Bước 5. Kiểm định độ tin cậy thang đo (Cronbach’s Alpha) .
Bước 6. Phân tích EFA.
Bước 7. Phân tích tương quan Pearson.
Bước 8. Phân tích hồi quy tuyến tính

Lưu ý: Bỏ sót bất kỳ bước nào đều có thể khiến bài nghiên cứu mất điểm nghiêm trọng.

4. Chuẩn bị dữ liệu khảo sát trước khi đưa vào SPSS

4.1 Thiết kế bảng câu hỏi đúng chuẩn

Nguyên tắc quan trọng:

  • Mỗi câu hỏi = một biến

  • Mỗi phiếu khảo sát = một dòng dữ liệu

  • Tránh câu hỏi mơ hồ, hai ý trong một câu

Các dạng câu hỏi thường dùng:

  • Câu hỏi lựa chọn một đáp án (giới tính, nghề nghiệp)

  • Câu hỏi thang đo Likert 5 hoặc 7

  • Câu hỏi phân loại (độ tuổi, thu nhập)

4.2. Mã hóa dữ liệu khảo sát

Ví dụ 1: Độ tuổi của nhóm khách hàng sử dụng dịch vụ Internet Banking của MB Bank? (Câu hỏi lựa chọn một đáp án)

Ví dụ 2: Mức độ hài lòng của khách hàng khi sử dụng dịch vụ Internet Banking của MB Bank. (Câu hỏi thang đo Likert 5 hoặc 7)

  • Thang đo Likert 5 mức:

    • 1 = Hoàn toàn không đồng ý

    • 5 = Hoàn toàn đồng ý

5. Khai báo biến trong SPSS

Mục đích của khai báo biến là xác định các thông tin cơ bản cho từng biến trong tập dữ liệu như tên biến, kiểu dữ liệu, nhãn, giá trị và thang đo. Việc khai báo được thực hiện trong Variable View của SPSS (nhấp Variable View ở góc dưới bên trái sau khi mở phần mềm).

Thuộc tính Ý nghĩa
Name Tên biến, không dấu, không khoảng trắng, không bắt đầu bằng số; nếu cần nối từ dùng dấu gạch dưới (_).
Ví dụ: GioiTinh, DoTuoi, Hoc_Van
Type Kiểu dữ liệu của biến:
Numeric: dữ liệu đã mã hóa bằng số
String: dữ liệu dạng chữ (Nam, Nữ)
Width Số ký tự tối đa của giá trị; chỉ cần tăng khi dữ liệu bị cắt bớt.
Decimals Số chữ số thập phân; để 0 nếu dữ liệu là số nguyên.
Label Nhãn biến, mô tả đầy đủ ý nghĩa của biến; có thể viết tiếng Việt có dấu.
Missing Khai báo giá trị khuyết để SPSS xử lý đúng trong phân tích.
Measure Chọn thang đo: Nominal, Ordinal hoặc Scale.

6. Nhập dữ liệu trong SPSS

Dữ liệu sau khi khai báo biến sẽ được nhập vào Data View hoặc import trực tiếp từ Excel. Sau khi nhập xong, cần tiến hành kiểm tra dữ liệu lỗi như giá trị ngoài thang đo, dữ liệu bị thiếu hoặc các phiếu trả lời không hợp lệ.

Trong trường hợp dữ liệu bị thiếu ít, có thể giữ nguyên hoặc thay thế bằng giá trị trung bình. Nếu một phiếu khảo sát bị thiếu quá nhiều thông tin, nên loại bỏ để đảm bảo độ tin cậy của kết quả.

Trong giao diện Data View, các cột sẽ biểu diễn danh sách biến, các hàng được đánh dấu số thứ tự 1, 2, 3,… đại diện cho từng quan sát của mẫu. Kết quả giá trị được nhập vào ở mỗi hàng đại diện cho câu trả lời của một đáp viên.

Từ kết quả khảo sát thô thu được trên các phiếu khảo sát giấy hoặc khảo sát online. Chúng ta cần xử lý chúng để có được các con số, văn bản có thể thực hiện phân tích được. Sẽ có nhiều dạng câu hỏi khác nhau và cách thức nhập liệu khác nhau như: câu hỏi định tính một trả lời, câu hỏi định tính nhiều trả lời, câu hỏi định lượng một trả lời, câu hỏi mở, câu hỏi xếp hạng... 

7. Thống kê mô tả dữ liệu nghiên cứu trong SPSS

Thống kê mô tả là bước đầu tiên và bắt buộc trong quá trình xử lý số liệu bằng SPSS, nhằm cung cấp cái nhìn tổng quan về đặc điểm của mẫu nghiên cứu và dữ liệu thu thập được. Thông qua thống kê mô tả, người nghiên cứu có thể đánh giá sơ bộ cấu trúc mẫu, mức độ phân bố dữ liệu và phát hiện sớm các giá trị bất thường trước khi tiến hành các phân tích chuyên sâu.

7.1 Thống kê tần số

Thống kê tần số được sử dụng để mô tả số lượng và tỷ lệ xuất hiện của các giá trị trong từng biến nghiên cứu, đặc biệt phù hợp với các biến định tính như giới tính, độ tuổi, trình độ học vấn, nghề nghiệp hoặc khu vực sinh sống. Kết quả thống kê tần số giúp người nghiên cứu hiểu rõ cơ cấu mẫu khảo sát, từ đó đánh giá mức độ đại diện của mẫu đối với tổng thể nghiên cứu.

Để thực hiện thống kê tần số ta thực hiện theo hướng dẫn dưới đây:

Bước 1: Truy cập công cụ trên thanh menu chính, bạn đi theo đường dẫn: Analyze → Descriptive Statistics → Frequencies...

Bước 2: Lựa chọn biến (Variables)

Bước 3: Thiết lập thông số (Statistics) 

Nhấn vào nút Statistics... bên phải. Tại đây có các chỉ số như: Mean (Trung bình), Median (Trung vị), Mode (Yếu vị), Std. deviation (Độ lệch chuẩn)...

Bước 4: Vẽ biểu đồ (Charts) 

Nhấn vào nút Charts.... Đây là nơi SPSS giúp bạn vẽ biểu đồ tự động.

  • Nhấn Continue sau khi chọn xong.

Bước 5: Xuất kết quả

Nhấn OK ở cửa sổ chính để SPSS xử lý và xuất kết quả ra file Output.

SPSS sẽ trả về rất nhiều bảng, nhưng bạn chỉ cần tập trung vào các bảng sau:

Bảng 1: Statistics (Thống kê chung)

Bảng này nằm trên cùng, tổng hợp số liệu của tất cả các biến bạn đã chọn.

  • N (Valid): Số lượng quan sát hợp lệ (số người có trả lời câu hỏi).

  • N (Missing): Số lượng quan sát bị khuyết (người bỏ trống không trả lời hoặc lỗi hệ thống).

    • Lưu ý: Nếu chỉ số Missing quá cao, bạn cần xem lại chất lượng thu thập dữ liệu.

Bảng 2: Frequency Table (Bảng tần số chi tiết)

Tiếp theo là bảng tần số của từng biến và biểu đồ tương ứng. Mỗi biến đưa vào thực hiện thống kê sẽ được xuất ra một bảng riêng biệt. Hãy cùng phân tích ví dụ dưới đây để hiểu rõ các chỉ số:

• Frequency (Tần số): Là số lượng khách hàng thuộc nhóm giới tính đó. Ví dụ: Có 97 người là "Nam"; và có 103 người là "Nữ".

• Percent (Phần trăm thô): Tỷ lệ phần trăm tính trên tổng số mẫu gộp (bao gồm cả dữ liệu khuyết nếu có). Ví dụ: Nhóm khách hàng "Nam" chiếm tỷ lệ 48,5% trên tổng số 200 phiếu khảo sát.

• Valid Percent (Phần trăm hợp lệ): Tỷ lệ phần trăm chỉ tính trên số người có trả lời câu hỏi về giới tính. Lưu ý: Trong bảng dữ liệu này, tổng số mẫu là 200 và không có giá trị khuyết (Missing = 0), do đó cột Valid Percent có số liệu giống hệt cột Percent.

• Cumulative Percent (Phần trăm tích lũy): Là tỷ lệ phần trăm được cộng dồn từ trên xuống dưới. Ví dụ: Tại dòng "Nam", tỷ lệ tích lũy là 48,5%. Tại dòng "Nữ" (dòng cuối cùng), tỷ lệ được cộng dồn thêm 51,5% của nữ vào 48,5% của nam, nên kết quả hiển thị là 100,0% (nghĩa là đã bao gồm toàn bộ mẫu nghiên cứu).

Trong tổng số 200 khách hàng tham gia trả lời phiếu khảo sát, có 97 người là "Nam", chiếm tỷ trọng 48,5%. Trong khi đó, số lượng khách hàng "Nữ" chiếm tỷ trọng cao hơn một chút với 51,5% (tương ứng 103 người).

Từ kết quả này có thể thấy, tỷ lệ chênh lệch giữa hai nhóm giới tính là không đáng kể (chỉ 3%). Điều này cho thấy mẫu khảo sát có sự phân bổ khá cân bằng và đồng đều giữa nam và nữ. Đây là một tín hiệu tốt, đảm bảo tính đại diện cao cho tổng thể và giúp các kết quả phân tích hành vi/đánh giá sau này có độ tin cậy cao, tránh được sự thiên lệch về quan điểm do yếu tố giới tính chi phối.

7.2 Thống kê trung bình và độ lệch chuẩn

Thống kê trung bình và độ lệch chuẩn là công cụ quan trọng giúp mô tả xu hướng trung tâm và mức độ phân tán của dữ liệu nghiên cứu. Phương pháp này thường được áp dụng cho các biến định lượng hoặc các biến đo lường bằng thang đo Likert nhằm đánh giá mức độ đồng ý hoặc cảm nhận của người trả lời đối với từng biến quan sát.

Để các bạn dễ hình dung và nắm bắt cách đọc kết quả sát với thực tế, trong hướng dẫn này mình sẽ sử dụng bộ dữ liệu mẫu từ đề tài "Chất lượng dịch vụ Internet Banking tại Ngân hàng MBBank".

Từ giao diện làm việc của SPSS, các bạn vào:  Analyze > Descriptive Statistics > Descriptives…

Tại cửa sổ Descriptives, đưa các biến cần thống kê trung bình vào mục Variable(s), có thể đưa cùng lúc nhiều biến vào thực hiện thống kê. Trong hướng dẫn này, mình sẽ thực hành mẫu với nhóm biến Tin cậy (từ TC1 đến TC4) nên mình sẽ đưa các biến này vào mục Variable(s)

 

Bên phải có các mục Options, Style và Bootstrap để chúng ta lựa chọn loại thống kê trung bình cũng như định dạng kết quả xuất ra. Tuy nhiên, thường chúng ta chỉ sử dụng đến mục Options. Trong Options, có các loại thống kê để chúng ta lựa chọn tùy theo mục đích đánh giá, SPSS thiết lập mặc định các mục trong phần này gồm:

  • Mean: giá trị trung bình
  • Std. deviation: độ lệch chuẩn. 
  • Minimum: giá trị nhỏ nhất
  • Maximum: giá trị lớn nhất

Nhấp chuột vào Continue để quay lại cửa sổ ban đầu, nhấp vào OK để xuất kết quả ra output.

Chúng ta sẽ đọc kết quả ở bảng Descriptive Statistics. N là cột cần quan tâm trước nhất để xem có dữ liệu giá trị khuyết Missing hay không, nếu có Missing Value thì giá trị N này sẽ khác với cỡ mẫu. Tiếp tục nhìn vào kết quả giá trị nhỏ nhất, lớn nhất để xem có tình trạng giá trị vượt ngoài giới hạn thang đo hay không. Hai giá trị còn lại là trung bình và độ lệch chuẩn thường sẽ đi theo kết quả của giá trị nhỏ nhất, lớn nhất. Nếu có tình trạng giá trị vượt ngoài thang điểm đánh giá, giá trị trung bình và độ lệch chuẩn sẽ có sự đột biến.

Để đọc kết quả một cách trực quan hơn, với thống kê trung bình, chúng ta nên đưa nội dung câu hỏi vào bảng kết quả và tùy chỉnh lại bảng như bên dưới.

 

Kết quả thống kê mô tả cho thấy giá trị trung bình (Mean) của các biến từ TC1 đến TC4 đều dao động trong khoảng 3.72 đến 3.80. Theo quy tắc làm tròn, các giá trị này đều xấp xỉ mức 4 trên thang đo Likert 5 điểm.

Điều này phản ánh rằng khách hàng tham gia khảo sát có xu hướng đồng ý với các tiêu chí về sự Tin cậy của dịch vụ Internet Banking tại MBBank. Cụ thể, khách hàng đánh giá cao việc ngân hàng luôn thực hiện đúng cam kết, đảm bảo giao dịch chính xác, an toàn bảo mật và luôn đặt quyền lợi khách hàng lên hàng đầu.

8. Kiểm định độ tin cậy thang đo (Cronbach’s Alpha) trong SPSS

Kiểm định độ tin cậy thang đo bằng hệ số Cronbach’s Alpha là bước quan trọng trong quá trình xử lý số liệu SPSS, nhằm đánh giá mức độ nhất quán nội tại của các biến quan sát trong cùng một thang đo. Thông qua kiểm định này, người nghiên cứu có thể xác định liệu các biến đo lường có phản ánh cùng một khái niệm nghiên cứu hay không trước khi tiến hành các phân tích nhân tố và hồi quy.

Bước 1: Vào Analyze → Scale → Reliability Analysis…

Bước 2: Thực hiện phân tích Cronbach's Alpha cho thang đo TC, đưa 4 biến quan sát TC1 - TC4  vào mục Items bên phải. Tiếp theo chọn vào Statistics…

Bước 3: Chọn Statistics…, tích vào: Scale if item deleted

Sau khi nhấp Continue, SPSS sẽ quay về giao diện ban đầu, các bạn nhấp chuột vào OK để xuất kết quả ra Output:

Lưu ý

  • Đưa các biến quan sát của một thang đo vào ô Items
  • Không đưa nhiều thang đo chạy chung

Kết quả kiểm định độ tin cậy thang đo Cronbach’s Alpha của thang đo TC như sau:

→ Kết quả kiểm định cho thấy: (1) Hệ số độ tin cậy Cronbach's Alpha của thang đo Tin cậy (TC) bằng 0.792 > 0.6 (mức khá tốt) và (2) Các biến quan sát đều có hệ số Tương quan biến - tổng (Corrected Item – Total Correlation) lớn hơn 0.3. Như vậy, thang đo này đạt yêu cầu về độ tin cậy; các biến quan sát từ TC1 đến TC4 đều có ý nghĩa và đóng góp tốt vào việc đo lường nhân tố Tin cậy của MBBank.

Sau đây chúng tôi sẽ hướng dẫn đọc kết quả Cronbach’s Alpha qua các trường hợp thực tế:

Trường hợp 1: Thang đo đạt độ tin cậy – không loại biến

Kết quả cho thấy Cronbach’s Alpha = 0.830 (> 0.8), thang đo đạt độ tin cậy tốt.
Tất cả các biến đều có tương quan biến – tổng > 0.3, đồng thời Alpha if Item Deleted đều nhỏ hơn Alpha tổng.

Kết luận:
Thang đo ĐU đạt yêu cầu → giữ nguyên toàn bộ biến, đưa vào EFA.

Trường hợp 2: Thang đo đạt độ tin cậy nhưng có biến không đạt → loại biến và chạy lại lần 2

  • Cronbach’s Alpha = 0.793 (> 0.6)
  • Biến ĐC3 có tương quan biến – tổng = 0.200 (< 0.3)
  • Alpha if Item Deleted = 0.860 (> Alpha tổng)

Quyết định:
Loại biến ĐC3 và chạy lại Cronbach’s Alpha lần 2.

Sau khi loại ĐC3: 

  • Cronbach’s Alpha tăng lên 0.860
  • Các biến còn lại đều đạt chuẩn

Kết luận:
Thang đo ĐC đạt độ tin cậy cao với 4 biến quan sát.

Trường hợp 3: Alpha if Item Deleted cao hơn nhưng vẫn giữ biến

Cronbach’s Alpha của thang đo NL = 0.826.
Biến NL3 có Alpha if Item Deleted cao hơn Alpha tổng, nhưng tương quan biến – tổng vẫn > 0.3.

Quyết định:
Giữ lại NL3 để đảm bảo tính bao quát nội dung, tránh chạy theo việc “làm đẹp số liệu”.

Trường hợp 4: Thang đo không đạt độ tin cậy → loại toàn bộ thang đo

Cronbach’s Alpha = 0.457 (< 0.6).
Hầu hết các biến có tương quan biến – tổng < 0.3.

Kết luận:
Thang đo KD không đảm bảo độ tin cậy, cần loại bỏ hoàn toàn khỏi mô hình nghiên cứu.

9. Phân tích nhân tố khám phá (EFA) trong SPSS

Nhằm xác định cấu trúc các nhân tố tiềm ẩn và đánh giá mức độ hội tụ của các biến quan sát trong mô hình nghiên cứu. EFA giúp rút gọn số lượng biến, đồng thời kiểm định mức độ phù hợp của thang đo trước khi tiếp tục thực hiện các phân tích nâng cao.

Điều kiện cần đạt:

  • KMO ≥ 0.5

  • Bartlett’s Test có Sig < 0.05

  • Hệ số tải nhân tố ≥ 0.5

  • Tổng phương sai trích ≥ 50%

Bước 1:  Để thực hiện, chúng ta vào Analyze -> Dimension Reduction -> Factor

Bước 2: Đưa biến quan sát của các biến độc lập cần thực hiện phân tích EFA vào mục Variables, nếu có biến quan sát nào bị loại ở bước trước đó, chúng ta sẽ không đưa vào phân tích EFA. Chú ý 4 tùy chọn được dánh dấu ở ảnh bên dưới.

- Descriptives: Tích vào mục KMO and Barlett’s test of sphericity để xuất bảng giá trị KMO và giá trị sig của kiểm định Barlett. Nhấp Continue để quay lại cửa sổ ban đầu.

- Extraction: Ở đây, chúng ta sẽ sử dụng phép trích PCA (Principal Components Analysis). PCA sẽ được viết gọn lại là Principal Components như hình ảnh bên dưới, đây cũng là tùy chọn mặc định của SPSS.

Khi các bạn nhấp chuột vào nút mũi tên hướng xuống sẽ có nhiều tùy chọn phép trích khác nhau. Số lượng nhân tố được trích ra ở ma trận xoay phụ thuộc khá nhiều vào việc lựa chọn phép trích, tuy nhiên, tài liệu này sẽ chỉ tập trung vào phần EFA với phép xoay (varimax), CFA với phép xoay Promax.

- Rotation: Ở đây có các phép quay, thường chúng ta hay sử dụng Varimax và Promax. Riêng với dạng đề tài đã xác định được biến độc lập và biến phụ thuộc, chúng ta sử dụng phép quay Varimax. 

Nhấp Continue để quay lại cửa sổ ban đầu.

- Options: Tích vào Sorted by size để ma trận xoay sắp xếp thành từng cột dạng bậc thang để dễ đọc kết quả hơn, chúng ta có thể tích hoặc không tích, việc này không ảnh hưởng đến kết quả. Cần nhớ rằng, thứ tự các nhân tố trong kết quả ma trận xoay không phản ánh mức độ quan trọng của nhân tố đó. Với mục Suppress small coefficients, nếu không tích chọn, ma trận xoay sẽ hiển thị toàn bộ hệ số tải của mỗi biến quan sát ở từng nhân tố.

Có khá nhiều bảng ở output, tất cả các bảng này đều đóng góp vào việc đánh giá kết quả phân tích EFA là tốt hay tệ. Tuy nhiên, ở đây tác giả tập trung vào ba bảng kết quả chính: KMO and Barlett’s Test, Total Variance Explained và Rotated Component Matrix, bởi sử dụng ba bảng này chúng ta đã có thể đánh giá được kết quả phân tích EFA phù hợp hay không phù hợp. 

Quan sát kết quả chạy EFA, chúng ta tiến hành đánh giá qua 3 bảng tiêu chuẩn như sau

Bảng 1. Kiểm định tính thích hợp của dữ liệu (Bảng KMO and Bartlett's Test)

Hệ số KMO = 0.757: Giá trị này nằm trong khoảng 0.5 < 0.757< 1. Theo bảng phân loại của Kaiser (1974), mức 0.851 được đánh giá là "Tốt" (Meritorious).

Kiểm định Bartlett: Giá trị Sig. (cột cuối cùng) < 0.001.

-> Kết luận: Dữ liệu hoàn toàn đủ điều kiện và phù hợp để thực hiện phân tích nhân tố

Bảng 2. Tiêu chuẩn trích nhân tố (Bảng Total Variance Explained)

Số lượng nhân tố: Tại phần Initial Eigenvalues, chúng ta thấy có 6 nhân tố có giá trị Eigenvalue > 1.  Thuật toán dừng trích xuất tại nhân tố thứ 6 (vì nhân tố thứ 7 có Eigenvalue = 0.721 < 1).

Tổng phương sai trích (Cumulative %): 6 nhân tố này giải thích được 69,549%>  50%, cho thấy các nhân tố rút ra đại diện tốt cho thông tin của tập dữ liệu gốc.

Bảng 3: Đánh giá Ma trận xoay (Bảng Rotated Component Matrix)

Kết quả EFA cho thấy các biến quan sát được nhóm thành 6 nhân tố riêng biệt, phù hợp với mô hình nghiên cứu ban đầu. Các hệ số tải nhân tố đều lớn hơn 0,6, đáp ứng tiêu chuẩn và không có biến nào bị loại khỏi mô hình.

Cụ thể, nhóm biến DU gồm DU1 đến DU5 có hệ số tải dao động từ 0,712 đến 0,806, cho thấy các biến này đại diện tốt cho cùng một nhân tố. Nhóm biến NL (NL1–NL5) có hệ số tải từ 0,777 đến 0,834, thể hiện mức độ hội tụ cao. Nhóm biến DC (DC1–DC5) đạt hệ số tải từ 0,756 đến 0,851, phản ánh sự gắn kết chặt chẽ giữa các biến quan sát.

Bên cạnh đó, các biến TC (TC1–TC4) được rút trích thành một nhân tố với hệ số tải từ 0,681 đến 0,828. Nhóm biến HH (HH1–HH3) có hệ số tải từ 0,763 đến 0,874, và nhóm biến GC (GC1–GC3) đạt hệ số tải từ 0,761 đến 0,826.

Nhìn chung, kết quả EFA khẳng định các thang đo trong nghiên cứu có cấu trúc rõ ràng, giá trị hội tụ tốtphù hợp để sử dụng trong các phân tích tiếp theo như phân tích tương quan và hồi quy tuyến tính.

Chạy EFA cho biến phụ thuộc

Thực hiện tương tự các bước như cách làm với biến độc lập. Thay vì đưa biến quan sát của các biến độc lập vào mục Variables, chúng ta sẽ đưa các biến quan sát của biến phụ thuộc vào. Cụ thể trong ví dụ này, biến phụ thuộc Sự hài lòng gồm 4 biến quan sát là HL1, HL2, HL3, HL4.

Kết quả output, chúng ta cũng sẽ có các bảng KMO and Barlett’s Test, Total Variance Explained, Rotated Component Matrix. Bảng KMO and Barlett’s Test giống hoàn toàn như biến độc lập, cách đọc kết quả cũng tương tự. 

Bảng Total Variance Explained khi chỉ có một nhân tố được trích sẽ hiển thị như bên dưới (không có cột Rotation Sums of Squared Loadings). Trường hợp nếu có từ hai nhân tố được trích, sẽ xuất hiện thêm cột Rotation Sums of Squared Loadings.

Kết quả phân tích cho thấy có một nhân tố được trích tại eigenvalue bằng 2.587 > 1. Nhân tố này giải thích được 64,675% biến thiên dữ liệu của 4 biến quan sát tham gia vào EFA.

Riêng bảng Rotated Component Matrix sẽ không xuất hiện mà thay vào đó là dòng thông báo: Only one component was extracted. The solution cannot be rotated

Điều này xảy ra khi EFA chỉ trích được một nhân tố duy nhất từ các biến quan sát đưa vào. Dòng thông báo này tạm dịch là: Chỉ có một nhân tố được trích. Ma trận không thể xoay. Chúng ta luôn kỳ vọng đưa vào 1 biến phụ thuộc thì EFA cũng sẽ chỉ trích ra một nhân tố. Việc trích được chỉ một nhân tố là điều tốt, nghĩa là thang đo đó đảm bảo được tính đơn hướng, các biến quan sát của biến phụ thuộc hội tụ khá tốt. Lúc này, việc đọc kết quả sẽ dựa vào bảng ma trận chưa xoay Component Matrix thay vì bảng ma trận xoay Rotated Component Matrix.

10. Phân tích tương quan trong SPSS

Phân tích tương quan trong SPSS được sử dụng nhằm đánh giá mức độ và chiều hướng mối quan hệ giữa các biến nghiên cứu. Thông qua phân tích này, người nghiên cứu có thể xác định các biến có mối liên hệ tuyến tính với nhau hay không, từ đó làm cơ sở cho việc thực hiện phân tích hồi quy và kiểm định các giả thuyết nghiên cứu.

Bước 1:  Vào Analyze > Correlate > Bivariate…

Bước 2: Tại đây, chúng ta đưa hết tất cả các biến muốn chạy tương quan Pearson vào mục Variables. Để tiện cho việc đọc kết quả, chúng ta nên đưa biến phụ thuộc lên trên cùng. Trong ví dụ bên dưới biến phụ thuộc là HL, các biến còn lại là độc lập. Nhấp vào OK để xác nhận thực hiện lệnh.

Kết quả tương quan Pearson sẽ được thể hiện trong bảng Correlations. Điểm qua các ký hiệu trong bảng này: Pearson Correlation là hệ số tương quan Pearson (r), Sig. (2-tailed) là giá trị sig của kiểm định t đánh giá hệ số tương quan Pearson có ý nghĩa thống kê hay không, N là cỡ mẫu. 

Kết quả phân tích tương quan Pearson cho thấy các biến độc lập trong mô hình đều có mối tương quan tuyến tính dương và có ý nghĩa thống kê với biến phụ thuộc HL (Sig. < 0,001). Trong đó, TC có mức tương quan mạnh nhất với HL (r = 0,577), tiếp theo là NL (r = 0,451). Các biến DU, HH, DC và GC có mức tương quan dương trung bình với HL.

Bên cạnh đó, hệ số tương quan giữa các biến độc lập đều nhỏ hơn 0,8, cho thấy không xảy ra hiện tượng đa cộng tuyến nghiêm trọng. Do đó, dữ liệu đáp ứng điều kiện để tiếp tục thực hiện phân tích hồi quy tuyến tính.

11. Phân tích hồi quy tuyến tính trong SPSS

Phân tích hồi quy tuyến tính trong SPSS là bước cuối cùng trong xử lý số liệu và gần như là bước quan trọng nhất để kết luận mô hình, chúng ta sẽ thực hiện phân tích hồi quy tuyến tính bội để đánh giá sự tác động của các biến độc lập lên biến phụ thuộc.

Bước 1: Vào Analyze > Regression > Linear…

Bước 2: Đưa biến phụ thuộc vào ô Dependent, các biến độc lập vào ô Independents.

Sau đó vào mục Statistics, tích chọn các mục như trong ảnh và chọn Continue.

Vào mục Plots, tích chọn vào Histogram và Normal probability plot, kéo biến ZRESID thả vào ô Y, kéo biến ZPRED thả vào ô X như hình bên dưới. Tiếp tục chọn Continue.

Bước 3: Quay lại giao diện ban đầu, mục Method là các phương pháp đưa biến vào, tùy vào dạng nghiên cứu mà chúng ta sẽ chọn Enter hoặc Stepwise. Tính chất đề tài thực hành là nghiên cứu khẳng định, do vậy mình sẽ chọn phương pháp Enter đưa biến vào một lượt. Tiếp tục nhấp vào OK

SPSS sẽ xuất ra rất nhiều bảng, chúng ta sẽ tập trung vào các bảng ANOVA, Model Summary, Coefficients và ba biểu đồ Histogram, Normal P-P Plot, Scatter Plot.

a. Bảng Model Summary

Sau khi biết mô hình phù hợp, ta cần biết các biến độc lập giải thích được bao nhiêu phần trăm sự biến thiên của biến phụ thuộc. Ta sử dụng hệ số xác định R2.

Kết quả:

  • Hệ số tương quan bội R = 0,786, cho thấy mối liên hệ tuyến tính tương đối chặt chẽ giữa tập các biến độc lập và biến phụ thuộc.

  • Hệ số xác định R Square = 0,618, nghĩa là mô hình giải thích được 61,8% sự biến thiên của biến phụ thuộc HL.

  • Hệ số xác định hiệu chỉnh Adjusted R Square = 0,606, phản ánh mức độ giải thích của mô hình sau khi đã điều chỉnh số lượng biến độc lập trong mô hình.

  • Giá trị Durbin–Watson = 1,814, nằm trong khoảng chấp nhận (từ 1,5 đến 2,5), cho thấy không có hiện tượng tự tương quan phần dư, do đó mô hình hồi quy thỏa mãn giả định độc

b. Kiểm định sự phù hợp của mô hình (ANOVA)

Trong bảng ANOVA, hai chỉ số quan trọng cần xem xét là:

  • Giá trị F

  • Mức ý nghĩa Sig.

 Nguyên tắc kiểm định:

  • Nếu Sig. < 0,05 → mô hình hồi quy có ý nghĩa thống kê, các biến độc lập có tác động tuyến tính đến biến phụ thuộc.

  • Nếu Sig. ≥ 0,05 → mô hình không phù hợp với dữ liệu nghiên cứu.

Dựa vào bảng ANOVA thu được từ SPSS:

  • Giá trị F = 51,946

  • Mức ý nghĩa Sig. < 0,001

=> Mô hình hồi quy tuyến tính được xây dựng là phù hợp với dữ liệu khảo sát, đồng thời tập các biến độc lập GC, TC, ĐU, ĐC, NL và có ý nghĩa thống kê.

c. Phân tích các hệ số hồi quy (Coefficients)

Sau khi mô hình hồi quy được xác nhận là phù hợp thông qua kiểm định ANOVA, bước tiếp theo là phân tích mức độ và chiều hướng tác động của từng biến độc lập đến biến phụ thuộc HL thông qua bảng Coefficients.

Trong bảng này, các chỉ số quan trọng cần xem xét gồm:

  • Hệ số hồi quy chưa chuẩn hóa (B)

  • Hệ số hồi quy chuẩn hóa (Beta)

  • Giá trị Sig.

  • Chỉ số đa cộng tuyến (Tolerance, VIF)

Phương trình hồi quy tuyến tính

Dựa vào hệ số B (Unstandardized Coefficients),  phương trình hồi quy tuyến tính được xác định như sau:<

BÀI LIÊN QUAN

Những điều cần lưu ý khi chạy SPSS cho kết quả tốt

Cách cài đặt SPSS 26 & 27 cho sinh viên: Hướng dẫn chi tiết

Hướng dẫn thực hành đọc kết quả Cronbachs Alpha

Lý thuyết và thực hành phân tích nhân tố khám phá efa trong SPSS

Copyright © DỊCH VỤ KHẢO SÁT NGHIÊN CỨU THỊ TRƯỜNG VÀ XỬ LÝ SỐ LIỆU RESDATA

Gửi email Hỗ trợ Zalo