Nghiên cứu ứng dụng cây quyết định trong dự báo hành vi lựa chọn sản phẩm dệt may nội địa

ĐỖ QUANG HƯNG (Trường Đại học Công nghệ Giao thông vận tải)

TÓM TẮT:

Hành vi của khách hàng có ý nghĩa quan trọng trong việc quyết định mua hay từ chối mua một sản phẩm. Trước sự cạnh tranh ngày càng lớn của các sản phẩm dệt may ngoại nhập, cần có một công cụ hỗ trợ dự báo hành vi khách hàng lựa chọn một sản phẩm dệt may nội địa. Bài báo phát triển một mô hình ứng dụng cây quyết định (Decision Tree - DT) trong việc dự báo hành vi lựa chọn sản phẩm dệt may nội địa của khách hàng Việt Nam. Mô hình đề xuất có khả năng dự báo hành vi mua sản phẩm dệt may nội địa với độ chính xác 92,7966.

Từ khóa: sản phẩm dệt may nội địa, dự báo hành vi, cây quyết định.

1. Đặt vấn đề

Với quy mô thị trường dệt may nội địa có thể đạt 4-5 tỷ USD, cho thấy nếu chiếm lĩnh được thị trường nội địa thì sản phẩm dệt may Việt Nam sẽ phát triển mạnh, bền vững. Tuy nhiên, thị trường sản phẩm dệt may nội địa còn phải đương đầu với nhiều thách thức trong đó có sự cạnh tranh trực tiếp của các sản phẩm ngoại nhập. Trước sự cạnh tranh ngày càng lớn của các sản phẩm ngoại nhập, cần có một công cụ hỗ trợ giúp thúc đẩy tiêu thụ sản phẩm dệt may nội địa của Việt Nam thông qua các dự báo hành vi khách hàng.

Hành vi của khách hàng có ý nghĩa quan trọng trong việc quyết định mua hay từ chối mua một sản phẩm. Nghiên cứu dự báo hành vi khách hàng lấy nền tảng dựa trên hành vi mua của khách hàng khi khách hàng đóng ba vai trò độc lập là người sử dụng, người trả tiền và người mua. Đã có rất nhiều những nghiên cứu dự báo hành vi mua hàng của khách hàng dựa trên mô hình và phương pháp thống kê. Trong những năm gần đây, các kỹ thuật máy học đã được áp dụng để dự báo hành vi lựa chọn một sản phẩm của khách hàng.

Zoe [1] đã sử dụng mạng Bayesian để dự báo hành vi của khách mua hàng. Kết quả cho thấy phương pháp mạng Bayesian cho kết quả dự báo tốt hơn so với phương pháp truyền thống. Badea [2] đã sử dụng mạng nơron để dự báo hành vi khách hàng dựa trên thông tin là các phiếu điều tra. Kết quả nghiên cứu cũng xác định mạng nơron có khả năng phân biệt hành vi tốt hơn. Lưu Tiến Dũng [3] đã sử dụng mô hình hồi quy nhị phân để phân tích các nhân tố ảnh hưởng đến hành vi mua sản phẩm nội địa của khách hàng Việt Nam.

Trong lĩnh vực máy học, cây quyết định là kiểu mô hình dự báo, nghĩa là một ánh xạ từ các quan sát về một sự vật, hiện tượng tới các kết luận về giá trị mục tiêu của sự vật, hiện tượng. So với các phương pháp khai phá dữ liệu khác, cây quyết định là phương pháp có một số ưu điểm như: dễ hiểu, xử lý tốt một lượng dữ liệu lớn trong thời gian ngắn. Trong bài báo này, một mô hình dự báo dựa trên cây quyết định được đề xuất để dự báo hành vi khách hàng lựa chọn sản phẩm dệt may nội địa.

2. Cơ sở lý luận và thực tiễn

2.1. Tính vị chủng

Tính vị chủng (ethnocentrism) là cách nhìn các sự vật của một người, mà cộng đồng của họ được cho trung tâm, mẫu mực, thước đo cho tất cả sự vật chung quanh,… mỗi cộng đồng đều nuôi dưỡng niềm tự hào, tự tôn, tán dương những thành viên của mình và xem thường người ngoài cộng đồng đó [4]. Nói cách khác, những người có tính vị chủng cao thường tự hào, nâng cao giá trị, văn hóa và con người thuộc vào nhóm của mình, và có xu hướng đánh giá thấp các giá trị, chuẩn mực của các nhóm khác. Tính vị chủng của người mua là những niềm tin, quan niệm sẵn có về sự đúng đắn, phù hợp về mặt đạo đức trong việc mua hàng của nước ngoài. Các đặc trưng của tính vị chủng tiêu dùng như sau:

- Là kết quả của lòng yêu nước và e ngại mất kiểm soát lợi ích kinh tế quốc gia do nhập khẩu;

- Làm xuất hiện ý nghĩ không mua hàng ngoại vì hành vi này bị đánh giá đạo đức là thiếu trách nhiệm, không yêu nước, không đúng đắn.

- Từ đó, dẫn đến định kiến chống nhập khẩu. Hệ quả của tính vị chủng tiêu dùng là sự thiên vị: đánh giá cao hàng nội, đánh giá thấp hàng ngoại và không sẵn lòng mua hàng ngoại trong khi luôn ưu tiên quan tâm hàng nội.

Từ những đặc trưng trên của tính vị chủng và thông qua các nghiên cứu của các quốc gia có các nền văn hóa khác nhau và nghiên cứu trên các sản phẩm khác nhau, có thể kết luận rằng mức độ tác động của tính vị chủng của người tiêu dùng lên hành vi mua luôn luôn khác biệt. Ngoài ra, tác động của yếu tố nhân khẩu học đến tính vị chủng ở từng khu vực địa lý cũng không giống nhau ở bất kỳ trên một quốc gia nào hoặc trên một sản phẩm cụ thể nào. Shimp và Sharma [5] đã chỉ ra rằng  mức độ vị chủng tiêu dùng tương quan âm với niềm tin, thái độ và ý định mua của người tiêu dùng đối với hàng ngoại. Mức vị chủng tiêu dùng cũng tương quan âm với hành vi mua hàng ngoại nhưng cường độ thấp hơn do còn nhiều yếu tố khác chi phối. Do vậy, việc nghiên cứu tính vị chủng trên một mặt hàng cụ thể cũng là điều rất cần thiết để giúp cho các doanh nghiệp có những kế hoạch marketing phù hợp trong từng thị trường cụ thể.

2.2. Chất lượng cảm nhận và giá trị cảm nhận

Chất lượng sản phẩm (chất lượng khách quan), được định nghĩa là các đặc điểm vượt trội của một sản phẩm, có thể đo lường và kiểm chứng trên một số tiêu chuẩn lý tưởng định trước. Chất lượng cảm nhận là ý kiến hoặc đánh giá tổng quan của khách hàng về sự vượt trội, tuyệt hảo của sản phẩm đó. Chất lượng cảm nhận là một khái niệm mang tính chủ quan và tương đối về sự đánh giá của khách hàng đối với sản phẩm [6].

Giá cả là cái mà người tiêu dùng trả tiền cho việc mua bán được là những gì họ bỏ hoặc hi sinh, được đo bằng một thuật ngữ tiền tệ, để có được những mong muốn hàng hoá và dịch vụ. Giá cả cảm nhận (chi phí cảm nhận) là sự đánh giá của khách hàng về mức độ hy sinh và giá trị của nó so với những gì mà họ sẽ nhận được. Giá cả được khách hàng cảm nhận dựa trên 2 tiêu chí: chi phí bằng tiền phải trả cho sản phẩm và chi phí cơ hội phải hy sinh đối với những gì có thể mua bằng số tiền đó. Người tiêu dùng có thể không luôn luôn hiểu biết đầy đủ thông tin trong việc so sánh giá cả. Họ chỉ làm theo cách có ý nghĩa đối với họ nhất [7].

Giá trị cảm nhận (perceived value) hay giá trị cảm nhận của khách hàng (customer perceived value) là sự cân đối giữa những gì khách hàng nhận được (lợi ích) và những gì họ bỏ ra (sự hi sinh). Sự hi sinh ở đây không chỉ là giá cả mang giá trị tiền tệ mà còn bao gồm cả những chi phí cơ hội không mang tính tiền tệ gọi là giá cả hành vi đó là thời gian nỗ lực bỏ ra để có được dịch vụ. Bên cạnh giá cả tiền tệ và giá cả phi tiền tệ, danh tiếng, chất lượng dịch vụ và phản ứng cảm xúc cũng ảnh hưởng đến giá trị cảm nhận của khách hàng [8]. Từ đó có thể rút ra giá trị cảm nhận của khách hàng là sự cảm nhận và đánh giá tổng quát của khách hàng về danh tiếng, chất lượng, giá cả tiền tệ, giá cả hành vi và phản ứng cảm xúc của khách hàng đối với dịch vụ.

Hai khái niệm chất lượng cảm nhận và chi phí cảm nhận có liên quan đến khái niệm giá trị cảm nhận. Alhabeeb [6] đã định nghĩa giá trị cảm nhận của người tiêu dùng là sự cân nhắc về đánh đổi giữa chất lượng cảm nhận và chi phí cảm nhận. Ở mức đơn giản nhất, để ra quyết định mua, người tiêu dùng ước lượng giá trị hàng hóa cảm nhận mang lại căn cứ vào 2 yếu tố này. Những người khác nhau sẽ nhận thức về mặt hàng theo những khía cạnh khác nhau, bởi vì họ thường có thái độ, cách đánh giá hay sự kỳ vọng khác nhau về sản phẩm. Và khi người tiêu dùng cảm thấy giá cả hàng hóa nội địa nằm trong ngưỡng chấp nhận được, phù hợp với bản thân của họ, thì họ sẽ có ý định mua sản phẩm nội địa mà họ thích.

2.3. Cây quyết định

Cây quyết định (decision tree) là một trong những hình thức mô tả dữ liệu trực quan nhất, dễ hiểu nhất đối với người dùng. Cấu trúc của một cây quyết định bao gồm các nút và các nhánh. Nút dưới cùng được gọi là nút lá, trong mô hình phân lớp dữ liệu chính là các giá trị của các nhãn lớp (gọi tắt là nhãn). Các nút khác nút lá được gọi là các nút con, đây còn là các thuộc tính của tập dữ liệu, hiển nhiên các thuộc tính này phải khác thuộc tính phân lớp. Mỗi một nhánh của cây xuất phát từ một nút nào đó ứng với một phép so sánh dựa trên miền giá trị của nút đó. Nút đầu tiên được gọi là nút gốc của cây [9].

Mục đích của việc xây dựng một cây quyết định là khám phá ra một tập luật, từ đó có thể sử dụng để dự báo giá trị đầu ra từ những biến đầu vào. Cây quyết định có hai loại: cây hồi quy ước lượng các hàm giá có giá trị là số thực và cây phân loại, nếu đầu ra là một biến phân loại như kết quả của một trận đấu (thắng hay thua) [10]. Cây quyết định giúp biểu diễn dữ liệu phức tạp thành một cấu trúc đơn giản hơn.

3. Xây dựng mô hình dự báo hành vi mua hàng dệt may nội địa dựa trên cây quyết định

3.1. Thu thập dữ liệu

Dữ liệu được thu thập từ 236 khách hàng Việt Nam thông qua bảng hỏi. Các khách hàng đại diện cho các khu vực khác nhau, có điều kiện kinh tế và xã hội khác nhau. Sản phẩm được lựa chọn là sản phẩm dệt may nội địa - là đối tượng nghiên cứu. Sản phẩm dệt may là loại sản phẩm luôn có sản phẩm ngoại nhập tương ứng. Có tất cả 14 câu hỏi được sử dụng để đo lường 3 biến độc lập (Bảng 1). Câu trả lời của mỗi câu hỏi là mức độ đồng ý đối với mỗi phát biểu. Trong nghiên cứu sử dụng thang đo 5 điểm Likert từ mức “hoàn toàn không đồng ý” đến mức “hoàn toàn đồng ý”. Một số thông tin nhân khẩu khác như tuổi, giới tính, thu nhập và học vấn cũng được thu thập (Bảng 2). Một số biến khác như “Mức độ sẵn lòng chi trả (Willingness to pay - WTP)” và “Có con hay không (Having child)” cũng được thêm vào trong mô hình. Biến phụ thuộc là quyết định hành vi mua sản phẩm may mặc nội địa (là biến nhị phân với “0” nếu không thường xuyên mua; “1” là có thường xuyên mua).

Bảng 1: Các nhân tố và thang đo

Nhân tố

Thang đo (mã)

Giá cảm nhận (Perceived price -PP)

Giá của sản phẩm nội địa hợp lý hơn giá của sản phẩm ngoại nhập (PP1).

Với cùng chất lượng, giá của sản phẩm nội địa rẻ hơn sản phẩm ngoại nhập (PP2).

Số tiền phải bỏ ra khi mua sản phẩm nội địa hoàn toàn phủ hợp với điều kiện của tôi (PP3).

Số tiền phải bỏ ra khi mua sản phẩm nội địa hợp lý hơn khi mua sản phẩm ngoại nhập (PP4).

Chất lượng cảm nhận (Perceived quality - PQ)

Đường may của sản phẩm nội địa kém hơn sản phẩm ngoại nhập (PQ1).

Chất vải của sản phẩm nội địa không tốt như sản phẩm ngoại nhập (PQ2).

Thương hiệu của sản phẩm nội địa không bằng sản phẩm ngoại nhập (PQ3).

Kỹ thuật may, sản xuất của sản phẩm nội địa không tốt như sản phẩm ngoại nhập (PQ4).

Tính vị chủng của khách hàng (Consumers ethnocentrism - CE)

Việc mua các sản phẩm ngoại nhập là một hành vi không nên đối với một người Việt Nam yêu nước (CE1).

Người Việt Nam nên dùng hàng Việt Nam (CE2).

Việc mua các sản phẩm ngoại nhập sẽ làm nhiều công nhân Việt Nam bị mất việc (CE3).

Việc mua các sản phẩm ngoại nhập sẽ làm cho các quốc gia khác giầu có hơn (CE4).

Các sản phẩm ngoại nhập có thể gây đe dọa đối với các nhà sản xuất trong nước (CE5).

Chỉ nên mua các sản phẩm nhập khẩu khi các mặt hàng đó không thể sản xuất được ở trong nước (CE6).

 Bảng 2: Các biến nhân khẩu

Biến

Mô tả

Tuổi

Tuổi của người trả lời (tính theo năm)

Giới tính

= 1 nếu là “Nam”

Trình độ học vấn

= 1 nếu trình độ từ Phổ thông trung học trở lên

Thu nhập

= 1 nếu thu nhập lớn hơn 12 triệu

Có con hay không?

= 1 nếu có con

Mức độ sẵn lòng chi trả (Willingness to pay)

Biến nhóm: 1 = “0%”; 2 = “Dưới 5% thu nhập”; 3 = “Từ 6 đến 10% thu nhập”; 4 = “Từ 11 đến 15% thu nhập”; 5 = “Từ 16 đến 20% thu nhập”; 6 = “Trên 20% thu nhập”

Mức độ tiêu dùng đối với sản phẩm (Consumption)

Biến nhóm: 1 = “Không”; 2 = “Dưới 600.000 VNĐ một tháng”; 3 = “Từ 600.000 đến 1.000.000 VNĐ một tháng”; 4 = “Lớn hơn 1.000.000 VNĐ một tháng”

Để kiểm tra độ tin cậy của thang đo, nghiên cứu sử dụng kiểm định Cronbach’s alpha nhằm phân tích, đánh giá độ tin cậy của thang đo. Mục đích của kiểm định này là tìm hiểu xem các biến quan sát có cùng đo lường cho một khái niệm cần đo hay không. Tiêu chuẩn để đánh giá một biến có thực sự đóng góp giá trị vào nhân tố hay không là hệ số tương quan biến tổng phải lớn hơn 0.3. Nếu biến quan sát có hệ số tương quan biến tổng nhỏ hơn 0.3 thì phải loại nó ra khỏi nhân tố đánh giá. Kết quả tính toán cho thấy, giá trị Cronbach’s alpha thấp nhất là 0.810, lớn hơn giá trị đề xuất là 0.6 [11]. Giá trị Kaiser-Mayer-Olkin (KMO) thu được là 0.806 (nằm trong khoản từ 0.5 tới 1.0) do đó việc phân tích nhân tố là phù hợp. Nếu trị số này nhỏ hơn 0.5, thì phân tích nhân tố có khả năng không thích hợp với tập dữ liệu nghiên cứu. Hệ số tải nhân tố tính được đều lớn hơn 0.5 do đó đảm bảo giá trị hội tụ.

3.2. Xây dựng mô hình

Cây quyết định sử dụng trong phân loại là cây quyết định nhị phân. Việc xây dựng cây quyết định phụ thuộc vào việc lựa chọn thông tin để phân hoạch. Bài báo này lựa chọn thuộc tính phân hoạch dựa trên độ lợi thông tin lớn nhất, đó là hiệu giữa độ hỗn loạn thông tin trước và sau phân hoạch với thuộc tính đó.

3.3. Các chỉ số đánh giá mô hình

Để đánh giá mô hình, một số các chỉ số được sử dụng trong nghiên cứu bao gồm: ma trận nhầm lẫn (confusion matrix) và độ chính xác tổng quát.

- Ma trận nhầm lẫn (confusion matrix): hay còn gọi là error matrix là một trong những phương pháp đánh giá mô hình dự báo phân loại quan trọng và phổ biến nhất, là cơ sở để hình thành cho các phương pháp đánh giá khác. Ma trận nhầm lẫn là một ma trận tổng quát thể hiện kết quả phân loại chính xác và kết quả phân loại sai được tạo ra bởi mô hình phân loại bằng cách so sánh với giá trị thật của biến mục tiêu (biến phân loại) của dữ liệu test. Ma trận có N x N với N là tổng số giá trị của biến mục tiêu (số nhóm của biến phân loại). Nếu chúng ta có bài toán phân loại chỉ bao gồm hai giá trị của biến mục tiêu là Có (1) hoặc Không (0).

- Độ chính xác tổng quát: là khả năng mô hình phân loại dự báo chính xác, hay xác định đúng class (nhóm, loại) cho dữ liệu cần phân loại. Độ chính xác tổng quát là tỉ lệ của tất cả trường hợp phân loại Đúng trên toàn bộ trường hợp trong mẫu kiểm định.

Ngoài ra, nghiên cứu cũng sử dụng một số chỉ tiêu lỗi khác như sai số tuyệt đối trung bình (mean absolute error – MAE) và sai số bình phương trung bình (root mean squared error – RMSE). Các chỉ tiêu này càng nhỏ càng tốt.

4. Kết quả và thảo luận

Mô hình dựa trên cây quyết định cho kết quả cụ thể như sau: 106 mẫu trong 117 mẫu không phải là người mua hàng thường xuyên được phân loại chính xác và 113 mẫu trong 119 mẫu không phải là người mua hàng thường xuyên được phân loại chính xác. Như vậy, số trường hợp dự đoán đúng là 219 (92,7966%) và số trường hợp dự đoán sai là 17 (7,2034%) (Hình 1).

Kết quả thu được cũng cho thấy tầm quan trọng (mức độ ảnh hưởng) của các biến đến hành vi lựa chọn sản phẩm nội địa của người tiêu dùng Việt Nam. Theo đó, mức độ sẵn lòng chi trả (Willingness to pay) và mức độ tiêu dùng đối với sản phẩm (Consumption) có ảnh hưởng lớn nhất đến hành vi lựa chọn sản phẩm. Kết quả nghiên cứu này cũng tương đồng với các kết quả nghiên cứu khác. Tuy nhiên, PP2 (Với cùng chất lượng, giá của sản phẩm nội địa rẻ hơn sản phẩm ngoại nhập) và CE1 (Việc mua các sản phẩm ngoại nhập là một hành vi không nên đối với người Việt yêu nước) cũng có tác động đáng kể. Các nhà sản xuất và nhà bán lẻ nên khai thác hai yếu tố này trong các chiến lược sản xuất, quảng bá sản phẩm của mình.

5. Kết luận

Dự báo hành vi khách hàng nói chung và dự báo hành vi khách hàng tiêu dùng hàng nội địa Việt Nam nói riêng là một chủ đề nghiên cứu đối với các nhà quản lý, các doanh nghiệp. Các kết quả dự báo là đầu vào quan trọng trong công tác lập kế hoạch marketing, định hướng sản xuất của mỗi doanh nghiệp. Bài báo đã xây dựng mô hình dự báo hành vi khách hàng mua sản phẩm dệt may nội địa dựa trên cây quyết định. Các kết quả quả thực nghiệm khẳng định mô hình dựa trên cây quyết định là phù hợp và cho kết quả dự báo với độ chính xác 92,7966. Bài báo cũng đã xác định được các nhân tố ảnh hưởng đến quyết định mua sản phẩm dệt may nội địa của khách hàng Việt Nam. Từ đó, xây dựng được bộ dữ liệu phục vụ công tác nghiên cứu. Phương pháp xây dựng bộ dữ liệu cũng có thể được áp dụng đối với các sản phẩm khác.

Do hạn chế về số liệu, các mô hình dự báo còn có giới hạn theo cả thời gian (thời điểm khảo sát tháng 2/2020) lẫn không gian (tại các thành phố lớn), vì vậy có thể phần nào ảnh hưởng tới hiệu quả dự báo của mô hình khi được áp dụng rộng rãi. Hướng nghiên cứu tiếp theo sẽ là tiếp tục bổ sung dữ liệu với khoảng thời gian lớn hơn và trên không gian thu thập dữ liệu lớn hơn để tăng độ chính xác và hoàn thiện mô hình. Nghiên cứu sẽ tích hợp các mô hình để giải thích thêm các yếu tố không gian, kinh tế, văn hóa ảnh hưởng đến hành vi mua.

TÀI LIỆU THAM KHẢO:

  1. Zuo Y. (2016). Prediction of consumer purchase behaviour using Bayesian network: an operational improvement and new results based on RFID data. Int J Knowl Eng Soft Data Paradig. https://doi.org/10.1504/ijkesdp.2016.075976
  2. Badea LM. (2014). Predicting consumer behavior with artificial neural networks. Procedia Econ Financ, 15, 238–246
  3. Tien LD. (2019). Forecasting model of Vietnamese consumers’ purchase decision of domestic apparel. Eur J Appl Econ, 16, 109–121
  4. Sharma S, Shimp TA, Shin J. (1994). Consumer ethnocentrism: A test of antecedents and moderators. J Acad Mark Sci, 23, 26–37
  5. Shimp TA, Sharma S. (1987). Consumer ethnocentrism: Construction and validation of the CETSCALE. J Mark Res, 24, 280–289
  6. Alhabeeb MJ (2002). Perceived product quality, purchase value, and price. Allied Academies International Conference, Nashville, Tennessee, USA, April 10-13, 2002, Academy of Marketing Studies. , 9-14
  7. Dickson PR, Sawyer AG. (1990). The price knowledge and search of supermarket shoppers. J Mark, 54, 42–53
  8. Petrick JF. (2002). Development of a multi-dimensional scale for measuring the perceived value of a service. J Leis Res, 34, 119–134
  9. Myles AJ, Feudale RN, Liu Y, et al. (2004). An introduction to decision tree modeling. J. Chemom.
  10. Debeljak M, Džeroski S (2011). Decision trees in ecological modelling. In: Modelling complex ecological dynamics. Springer, Berlin Heidelberg, 197–209
  11. Hair JF, Anderson RE, Tatham RL, Black WC. (1998). Multivariate data analysis (5th ed.), Prentice Hall, Upper Saddle River, New Jersey, USA.

Using the Decision Tree to predict consumer buying behavior

towards domestic apparel products in Vietnam

 DO QUANG HUNG

University of Transport Technology

ABSTRACT:

This study tests the capability of decision tree to predict consumer behavior on purchasing domestic apparel products in Vietnam. Firstly, factors affecting Vietnamese consumers’ buying behavior towards domestic apparel products were identified. Then, data from 236 consumers in Vietnam were collected. The study’s results show that the developed model obtained the performance with the corrected prediction percentage of 92.7966%.

Keywords: domestic apparel products, consumers buying behavior, Decision Tree.

[Tạp chí Công Thương - Các kết quả nghiên cứu khoa học và ứng dụng công nghệ, Số 6, tháng 3 năm 2021]