Ứng dụng trí tuệ nhân tạo (AI) trong công tác thu thập thông tin và xử lý dữ liệu trong ngành thống kê tại Việt Nam: Tiềm năng, thách thức và giải pháp

Bài báo Ứng dụng trí tuệ nhân tạo (AI) trong công tác thu thập thông tin và xử lý dữ liệu trong ngành thống kê tại Việt Nam: Tiềm năng, thách thức và giải pháp do Hà Đức Thủy1 - Bùi Quang Hưng1 (1Trường Cao đẳng Thống kê II) thực hiện.

TÓM TẮT:

Trong bối cảnh chuyển đổi số và sự bùng nổ của dữ liệu lớn, trí tuệ nhân tạo (AI) đang trở thành công cụ then chốt để nâng cao hiệu quả và chất lượng công tác thu thập thông tin và xử lý dữ liệu trong ngành Thống kê. Báo viêt này phân tích tính cấp thiết của việc ứng dụng AI trong ngành Thống kê tại Việt Nam, đánh giá bối cảnh và thực trạng hiện nay, đồng thời đề xuất các giải pháp cụ thể dựa trên kinh nghiệm quốc tế. Kết quả nghiên cứu chỉ ra, mặc dù Việt Nam đã bắt đầu thử nghiệm AI trong một số quy trình thống kê, nhưng vẫn còn nhiều thách thức liên quan đến hạ tầng, nhân sự và chính sách. Các giải pháp được đề xuất bao gồm xây dựng hệ thống dữ liệu chuẩn hóa, đào tạo nhân lực, triển khai ứng dụng AI cụ thể và học hỏi từ các mô hình thành công của các quốc gia như Hàn Quốc, Singapore và Anh.

Từ khóa: trí tuệ nhân tạo, ứng dụng trí tuệ nhân tạo, thu thập thông tin, phân tích dữ liệu, thống kê, ngành thống kê, tiềm năng, thách thức, giải pháp.

1. Đặt vấn đề 

Sự phát triển của cách mạng công nghiệp 4.0 đã làm thay đổi căn bản cách các quốc gia thu thập, xử lý và phân tích dữ liệu. Trí tuệ nhân tạo (AI), với các công nghệ như học máy (machine learning), xử lý ngôn ngữ tự nhiên (NLP) và thị giác máy tính (computer vision), đã chứng minh tiềm năng vượt trội trong việc xử lý khối lượng dữ liệu lớn, đa dạng và phức tạp. Theo Goodfellow và cộng sự (2016), các mô hình học sâu (deep learning) có khả năng phân tích dữ liệu phi cấu trúc với độ chính xác cao, mở ra cơ hội cho các lĩnh vực như thống kê, kinh tế và y tế. Tại Việt Nam, ngành Thống kê đóng vai trò trung tâm trong việc cung cấp dữ liệu đáng tin cậy phục vụ hoạch định chính sách kinh tế - xã hội. Tuy nhiên, với khối lượng dữ liệu tăng trưởng theo cấp số nhân (ước tính 30% mỗi năm theo Bộ Kế hoạch và Đầu tư, 2024), các phương pháp thống kê truyền thống như khảo sát thủ công và phân tích bằng phần mềm cơ bản (Excel, SPSS) không còn đáp ứng được yêu cầu về tốc độ, độ chính xác và hiệu quả.

Tính cấp thiết của việc ứng dụng AI trong ngành Thống kê tại Việt Nam được thể hiện qua 3 khía cạnh chính. Thứ nhất, AI có khả năng tự động hóa các quy trình lặp lại, giảm thiểu sai sót do con người và tiết kiệm nguồn lực. Ví dụ, các thuật toán NLP có thể phân tích hàng nghìn báo cáo văn bản trong thời gian ngắn, trong khi các mô hình học máy có thể dự báo xu hướng kinh tế với độ chính xác cao hơn so với phương pháp truyền thống (Chen et al., 2020). Thứ hai, AI hỗ trợ khai thác dữ liệu từ các nguồn phi cấu trúc như mạng xã hội, cảm biến IoT và hình ảnh vệ tinh, mở rộng phạm vi và chiều sâu của thông tin thống kê. Thứ ba, trong bối cảnh chiến lược chuyển đổi số quốc gia đến năm 2030, việc ứng dụng AI là một bước đi chiến lược để nâng cao năng lực cạnh tranh của Việt Nam trong khu vực và trên thế giới. Do đó, nghiên cứu này nhằm đánh giá thực trạng ứng dụng AI trong ngành Thống kê tại Việt Nam, học hỏi kinh nghiệm quốc tế và đề xuất các giải pháp triển khai hiệu quả.

2. Bối cảnh và thực trạng về ứng dụng AI trong thu thập thông tin và xử lý dữ liệu thống kê tại Việt Nam

2.1. Bối cảnh về ứng dụng AI trong ngành thống kê trên thế giới

Chuyển đổi số đã trở thành động lực chiến lược cho sự phát triển kinh tế - xã hội của Việt Nam, được Chính phủ xác định là một trong những ưu tiên hàng đầu thông qua Quyết định số 749/QĐ-TTg về Chương trình Chuyển đổi số Quốc gia đến năm 2025, định hướng đến năm 2030. Theo báo cáo của Bộ Kế hoạch và Đầu tư (2024), khối lượng dữ liệu tại Việt Nam đang tăng trưởng với tốc độ trung bình 30% mỗi năm, với các lĩnh vực nổi bật như thương mại điện tử (ghi nhận mức tăng 35% giao dịch trực tuyến trong giai đoạn 2020-2024), y tế (với sự gia tăng dữ liệu từ hồ sơ sức khỏe điện tử và ứng dụng y tế thông minh), và giao thông (dữ liệu từ hệ thống giám sát giao thông thông minh và cảm biến IoT). Sự bùng nổ này không chỉ làm tăng khối lượng dữ liệu mà còn làm phức tạp hóa cấu trúc dữ liệu, với sự xuất hiện của dữ liệu phi cấu trúc (unstructured data) như văn bản, hình ảnh, video từ các nguồn như mạng xã hội, thiết bị IoT và hình ảnh vệ tinh. Ngành Thống kê, với vai trò cung cấp thông tin đáng tin cậy cho các quyết định chính sách, đối mặt với áp lực lớn trong việc xử lý dữ liệu lớn (big data) và dữ liệu phi cấu trúc, đòi hỏi các công cụ hiện đại như trí tuệ nhân tạo (AI) để đáp ứng yêu cầu về tốc độ, độ chính xác và khả năng phân tích sâu.

Trên bình diện quốc tế, AI đã được ứng dụng rộng rãi và mang lại những kết quả đột phá trong ngành Thống kê, tạo ra các mô hình tham chiếu giá trị cho Việt Nam. Tại Hàn Quốc, Cơ quan Thống kê Quốc gia (Statistics Korea) đã triển khai các mô hình học máy (machine learning) như Random Forest và mạng nơ-ron nhân tạo (neural networks) để dự báo dân số và phân tích dữ liệu thương mại. Theo Kim và cộng sự (2022), các mô hình này không chỉ cải thiện độ chính xác dự báo dân số lên 20% so với các phương pháp truyền thống mà còn giảm 35% thời gian xử lý dữ liệu, nhờ khả năng tự động hóa các quy trình phân tích phức tạp. Singapore, một quốc gia tiên phong trong chuyển đổi số, đã sử dụng hệ thống AI để tự động hóa quy trình thu thập dữ liệu từ các doanh nghiệp thông qua các biểu mẫu trực tuyến thông minh. Báo cáo của Bộ Thống kê Singapore (Department of Statistics Singapore, 2023) cho biết, hệ thống này đã giảm 40% thời gian xử lý dữ liệu và tăng độ chính xác của dữ liệu đầu vào lên 15% nhờ các thuật toán kiểm tra lỗi tự động. Tại Anh, Văn phòng Thống kê Quốc gia (ONS) đã áp dụng xử lý ngôn ngữ tự nhiên (NLP) để phân tích dữ liệu văn bản từ các khảo sát và mạng xã hội, giúp cải thiện chất lượng dữ liệu định tính. Chẳng hạn, ONS đã sử dụng các mô hình NLP như BERT để phân tích cảm xúc (sentiment analysis) từ các bình luận trên mạng xã hội, từ đó đánh giá xu hướng tiêu dùng và tâm lý xã hội với độ tin cậy cao hơn 25% so với các phương pháp khảo sát truyền thống (ONS, 2023).

Ngoài ra, các tổ chức quốc tế như Liên Hợp quốc (UN) và Ngân hàng Thế giới (World Bank) cũng đã tích cực thúc đẩy ứng dụng AI trong thống kê toàn cầu. Ví dụ, UN Global Pulse sử dụng AI để phân tích dữ liệu thời gian thực từ các nguồn như Twitter và Google Trends nhằm dự báo các cuộc khủng hoảng kinh tế hoặc dịch bệnh, với các dự án thí điểm tại châu Phi và châu Á cho thấy khả năng giảm thời gian phản ứng chính sách xuống còn 48 giờ (UN Global Pulse, 2022). Những thành tựu này không chỉ chứng minh tiềm năng của AI trong việc cách mạng hóa ngành Thống kê mà còn đặt ra yêu cầu cấp bách cho Việt Nam trong việc bắt kịp xu hướng toàn cầu, đặc biệt khi các quốc gia trong khu vực như Singapore và Hàn Quốc đã đạt được những bước tiến đáng kể.

2.2. Thực trạng về thu thập và xử lý dữ liệu của Việt Nam

Tại Việt Nam, ngành Thống kê hiện vẫn chủ yếu dựa vào các phương pháp truyền thống, với các quy trình thu thập và xử lý dữ liệu còn phụ thuộc vào lao động thủ công và các công cụ cơ bản. Theo Cục Thống kê (2024), khoảng 60% dữ liệu thống kê được xử lý bằng các phần mềm như Microsoft Excel và SPSS, vốn không được thiết kế để xử lý khối lượng dữ liệu lớn hoặc dữ liệu phi cấu trúc. Các phương pháp này dẫn đến nhiều hạn chế, bao gồm tốc độ xử lý chậm, nguy cơ sai sót cao do nhập liệu thủ công và khả năng phân tích dữ liệu phức tạp bị giới hạn. Ví dụ, việc xử lý dữ liệu từ các cuộc điều tra dân số hoặc khảo sát kinh tế thường mất hàng tháng, trong khi các sai sót do nhập liệu thủ công có thể chiếm tới 5-10% tổng số dữ liệu (Cục Thống kê, 2023).

Mặc dù vậy, một số nỗ lực ứng dụng AI đã được triển khai, nhưng chủ yếu ở quy mô nhỏ và mang tính thí điểm. Chẳng hạn, Cục Thống kê đã thử nghiệm các mô hình học máy để dự báo chỉ số giá tiêu dùng (CPI), với kết quả cải thiện độ chính xác lên 15% so với các phương pháp hồi quy truyền thống (Cục Thống kê, 2023). Dự án này sử dụng các thuật toán như Gradient Boosting để phân tích dữ liệu giá cả từ các nguồn bán lẻ trực tuyến, cho thấy tiềm năng của AI trong việc dự báo kinh tế thời gian thực. Ngoài ra, một số viện nghiên cứu như Viện Khoa học Thống kê đã thử nghiệm xử lý ngôn ngữ tự nhiên (NLP) để phân tích các báo cáo văn bản, chẳng hạn như trích xuất thông tin từ các báo cáo kinh tế địa phương. Tuy nhiên, các dự án này còn thiếu tính hệ thống, thường chỉ được thực hiện trong phạm vi hẹp và không được mở rộng ra quy mô quốc gia.

Việc ứng dụng AI trong ngành Thống kê tại Việt Nam đang đối mặt với nhiều thách thức mang tính cấu trúc và hệ thống. Cụ thể như sau:

Một là, hạ tầng dữ liệu chưa chuẩn hóa: Dữ liệu thống kê tại Việt Nam thường được lưu trữ dưới nhiều định dạng khác nhau, từ tài liệu giấy đến các cơ sở dữ liệu không đồng nhất, gây khó khăn cho việc tích hợp và phân tích bằng AI. Theo báo cáo của Bộ Thông tin và Truyền thông (2024), chỉ khoảng 20% dữ liệu thống kê quốc gia được số hóa và lưu trữ dưới dạng chuẩn hóa, so với tỷ lệ 80% tại các quốc gia như Singapore.

Hai là, thiếu hụt nhân sự có chuyên môn về AI: Theo cùng báo cáo, chỉ 10% cán bộ thống kê tại Việt Nam có kiến thức cơ bản về AI và học máy, trong khi con số này ở Hàn Quốc là 40% (Statistics Korea, 2023). Sự thiếu hụt này không chỉ giới hạn ở cấp kỹ thuật mà còn ở cấp quản lý, nơi thiếu các chuyên gia có khả năng hoạch định chiến lược ứng dụng AI.

Ba là, khung pháp lý và bảo mật dữ liệu chưa rõ ràng: Các vấn đề liên quan đến quyền riêng tư, bảo mật dữ liệu và quyền sở hữu dữ liệu vẫn chưa được quy định chặt chẽ, gây ra rủi ro khi triển khai các hệ thống AI sử dụng dữ liệu nhạy cảm. Ví dụ, việc thu thập dữ liệu từ mạng xã hội hoặc thiết bị IoT có thể vi phạm các quy định về quyền riêng tư nếu không được quản lý đúng cách.

Bốn là, hạn chế về nguồn lực tài chính: Đầu tư vào hạ tầng AI, bao gồm máy chủ tính toán hiệu năng cao (HPC) và phần mềm chuyên dụng, đòi hỏi chi phí lớn. Theo ước tính của Bộ Khoa học và Công nghệ (2024), Việt Nam chỉ đầu tư khoảng 0.3% GDP vào nghiên cứu và phát triển AI, thấp hơn nhiều so với mức 1.5% của Hàn Quốc và 2% của Singapore.

Năm là, chất lượng dữ liệu thấp: Dữ liệu đầu vào cho AI thường thiếu độ chính xác, đầy đủ và nhất quán, đặc biệt là dữ liệu từ các nguồn phi cấu trúc. Ví dụ, các bài đăng trên mạng xã hội có thể chứa thông tin không chính xác hoặc không đầy đủ, làm giảm hiệu quả của các thuật toán NLP.

So sánh với các quốc gia như Hàn Quốc và Singapore, Việt Nam đang ở giai đoạn sơ khai trong việc ứng dụng AI vào thống kê. Trong khi đó, Hàn Quốc đã triển khai các nền tảng dữ liệu quốc gia tích hợp với AI từ năm 2018 và Singapore đã xây dựng hệ thống thu thập dữ liệu tự động từ năm 2020, Việt Nam vẫn đang trong quá trình thử nghiệm và chưa có chiến lược toàn diện. Những thách thức này đòi hỏi một cách tiếp cận đồng bộ, kết hợp giữa cải cách hạ tầng, phát triển nhân lực và học hỏi kinh nghiệm quốc tế để thúc đẩy ứng dụng AI trong ngành Thống kê.

 3. Đề xuất một số giải pháp thúc đẩy ứng dụng AI trong ngành Thống kê tại Việt Nam 

Dựa trên thực trạng tại Việt Nam và kinh nghiệm từ các quốc gia phát triển, các giải pháp sau được đề xuất để thúc đẩy ứng dụng AI trong ngành Thống kê:

Một là, xây dựng hạ tầng dữ liệu chuẩn hóa và tích hợp.

Một hệ thống cơ sở dữ liệu quốc gia thống nhất là nền tảng để triển khai AI hiệu quả. Việt Nam cần đầu tư vào việc số hóa dữ liệu cũ, xây dựng các kho dữ liệu (data warehouse) sử dụng chuẩn định dạng mở như JSON hoặc XML để hỗ trợ tích hợp AI. Kinh nghiệm từ Hàn Quốc cho thấy việc triển khai một nền tảng dữ liệu quốc gia (National Data Platform) đã giúp giảm 30% thời gian thu thập dữ liệu từ các cơ quan chính phủ (Statistics Korea, 2022). Ngoài ra, việc sử dụng các giao thức thu thập dữ liệu tự động từ IoT, API và các nguồn dữ liệu phi cấu trúc (như mạng xã hội) sẽ tăng cường khả năng khai thác thông tin đa chiều.

Hai là, phát triển năng lực nhân sự. 

Để đáp ứng yêu cầu ứng dụng AI, cần thiết lập các chương trình đào tạo chuyên sâu cho cán bộ thống kê về học máy, NLP và phân tích dữ liệu lớn. Các khóa học này có thể được phối hợp với các trường đại học như Đại học Bách khoa Hà Nội hoặc các tổ chức quốc tế như Coursera, Google Cloud Academy. Singapore đã thành công trong việc đào tạo nhân lực thông qua chương trình "Smart Nation Fellowship", kết hợp giữa học thuật và thực hành (GovTech Singapore, 2023). Việt Nam có thể áp dụng mô hình tương tự, đồng thời khuyến khích các chương trình trao đổi nhân sự với các quốc gia có kinh nghiệm về AI như Hàn Quốc và Anh.

Ba là, triển khai các ứng dụng AI cụ thể. 

- Xử lý ngôn ngữ tự nhiên (NLP): Sử dụng NLP để tự động hóa việc phân tích dữ liệu văn bản từ các báo cáo, khảo sát hoặc mạng xã hội. Ví dụ, các mô hình như BERT hoặc Grok 3 (xAI) có thể được sử dụng để trích xuất thông tin từ các báo cáo kinh tế hoặc bình luận trên mạng xã hội về xu hướng tiêu dùng. 

- Học máy dự báo: Áp dụng các mô hình học máy như Random Forest hoặc LSTM để dự báo các chỉ số kinh tế (CPI, GDP) hoặc xu hướng dân số. Kinh nghiệm từ Hàn Quốc cho thấy việc sử dụng học máy đã cải thiện độ chính xác dự báo dân số lên 20% (Kim et al., 2022). 

- Thị giác máy tính: Sử dụng các thuật toán thị giác máy tính để phân tích hình ảnh vệ tinh hoặc video từ các khảo sát thực địa, như đánh giá cơ sở hạ tầng nông thôn hoặc sản lượng nông nghiệp. Nước Anh đã áp dụng công nghệ này để phân tích hình ảnh vệ tinh trong thống kê nông nghiệp, giảm 50% thời gian khảo sát (ONS, 2023). 

Bốn là, hợp tác quốc tế và chuyển giao công nghệ.

Việt Nam cần tăng cường hợp tác với các tổ chức quốc tế và doanh nghiệp công nghệ lớn như Google, Microsoft hoặc xAI để tiếp cận các giải pháp AI tiên tiến. Ví dụ, API của các mô hình AI như Chat GPT, Gemini,… có thể hỗ trợ phân tích dữ liệu phức tạp. Kinh nghiệm từ Singapore cho thấy việc hợp tác với Google Cloud đã giúp triển khai hệ thống phân tích dữ liệu thời gian thực cho ngành Thống kê (Department of Statistics Singapore, 2023). Việt Nam có thể thiết lập các dự án thí điểm với sự hỗ trợ từ các tổ chức này để thử nghiệm và mở rộng ứng dụng AI.

Sáu là, xây dựng khung pháp lý và chính sách hỗ trợ.

Việc ban hành các quy định về quản lý dữ liệu, bảo mật thông tin và ứng dụng AI trong thống kê là cần thiết để tạo môi trường thuận lợi. Anh đã triển khai Đạo luật Dữ liệu Kỹ thuật số (Digital Data Act) để đảm bảo an toàn và minh bạch trong việc sử dụng AI (ONS, 2023). Việt Nam có thể tham khảo mô hình này để xây dựng khung pháp lý, đồng thời khuyến khích đầu tư từ khu vực tư nhân vào các dự án AI trong thống kê.

4. Kết luận 

Ứng dụng trí tuệ nhân tạo trong ngành Thống kê tại Việt Nam đã và đang mang lại cơ hội lớn để nâng cao hiệu quả và chất lượng công tác thu thập, xử lý và phân tích dữ liệu. Tuy nhiên, để hiện thực hóa tiềm năng này, Việt Nam cần vượt qua các thách thức về hạ tầng, nhân sự và chính sách. Các giải pháp được đề xuất, từ xây dựng hệ thống dữ liệu chuẩn hóa, đào tạo nhân lực, đến triển khai các ứng dụng AI cụ thể và học hỏi kinh nghiệm quốc tế, nếu được thực hiện đồng bộ, sẽ giúp ngành Thống kê Việt Nam đáp ứng tốt hơn yêu cầu của thời đại chuyển đổi số. Điều này không chỉ hỗ trợ hoạch định chính sách mà còn góp phần thúc đẩy phát triển kinh tế - xã hội bền vững trong bối cảnh toàn cầu hóa.

TÀI LIỆU THAM KHẢO:

Bộ Kế hoạch và Đầu tư, (2024). Chiến lược chuyển đổi số quốc gia đến năm 2030. Hà Nội: Nhà xuất bản Chính trị Quốc gia. 

Cục Thống kê, (2023). Báo cáo ứng dụng công nghệ trong dự báo chỉ số giá tiêu dùng. Hà Nội: Nhà xuất bản Thống kê. 

Cục Thống kê, (2024). Báo cáo thực trạng ứng dụng công nghệ trong ngành Thống kê Việt Nam. Hà Nội: Nhà xuất bản Thống kê.

Chen, Y., Liu, Z., & Zhang, X., (2020). Machine learning for economic forecasting. Journal of Economic Analysis, 35(4), pp. 245-260. 

Department of Statistics Singapore, (2023). Annual Report on AI Applications in Statistics. Singapore: Government Printing Office. 

Goodfellow, I., Bengio, Y., & Courville, A., (2016). Deep Learning. Cambridge: MIT Press. 

Kim, J., Park, S., & Lee, H., (2022). AI-driven population forecasting in South Korea. Korean Journal of Statistics, 28(2), pp. 89-102. 

Office for National Statistics (ONS), 2023. Leveraging AI for Statistical Analysis. London: UK Government Publishing Service. 

Applying Artificial Intelligence (AI) in Vietnam’s statistical sector: Potentials, challenges, and strategic solutions

Ha Duc Thuy1

Bui Quang Hung1

1College of Statistics II

Abstract:

In the era of digital transformation and big data, artificial intelligence (AI) is emerging as a critical driver for enhancing the efficiency and quality of data collection and processing in the statistical sector. This study examines the necessity of AI adoption in Vietnam’s statistics system, evaluates the current implementation context, and proposes targeted solutions informed by international best practices. The findings reveal that while Vietnam has initiated pilot applications of AI in several statistical processes, significant challenges remain, particularly in data infrastructure, human resource capacity, and institutional frameworks. To address these barriers, the study recommends developing a standardized national data system, investing in AI-focused workforce training, expanding practical AI applications in statistical operations, and leveraging successful models from countries such as South Korea, Singapore, and the United Kingdom.

Keywords: artificial intelligence, artificial intelligence applications, information collection, data analysis, statistics, statistics industry, potential, challenges, solutions.

[Tạp chí Công Thương - Các kết quả nghiên cứu khoa học và ứng dụng công nghệ, Số 27 năm 2025]

Tạp chí Công Thương