Minh bạch dữ liệu huấn luyện AI và bảo vệ quyền sở hữu trí tuệ trong pháp luật Việt Nam

Bài báo nghiên cứu “Minh bạch dữ liệu huấn luyện AI và bảo vệ quyền sở hữu trí tuệ trong pháp luật Việt Nam” do Đỗ Hương Giang (Giảng viên, Đại học Kinh tế - Kỹ thuật Bình Dương) thực hiện.

TÓM TẮT:

Trong bối cảnh chuyển đổi số diễn ra mạnh mẽ, trí tuệ nhân tạo (AI) ngày càng được phát triển dựa trên các nguồn dữ liệu huấn luyện đa dạng, bao gồm nhiều sản phẩm đã được bảo hộ quyền sở hữu trí tuệ. Trên cơ sở phân tích, tổng hợp và so sánh các quy định của Luật Trí tuệ nhân tạo năm 2025, Luật Sở hữu trí tuệ sửa đổi, bổ sung năm 2025 và một số văn bản pháp luật liên quan, bài viết chỉ ra, pháp luật Việt Nam hiện nay chưa thiết lập nghĩa vụ cụ thể về công bố hoặc truy xuất nguồn dữ liệu huấn luyện AI. Khoảng trống pháp lý này có thể làm giảm hiệu quả bảo vệ quyền sở hữu trí tuệ và tiềm ẩn rủi ro trong quá trình ứng dụng AI. Từ kết quả nghiên cứu, bài viết đề xuất một số định hướng hoàn thiện pháp luật theo hướng tăng cường minh bạch dữ liệu huấn luyện AI, góp phần xây dựng môi trường pháp lý an toàn, minh bạch và bền vững cho phát triển khoa học và công nghệ tại Việt Nam trong kỷ nguyên chuyển đổi số.

Từ khóa: , minh bạch dữ liệu, quyền sở hữu trí tuệ, trí tuệ nhân tạo.

1. Đặt vấn đề

Trí tuệ nhân tạo (AI) đang trở thành công nghệ nền tảng, được ứng dụng rộng rãi trong nhiều lĩnh vực của đời sống kinh tế - xã hội hiện nay. Hiệu quả hoạt động của các hệ thống AI phụ thuộc lớn vào dữ liệu huấn luyện, trong đó dữ liệu có vai trò quyết định đến độ chính xác, khả năng phân tích, lập luận và tính ứng dụng của sản phẩm tạo ra.

Trên thực tế, dữ liệu huấn luyện AI thường được thu thập với quy mô lớn, thông qua nhiều phương thức khách nhau, trong đó bao gồm nhiều sản phẩm đã được bảo hộ quyền sở hữu trí tuệ như tác phẩm văn học, nghệ thuật, cơ sở dữ liệu và các nội dung số. Việc sử dụng các dữ liệu này để huấn luyện AI đặt ra nguy cơ xâm phạm quyền sở hữu trí tuệ khi thiếu cơ chế kiểm soát và minh bạch về nguồn gốc dữ liệu.

Đối với các chủ thể phát triển và ứng dụng AI, việc không có quy định rõ ràng về nghĩa vụ minh bạch nguồn dữ liệu huấn luyện cũng làm tăng rủi ro pháp lý, ảnh hưởng đến quá trình thực hiện hóa và triển khai công nghệ. Đồng thời, đối với chủ thể quyền sở hữu trí tuệ, việc không tiếp cận được thông tin về việc khai thác dữ liệu khiến quyền và lợi ích hợp pháp khó được bảo đảm trên thực tế.

Một số nghiên cứu quốc tế đã tiếp cận vấn đề sử dụng dữ liệu huấn luyện AI dưới góc độ minh bạch thuật toán hoặc giới hạn quyền sở hữu trí tuệ trong môi trường số. Tuy nhiên, tại Việt Nam, các nghiên cứu chuyên sâu về nghĩa vụ minh bạch nguồn dữ liệu huấn luyện AI và mối liên hệ với bảo vệ quyền sở hữu trí tuệ còn hạn chế.

Mặc dù Luật Trí tuệ nhân tạo năm 2025 đã được thông qua và sẽ có hiệu lực từ ngày 01/3/2026 nhằm thiết lập khung pháp lý về hoạt động AI, nhưng các quy định trên vẫn chưa xác lập nghĩa vụ cụ thể về công bố hoặc truy xuất nguồn dữ liệu huấn luyện AI. Khoảng trống pháp lý này làm giảm hiệu quả thực thi quyền sở hữu trí tuệ trong bối cảnh phát triển nhanh của công nghệ AI.

Xuất phát từ thực tiễn đó, bài viết tập trung phân tích nghĩa vụ minh bạch nguồn dữ liệu huấn luyện trí tuệ nhân tạo dưới góc độ bảo vệ quyền sở hữu trí tuệ theo pháp luật Việt Nam, từ đó đề xuất một số định hướng hoàn thiện pháp luật nhằm góp phần xây dựng môi trường phát triển khoa học và công nghệ minh bạch, an toàn và bền vững.

2. Phương pháp nghiên cứu

Nhằm phân tích các vấn đề pháp lý phát sinh từ nghĩa vụ minh bạch nguồn dữ liệu huấn luyện AI trong mối liên hệ với bảo vệ quyền sở hữu trí tuệ, bài viết kết hợp các phương pháp nghiên cứu khoa học pháp lý.

Trước hết, phương pháp phân tích, tổng hợp được sử dụng để hệ thống hóa các quy định pháp luật Việt Nam có liên quan, bao gồm Luật Trí tuệ nhân tạo, Luật Sở hữu trí tuệ và các văn bản pháp luật về dữ liệu. Trên cơ sở đó, bài viết làm rõ nội dung, phạm vi điều chỉnh và những hạn chế của các quy định hiện hành trong việc điều chỉnh hoạt động sử dụng dữ liệu huấn luyện AI.

Bên cạnh đó, phương pháp so sánh pháp luật được vận dụng nhằm đối chiếu các tiếp cận của pháp luật Việt Nam với một số khung pháp lý và chuẩn mực quốc tế tiêu biểu về quản trị trí tuệ nhân tạo và minh bạch dữ liệu huấn luyện, qua đó rút ra những kinh nghiệm có giá trị tham khảo cho việc hoàn thiện pháp luật Việt Nam trong điều kiện cụ thể.

Ngoài ra, bài viết còn sử dụng phương pháp phân tích tình huống và lập luận pháp lý để đánh giá những rủi ro pháp lý tiềm ẩn đằng sau việc thiếu quy định pháp luật cụ thể về nghĩa vụ minh bạch dữ liệu huấn luyện AI, đặc biệt trong các tranh chấp liên quan đến quyền sở hữu trí tuệ. Phương pháp này cho phép làm rõ mối liên hệ giữa quy định pháp luật và thực tiễn áp dụng, đồng thời tăng tính thuyết phục cho các kiến nghị chính sách được đề xuất.

3. Cơ sở lý thuyết

3.1. Dữ liệu huấn luyện trong hoạt động trí tuệ nhân tạo

Trong các hoạt động trí tuệ nhân tạo hiện đại, đặc biệt là các mô hình học máy (machine learning) và học sâu (deep learning), dữ liệu huấn luyện đóng vai trò là yếu tố đầu vào quyết định đến hiệu năng, độ chính xác và sự phù hợp của tác phẩm. Nhiều nghiên cứu chỉ ra,  chất lượng và quy mô dữ liệu huấn luyện có ảnh hưởng trực tiếp đến mức độ tin cậy và khả năng ứng dụng của các hệ thống AI trong thực tiễn [1].

Về mặt kỹ thuật, quá trình huấn luyện AI đòi hỏi khối lượng dữ liệu lớn, đa dạng và được xử lý tự động, khiến việc kiểm soát nguồn gốc và tình trạng pháp lý của dữ liệu trở nên phức tạp. Dữ liệu huấn luyện thường được thu thập từ nhiều nguồn khác nhau, bao gồm dữ liệu công khai trên môi trường số, cơ sở dữ liệu thương mại, nội dung do người dùng tự tạo ra và các kho dữ liệu chuyên ngành. Quá trình thu thập và xử lý dữ liệu này chủ yếu được thực hiện tự động với quy mô lớn, khiến việc kiểm soát nguồn gốc và tình trạng pháp lý của dữ liệu trở nên phức tạp [2]. Đặc biệt, các tập dữ liệu huấn luyện có thể chứa nhiều đối tượng đã được bảo hộ quyền sở hữu trí tuệ như tác phẩm văn học, nghệ thuật, phần mềm và cơ sở dữ liệu, từ đó làm phát sinh các vấn đề pháp lý liên quan đến việc khai thác và sử dụng dữ liệu trong huấn luyện AI [3]. Việc sử dụng các dữ liệu này để huấn luyện AI, dù không nhằm mục đích sao chép trực tiếp hay phân phối lại, vẫn có thể ảnh hưởng đến quyền và lợi ích hợp pháp của chủ thể quyền nếu thiếu cơ chế minh bạch và kiểm soát phù hợp.

3.2. Minh bạch trong trí tuệ nhân tạo và minh bạch dữ liệu huấn luyện

Minh bạch được thừa nhận rộng rãi là một trong những nguyên tắc cốt lõi trong quản trị trí tuệ nhân tạo, bên cạnh các nguyên tắc như an toàn, trách nhiệm giải trình và tôn trọng quyền con người [4]. Trong bối cảnh phát triển mạnh mẽ AI, minh bạch không chỉ giới hạn ở việc giải thích thuật toán hay kết quả đầu ra, mà còn bao gồm minh bạch về dữ liệu được sử dụng để huấn luyện.

Có thể hiểu, minh bạch dữ liệu huấn luyện được hiểu là khả năng cung cấp thông tin cần thiết về nguồn gốc, loại hình và phạm vi dữ liệu được sử dụng, đặc biệt trong những trường hợp phát sinh rủi ro pháp lý hoặc tranh chấp quyền lợi [5]. Cách tiếp cận này không yêu cầu công khai toàn bộ tập dữ liệu, mà hướng tới việc thiết lập cơ chế truy xuất thông tin có điều kiện, nhằm cân bằng giữa yêu cầu bảo vệ bí mật kinh doanh và quyền tiếp cận thông tin chính đáng của các chủ thể bị ảnh hưởng.

3.3. Quyền sở hữu trí tuệ và vấn đề khai thác dữ liệu trong môi trường số

Quyền sở hữu trí tuệ được phát sinh nhằm bảo vệ thành quả sáng tạo và khuyến khích đổi mới thông qua việc trao cho chủ thể các quyền tài sản và quyền nhân thân nhất định. Tuy nhiên, với cơ chế xử lý dữ liệu tự động của hệ thống AI hiện nay, ranh giới giữa việc sử dụng hợp pháp và hành vi xâm phạm quyền sở hữu trí tuệ trở nên khó xác định hơn so với các hình thức khai thác truyền thống [6].

Nhiều nghiên cứu cho thấy, việc sử dụng tác phẩm được bảo hộ làm dữ liệu đầu vào cho quá trình huấn luyện AI có thể ảnh hưởng đến lợi ích kinh tế của chủ thể quyền, ngay cả khi hệ thống AI không sao chép hay phân phối lại tác phẩm dưới hình thức truyền thống [7]. Khi pháp luật không thiết lập nghĩa vụ minh bạch về nguồn dữ liệu huấn luyện, tác giả khó có khả năng nhận biết việc tác phẩm của mình bị sử dụng, từ đó làm giảm hiệu quả thực thi quyền sở hữu trí tuệ trong thực tiễn [8].

4. Kết quả và thảo luận

4.1. Quy định về minh bạch trong Luật Trí tuệ nhân tạo năm 2025

Khi trí tuệ nhân tạo phổ biến và sử dụng rộng rãi như ngày này thì việc luật hóa là điều cần thiết. Do vậy, Luật Trí tuệ nhân tạo năm 2025 được ban hành nhằm thiết lập khung pháp lý cơ bản cho việc nghiên cứu, phát triển và ứng dụng AI tại Việt Nam. Một trong những nội dung quan trọng và nổi bật của Luật là việc ghi nhận các nguyên tắc quản trị AI, trong đó có nguyên tắc minh bạch, an toàn và trách nhiệm giải trình trong quá trình phát triển và sử dụng hệ thống AI. Theo đó, chủ thể phát triển và sử dụng hệ thống AI có trách nhiệm bảo đảm mức độ minh bạch phù hợp đối với hoạt động của hệ thống, đặc biệt là trong các trường hợp AI được sử dụng để hỗ trợ ra quyết định hoặc có thể ảnh hưởng đến quyền và lợi ích hợp pháp của tổ chức, cá nhân. Tuy nhiên, các quy định này chủ yếu tập trung vào minh bạch chức năng và hoạt động của hệ thống AI, chưa đặt ra nghĩa vụ cụ thể liên quan đến nguồn dữ liệu được sử dụng để huấn luyện AI.

Luật Trí tuệ nhân tạo 2025 hiện chưa có quy định yêu cầu chủ thể phát triển AI phải công bố, lưu trữ hoặc cung cấp thông tin về nguồn dữ liệu huấn luyện trong những trường hợp phát sinh tranh chấp, khiếu nại hoặc yêu cầu bảo vệ quyền sở hữu trí tuệ. Khoản 5 Điều 7 Luật Sở hữu trí tuệ năm 2025 là bước tiến quan trọng khi lần đầu tiên pháp luật Việt Nam thừa nhận khả năng sử dụng dữ liệu liên quan đến đối tượng quyền sở hữu trí tuệ cho mục đích huấn luyện trí tuệ nhân tạo trong những điều kiện nhất định. Quy định này góp phần tạo hành lang pháp lý ban đầu nhằm cân bằng giữa yêu cầu phát triển công nghệ và bảo vệ quyền của chủ thể sáng tạo. Tuy nhiên, quy định này mới dừng lại ở việc xác lập giới hạn “không bị coi là xâm phạm”, mà chưa giải quyết được vấn đề cốt lõi là cơ chế minh bạch và kiểm soát việc sử dụng dữ liệu trong thực tiễn. Việc thiếu quy định về nghĩa vụ minh bạch dữ liệu huấn luyện khiến các nguyên tắc minh bạch được ghi nhận trong luật khó được hiện thực hóa trong thực tiễn, đặc biệt khi AI được huấn luyện trên dữ liệu thu thập tự động với quy mô lớn.

4.2. Quyền của chủ thể quyền sở hữu trí tuệ theo Luật Sở hữu trí tuệ

Luật Sở hữu trí tuệ (sửa đổi, bổ sung năm 2025) hiện hành xác lập đầy đủ các quyền của chủ thể có quyền bảo hộ, bao gồm quyền nhân thân, quyền tài sản và quyền yêu cầu bảo vệ khi quyền sở hữu trí tuệ bị xâm phạm. Đối với quyền tác giả và quyền liên quan, pháp luật trao quyền kiểm soát việc khai thác, sử dụng tác phẩm, cũng như quyền yêu cầu chấm dứt hành vi xâm phạm và bồi thường thiệt hại theo quy định của pháp luật cho chủ thể có quyền.

Tuy nhiên, các quy định của Luật Sở hữu trí tuệ được xây dựng chủ yếu để điều chỉnh các hành vi khai thác truyền thống như sao chép, phân phối, truyền đạt hoặc sử dụng tác phẩm dưới hình thức hữu hình hoặc số hóa. Trong kỷ nguyên trí tuệ nhân tạo hiện tại, việc sử dụng tác phẩm được bảo hộ làm dữ liệu huấn luyện thường diễn ra ở giai đoạn tiền xử lý dữ liệu, hay đúng hơn là giai đoạn tiếp thu thông tin, không nhằm mục đích khai thác trực tiếp tác phẩm, khiến việc áp dụng các quy định hiện hành gặp nhiều khó khăn.

Đáng chú ý, Luật Sở hữu trí tuệ không thiết lập cơ chế buộc chủ thể sử dụng AI phải minh bạch hoặc cung cấp thông tin về việc tác phẩm được bảo hộ có bị sử dụng trong quá trình huấn luyện AI hay không. Thậm chí, chủ thể sử dụng AI cũng không chắc chắn được về nguồn dữ liệu đầu vào của hệ thống AI nếu không trực tiếp cung cấp. Khi thiếu nghĩa vụ minh bạch từ phía chủ thể phát triển AI, các quyền được ghi nhận trong Luật Sở hữu trí tuệ trở nên khó thực thi trên thực tế, do chủ thể có quyền không có khả năng tiếp cận thông tin cần thiết để chứng minh hành vi xâm phạm.

4.3. Luật Bảo vệ dữ liệu cá nhân và những giới hạn trong việc bảo vệ quyền sở hữu trí tuệ

Luật Bảo vệ dữ liệu cá nhân năm 2025 ghi nhận các nguyên tắc xử lý dữ liệu cá nhân, quyền của chủ thể dữ liệu và nghĩa vụ của bên kiểm soát, bên xử lý dữ liệu, trong đó có yêu cầu về minh bạch và thông báo khi xử lý dữ liệu cá nhân.

Tuy nhiên, phạm vi điều chỉnh của Luật Bảo vệ dữ liệu cá nhân chủ yếu tập trung vào dữ liệu cá nhân, không bao quát đầy đủ các loại dữ liệu khác được sử dụng để huấn luyện AI, đặc biệt là dữ liệu chứa các đối tượng được bảo hộ quyền sở hữu trí tuệ nhưng không gắn với thông tin cá nhân. Do đó, các cơ chế minh bạch và bảo vệ được thiết lập trong pháp luật về dữ liệu cá nhân chưa thể áp dụng hiệu quả cho việc bảo vệ quyền sở hữu trí tuệ trong bối cảnh huấn luyện AI. Sự thiếu kết nối giữa pháp luật về dữ liệu và pháp luật về sở hữu trí tuệ dẫn đến tình trạng dữ liệu huấn luyện AI nằm ngoài các cơ chế kiểm soát pháp lý cụ thể, tạo ra khoảng trống trong việc bảo vệ quyền và lợi ích hợp pháp của các chủ thể sáng tạo.

Tóm lại, pháp luật Việt Nam hiện nay chưa thiết lập một cơ chế pháp lý thống nhất và cụ thể về nghĩa vụ minh bạch nguồn dữ liệu huấn luyện trí tuệ nhân tạo. Các quy định hiện hành tồn tại song song nhưng thiếu sự liên kết và thống nhất, trong khi dữ liệu huấn luyện AI lại là yếu tố giao thoa trực tiếp giữa công nghệ, dữ liệu và quyền sở hữu trí tuệ. Khoảng trống pháp lý này không chỉ làm giảm hiệu quả bảo vệ quyền sở hữu trí tuệ mà còn tiềm ẩn rủi ro pháp lý đối với các chủ thể phát triển và ứng dụng AI, đặc biệt trong bối cảnh AI ngày càng được thương mại hóa và triển khai trên diện rộng.

4.4. Những vấn đề pháp lý đặt ra từ việc thiếu nghĩa vụ minh bạch dữ liệu huấn luyện trí tuệ nhân tạo

Việc pháp luật Việt Nam chưa thiết lập nghĩa vụ minh bạch nguồn dữ liệu huấn luyện AI khiến chủ thể quyền sở hữu trí tuệ gặp trở ngại lớn trong việc nhận diện và chứng minh hành vi xâm phạm. Trong thực tiễn, quá trình huấn luyện AI thường được thực hiện trên các tập dữ liệu lớn, thu thập tự động và trải qua nhiều bước tiền xử lý, dẫn đến việc tác phẩm được bảo hộ bị “hòa tan” trong dòng dữ liệu tổng hợp. Khi không có nghĩa vụ công bố hoặc cung cấp thông tin về nguồn dữ liệu huấn luyện, chủ thể có quyền gần như không có khả năng biết được tác phẩm của mình có bị sử dụng hay không. Điều này làm suy giảm đáng kể hiệu lực của các quyền được ghi nhận trong Luật Sở hữu trí tuệ, bởi quyền yêu cầu bảo vệ trên thực tế lại phụ thuộc vào khả năng tiếp cận thông tin mà pháp luật chưa bảo đảm.

Thiếu minh bạch dữ liệu huấn luyện không chỉ ảnh hưởng đến chủ thể quyền sở hữu trí tuệ mà còn tạo ra rủi ro pháp lý cho chính các tổ chức, doanh nghiệp phát triển và ứng dụng AI. Trong trường hợp phát sinh tranh chấp, việc không có hồ sơ hoặc cơ chế truy xuất nguồn dữ liệu huấn luyện khiến chủ thể phát triển AI khó chứng minh tính hợp pháp của hoạt động khai thác dữ liệu. Tình trạng này dẫn đến rủi ro pháp lý, khi cùng một hành vi huấn luyện AI có thể bị đánh giá khác nhau tùy theo cách diễn giải của cơ quan có thẩm quyền.

Minh bạch dữ liệu huấn luyện AI có mối liên hệ trực tiếp với việc bảo đảm quyền con người, đặc biệt là quyền tiếp cận thông tin và quyền được bảo vệ lợi ích hợp pháp trong môi trường số. Khi các hệ thống AI được huấn luyện trên dữ liệu không rõ nguồn gốc, người bị ảnh hưởng bởi quyết định hoặc sản phẩm của AI không có cơ sở để kiểm tra tính hợp pháp, công bằng và đạo đức của hệ thống đó. Trong bối cảnh Việt Nam đang thúc đẩy chuyển đổi số toàn diện, việc thiếu nghĩa vụ minh bạch dữ liệu huấn luyện có thể làm suy giảm niềm tin xã hội đối với các ứng dụng AI, từ đó ảnh hưởng tiêu cực đến mục tiêu phát triển kinh tế số và xã hội số.

5. Một số kiến nghị đề xuất nhằm hoàn thiện pháp luật về nghĩa vụ minh bạch dữ liệu huấn luyện trí tuệ nhân tạo

Mặc dù pháp luật Việt Nam đã bước đầu hình thành khung pháp lý điều chỉnh trí tuệ nhân tạo thông qua Luật Trí tuệ nhân tạo năm 2025 và các văn bản pháp luật có liên quan, nhưng hiện vẫn chưa thiết lập nghĩa vụ minh bạch cụ thể đối với nguồn dữ liệu huấn luyện AI, đặc biệt trong mối liên hệ với việc bảo vệ quyền sở hữu trí tuệ.

Thứ nhất, cần thiết lập nghĩa vụ minh bạch ở mức độ hợp lý và có điều kiện. Pháp luật Việt Nam không nên tiếp cận nghĩa vụ minh bạch dữ liệu huấn luyện theo hướng công khai toàn bộ tập dữ liệu, bởi điều này có thể xâm phạm bí mật kinh doanh và làm tăng chi phí tuân thủ. Thay vào đó, cần thiết kế nghĩa vụ minh bạch theo hướng có điều kiện, chỉ kích hoạt trong các trường hợp phát sinh rủi ro pháp lý, khiếu nại hoặc tranh chấp liên quan đến quyền sở hữu trí tuệ. Cách tiếp cận này vừa phù hợp với điều kiện phát triển công nghệ của Việt Nam, vừa bảo đảm tính khả thi trong thực tiễn áp dụng.

Thứ hai, cần bổ sung nghĩa vụ lưu trữ và truy xuất thông tin về dữ liệu huấn luyện. Việc yêu cầu chủ thể phát triển AI có trách nhiệm lưu trữ thông tin cơ bản về nguồn dữ liệu huấn luyện, phạm vi sử dụng và phương thức xử lý dữ liệu là rất cần thiết. Thông tin này không nhất thiết phải công khai, nhưng phải có khả năng cung cấp được cho cơ quan có thẩm quyền hoặc các chủ thể liên quan khi có yêu cầu hợp pháp. Cơ chế lưu trữ và truy xuất thông tin sẽ tạo nền tảng pháp lý quan trọng để bảo đảm khả năng thực thi quyền sở hữu trí tuệ trong môi trường AI.

Thứ ba, cần tăng cường sự liên thông giữa pháp luật AI và pháp luật sở hữu trí tuệ. Việc hoàn thiện nghĩa vụ minh bạch dữ liệu huấn luyện cần được đặt trong mối quan hệ liên ngành giữa Luật Trí tuệ nhân tạo và Luật Sở hữu trí tuệ. Pháp luật AI nên đóng vai trò là khung điều chỉnh hoạt động công nghệ, trong khi pháp luật sở hữu trí tuệ tiếp tục bảo vệ quyền của chủ thể sáng tạo, với cơ chế minh bạch dữ liệu đóng vai trò cầu nối giữa hai lĩnh vực này. Sự liên kết và thống nhất này sẽ góp phần khắc phục tình trạng phân mảnh pháp luật và nâng cao hiệu quả điều chỉnh của hệ thống pháp luật Việt Nam.

Thứ tư, cần hướng tới mô hình quản trị AI có trách nhiệm. Có thể thấy, nghĩa vụ minh bạch dữ liệu huấn luyện không chỉ hướng tới kiểm soát rủi ro pháp lý, mà còn tạo dựng niềm tin xã hội, thúc đẩy đổi mới sáng tạo và bảo đảm sự phát triển bền vững của trí tuệ nhân tạo trong kỷ nguyên chuyển đổi số. Sự phát triển nhanh chóng của trí tuệ nhân tạo trong bối cảnh chuyển đổi số đã làm thay đổi giới hạn cách thức khai thác và sử dụng dữ liệu, trong đó dữ liệu huấn luyện giữ vai trò trung tâm đối với hiệu quả và tác động xã hội của các hệ thống AI.

6. Kết luận

Sự phát triển nhanh chóng của trí tuệ nhân tạo trong bối cảnh chuyển đổi số đã làm thay đổi giới hạn cách thức khai thác và sử dụng dữ liệu, trong đó dữ liệu huấn luyện giữ vai trò trung tâm đối với hiệu quả và tác động xã hội của các hệ thống AI. Qua nghiên cứu cho thấy, mặc dù pháp luật Việt Nam đã có bước tiến lớn trong hình thành khung pháp lý quản lý và phát triển công nghệ AI tại Việt Nam thông qua Luật Trí tuệ nhân tạo năm 2025 và các văn bản pháp luật có liên quan, nhưng hiện vẫn chưa thiết lập nghĩa vụ minh bạch cụ thể đối với nguồn dữ liệu huấn luyện AI, đặc biệt trong mối liên hệ với việc bảo vệ quyền sở hữu trí tuệ.

Điều này không chỉ làm suy giảm khả năng thực thi quyền của chủ thể sở hữu trí tuệ mà còn tiềm ẩn rủi ro pháp lý cho các tổ chức, doanh nghiệp phát triển và ứng dụng AI, đồng thời ảnh hưởng đến niềm tin xã hội đối với các công nghệ mới. Khoảng trống pháp lý này cho thấy sự cần thiết phải tiếp cận vấn đề minh bạch dữ liệu huấn luyện như một nội dung trọng tâm của quản trị AI có trách nhiệm, thay vì chỉ coi đây là vấn đề kỹ thuật hoặc tự điều chỉnh của thị trường.

Trên cơ sở phân tích lý luận và thực trạng pháp luật, bài viết đề xuất định hướng hoàn thiện pháp luật Việt Nam theo hướng thiết kế nghĩa vụ minh bạch dữ liệu huấn luyện ở mức độ hợp lý, có điều kiện và gắn kết chặt chẽ với pháp luật sở hữu trí tuệ. Cách tiếp cận này vừa bảo đảm khả năng bảo vệ quyền và lợi ích hợp pháp của các chủ thể sáng tạo, vừa không kìm hãm hoạt động đổi mới sáng tạo và phát triển trí tuệ nhân tạo trong kỷ nguyên chuyển đổi số.

Tài liệu trích dẫn:

[1] OECD (2019). OECD Principles on Artificial Intelligence, OECD Publishing; WIPO (2020). WIPO Technology Trends 2019: Artificial Intelligence.

[2] OECD (2023). AI. Data and Privacy: Challenges and Policy Responses.

[3] WIPO (2021). Revised Issues Paper on Intellectual Property Policy and Artificial Intelligence.

[4] OECD (2019); Floridi, L. et al. (2018). AI4People - An Ethical Framework for a Good AI Society, Minds and Machines.

[5] European Commission (2021). Proposal for a Regulation laying down harmonised rules on Artificial Intelligence (Artificial Intelligence Act); Veale, M. & Borgesius, F. Z. (2021). Demystifying the Draft EU Artificial Intelligence Act, Computer Law Review International.

[6] Samuelson, P. (2020). Copyright and Artificial Intelligence, Communications of the ACM.

[7] Gervais, D. (2022). AI, Copyright, and the Limits of Fair Use, Vanderbilt Journal of Entertainment & Technology Law; Guadamuz, A. (2017). Do Androids Dream of Electric Copyright? Comparative Analysis of Originality in Artificial Intelligence Generated Works. Intellectual Property Quarterly, 2, 169-186.

[8] WIPO (2021).

Tài liệu tham khảo:

Quốc hội (2005). Luật Sở hữu trí tuệ số 50/2005/QH11 đã được sửa đổi, bổ sung một số điều theo Luật số 36/2009/QH12, Luật số 42/2019/QH14, Luật số 07/2022/QH15 và Luật số 93/2025/QH15.

Quốc hội (2025). Luật Bảo vệ dữ liệu cá nhân (Luật số 91/2025/QH15 ngày 26/6/2025).

Quốc hội (2025). Luật Trí tuệ nhân tạo (Luật số 134/2025/QH15 ngày 10/12/2025).

Quốc hội (2025). Luật Sửa đổi, bổ sung một số điều của Luật Sở hữu trí tuệ (Luật số 131/2025/QH15 ngày 10/12/2025).

 

Transparency obligations in AI training data and the protection of intellectual property in Vietnam

Do Huong Giang

Lecturer, Binh Duong Economics and Technology University

 ABSTRACT:

In the context of rapid digital transformation, artificial intelligence (AI) systems are increasingly developed on the basis of heterogeneous training data, much of which comprises works and materials protected by intellectual property rights. The use of such data raises pressing concerns regarding the transparency and traceability of AI training sources, both to safeguard the lawful rights and interests of relevant stakeholders and to promote the responsible development of AI technologies. Through analytical, synthetic, and comparative examination of the 2025 Artificial Intelligence Law, the 2025 amended Law on Intellectual Property, and related legal instruments, this article finds that Vietnamese law has yet to establish specific obligations governing the disclosure or traceability of AI training data. This regulatory lacuna risks undermining the effectiveness of intellectual property protection and generating legal uncertainties in the deployment and application of AI systems. On this basis, the article advances several directions for reform, emphasizing enhanced transparency requirements for AI training data in order to foster a safe, transparent, and sustainable legal framework for scientific and technological development in Vietnam in the digital era.

Keywords: AI training data, data transparency, intellectual property (IP), artificial intelligence (AI).

[Tạp chí Công Thương - Các kết quả nghiên cứu khoa học và ứng dụng công nghệ, số 7 năm 2026]

Tạp chí Công Thương