Xây dựng và quản lý nguồn dữ liệu lớn Big Data - nguồn cơ sở và động lực cho công cuộc chuyển đổi số tại Công ty Thủy điện Đồng Nai

PHẠM DUY PHƯỚC - Công ty Thủy điện Đồng Nai

TÓM TẮT:

Sự phát triển nhanh chóng của công nghệ hiện đại đã dẫn đến sự gia tăng về dữ liệu trên mọi lĩnh vực. Thuật ngữ dữ liệu lớn Big Data được đặt ra để mô tả đầy đủ ý nghĩa của kiểu dữ liệu và xu hướng tương lai của nó.

Thời đại công nghệ kỹ thuật số đã thúc đẩy các doanh nghiệp hướng tới việc tìm kiếm một chiến lược để chuyển đổi, vượt qua những thay đổi của thị trường, cạnh tranh thành công và giành được thuận lợi. Tại công ty thủy điện Đồng Nai, công tác xây dựng và quản lý nguồn dữ liệu lớn Big Data đóng một vai trò rất quan trọng.

Với tầm nhìn chiến lược hơn mười năm qua, Công ty thủy điện Đồng Nai đã chủ động tích lũy được nguồn dữ liệu rất lớn từ các hệ thống vận hành của nhà máy. Đây là nguồn tài nguyên vô cùng quý giá mà từ đây, công tác số hóa, thông minh hóa, tự động hóa, chuyển đổi số của công ty được đặt nền móng xây dựng.

Trong bài báo này, tác giả trình bày về việc ứng dụng công nghệ thông tin công tác xây dựng, quản lý nguồn dữ liệu lớn và các ứng dụng của nó trong công cuộc chuyển đổi số tại đơn vị. Tác giả đã xây dựng thành công hệ thống hạ tầng máy chủ vật lý và phần mềm hệ thống.

Cụ thể, bộ kết nối dữ liệu API theo mô hình Server – Client được xây dựng. Các API được xây dựng có tốc độ truy cập và độ tin cậy cao, tính bảo mật tốt, cú pháp dễ sử dụng và khả năng bảo trì dễ dàng. Ngoài ra, các API được xây dựng để tương thích và có thể cấp quyền cho các ứng dụng khác sử dụng chung nguồn tài nguyên, tạo điều kiện cho sự phát triển ứng dụng sau này.

Các hệ thống được xây dựng bằng các Framework nổi tiếng như Angular, Laravel, Apache Spark có độ uy tín cao, bảo mật tốt. Nghiên cứu được thử nghiệm dựa trên dữ liệu từ hai nhà máy Thủy điện Đồng Nai 3 và 4.

Kết quả cho thấy việc ứng dụng công nghệ thông tin trong xây dựng dữ liệu lớn Big Data đem lại được nhiều kết quả tốt trong công cuộc chuyển đổi số. Nghiên cứu này là cơ sở mang đến nhiều sự thay đổi tích cực trong nghiên cứu khoa học, góp phần thúc đẩy công cuộc chuyển đổi số của Công ty Thủy điện Đồng Nai đạt nhiều thành quả tốt đẹp trong tương lai.

Từ khóa: Chuyển đổi số; Dữ liệu lớn; công nghệ trí tuệ nhân tạo; Internet vạn vật; Hệ thống điều khiển.

CHỮ VIẾT TẮT:

AI Artificial Intelligence
DCS Distributed Control System
IoTs Internet of Things
API Application Programming Interface
OLTP Online Transaction Processing
OLAP Online Analytical Processing
ETL Extract -  Transform - Load
ELT Extract – Load – Transform
JWT Json Web Token

1. Đặt vấn đề

1.1. Tổng quan về Big Data

Big Data hay dữ liệu lớn là thuật ngữ chỉ về các tập dữ liệu khổng lồ và phức tạp, đến mức khó có thể xử lý được bằng các phương pháp truyền thống.

Big Data thực chất đã hình thành từ khoảng thập kỷ 80 - 90 của thế kỷ XX. Gần đây nhất, nhiều doanh nghiệp đã bắt đầu nhận ra số lượng người dùng được tạo ra thông qua Youtube, Facebook và các dịch vụ trực tuyến khác là rất lớn. Nhờ có Internet of Things mà khối lượng Big Data ngày càng lớn với tốc độ nạp vô cùng nhanh chóng.

Lý do là vì dữ liệu ngày nay không chỉ do con người tạo ra mà còn do máy móc tạo tự động. Big Data đã trở thành một tài nguyên quý giá đối với các doanh nghiệp, đặc biệt là các doanh nghiệp thương mại điện tử, giúp doanh nghiệp tăng lợi thế cạnh tranh và phục vụ khách hàng tốt hơn. 

Hiện nay, Big Data được xem như một dạng tài nguyên quý báu không kém gì vàng, bạc cả. Big Data còn đóng vai trò rất lớn trong việc đưa các chỉ số, quyết định, phát triển trí tuệ nhân tạo. Bởi một trong số những yếu tố quyết định AI có thông minh hay không chính là nằm ở tập dữ liệu mà chúng ta cho nó học.

Vì vậy có thể xác định rằng, khi doanh nghiệp bạn làm chủ được Big Data của mình, thì nó sẽ giúp doanh nghiệp bạn tăng hiệu suất và từ đó lợi tức của sẽ gia tăng đáng kể.

Trong nghiên cứu này, tác giả tập trung nghiên cứu giải pháp ứng dụng kỹ thuật, công nghệ mới nhất để xây dựng nguồn dữ liệu lớn Big Data tại công ty thủy điện Đồng Nai. Hệ thống xây dựng bao gồm đầy đủ các chức năng thu thập, đọc, viết, cập nhật dữ liệu vào hệ thống với tốc độ nhanh chóng, độ tin cậy cao, an toàn bảo mật thông tin, đảm bảo việc ứng dụng …

1.2. Các nguồn dữ liệu tại công ty thủy điện Đồng Nai

1.2.1. Hệ thống điều khiển nhà máy DCS

Hình 1: Mô hình hệ thống điều khiển phân tán DCS

dữ liệu lớn Big Data

Hệ thống điều khiển có chức năng điều khiển và giám sát mọi hoạt động của các hệ thống trong nhà máy. Hệ thống DCS thực hiện gửi các lệnh điều khiển đến các hệ thống như điều tốc, kích từ, bảo vệ, phụ dịch để thực hiện công việc. Và ngược lại, các hệ thống cấp slave có nhiệm vụ phản hồi các thông số và tình trạng của hệ thống đến hệ thống DCS để giám sát.

Như vậy, hệ thống DCS là nơi lưu trữ tình trạng hoạt động của hầu hết nhà máy. Đây là nơi lưu trữ nguồn dữ liệu liên tục theo thời gian thực, có khả năng lập trình để gửi đến các môi trường phát triển ứng dụng khác. Các tín hiệu này có thể kể đến như điện áp, dòng điện, công suất phát tổ máy, tình trạng các máy cắt, dao cách ly, tiếp địa, nhiệt độ, độ ẩm và độ rung đảo của tổ máy, bạc đỡ, ổ hướng, tốc độ quay.

1.2.2. Hệ thống quan trắc thông số hồ đập, thủy văn

Hình 2.  Hệ thống quan trắc tại đập tràn thủy điện Đồng Nai 3 và 4

Hệ thống quan trắc tại đập tràn thủy điện Đồng Nai 3 và 4

Có rất nhiều loại cảm biến được lắp đặt xây dựng tại công trình đập tràn nhà máy thủy điện Đồng Nai 3 và 4. Có thể kể đến như cảm biến đo ứng suất, áp lực nước thấm, lưu lượng nước thấm qua đập, chuyển vị lún, độ mở rộng khe nhiệt, nhiệt độ vĩnh cửu, độ co giãn trong thân đập theo 3 phương. Các tín hiệu này được đo đạc chính xác và gửi về bộ điều khiển thu thập dữ liệu trung tâm tại đập. Một đường truyền kết nối an toàn được thiết lập được dùng để gửi tín hiệu này đến phòng điều khiển trung tâm để thu thập và phân tích.

1.2.3. Hệ thống đo lường cảm biến thông minh

Để đảm bảo công tác liên tục giám sát tất cả các thông số của nhà máy, rất nhiều các loại cảm biến thông minh đã được nghiên cứu lắp đặt tại công trình thủy điện Đồng Nai. Không giống như các loại cảm biến thông thường, các loại cảm biến thông minh cho phép chúng ta thu thập dữ liệu sau mỗi đơn vị thời gian, lưu trữ và gửi chúng về một môi trường chung, nơi mà ta có thể lập trình để lưu trữ và sử dụng chúng sau này.

1.2.4. Thông tin giá cả thị trường điện

Phát triển thị trường điện cạnh tranh là xu hướng phát triển chung của các nước trên thế giới, là động lực cho hoạt động hiệu quả trong sản xuất kinh doanh điện và phát triển kinh tế xã hội. Do đó, công tác chào giá mua bán điện tại công ty thủy điện Đồng Nai luôn được chú trọng và nghiên cứu.

Tuy nhiên, do sự thay đổi bất thường của nhu cầu sử dụng điện, và sự tham gia của nhiều tổ chức mua bán điện khác, công tác chào giá phù hợp để mang lại lợi ích kinh tế cao cho công ty phải được dự đoán trước. Hiểu được tầm quan trọng này, dữ liệu thị trường mua bán điện được lưu trữ để phát triển các ứng dụng trí tuệ nhân tạo, giúp nhân viên thị trường điện có thêm thông tin và quyết định chính xác.

1.2.5. Lịch sử sự cố, hỏng hóc thiết bị

Các dữ liệu lịch sử đo đạc, kiểm tra bằng mắt thường như triệu chứng, nguyên nhân, vị trí và tên thiết bị hư hỏng có thể giúp ta chuẩn đoán tình trạng “bệnh tình” của thiết bị. Lúc này kỹ sư nhà máy đóng vai trò như một vị bác sĩ khám bệnh định kỳ, thực hiện công việc chuẩn đoán các căn bệnh tiềm ẩn có thể sảy đến cho bệnh nhân. Điều đó thật ý nghĩa khi chúng giúp ta ngăn chặn các sự cố hỏng hóc lớn hơn, hoặc sự cố dây truyền có thể sảy ra, gây thiệt hại to lớn cho doanh nghiệp.

1.2.6. Dữ liệu từ các sáng kiến, đề tài chuyển đổi số

Hiện nay, với chủ trương khuyến khích và đầu tư công nghệ số từ ban Lãnh đạo tập đoàn, các dữ liệu từ các sáng kiến sinh ra ngày một đa dạng và phong phú. Kể đến như sáng kiến “Giám sát trực tuyến nhiệt độ máy biến thế chính tại nhà máy thủy điện Đồng Nai 3”. Dữ liệu nhiệt độ đo đạc từ các điểm trên máy biến thế được liên tục gửi Server của công ty để thực hiện công tác giám sát trực tuyến. 

1.2.7. Dữ liệu chia sẻ từ công ty bạn

Nhà máy Thủy Điện Đồng Nai 3 và 4 nằm trên lưu vực sông Đồng Nai, nơi các nhà máy thủy điện khác được xây dựng để khai thác dòng nước theo phương thức bậc thang. Do đó, việc chia sẻ dữ liệu liên quan như lưu lượng nước xả về hạ lưu, thời gian xả, tình trạng hồ chứa thượng lưu, hạ lưu đóng một vai trò rất quan trọng trọng việc định hướng nhận nước về, dự đoán lưu lượng nước về, khả năng lũ lụt, dự đoán hạn hán kéo dài.

2. Phương pháp nghiên cứu

2.1. Tại sao phải xây dựng Big Data tại Công ty Thủy điện Đồng Nai

Dữ liệu hoạt động của Công ty Thủy điện Đồng Nai được sinh ra mỗi ngày. Để quản lý và sử dụng nguồn dữ liệu đó, việc xây dựng một cơ sơ dữ liệu MySQL thường được nhắc đến đầu tiên. Các dữ liệu nhà máy đơn thuần là các dữ liệu có cấu trúc được lưu trữ ở dạng bảng trong cơ sở dữ liệu. Dữ liệu đó sẽ được trích xuất ở các định dạng có thể đọc và phân tích trên các máy tính cá nhân như text, csv, excel, hiện thị trên giao diện người dùng, …

Tuy nhiên, sau một thời gian dài sử dụng, kích thước cơ sở dữ liệu đó trở nên to lớn và phức tạp khiến các kỹ sư dữ liệu không thể xử lý công việc theo cách trước đó được nữa. Hơn thế nữa, cơ sở dữ liệu lớn đồng nghĩa với việc phải nâng cấp hệ thống lưu trữ MySQL gây rất tốn kém so với giá trị nó có thể mang lại. Vì vậy, Big Data được xây dựng để phục vụ cho công việc xử lý, lưu trữ và phân tích dữ liệu lớn.

Chúng ta có thể đánh giá có nên xây dựng Big Data hay không dựa trên tiêu chí 3V như sau:

  • Volume: độ lớn, khối của cơ sở dữ liệu: >1TB.
  • Velocity: Tốc độ gia tăng của dữ liệu : ~ 1GB/ngày.
  • Variety: Dữ liệu sinh ra đa dạng: text, csv, hình ảnh, âm thanh, video,…

2.2. Công nghệ để thực hiện dữ liệu lớn Big Data

Hình 3:  Mô hình lưu trữ thông tin nhà máy

Mô hình lưu trữ thông tin nhà máy

Để xây dựng Big Data, các framework nổi tiếng có thể kể đến như Apache Hadoop. Apache Kafka. Trong nghiên cứu ngày, tác giả sử dụng Apache Spark lập trình bằng ngôn ngữ Python để thực hiện nghiên cứu.

Ngoài ra, để xây dựng cơ sở dữ liệu MySQL, tác giả sử dụng framework Laravel lập trình bằng ngôn ngữ PHP để lập trình hệ thống Backend.

2.3. Xây dựng mô hình lưu trữ Big Data

Trong nghiên cứu này, tác giả sử dụng 3 nơi để lưu trữ dữ liệu. Do đặc tính và nguồn gốc của dữ liệu khác nhau, chúng sẽ được sắp xếp phù hợp để lưu trữ tại Database, Data Lake, Data Warehouse.

Database được sử dụng để lưu trữ các thông tin có cấu trúc thuận tiện cho việc tìm kiếm, truy xuất, thao tác và phân tích dữ liệu dễ dàng theo kiên trúc mô hình OLTP. Do đặc tính sao lưu và truy vấn nhanh chóng, Database được sử dụng để xử lý các dữ liệu nhà máy theo thời gian thực trước khi được gửi đến Data Lake và Data Warehouse. Database không được thiết kế để lưu trữ và phân tích dữ liệu lịch sử có kích thước to lớn. Do đó, dữ liệu từ Database sẽ được vận chuyển đến Data Lake theo từng chu kỳ lập trình để tiến hành xử lí thông tin.

Data Lake và Data Warehouse sử kiến trúc OLAP. Kiến trúc OLAP  hỗ trợ việc truy vấn, phân tích các dữ liệu phức tạp trong quá khứ một cách dễ dàng và nhanh chóng, điều mà ở Database khó có thể thể thực thi. Dữ liệu tại Data Lake sẽ được trích xuất, làm giàu, và lưu trữ để tạo ra các dữ liệu có cấu trúc có thể sử dụng. Data Lake là hồ lưu trữ, chúng lưu trữ tất cả dữ liệu gồm dữ liệu nhận vào từ Database và các dữ liệu lập trình viên tạo ra. Trái lại, Data Warehouse là kho chứa để lưu các Data Mart là dữ liệu thành phẩm hoàn chỉnh để phục vụ công việc sau này.

2.4. Phương pháp xây dựng hệ thống Big Data

Để xây dựng Big Data tại công ty thủy điện Đồng Nai, tác giả đề xuất lưu đồ thực hiện gồm 3 bước chính như hình vẽ.

Hình 4: Lưu đồ quy trình xây dựng Big Data
tại công ty Thủy Điện Đồng Nai

Lưu đồ quy trình xây dựng Big Data tại công ty Thủy Điện Đồng Nai

2.4.1. Tổng hợp nguồn dữ liệu

Trong nghiên cứu này, các nguồn dữ liệu được thu thập (đề cập ở mục 1.2) sẽ được thu thập, lựa chọn, trích xuất các đặc trưng. Dữ liệu này bao gồm các thông số hoạt động của 2 nhà máy thủy điện Đồng Nai 3 và 4, thông số quan trắc hồ đập, dữ liệu thị trường điện, lịch sử hỏng hóc thiết bị, các dữ liệu số từ các sáng kiến, đề tài chuyển đổi số tại công ty, các dữ liệu chia sẻ từ công ty bạn,…

2.4.2. Xây dựng cơ sở dữ liệu MySQL

Hình 5: Giải thuật lưu trữ dữ liệu tại MySQL 

Giải thuật lưu trữ dữ liệu tại MySQL

Dữ liệu thu thập từ hệ thống vận hành nhà máy được lưu trữ tại hệ thống điều khiển. Để lấy dữ liệu này ra ngoài, một bộ cách ly quang thông tin được ghép nối tiếp để đảm bảo an toàn thông tin cho hệ thống vận hành nhà máy. Bộ cách ly quang cho phép dữ liệu một chiều từ hệ thống OT đi sang hệ thống IT. Một phần mềm được xây dựng để nhận dữ liệu, mã hóa chúng bằng phương pháp JWT rồi truyền chúng đến Server Localhost của hệ thống. Tại đây, những dữ liệu này sẽ được lưu trữ thành từng bảng trong cở sở dữ liệu MySQL.

Để làm được các việc kể trên, tác giả sử dụng framework Laravel để xây dựng hệ thống Backend. Các API được lập trình để đấu nối giữa phần mềm và Server hệ thống. Mô hình MVC được sử dụng để xây dựng các Restful API. Khi phần mềm gửi các POST request đến Server localhost, các gói tin chứa các thông tin bảo mật như accountID, token cũng được gửi theo, để đảm bảo xác thực danh tính người gửi. 

2.4.3. Xây dựng Big Data

Đường dẫn dữ liệu ETL hay ELT thực hiện nhiệm vụ tổng hợp, sắp xếp và di chuyển dữ liệu đến hệ thống mục tiêu nhằm tiến hành lưu trữ và phân tích. Các nguồn dữ liệu cần được làm sạch, làm giàu và chuyển đổi trước khi tích hợp thành một tổng thể có thể phân tích. 

Bất kể đó là ETL hay ELT, quá trình chuyển đổi/tích hợp dữ liệu bao gồm ba bước sau:

- Extract: Lấy dữ liệu nguồn ra từ cơ sở dữ liệu gốc hoặc nguồn dữ liệu. Với ETL, dữ liệu đi vào vùng lưu trữ tạm thời. Với ELT, nó đi ngay vào hệ thống Data Lake.

- Transform: Dữ liệu sẽ được thay đổi cấu trúc phù hợp với mục đích sử dụng.

- Load: Gửi thông tin vào hệ thống lưu trữ dữ liệu.

Quá trình ETL trích xuất dữ liệu từ các nguồn dữ liệu đồng nhất hoặc không đồng nhất. Tiếp theo, nó gửi dữ liệu vào một khu vực lưu trữ các thay đổi trên tập tin (staging area). Từ đó, dữ liệu trải qua quá trình làm sạch, làm giàu, chuyển đổi, và cuối cùng được lưu trữ trong kho dữ liệu.

Hình 6: Tổng quan về đường dẫn dữ liệu ETL

Tổng quan về đường dẫn dữ liệu ETL

Hình 6 mô tả quá trình ETL để xây dựng Big Data cho các dữ liệu có cấu trúc từ nhà máy thủy điện Đồng Nai. Theo đó, dữ liệu từ các hệ thống IoTs, DCS, Smart Sensor được chuyển đến lưu trữ tại database MySQL thông qua các API được lập trình trước.  Dữ liệu có cấu trúc này được trích xuất, làm giàu, và lưu trữ tại Data Warehouse. Dữ liệu tại đây được lưu trữ và phục vụ cho việc truy xuất, phân tích và trực quan sau này.

Hình 7: Tổng quan về đường dẫn dữ liệu ELT   Tổng quan về đường dẫn dữ liệu ELT

Quy trình ELT cũng hoạt động song song với các Data Lake. Data Lake là loại lưu trữ dữ liệu đặc biệt, không giống như Data Warehouse OLAP, nó chấp nhận bất kỳ loại dữ liệu có cấu trúc hoặc phi cấu trúc bất kỳ. Các Data Lake không yêu cầu  phải chuyển đổi dữ liệu trước khi tải lên nó. Ta có thể tải ngay lập tức bất kỳ loại dữ liệu thô nào vào Data Lake, bất kể định dạng hay tình trạng thiếu thông tin đó.

Quá trình ELT được minh họa như trong hình 7. Theo đó, các dữ liệu thô được chuyển vào bên trong Data Lake. Dữ liệu này lần lượt được trải qua 3 giai đoạn Bronze, Silver và Gold. Tại Bronze, dữ liệu này là dữ liệu thô chưa qua xử lý, chúng được chuyển đổi thành các dữ liệu có cấu trúc. Tại Silver, dữ liệu có cấu trúc sẽ được tổng hợp để trở thành dữ liệu thành phẩm gọi là Data Mart. Dữ liệu thành phẩm được lưu trữ tại Gold để sử dụng sau này.

Ưu điểm chính của ELT so với ETL liên quan đến tính linh hoạt và dễ dàng lưu trữ dữ liệu mới, không có cấu trúc. Với ELT, ta có thể lưu bất kỳ loại thông tin nào, ngay cả khi không có thời gian hoặc khả năng để chuyển đổi và cấu trúc thông tin đó trước. Hơn nữa, ta không phải phát triển các quy trình ETL phức tạp trước khi nhập dữ liệu và tiết kiệm thời gian cho các nhà phát triển và nhà phân tích khi xử lý thông tin mới.  

2.5 Bảo mật, an toàn thông tin

Trong nghiên cứu này, vấn đề bào mật an toàn  thông tin luôn được đặt lên hàng đầu khi xây dựng hệ thống. Có 3 vấn đề về bảo mật thông tin cần được xem xét nghiêm ngặt khi thực hiện như sau:

2.5.1. Vấn đề an toàn thông tin cho hệ thống OT

Để đảm bảo an toàn tuyệt đối cho hệ thống OT, tác giả nghiên cứu giải pháp sử dụng bộ Opto quang có tốc độ đóng ngắt 2MHz để cách ly ở giữa. Theo đó, dữ liệu từ bộ DCS được truyền chỉ thông qua chân TXD của bộ vi điều khiển. Chân RXD của hệ thống sẽ được ngắt bỏ để đảm bảo dữ liệu không đi ngược về hệ thống OT.

Dữ liệu này sẽ được mã hóa nhị phân rồi truyền đi thông qua chân truyền TXD. Các tín hiệu nhị phân dạng “1010” sẽ làm bộ LED của Opto quang hoạt động “sáng tắt sáng tắt”. Phía đầu thu của Opto quang sẽ thu các tín hiệu số nhị phân này và truyền đến bộ thu tín hiệu CP2102 để tái tạo tín hiệu ban đầu. Theo nguyên lý này, chỉ có tín hiệu từ hệ thống OT được truyền ra bên ngoài, tín hiệu từ hệ thống IT sẽ không thể đi ngược về hệ thống OT được do cấu tạo vật lý của bộ opto quang.

2.5.2. Vấn đề an toàn thông tin cho các API

Để đảm bảo thông tin truyền dẫn qua hệ thống API, kỹ thuật mã hóa thông tin JWT được sử dụng. Theo nguyên lý của thuật toán JWT, dữ liệu truyền đi gồm 3 phần: Header, Payload và Signature. Một thuật toán mã hóa HS256 được sử dụng để mã hóa các thông tin thành các chuỗi ký tự mà mắt người không thể đọc được.

Một SecretKey được chèn vào để khóa chuỗi kí tự này. Phía bên Server khi nhận được chuỗi kí tự này, SecretKey cần được đưa ra để mở khóa. Hơn thế nữa, để tăng độ khó, lập trình viên có thể tự tạo một bảng mã cá nhân để tiếp tục chuyển đổi dữ liệu đó. Điều này làm tăng sự khó khăn để giải mã thông tin này đi. Như vậy, chỉ người lập trình ra các API mới có thể mở khóa để khôi phục thông tin truyền đi, đảm bảo không một ai có thể lấy được nguồn dữ liệu này. 

Hình 9: Mô hình mã hóa thông tin bảo vệ API  

Mô hình mã hóa thông tin bảo vệ API

2.5.3. Vấn đề bảo vệ chống lây nhiễm virus cho máy tính cài phần mềm

Virus máy tính chỉ có thể xâm nhập vào hệ thống máy tính thông qua việc tiếp xúc các mã độc, hệ thống quản trị mạng lỏng lẻo. Trong nghiên cứu này, tác giả sử dụng một máy tính trắng, không tiếp xúc với các thiết bị ngoại vi như USB, không sử dụng các trình duyệt web và không cài các phần mềm khác ngoài các phần mềm có sẵn của hệ điều hành Window 10.  

Hệ thống quản trị mạng được kích hoạt chế độ ngăn chặn các máy tính lạ liên kết. Cụ thể, mã MAC của máy tính được sử dụng để ngăn chặn các máy tính lạ xâm nhập vào hệ thống. Để đảm bảo tuyệt đối vấn đề dùng chung Internet, một mạng Internet riêng có thể được sử dụng để cách ly. Cụ thể, Dcom 4G là một thiết bị có thể dùng làm biện pháp ngăn chặn việc dùng chung Internet. Trong nghiên cứu này, tác giả hiện đang thực hiện ở chế độ mạng nội bộ.

3. Kết quả nghiên cứu/tính toán/mô phỏng và thảo luận

Trong nghiên cứu này, nhóm nghiên cứu thực hiện việc ứng dụng công nghệ thông tin trong việc thu thập dữ liệu từ các nguồn khác nhau để xây dựng nguồn dữ liệu lớn Big Data tại công ty thủy điện Đồng Nai. Kết quả thu được sau nghiên cứu đạt được các chỉ tiêu đề ra bao gồm:

3.1. Chuẩn hóa tập trung các nguồn dữ liệu

Dữ liệu từ các nguồn rời rạc nay đã được tổng hợp một cách “realtime online” tự động hoàn toàn. Nguồn dữ liệu phi cấu trúc được chuẩn hóa thành dữ liệu có cấu trúc chọn lọc, tạo điều kiện xử lý và phân tích nhanh gọn, dễ dàng. Nguồn dữ liệu này có thể cung cấp cho các đơn vị khác thông qua một API nếu cần.

3.2. Xây dựng hệ thống hạ tầng công nghệ thông tin

Để hệ thống công nghệ thông tin có thể hoạt động và chia sẻ dữ liệu được, chúng cần được đặt trong một hệ thống phần cứng máy tính đảm bảo độ ổn định, tốc cao, băng thông rộng và kết nối internet ổn định.

Để đáp ứng tốt yêu cầu trên, nhóm nghiên cứu đã tự cấu hình hệ thống Server. Hệ thống Server cấu hình máy tính mạnh mẽ. Cụ thể, tốc độ CPU 3.7 GHZ, dung lượng lưu trữ SSD 1TB, bộ nhớ vật lý Physical Memory RAM 8GB. Các API được kiểm tra cho thời gian Ping dưới 10ms.

Trên phần cứng này, hệ điều hành LINUX CENTOS 8 đã được cài đặt, cấu hình các ứng dụng cần thiết như Linux, Apache, Mysql, PHP, Python,…. Ngoài ra, một Control Panel của hãng DirectAdmin cũng được cài đặt để thuận tiện việc quản trị nguồn tài nguyên máy tính này.

Tuy nhiên, vì vấn đề an toàn thông tin, nghiên cứu của tác giả đang được thực thi tại Server localhost.

3.3. Xây dựng hoàn thành mã nguồn hệ thống

Nhóm nghiên cứu đã hoàn thiện bộ mã nguồn cho hệ thống, bao gồm:

  • Mã nguồn hệ thống Backend, lập trình từ ngôn ngữ PHP.
  • Hệ thống gồm các API phục vụ đấu nối dữ liệu.
  • Mã nguồn Apache Spark lập trình bằng ngôn ngữ Python để xây dựng Big Data.
  • Mã nguồn Frontend lập trình từ ngôn ngữ TypeScript.
  • Bộ dữ liệu xây dựng trên hệ quản trị cơ sở MySQL.

3.4. Xây dựng hoàn thành bộ RESTful API

Các API sau khi được phát triển, đã được trải qua quá trình kiểm tra và sử dụng. Kết quả cho thấy các API này hoạt động đúng các tiêu chí đề ra ban đầu.  Bảng thống kê một số API được trình bày ở phụ lục 1.

3.5. Xây dựng hoàn thành phần mềm USG Control Panel và bộ cách ly quang thông tin

Hình 10: Bộ cách ly quang thông tin, và phần mềm USG Control Panel

Bộ cách ly quang thông tin, và phần mềm USG Control Panel

4. Kết luận và khuyến nghị

Trong nghiên cứu này, nhóm nghiên cứu đã xây dựng và quản lý thành công nguồn dữ liệu lớn Big Data. Nguồn dữ liệu có thể truy cập nhanh này là nguồn cơ sở và động lực thuc đẩy công cuộc chuyển đổi số tại công ty thủy điện Đồng Nai một cách nhanh chóng và hiện đại.

Kết quả của nghiên cứu này là sự mở đầu cho hàng loạt các nghiên cứu, sáng kiến xây dựng công ty thủy điện Đồng Nai trong thời đại công nghiệp 4.0 hiện nay. Các ứng dụng, phần mềm có thể sử dụng nguồn dữ liệu này để phân tích dữ liệu, úng dụng công nghệ trí tuệ nhân tạo để phỏng đoán, nhận diện…giúp nâng cao hiệu quả làm việc quản lý, giải quyết các khó khăn mà con người không thực hiện được

LỜI CẢM ƠN: Nhóm nghiên cứu xin gửi lời cảm ơn sâu sắc nhất đến ban Giám đốc, lãnh đạo các phòng và phân xưởng công ty thủy điện Đồng Nai đã tận tâm chỉ đạo, định hướng, và dành thời gian  quý báu cho tác giả. Bên cạnh đó, tác giả cũng xin gửi lời cảm ơn đến tập thể đồng nghiệp đã luôn hỗ trợ các phương tiện cần thiết, những kiến thức bổ ích và những lời động viên chân thành để tác giả hoàn thành tốt nghiên cứu này.

 

TÀI LIỆU THAM KHẢO:

1. WU, Meng-Yu; LEE, Tsern-Huei (2013). Design and implementation of cloud API access control based on OAuth. In: IEEE 2013 Tencon-Spring, p. 485-489.

2. LIU, He, et al. (2017). A big data framework for electric power data quality assessment. In: 2017 14th Web Information Systems and Applications Conference (WISA), p. 289-292.

3. PHAM, D. P., & Le, D. K. (2021). Forecast of Energy Consumption of Drying System According to The Environmental Temperature and Humidity on IoT by Arima Algorithm. In 2020 Applying New Technology in Green Buildings (ATiGB) (pp. 60-64).

4. PHAM, D. P, Thanh, B. D., & Trung, H. V. (2019). Temperature and Load Consumption Forecast in Smart Building on Foundation IoT by ARIMA Algorithm. Journal Of Science And Technology: Issue On Information And Communications Technology, 17(12.2), 55-60.