DỮ LIỆU CẤU TRÚC VÀ DỮ LIỆU PHI CẤU TRÚC
Bạn có biết, hơn 80% dữ liệu doanh nghiệp hiện nay là Dữ liệu phi cấu trúc?Không chỉ chiếm phần lớn dữ liệu doanh nghiệp, mà Dữ liệu phi cấu trúc cũng đang tăng với tốc độ trung bình 55% - 65% mỗi năm. Vậy sự khác nhau giữa dữ liệu có cấu trúc và dữ liệu phi cấu trúc là gì?Tại sao Dữ liệu phi cấu trúc có vai trò vô cùng quan trọng đối với các doanh nghiệp?

Bạn có biết, hơn 80% dữ liệu doanh nghiệp hiện nay là Dữ liệu phi cấu trúc?Không chỉ chiếm phần lớn dữ liệu doanh nghiệp, mà Dữ liệu phi cấu trúc cũng đang tăng với tốc độ trung bình 55% - 65% mỗi năm. Vậy sự khác nhau giữa dữ liệu có cấu trúc và dữ liệu phi cấu trúc là gì?Tại sao Dữ liệu phi cấu trúc có vai trò vô cùng quan trọng đối với các doanh nghiệp?

1. Dữ liệu cấu trúc (Structured Data)

Dữ liệu có cấu trúc nằm trong cơ sở dữ liệu quan hệ (relational databases): một cơ sở dữ liệu có cấu trúc để nhận ra mối quan hệ giữa các mục dữ liệu (item of data) được lưu trữ. Cơ sở dữ liệu loại này thường được quản lý thông qua hệ thống quản lý cơ sở dữ liệu quan hệ (Relational database management system, viết tắt là RDBMS).

Đây thường là những gì mọi người nghĩ đến khi họ nghĩ về một cơ sở dữ liệu, tức là một bảng các hàng và cột chứa thông tin liên quan. Ví dụ:

RDBMS sử dụng ngôn ngữ truy vấn có cấu trúc (SQL) để truy cập và thao tác với các mục dữ liệu trong RDBMS. Chúng được mô tả như sau:

Dữ liệu có cấu trúc là thông tin, thường là các tệp văn bản được gắn nhãn để mô tả các thuộc tính (attribute) và mối quan hệ của nó với các dữ liệu khác. Cấu trúc dữ liệu này có thể dễ dàng tìm kiếm bằng cách sử dụng truy vấn do con người tạo ra hoặc theo thuật toán.

2. Dữ liệu phi cấu trúc

Dữ liệu phi cấu trúc:

  • Có cấu trúc bên trong (tức là các bit và byte)
  • Nhưng không được cấu trúc thông qua các mô hình hoặc lược đồ dữ liệu được xác định trước, tức là không được tổ chức và gắn nhãn để xác định các mối quan hệ có ý nghĩa giữa các dữ liệu.

Nó có thể là văn bản hay phi văn bản. Nó có thể do con người hay máy móc tạo ra. Nó cũng có thể được lưu trữ trong một cơ sở dữ liệu không quan hệ như NoSQL.

2.1. Dữ liệu phi cấu trúc do con người tạo ra (Human-generated unstructured data)

Dữ liệu phi cấu trúc điển hình do con người tạo ra bao gồm:

  • Text files (Tệp văn bản): Tệp xử lý văn bản, bảng tính, bản trình bày, email.
  • Email: Phần lớp là văn bản, nhưng có một số cấu trúc bên trong nhờ siêu dữ liệu của nó (ví dụ: bao gồm “to”, “from”, “date/time”, “subject” được nhập để gửi email) nhưng cũng kết hợp trong dữ liệu phi cấu trúc thông qua nội dung tin nhắn. Vì lý do này, email còn được gọi là dữ liệu bán cấu trúc (semi-structured data).
  • Social Media: Giống như email, đây cũng thường là dữ liệu bán cấu trúc, chứa dữ liệu phi cấu trúc (ví dụ: một bài đăng trên Facebook) nhưng cũng có dữ liệu có cấu trúc (ví dụ: số lượng “Like”, “Share”, “Comment”, v.v.)
  • Websites: YouTube, Instagram, v.v. chứa nhiều dữ liệu phi cấu trúc, nhưng cũng có nhiều dữ liệu có cấu trúc
  • Mobile data: Tin nhắn văn bản, vị trí.
  • Communications: Ims, bản ghi âm
  • Media: MP3, ảnh kỹ thuật số, bản ghi âm và tệp video
  • Business applications: Tài liệu MS Office, PDF và tương tự
2.2. Dữ liệu phi cấu trúc do máy tạo ra (Machine-generated unstructured data)

Các loại dữ liệu phi cấu trúc do máy tạo ra phổ biến bao gồm:

  • Satellite imagery (Hình ảnh vệ tinh): dữ liệu thời tiết, các dạng địa lí, các chuyển động của quân đội.
  • Scientific data (Dữ liệu khoa học): thăm dò dầu khí, thăm dò không gian, hình ảnh địa chấn và dữ liệu nguyên tử quyển.
  • Digital surveillance (Giám sát kỹ thuật số): CCTV
3. So sánh Dữ liệu cấu trúc và Dữ liệu phi cấu trúc


Structured Data vs. Unstructured Data


4. Dữ liệu phi cấu trúc và tầm quan trọng đối với các doanh nghiệp

Theo John Roese, CTO của Dell Technologies: “Lần đầu tiên trong lịch sử, chúng ta không chỉ có một khối lượng lớn và đa dạng trong dữ liệu, mà con người còn sáng chế ra nhưng phương thức mới và mang tính kinh tế hơn trong việc lưu trữ và xử lý dữ liệu. Điều quan trọng nhất hiện nay, đó là phần mềm và những giải thuật đã đạt đến một ngưỡng – chủ yếu thông qua Trí tuệ nhân tạo (AI) và Học máy (ML) – mà chúng ta có thể đào sâu vào những dữ liệu mình có được và biến chúng thành những thông tin thú vị, bổ ích phục vụ cho kinh doanh và cuộc sống.”

Mô hình tháp thông tin DIKW (DIKW pyramid)

Tuy vậy, có một sự phân cấp rõ rệt trong dữ liệu. Đầu tiên là mức Dữ liệu (Data) – khi mọi thứ ở mức thô, chưa được quy hoạch và khai thác. Mức tiếp theo là Thông tin (Information) – khi dữ liệu được tổ chức dưới dạng các cấu trúc. Cao hơn nữa chúng ta có Kiến thức (Knowledge) – từ việc tìm thấy những sự thấu hiểu (insight) của những thông tin trước đó. Cuối cùng là Sự thông thái (Wisdom) – có được khi chúng ta biến những kiến thức thành những dự đoán cho tương lai, thành sự thấu hiểu quá khứ và thành những hành động thiết thực nhằm đạt được mục đích nào đó. Theo John Roese, hiện nay chúng ta đang tiến vào một kỷ nguyên mà hạ tầng CNTT, khối lượng dữ liệu cũng như những giải thuật phần mềm kết hợp lại với nhau và đem lại cho con người Kiến thức và Sự thông thái trong hầu hết tất cả các ngành nghề.

Có thể hình dung Data như tầng "phân bón" cho cây, qua các bước chuyển đổi chất, data sẽ chuyển thành thông tin (information), tiếp đến được khái quát thành kiến thức (knowledge) và tổng hợp thành tri thức thông thái (wisdom). Wisdom chính là trái ngọt của cây Mô hình tháp thông tin DIKW.

Unstructured data drives growth & innovation

Với việc chiếm 80% tổng dung lượng dữ liệu hiện nay, hiển nhiên là dữ liệu phi cấu trúc đang giữ trong mình những thông tin và “sự thấu hiểu” quan trọng trọng kinh doanh mà chưa được khai thác hết.

Dữ liệu có cấu trúc rất quan trọng, nhưng dữ liệu phi cấu trúc lại đóng vai trò then chốt trong việc tạo ra sự bứt phá cho doanh nghiệp nhờ việc đem lại sự phong phú về thông tin và kiến thức mà những kết quả thống kê thông thường qua dữ liệu có cấu trúc không thể đem lại. Chính vì vậy, các doanh nghiệp và tổ chức bắt buộc phải tìm ra phương pháp để quản lý và phân tích dữ liệu phi cấu trúc nhằm đưa ra các quyết định quan trọng trong kinh doanh, nhất là trong kỷ nguyên dữ liệu hiện nay.



Python Odoo - lập trình Python trong Odoo