Khái niệm về dữ liệu
-
Dữ liệu là gì?
Dữ liệu là tập hợp các thông tin ở dạng ký hiệu, số liệu, văn bản, hình ảnh, âm thanh hoặc video,v.v. được thu thập, lưu trữ nhằm phục vụ cho mục đích nào đó. Chúng ta có thể thấy rất nhiều ví dụ về dữ liệu trong cuộc sống hàng ngày chẳng hạn như:
- Dữ liệu của một Công ty: Tên Công ty, Mã số thuế, Địa chỉ, Ngày thành lập, Người đại diện, v.v.
- Dữ liệu con người: Họ và tên, Ngày sinh, Giới tính, Chiều cao, Cân nặng, Số căn cước công dân, Địa chỉ thường trú, Địa chỉ tạm trú, v.v.
- Dữ liệu thời tiết: Địa điểm, Thời gian, Nhiệt độ, Độ ẩm không khí, v.v.
Dữ liệu ở dạng thô có tính rời rạc và giá trị không cao; để gia tăng giá trị của dữ liệu chúng ta cần chuyển dữ liệu thành thông tin.
-
Đặc điểm của dữ liệu
Để nâng cao chất lượng của dữ liệu, tối ưu chi phí và ra quyết định chính xác, khi làm việc với dữ liệu chúng ta cần chú ý đến một số tính chất cơ bản dưới đây:
- Tính thô sơ: Dữ liệu ở trạng thái ban đầu, chưa qua xử lý hay phân tích nên thường rời rạc, không có nhiều ý nghĩa.
- Tính đa dạng: Dữ liệu tồn tại ở nhiều định dạng khác nhau như số, văn bản, hình ảnh, âm thanh, video, v.v.
- Tính khách quan: Dữ liệu phản ánh đúng thực tế, không phụ thuộc vào ý kiến chủ quan của người thu thập hay phân tích.
- Tính chính xác: Dữ liệu cần phản ánh đúng thực tế, không bị sai lệch hoặc nhiễu.
- Tính có thể đo lường: Dữ liệu phải có khả năng định lượng hoặc định tính để phân tích.
- Tính toàn vẹn: Dữ liệu phải nhất quán và đầy đủ giữa các hệ thống, thiết bị lưu trữ.
- Tính cập nhật: Dữ liệu cần được thu thập và cập nhật liên tục để đảm bảo tính thời gian thực.
- Tính khả dụng: Dữ liệu cần dễ dàng truy xuất khi cần thiết.
- Tính bảo mật: Dữ liệu cần được bảo vệ khỏi truy cập trái phép hoặc thất thoát.
- Tính tái sử dụng: Dữ liệu có thể được sử dụng lại cho nhiều mục đích khác nhau.
-
Phân loại dữ liệu
Dữ liệu có thể được phân loại theo nhiều tiêu chí khác nhau tùy thuộc vào cấu trúc, bản chất và cách thức sử dụng; dưới đây là một số phương pháp phân loại phổ biến:
-
Phân loại theo tính chất
- Dữ liệu định tính: Dữ liệu mô tả các đặc điểm, tính chất hoặc phẩm chất mà không thể biểu diễn trực tiếp bằng số.
- Dữ liệu định lượng: Dữ liệu biểu diễn bằng số lượng, có thể đo lường hoặc tính toán được. Loại dữ liệu này phản ánh các giá trị có thể so sánh, phân tích và xử lý bằng các phép toán số học như cộng, trừ, nhân, chia.
-
Phân loại theo cấu trúc
- Dữ liệu có cấu trúc: Dữ liệu được tổ chức, định dạng theo một cấu trúc rõ ràng, thường được lưu trữ trong cơ sở dữ liệu quan hệ (RDBMS). Dữ liệu này có thể được truy vấn và xử lý dễ dàng bằng các ngôn ngữ như SQL.
- Dữ liệu phi cấu trúc: Dữ liệu không tuân theo một định dạng cố định hoặc không được tổ chức theo hàng và cột như trong cơ sở dữ liệu truyền thống. Dữ liệu này thường có hình thức đa dạng và khó phân loại trực tiếp bằng các hệ quản trị cơ sở dữ liệu quan hệ.
- Dữ liệu bán cấu trúc: Dữ liệu không hoàn toàn tuân theo mô hình cố định nhưng vẫn có một số yếu tố tổ chức hoặc đánh dấu giúp xác định các thuộc tính và mối quan hệ giữa các phần tử. Dữ liệu này nằm giữa dữ liệu có cấu trúc và phi cấu trúc, thường được lưu trữ dưới dạng tệp văn bản có cấu trúc lỏng lẻo (Ví dụ: XML, JSON, YAML) và có thể được xử lý bởi các hệ quản trị cơ sở dữ liệu NoSQL hoặc các công cụ phân tích dữ liệu.
-
Phân loại theo nguồn gốc
- Dữ liệu sơ cấp: Thu thập trực tiếp từ thực tế.
- Dữ liệu thứ cấp: Thu thập từ các nguồn có sẵn.
-
Phân loại theo trạng thái
- Dữ liệu tĩnh: Là dữ liệu không thay đổi hoặc ít thay đổi theo thời gian.
- Dữ liệu động: Là dữ liệu liên tục thay đổi theo thời gian hoặc theo hành động người dùng.
-
Phân loại theo hình thức lưu trữ
- Dữ liệu số: Là dữ liệu được lưu trữ dưới dạng số hóa, có thể xử lý bằng máy tính.
- Dữ liệu tương tự: Là dữ liệu không ở dạng số hóa, cần chuyển đổi mới xử lý được bằng máy tính.
-