Cơ sở dữ liệu quan hệ

Khái niệm về dữ liệu

  1. Dữ liệu là gì?

    Dữ liệu là tập hợp các yếu tố đầu vào tồn tại dưới dạng ký hiệu, số liệu, văn bản, hình ảnh, âm thanh, video, v.v., được thu thập từ thực tế nhằm phục vụ cho việc ra quyết định hoặc giải quyết các vấn đề cụ thể.

    Trong cuộc sống hằng ngày, chúng ta có thể bắt gặp rất nhiều ví dụ về dữ liệu, chẳng hạn như:

    • Dữ liệu của một Công ty: Tên công ty, mã số thuế, địa chỉ, ngày thành lập, người đại diện, v.v.
    • Dữ liệu con người: Họ và tên, ngày sinh, giới tính, chiều cao, cân nặng, số căn cước công dân, địa chỉ thường trú, địa chỉ tạm trú, v.v.
    • Dữ liệu thời tiết: Địa điểm, thời gian, nhiệt độ, độ ẩm không khí, v.v.

    Dữ liệu ở dạng thô thường rời rạc và ít mang ý nghĩa. Để gia tăng giá trị, dữ liệu cần được xử lý và phân tích để chuyển hóa thành thông tin hữu ích.

  2. Đặc điểm của dữ liệu

    Khi làm việc với dữ liệu, để nâng cao chất lượng, tối ưu chi phí và hỗ trợ ra quyết định hiệu quả, cần chú ý đến những đặc điểm cơ bản sau:

    • Tính thô sơ: Dữ liệu ở trạng thái ban đầu, chưa qua xử lý hoặc phân tích nên thường rời rạc và ít ý nghĩa.
    • Tính đa dạng: Dữ liệu tồn tại ở nhiều dạng khác nhau như số, văn bản, hình ảnh, âm thanh, video, v.v.
    • Tính khách quan: Dữ liệu phản ánh đúng thực tế, không bị chi phối bởi suy luận hay ý kiến chủ quan của người thu thập hoặc phân tích.
    • Tính chính xác: Dữ liệu cần phản ánh đúng thực tế, không sai lệch hoặc nhiễu.
    • Tính có thể đo lường và tính phân tích được: Dữ liệu phải có khả năng định lượng hoặc định tính để phục vụ phân tích.
    • Tính toàn vẹn: Dữ liệu phải nhất quán và đầy đủ giữa các hệ thống hoặc thiết bị lưu trữ.
    • Tính cập nhật: Dữ liệu cần được thu thập và cập nhật liên tục để đảm bảo tính thời gian thực.
    • Tính khả dụng: Dữ liệu cần dễ dàng truy xuất khi cần thiết.
    • Tính bảo mật: Dữ liệu phải được bảo vệ khỏi truy cập trái phép hoặc thất thoát.
    • Tính tái sử dụng: Dữ liệu có thể được sử dụng lại cho nhiều mục đích khác nhau.
  3. Phân loại dữ liệu

    Dữ liệu có thể được phân loại theo nhiều tiêu chí khác nhau tùy thuộc vào cấu trúc, bản chất và cách thức sử dụng; dưới đây là một số phương pháp phân loại phổ biến:

    1. Phân loại theo tính chất

      • Dữ liệu định tính: Mô tả các đặc điểm, tính chất hoặc phẩm chất không thể biểu diễn trực tiếp bằng số.
      • Dữ liệu định lượng: Được biểu diễn bằng số, có thể đo lường hoặc tính toán và xử lý bằng các phép toán số học.
    2. Phân loại theo cấu trúc

      • Dữ liệu có cấu trúc: Được tổ chức và định dạng theo một cấu trúc rõ ràng; thường được lưu trữ trong cơ sở dữ liệu quan hệ (RDBMS) và dễ truy vấn bằng SQL.
      • Dữ liệu phi cấu trúc: Không tuân theo định dạng cố định hoặc không được tổ chức theo hàng và cột như trong cơ sở dữ liệu truyền thống; ví dụ: văn bản tự do, hình ảnh, âm thanh, video.
      • Dữ liệu bán cấu trúc: Không hoàn toàn tuân theo một mô hình cố định nhưng vẫn có các thẻ hoặc ký hiệu tổ chức dữ liệu; ví dụ: XML, JSON, YAML. Loại dữ liệu này thường được lưu trữ hoặc xử lý bởi hệ quản trị NoSQL và các công cụ phân tích dữ liệu.
    3. Phân loại theo nguồn gốc

      • Dữ liệu sơ cấp: Được thu thập trực tiếp từ thực tế.
      • Dữ liệu thứ cấp: Được thu thập từ các nguồn đã có sẵn.
    4. Phân loại theo trạng thái

      • Dữ liệu tĩnh: Ít thay đổi hoặc không thay đổi theo thời gian.
      • Dữ liệu động: Thay đổi liên tục theo thời gian hoặc theo tương tác của người dùng.
    5. Phân loại theo hình thức lưu trữ

      • Dữ liệu số: Được lưu trữ dưới dạng số hóa và có thể xử lý trực tiếp bằng máy tính.
      • Dữ liệu tương tự: Không ở dạng số hóa; cần được chuyển đổi trước khi máy tính có thể xử lý.