Dữ liệu Machine Learning
Đến 80% một dự án Machine Learning liên quan đến thu thập dữ liệu:
- Cần dữ liệu gì?
- Dữ liệu nào có sẵn?
- Làm thế nào để chọn dữ liệu?
- Làm thế nào để thu thập dữ liệu?
- Làm thế nào để làm sạch dữ liệu?
- Làm thế nào để chuẩn bị dữ liệu?
- Làm thế nào để sử dụng dữ liệu?
Dữ liệu là gì?
Dữ liệu có thể là nhiều thứ. Với Machine Learning, dữ liệu là tập hợp các sự kiện:
| Loại | Ví dụ |
|---|---|
| Số | Giá cả. Ngày tháng. |
| Kích thước | Kích thước. Chiều cao. Trọng lượng. |
| Từ vựng | Tên và địa danh. |
| Quan sát | Đếm xe ô tô. |
| Mô tả | Trời lạnh. |
Trí tuệ cần dữ liệu
Trí tuệ con người cần dữ liệu: Một nhà môi giới bất động sản cần dữ liệu về các ngôi nhà đã bán để ước tính giá cả.
Trí tuệ nhân tạo cũng cần dữ liệu: Một chương trình Machine Learning cần dữ liệu để ước tính giá cả.
- Dữ liệu có thể giúp chúng ta nhìn thấy và hiểu.
- Dữ liệu có thể giúp chúng ta tìm kiếm những cơ hội mới.
- Dữ liệu có thể giúp chúng ta giải quyết những hiểu lầm.
Chăm sóc sức khỏe
Ngành chăm sóc sức khỏe và khoa học đời sống thu thập dữ liệu sức khỏe cộng đồng và dữ liệu bệnh nhân để tìm hiểu cách cải thiện việc chăm sóc bệnh nhân và cứu sống người.
Kinh doanh
Các công ty thành công nhất trong nhiều lĩnh vực đều dựa trên dữ liệu. Họ sử dụng phân tích dữ liệu phức tạp để tìm hiểu cách công ty có thể hoạt động tốt hơn.
Tài chính
Các ngân hàng và công ty bảo hiểm thu thập và đánh giá dữ liệu về khách hàng, khoản vay và tiền gửi để hỗ trợ việc ra quyết định chiến lược.
Lưu trữ dữ liệu
Dữ liệu phổ biến nhất được thu thập là Số và Kích thước. Thông thường, dữ liệu được lưu trữ trong các mảng thể hiện mối quan hệ giữa các giá trị.
Bảng này chứa giá nhà so với diện tích:
| Giá | 7 | 8 | 8 | 9 | 9 | 9 | 10 | 11 | 14 | 14 | 15 |
| Kích thước | 50 | 60 | 70 | 80 | 90 | 100 | 110 | 120 | 130 | 140 | 150 |
Dữ liệu định lượng so với dữ liệu định tính
Dữ liệu định lượng là dữ liệu số:
- 55 ô tô
- 15 mét
- 35 trẻ em
Dữ liệu định tính là dữ liệu mô tả:
- Trời lạnh
- Nó dài
- Thật vui
Kiểm kê hoặc lấy mẫu

Kiểm kê là khi chúng ta thu thập dữ liệu cho mọi thành viên của một nhóm.
Lấy mẫu là khi chúng ta thu thập dữ liệu cho một số thành viên của một nhóm.
Nếu muốn biết có bao nhiêu người Mỹ hút thuốc lá, chúng ta có thể hỏi mọi người ở Mỹ (kiểm kê), hoặc chúng ta có thể hỏi 10.000 người (lấy mẫu).
Kiểm kê chính xác, nhưng khó thực hiện. Lấy mẫu không chính xác, nhưng dễ thực hiện hơn.
Thuật ngữ lấy mẫu
Population (Tổng người được khảo sát) là một nhóm các cá nhân (đối tượng) mà chúng ta muốn thu thập thông tin từ đó.
Kiểm kê là thông tin về mọi cá nhân trong một tổng người được khảo sát.
Lấy mẫu là thông tin về một phần của tổng người được khảo sát (để đại diện cho toàn bộ).
Mẫu ngẫu nhiên
Để một mẫu đại diện cho tổng người được khảo sát, nó phải được thu thập một cách ngẫu nhiên.
Mẫu ngẫu nhiên là mẫu mà mỗi thành viên trong tổng người được khảo sát đều có cơ hội xuất hiện trong mẫu như nhau.
Sai lệch lấy mẫu
Sai lệch lấy mẫu (lỗi) xảy ra khi các mẫu được thu thập theo cách mà một số cá nhân ít (hoặc nhiều) khả năng được đưa vào mẫu hơn.
Big data
Big data là dữ liệu mà con người không thể xử lý nếu không có sự hỗ trợ của máy móc tiên tiến.
Big data không có định nghĩa cụ thể về kích thước, nhưng các tập dữ liệu ngày càng lớn hơn khi chúng ta liên tục thu thập nhiều dữ liệu hơn và lưu trữ dữ liệu với chi phí ngày càng thấp hơn.
Khai thác dữ liệu
Với Big data đi kèm là cấu trúc dữ liệu phức tạp.
Một phần lớn của quá trình xử lý Big data là tinh chỉnh dữ liệu.
Bạn nên đọc
-
Hàng nghìn prompt tạo ảnh sẽ có trong trang web này!
-
Nhận dạng mẫu trong Machine Learning
-
Hướng dẫn cách tạo bảng tính Excel từ tin nhắn chỉ bằng 1 câu lệnh prompt AI
-
Cách biến Gemini thành công cụ năng suất mạnh mẽ
-
Thuật ngữ Machine Learning
-
Hướng dẫn ngăn Chrome tự động tải mô hình AI Gemini Nano
-
Perceptron trong Machine Learning
-
Học Machine Learning
-
Đào tạo một Perceptron trong Machine Learning
Theo Nghị định 147/2024/ND-CP, bạn cần xác thực tài khoản trước khi sử dụng tính năng này. Chúng tôi sẽ gửi mã xác thực qua SMS hoặc Zalo tới số điện thoại mà bạn nhập dưới đây:
Cũ vẫn chất
-

Top 100 chip điện thoại mạnh nhất năm 2026
2 ngày -

Việt Nam giảm 5 bậc trong bảng xếp hạng hộ chiếu 'quyền lực' nhất thế giới 2024
2 ngày -

Code Liên Quân mới, giftcode Liên Quân tháng 3/2026
2 ngày 18 -

Cách gửi danh thiếp Zalo, chia sẻ danh bạ Zalo trên điện thoại, máy tính
2 ngày -

8 ứng dụng màn hình khóa tốt nhất cho Android
2 ngày -

20+ cách quay màn hình máy tính, quay màn hình laptop
2 ngày 20 -

Cách xem địa chỉ IP trên máy tính, xem địa chỉ IP Win 10
2 ngày -

Hàm list() trong Python
2 ngày -

Đổi PDF sang Word nhanh, không lỗi font chữ mới nhất 07/03/2026
2 ngày -

Tổng hợp các mã lệnh trong game Đế Chế
2 ngày
Học IT
Microsoft Word 2013
Microsoft Word 2007
Microsoft Excel 2019
Microsoft Excel 2016
Microsoft PowerPoint 2019
Google Sheets
Lập trình Scratch
Bootstrap
Prompt
Ô tô, Xe máy