Học máy và khoa học dữ liệu là hai chuyên ngành mới của ngành công nghệ thông tin nói chung và khoa học máy tính nói riêng. Tuy nhiên, bản thân khoa học dữ liệu ngoài là một phần liên quan đến khoa học máy tính, phần khác của nó liên quan rộng đến nhiều lĩnh vực khác của xã hội hiện đại.
Mối quán hệ giữa khoa học máy tính, khoa học dữ liệu và học máy.
Nguồn: Oliver Theobald, Machine Learning For Absolute Beginners
Nghiên cứu các lĩnh vực chuyên sâu này thực chất là một ngành nghề hẳn hoi trong xã hội, nội dung kiến thức và kỹ năng rất rộng và sâu. Trong phạm vi ôn thi tốt nghiệp phổ thông, chúng ta cần bám sát theo các yêu cầu cần đạt sau đây:
Giới thiệu - Khoa học dữ liệu
- Nêu được sơ lược về mục tiêu và một số thành tựu của Khoa học dữ liệu, nêu được ví dụ minh hoạ.
- Biết được vai trò của máy tính đối với sự phát triển của Khoa học dữ liệu.
- Biết được tính ưu việt trong việc sử dụng máy tính và thuật toán hiệu quả để xử lí khối dữ liệu lớn, nêu được ví dụ minh hoạ.
- Nêu được trải nghiệm của bản thân trong việc trích rút thông tin và tri thức hữu ích từ dữ liệu đã có.
Giới thiệu - Học máy
- Giải thích được sơ lược về khái niệm Học máy.
- Nêu được vai trò của Học máy trong những công việc như lọc thư rác, chẩn đoán bệnh, phân tích thị trường, nhận dạng tiếng nói và chữ viết, dịch tự động,...
- Nêu được một vài lĩnh vực trong đời sống có sử dụng kĩ thuật mô phỏng.
- Nêu được một vài vấn đề thực tế mà ở đó có thể cần dùng kĩ thuật mô phỏng để giải quyết.
- Sử dụng và giải thích được lợi ích của một vài phần mềm mô phỏng.
Khái niệm tham khảo
Học máy là một lĩnh vực trong trí tuệ nhân tạo nhầm nghiên cứu, phát triển các thuật toán giúp máy tính có thể học được từ dữ liệu để giải quyết các bài toán, các vấn đề trong cuộc sống.
Phân biệt giữa chương trình học máy và chương trình truyền thống:
Nguồn: https://www.godeltech.com/how-to-automate-the-testing-process-for-machine-learning-systems/
Ví dụ:
Người ta muốn xây dựng một chương trình để dự đoán cân nặng của một người khi biết chiều cao của họ.
Input: Chiều cao (cm)
Output: Cân nặng (kg)
Cách tiếp cần truyền thống: Đưa ra một công thức cố định, ví dụ y = x - 100 (trong đó y là cân nặng và x là chiều cao). Như vậy với một chiều cao nào đưa vào ta cũng có thể đưa ra cân nặng tương ứng, tuy nhiên chương trình này sẽ trở nên rất vô lý nếu chiều cáo người đó là 1m1 (110 cm) --> cân nặng là 10kg, thậm chí sẽ ra cân nặng âm nếu người này có chiều cao dưới 1m.
Cách tiếp cận học máy: chúng ta sẽ đặt phương trình trên thành y = ax + b. Nhiệm vụ bây giờ là sẽ thu thập dữ liệu của càng nhiều người càng tốt và xây dựng một thuật toán học từ dữ liệu để tìm ra giá trị của hai tham số a, b. Mục tiêu là làm sao để khi ta thế một giá trị chiều cao (x) vào thì ta nhận được một giá trị dự đoán cho cân nặng (y) là ít sai lệch so với thực tế nhất có thể.
Phân loại học máy
Cho đến nay, trong thực tế chúng ta có 3 loại học máy là: học có giám sát, học không giám sát và học tăng cường. Tuy nhiên, trong phạm vi ôn thi, chúng ta quan tâm đến học có giám sát và không giám sát.
Học có giám sát
Dữ liệu được phân tích thành các đặt trưng và được gán nhãn. Chẵng hạn trong ví dụ trên, tập dữ liệu của nhiều người được trích xuất đặt trưng là chiều cao và được gán nhãn là cân nặng của họ. Cần nói thêm rằng đây chỉ là ví dụ minh họa vì chỉ dựa vào một đặt trưng chiều cao thì không thể dự đoán chính xác cân nặng của một người.
Học có giám sát thường ứng dụng cho bài toán phân loại.
Ví dụ: Hệ thống lọc thư rác
Mô hình phân loại email
Nguồn: Hồ Sỹ Đàm, SGK Tin học 12 Cánh Diều
Học không giám sát
Trong loại học này, dữ liệu không được phân tích trước các đặt trưng và cũng không có nhãn. Thuật toán sẽ phân tập dữ liệu thành k cụm, mỗi cụm có những tính chất giống nhau do thuật toán tự học được.
Ví dụ chúng ta có một tập khách hàng rất lớn, chúng ta muốn hiểu biết thêm về họ nhưng không biết tìm hiểu theo những đặt trưng nào. Chúng ta sẽ cố gắng xây dựng một thuật toán để phân tập khách này thành 3 cụm, mỗi cụm có những đặt trưng tương tự như nhau.
Học không giám sát thường áp dụng cho bài toán phân cụm
Ví dụ: Mô hình phân cụm các quả
Mô hình phân cụm các quả
Nguồn: Hồ Sỹ Đàm, SGK Tin học 12 Cánh Diều
Mô hình học máy
Các mô hình học máy được tạo ra từ các thuật toán học máy và trải qua quá trình huấn luyện trên tập dữ liệu. Quá trình thực hiện thuật toán trên tập dữ liệu gọi là quá trình huấn luyện. Sau quá trình này sẽ tạo ra một mô hình có thể áp dụng trên một bài toán thực tế cụ thể.
Mô hình học máy
Nguồn: Hồ Sỹ Đàm, SGK Tin học 12 Cánh Diều
Quy trình học máy
Quy trình học máy diễn ra theo các bước sau đây (mình họa trên học có giám sát)
Quy trình học máy
Nguồn: https://www.simplilearn.com/what-is-machine-learning-process-article
Bước 1. Thu thập dữ liệu
Chọn dữ liệu phù hợp với bài toán cụ thể. Dữ liệu có thể được chọn từ nhiều nguồn, nhiều khuôn dạng khác nhau, và đây là dữ liệu thô.
Bước 2. Chuẩn bị dữ liệu (tiền xử lý)
Làm sách, loại bỏ nhiễu, bổ sung dữ liệu thiếu và chuyển đổi dữ liệu sang khuôn dạng phù hợp.
Chia dữ liệu thành hai phần, một phần để huấn luyện (trainning) và một phần đề kiểm thử (test).
Bước 3. Xây dựng mô hình
Chọn thuật toán học máy phù hợp và bài toán và dữ liệu. Một số loại huật toán như: hồi quy tuyến tinh1m cây quyết định, mạng nơ ron, ...
Huấn luyện mô hình để mô hình học từ dữ liệu và trở nên thích ứng với bài toán cụ thể đó.
Bước 4. Đánh giá mô hình.
Áp dụng mô hình lên tập dữ liệu kiểm thử để đối chiếu với các tiêu chí cần kiểm tra. Việc huấn luyện và đánh giá được thực hiện nhiều lần cho đến khi mô hình đạt yêu cầu mòng muốn.
Để cải thiện mô hình, ta có thể: phân chia lại tập dữ liệu, bổ sung dữ liệu mới, điều chỉnh các tham số của thuật toán học máy hoặc sử dụng thuật toán khác.
Bước 5. Triển khai ứng dụng mô hình
Sử dụng mô hình đã huấn luyện thành công vào ứng dụng thực tế.
Nhận dạng tiếng nói
Nhận dạng chữ viết
Dịch máy
Chẩn đoán bệnh
Phân tích thị trường
...
Nhiệm vụ 1 - Thực hiện trắc nghiệm học máy 1
Khái niệm
Khoa học dữ liệu là lĩnh vực liên ngành sử dụng các phương pháp khoa học, quy trình, cộng cụ của các ngành như Toán học và thống kê, khoa học máy tính kết hợp với kiến thức chuyên môn trong các lĩnh vực ứng dụng như kinh doanh, tài chính ngân hàng, ý tế, giáo dục, ... nhắm rút ra được những hiểu biết sâu sắc từ dữ liệu.
Khoa học dữ liệu và tính liên ngành
Nguồn: Hồ Sỹ Đàm, SGK Tin học 12 Cánh Diều
Phân tích và trực quan hóa dữ liệu
Biểu diễn dữ liệu bằng các loại biểu đồ, giúp dễ dàng nhận ra những yếu tố quan trọng, từ đó phát hiện vấn đề cần giải quyết.
Xây dựng mô hình dự đoánm dự báo
Sự dụng dữ liệu để xây dựng các mô hình dự đoán các xu hướng tương lai như sự thay đổi doanh số, biến động khách hàng, xuất hiện rủi ro, ...
Tối ưu hóa quyết định
Điểu chỉnh quyết định dựa trên dữ liệu, sử dụng các thuật toán tối ưu hóa để đưa ra quyết định tốt nhất.
Phát hiện tri thức
Tìm ra các mối quan hệ, quy luật ẩn trong dữ liệu để tìm ra nguyên nhân và kết quả, phát triển kiến thức mới.
Bước 1. Xác định vấn đề
Hiểu rõ những vấn đề mà tổ chức, doanh nghiệp cần giải quyết. Từ đó, xác định một số giả thuyết cần kiểm tra, đánh giá và quyết định.
Bước 2. Thu thập dữ liệu
Sau khi hiểu rõ vấn đề, cần thu thập dữ liệu liên quan từ nhiều nguồn khác nhau.
Bước 3. Chuẩn bị dữ liệu (tiền xử lý)
Lựa chọn dữ liệu phù hợp, xử lý dữ liệu thiếu, xóa dữ liệu thừa, điều chỉnh định dạng dữ liệu, ...
Bước 4. Phân tích và khai phá dữ liệu
Áp dụng mô hình trên dữ liệu đã xử lý để chọn lọc một số yếu tố quan trọng nhằm giải quyết vấn đề. Phân tích và khai phá dữ liệu nhằm tìm ra các mối quan hệ, quy luật ẩn trong dữ liệu. Xây dựng mô hình dự đoán, dự báo để để phát triển tri thức mới trong các hoạt động của tổ chức.
Bước 5. Đánh giá và giải thích
Sử dụng các tiêu chí cụ thể để đánh giá hiệu quả của mô hình, đánh giá tác động của mô hình lên hoạt động của tổ chức, doanh nghiệp, đánh giá mô hình để triển khai.
Bước 6. Ra quyết định và triển khai
Quyết định triển khai mô hình ở quy mô, cấp độ, phạm vi nào trong các hoạt động của tổ chức.
Ví dụ
Một cảng hàng không nhận thấy gần đây số lượng chuyến bay bị delay có xu hướng tăng cao. Lãnh đạo của cảng muốn tìm hiểu nguyên do để đưa ra các quyết định tiếp theo. --> Vấn đề cần giải quyết
Tổ dự án nhận thấy số chuyến bay delay tăng vào những thời điểm mà lượng khách qua cảng hàng không tăng, họ đặt ra giả thuyết rằng đây có thể là nguyên do. Họ quyết định thu thập các dữ liệu trong một khoản thời gian dài về số lượng hành khách qua sân bay theo từng thời điểm, số chuyến bay bị delay theo thời điểm tương ứng,... --> Thu thập dữ liệu.
Họ lựa chọn các dữ liệu phù hợp, lưu trữ đúng theo khuôn dạng sao cho tương ứng giữa lượng khách và số chuyến bị delay. --> Tiền xử lý dữ liệu
Họ dùng các công cụ thống kê của toán học để xác định độ tương quan giữa các yếu tố này, và thấy rằng để dự đoán khả năng delay trong tương lai thì cần dự đoán hành khách qua sân bay ở các thời điểm trương lai --> Họ xây dựng mô hình để xác định việc này. --> Áp dụng mô hình
Sau đó họ đánh giá độ tin cậy, độ chính xác của mô hình để trình cho cấp lãnh đạo. -->Phân tích, đánh giá
Cấp lãnh đạo dựa vào những báo cáo này để đưa ra các quyết định phân bổ nhân sự vào các khâu trong những thời điểm đông khách dự kiến tương lai --> Ra quyết định.
Khởi nguồn và được phát triển từ như cầu của kinh doanh thông minh, nhưng ngày này khoa học dữ liệu đóng góp rất nhiều vào nhiều ngành khác trong xã hội hiện đại như y tế, giáo dục, khoa học, hàng không vũ trụ, ...
Tài chính ngân hàng: Đánh giá rủi ro, phát hiện gian lận, lập mô hình đầu tư, phân khúc khách hàng
Ý tế: dự đoán dịch bệnh, chăm sóc người bệnh, quản lý dịch vụ y tế, điều chế thuốc,...
Sản xuất: Tối ưu quy trình, quản lý chuối cung ứng, cá nhân hóa trải nghiệm khách hàng, tư vấn mua hàng, ...
An ninh mạng: đánh giá rủi ro, tìm ẩn trong hệ thống
Dự án bộ gen người HGP
Khám phá không gian vũ trụ
Hệ thống giám sát đánh bắt cá toàn cầu
Các mô hình ngôn ngữ lớn
Phát hiện gian lận tín dụng
Các em đọc bài chi tiết trong ba bộ sách giáo khoa để hiểu rõ hơn về các dự án này.
Khái niệm
Dữ liệu lớn (Big Data) đề cập đến nguồn dữ liệu có khối lượng rất lớn, có tính đa dạng và phức tạp đến mức các công cụ truyền thống khó có thể lưu trữ và xử lý hiệu quả được.
Đặt trưng
Khối lượng (volum): Khối lượng lên đến nhiều petabyte hoặc exabyte.
Tốc độ (Velocity): Tốc độ sản sinh ra dữ liệu rất nhanh và theo thời gian thực
Tính đa dạng (Variety): dữ liệu đến từ nhiều nguồn khác nhau với nhiều định dạng khác nhau.
Tính xác thực (Veractity): Để cập đến độ tin cậy và chính xác của dữ liệu như: Chất lượng, tính toàn vẹn, nhất quán và đầy đủ.
Giá trị (Value): Dữ liệu lớn có tiềm năng mang lại những thông tin có giá trị, từ đó đưa ra những quyết định mang lại hiệu quả cao.
5 đặc trưng của Big Data
Nguồn: Hồ Sỹ Đàm, SGK Tin học 12 Cánh Diều
Phân tích dữ liệu
Phân tích dữ liệu đề cập đến quá trình kiểm tra, làm sạch, chuyển đổi và lập mô hình dữ liệu nhằm tìm ra các thông tin hữu ích từ dữ liệu để đưa ra kết luận hoặc dự đoán. Các loại phân tích có thể là:
Phân tích mô tả: Tóm tắt dữ liệu, trình bày trực quan.
Phân tích dự đoán: Đưa ra dự đoán, dự báo hoặc phân loại dữ liệu.
Dữ liệu chuỗi thời gian: Dựa trên chuỗi các điểm dữ liệu theo thời gian để dữ đoán sự biến động tương lai của dữ liệu
Phân tích hồi quy: Cho phép xác định mối quan hệ giữa một giá trị muốn biết với các giá trị của một số thuộc tính khác của dữ liệu để dự đoán khi có dữ liệu mới.
Khai phá tri thức từ dữ liệu
Dựa vào dữ liệu để có thể đưa ra các mẫu hình, các xu hướng. Các kỹ thuật thường dùng trong khai phá dữ liệu là phân loại, phân cụm.
Thực hiện các mô hình học máy trên dữ liệu lớn: Không có máy tính ta không thể huấn luyện và triển khai được các mô hình học máy trên dữ liệu lớn.
Khả năng mở rộng: Khả năng liên kết thành mạng giúp nhiều máy tính cùng giải quyết một vấn đề rất lớn trên BigData.
Lưu trữ và bảo mật dữ liệu: Khả năng lưu trữ lớn, đa dạng dữ liệu và cung cấp các cơ chế phân quyền truy cập giúp lưu trữ và bảo mật dữ liệu tốt hơn.
Xử lý theo thời gian thực: Các dữ liệu từ mạng xã hội, thị trường chứng khoáng, cảm biến trong hệ thống IOT được thu thập và xử lý tức thời nhờ máy tính.
Xử lý song song: Sử dụng các thuật toán song song giúp chia nhỏ dữ liệu và điều phối đến nhiều bộ vi xử lý để cùng thực hiện sẽ tiết kiệm thời gian rất nhiều.
Tự động hóa: Nhiều quy trình thu thập, tiền xử lý dữ liệu được thực hiện tự động giúp tiết kiệm rất nhiều thời gian và công sức của con người.
Ví dụ:
Năm 2020, GPT-3 được huấn luyện bằng 45TB dữ liệu thô từ sách, tạp chí, trang web, tầm 200 ngàn giờ video FullHD. Người ta trích xuất ra 175 tỉ tham số để huấn luyện mô hình. Nếu dùng 1 GPU V100 sẽ mất hàng trăm năm huấn luyện, nhưng với sự giúp sức của 1012GPU NVIDIA A100, việc này rút ngắn còn 34 ngày.
Năm 2023, thuật toán Foldseek Cluster ra đời, sử dụng AlphaFold DB để gom cụm cấu trúc protein thành 2,3 triệu cụm, giúp hiểu rõ lịch sử tiến hóa protein.
Nguồn: Lê Hiếu, hướng dẫn ôn thi tốt nghiệp THTP 2025, NXB GD Việt Nam
Python: Data Cleaning, Processing, Data visualization, Machine Learning
R: Statistical Analysis and Modeling, Data Manipulation, Data visualization
NLTK: Text Pre-Processing, Language Understanding, Feature Extraction
Matplotlib: Data Exploration, Model Evaluation, Communicating results
TensorFlow: Model Development, Model Customization, Learning Transfer
Scikit-learn: Machine Learning, Evaluation
D3.js: Dashboard Development, Interactive data Exploration
KNIME: Data Mining, Data Pre-processing, Workflow Automation
WEKA: Clustering, Regression Analysis, Association Rule Mining
SAS: High Reliability and Security, Procedural Versality, Data Handling
Tableau: Data Visualization, Data Integration, Real-time Collaboration
Apache Spark: Big Data Analytics, Graph Processing, Real-time Data Processing
Apache Hadoop: Data Warehousing, Batch Processing, Log Processing
Microsoft Excel: Pivot table, Power query, Forcast sheet, What if analysic, ...
1. Có bằng cử nhân về CNTT, Khoa học máy tính, Kỹ thuật, Toán học hoặc các lĩnh vực liên quan khác.
2. Có bằng thạc sĩ về Khoa học dữ liệu, Học máy hoặc các lĩnh vực liên quan khác.
3. Phát triển các kỹ năng cốt lõi về Thống kê, Toán học và Học máy.
4. Có được kinh nghiệm thực tế thông qua các dự án và thực tập.
5. Tìm hiểu về các nền tảng đám mây và các công cụ dữ liệu lớn.
6. Phát triển các kỹ năng giải quyết vấn đề và giao tiếp.
7. Có được các chứng chỉ về khoa học dữ liệu, học máy hoặc các công nghệ cụ thể hoặc tham gia các khóa học trực tuyến.
8. Xây dựng sơ yếu lý lịch và ứng tuyển vào các công việc cấp đầu vào như nhà phân tích dữ liệu hoặc nhà khoa học dữ liệu mới vào nghề để tích lũy kinh nghiệm.
9. Khoa học dữ liệu là một công nghệ đang phát triển nên hãy liên tục học hỏi và cập nhật các công nghệ, công cụ và phương pháp hay nhất mới nhất.
Nguồn: https://logicmojo.com/data-science-introduction
Nhiệm vụ 2: Thực hiện bài tập thực hành phân tích dữ liệu 1 - ước lượng kỳ hạn vay ngân hàng
Nhiệm vụ 3: Thực hiện bài tập thực hành phân tích dữ liệu 2 - dự đoán lượng khách qua sân bay
Nhiệm vụ 4: Thực hiện bài tập thực hành phân tích dữ liệu 3 - dự đoán giá bán sách cũ để có lời cao nhất.
Nhiệm vụ 5: Thực hiện bài tập thực hành phân tích dữ liệu 4 - dự đoán nồng độ coletorol thông qua độ tuổi
Nhiệm vụ 6: Thực hiện bài tập trắc nghiệm - Học máy và khoa học dữ liệu 2