khoa học dữ liệu bài 1 - tổng quan
TRANSCRIPT
Giảng viênPGS. TS Hà Quang Thụy, PGS. TS. Phan Xuân Hiếu,
PGS. TS. Lê Thanh Hà, TS. Trần Quốc Long, TS. Nguyễn Đỗ VănKhoa Công nghệ thông tin - Trường ĐH Công nghệ - ĐHQG Hà Nội
{thuyhq, hieupx, ltha, tqlong, ngdovan}@vnu.edu.vn2
Trợ giảngNguyễn Tuấn Phong, Nguyễn Thạc Thống,
Vũ Trung Kiên, Doãn Thị HiềnKhoa Công nghệ thông tin - Trường ĐH Công nghệ - ĐHQG Hà Nội
{tuanphong,ntthong,kienvu,hiendoan}@vnu.edu.vn3
Học liệuCodePower.vn
Khóa học Khoa học dữ liệuBài giảng, bài thực hành, video (bài giảng trên lớp), bài tập
4
5
NỘI DUNG
1. KHOA HỌC DỮ LIỆU ?
2. NHÀ KHOA HỌC DỮ LIỆU
3. QUY TRÌNH KHAI PHÁ DỮ LIỆU
4. CÔNG CỤ CỦA KHOA HỌC DỮ LIỆU
“Dữ liệu đang trở thành nguyên liệu sản xuất mớiData are becoming new raw material of business
Craig Mundie, Microsoft
77
KHOA HỌC DỮ LIỆU
8
Khoa học liên ngành về dữ liệu
Khoa học máy tính
Toán học Thống kê học
Tri thức chuyên ngành
KHOA HỌC DỮ LIỆU
KHOA HỌC DỮ LIỆU
9
Khoa học liên ngành về▻ Phương pháp▻ Quy trình▻ Hệ thống
hình thành tri thức từ các loại dữ liệu
Khoa học máy tính
Toán học Thống kê học
Tri thức chuyên ngành
KHOA HỌC DỮ LIỆU
NHU CẦU CỦA TỔ CHỨC - DOANH NGHIỆP
▰ Dữ liệu trợ giúp điều hành sản xuất, kinh doanh ?▻ Dự đoán▻ Tối ưu▻ Hiểu khách hàng
10
NHÀ KHOA HỌC DỮ LIỆU
▰ Tìm hiểu, phân tích dữ liệu▻ Trình diễn: đồ thị, bảng biểu, hình vẽ▻ Biến đổi: làm sạch, tính toán▻ Phát hiện quy luật, đặc trưng▻ Xử lý dữ liệu lớn
11
CÁC VỊ TRÍ CÔNG VIỆC TRONG KHOA HỌC DỮ LIỆU
▰ Cấp quản lý: Giám đốc dữ liệu (CDO), quản lý nền tảng dữ liệu▰ Chuyên gia DL: nghiên cứu, phân tích, lập trình▰ Chuyên gia CSDL: thiết kế, quản trị CSDL (lớn)
▻ Chuyên gia thu thập, phân loại, kết nối▰ Kỹ thuật viên: vận hành hệ thống CSDL (lớn)▰ Nhân viên: hỗ trợ khách hàng, nhập liệu
16
CÁC KỸ NĂNG CỦA NHÀ KHOA HỌC DỮ LIỆU
19
▰ Hiểu giá trị của dữ liệu▰ Hỏi đúng câu hỏi▰ Tôn trọng kiến thức ngành▰ Hiểu sức mạnh và giới hạn▰ Hiểu xác suất và thống kê▰ Nhạy cảm với các độ đo▰ Nhạy cảm với cái quan
trọng trong dữ liệu
▰ Chấp nhận thất bại▰ Làm việc kiểu AGILE▰ Làm việc trong đội có kiến thức
nền đa dạng▰ Khả năng vừa học vừa làm▰ Khả năng kể chuyện▰ Khả năng tò mò và sáng tạo▰ Đạo đức và trách nhiệm với dữ liệu
20
Chi tiết kĩ thuậthttp://nirvacana.com/thoughts/becoming-a-data-scientist/
“ Sẽ phạm sai lầm nghiêm trọng nếu tổng quát hóa trước khi có dữ liệuIt is a capital mistake to theorize before one has data
Sherlock Holmes
2222
QUY TRÌNH KHAI PHÁ DỮ LIỆU
23
Chuẩn bị dữ liệu
Triển khaiĐánh giá
Kiến thức chuyên ngành
Mô hình hóa
Hình thànhtri thức
QUY TRÌNH KHAI PHÁ DỮ LIỆU
24
Quy trình sản xuất
Chuẩn bị dữ liệu, làm sạch, lấy đặc trưng
Xây dựng mô hình bằng thuật toán huấn luyệnDữ liệu huấn luyện
Xây dựng ứng dụng và đánh giá hiệu năngDữ liệu kiểm tra
Triển khai ứng dụng
Hình thành tri thức
Mô tả dữ liệu
Phương pháp nghiên cứu khoa học
CÁC KIỂU KHAI PHÁ DỮ LIỆU
25
KHAI PHÁ DỮ LIỆU
Phân lớpHồi quy
Phát hiệnđặc trưng
Dữ liệuđặc biệt
Phân cụmPhát hiện
luật
CÁC KHOA HỌC - CÔNG NGHỆ LIÊN QUAN
26
Thuật toán
Học máyNhận dạng mẫu
CTDL & Giải thuật
2
Khai phá dữ liệu
Khoa học thống kêKhoa học trình diễn
1
Nền tảng công nghệ
Ứng dụngCông nghệ CSDLCông nghệ tính toán đám mâyTính toán hiệu năng cao (HPC)
3
“We chose it because we deal with huge amounts of data. Besides, it sounds really cool
Larry Page, Google (on Big Data)
2828
CÁC CÔNG CỤ
29
Nhập liệuLàm sạch
Báo cáo
Hiểu dữ liệu
Biến đổi
Trình diễn
Mô hình
Phân tíchHệ thống
DBRAW
KỸ SƯ HỆ THỐNG & KỸ SƯ PHÂN TÍCH DỮ LIỆU
Kỹ sư hệ thống dữ liệu
▰ Thiết kế▰ Phát triển▰ Kiểm thử▰ Bảo trì
Đảm bảo hệ thống CSDL và hệ thống tính toán về hiệu năng, hiệu suất, tính chịu lỗi ...
30
Kỹ sư phân tích dữ liệu
▰ Làm sạch▰ Tổ chức dữ liệu (lớn)▰ Phân tích dữ liệu▰ Báo cáo
Kết quả phân tích, mô hình, hiểu biết về dữ liệu, giải pháp cho tổ chức - doanh nghiệp
KIẾN THỨC NỀN TẢNG
31
Kỹ sư phân tích
Thống kê học
Toán họcKinh tế
Tối ưu hóa
Khoa học máy tính
Kỹ sư hệ thống
Kỹ thuật hệ thống
Khoa học máy tính
Kỹ thuật máy tính
NGÔN NGỮ, PHẦN MỀM, CÔNG CỤ
32
https://www.datacamp.com/community/blog/data-scientist-vs-data-engineer