khoa học dữ liệu bài 1 - tổng quan

34
Khoa học dữ liệu Bài 1 - Tổng quan

Upload: others

Post on 27-Nov-2021

1 views

Category:

Documents


0 download

TRANSCRIPT

Khoa học dữ liệuBài 1 - Tổng quan

Giảng viênPGS. TS Hà Quang Thụy, PGS. TS. Phan Xuân Hiếu,

PGS. TS. Lê Thanh Hà, TS. Trần Quốc Long, TS. Nguyễn Đỗ VănKhoa Công nghệ thông tin - Trường ĐH Công nghệ - ĐHQG Hà Nội

{thuyhq, hieupx, ltha, tqlong, ngdovan}@vnu.edu.vn2

Trợ giảngNguyễn Tuấn Phong, Nguyễn Thạc Thống,

Vũ Trung Kiên, Doãn Thị HiềnKhoa Công nghệ thông tin - Trường ĐH Công nghệ - ĐHQG Hà Nội

{tuanphong,ntthong,kienvu,hiendoan}@vnu.edu.vn3

Học liệuCodePower.vn

Khóa học Khoa học dữ liệuBài giảng, bài thực hành, video (bài giảng trên lớp), bài tập

4

5

NỘI DUNG

1. KHOA HỌC DỮ LIỆU ?

2. NHÀ KHOA HỌC DỮ LIỆU

3. QUY TRÌNH KHAI PHÁ DỮ LIỆU

4. CÔNG CỤ CỦA KHOA HỌC DỮ LIỆU

Khoa học dữ liệu ?Data science: What & Why

6

1

“Dữ liệu đang trở thành nguyên liệu sản xuất mớiData are becoming new raw material of business

Craig Mundie, Microsoft

77

KHOA HỌC DỮ LIỆU

8

Khoa học liên ngành về dữ liệu

Khoa học máy tính

Toán học Thống kê học

Tri thức chuyên ngành

KHOA HỌC DỮ LIỆU

KHOA HỌC DỮ LIỆU

9

Khoa học liên ngành về▻ Phương pháp▻ Quy trình▻ Hệ thống

hình thành tri thức từ các loại dữ liệu

Khoa học máy tính

Toán học Thống kê học

Tri thức chuyên ngành

KHOA HỌC DỮ LIỆU

NHU CẦU CỦA TỔ CHỨC - DOANH NGHIỆP

▰ Dữ liệu trợ giúp điều hành sản xuất, kinh doanh ?▻ Dự đoán▻ Tối ưu▻ Hiểu khách hàng

10

NHÀ KHOA HỌC DỮ LIỆU

▰ Tìm hiểu, phân tích dữ liệu▻ Trình diễn: đồ thị, bảng biểu, hình vẽ▻ Biến đổi: làm sạch, tính toán▻ Phát hiện quy luật, đặc trưng▻ Xử lý dữ liệu lớn

11

12

Nhu cầu các công việc▰ Hệ thống dữ liệu▰ Phân tích dữ liệu

NHU CẦU CÁC KỸ NĂNG KHÓ

13

Nhà khoa học dữ liệuData scientist

14

2

“Dữ liệu chiến thắng cảm xúc

Data beats emotions

Sead Rad, Sáng lập AD.LY

1515

CÁC VỊ TRÍ CÔNG VIỆC TRONG KHOA HỌC DỮ LIỆU

▰ Cấp quản lý: Giám đốc dữ liệu (CDO), quản lý nền tảng dữ liệu▰ Chuyên gia DL: nghiên cứu, phân tích, lập trình▰ Chuyên gia CSDL: thiết kế, quản trị CSDL (lớn)

▻ Chuyên gia thu thập, phân loại, kết nối▰ Kỹ thuật viên: vận hành hệ thống CSDL (lớn)▰ Nhân viên: hỗ trợ khách hàng, nhập liệu

16

CÁC VỊ TRÍ CÔNG VIỆC TRONG KHOA HỌC DỮ LIỆU

17

CÁC KỸ NĂNG CỦA NHÀ KHOA HỌC DỮ LIỆU

18

CÁC KỸ NĂNG CỦA NHÀ KHOA HỌC DỮ LIỆU

19

▰ Hiểu giá trị của dữ liệu▰ Hỏi đúng câu hỏi▰ Tôn trọng kiến thức ngành▰ Hiểu sức mạnh và giới hạn▰ Hiểu xác suất và thống kê▰ Nhạy cảm với các độ đo▰ Nhạy cảm với cái quan

trọng trong dữ liệu

▰ Chấp nhận thất bại▰ Làm việc kiểu AGILE▰ Làm việc trong đội có kiến thức

nền đa dạng▰ Khả năng vừa học vừa làm▰ Khả năng kể chuyện▰ Khả năng tò mò và sáng tạo▰ Đạo đức và trách nhiệm với dữ liệu

20

Chi tiết kĩ thuậthttp://nirvacana.com/thoughts/becoming-a-data-scientist/

Quy trình khai phá dữ liệuData mining process

21

3

“ Sẽ phạm sai lầm nghiêm trọng nếu tổng quát hóa trước khi có dữ liệuIt is a capital mistake to theorize before one has data

Sherlock Holmes

2222

QUY TRÌNH KHAI PHÁ DỮ LIỆU

23

Chuẩn bị dữ liệu

Triển khaiĐánh giá

Kiến thức chuyên ngành

Mô hình hóa

Hình thànhtri thức

QUY TRÌNH KHAI PHÁ DỮ LIỆU

24

Quy trình sản xuất

Chuẩn bị dữ liệu, làm sạch, lấy đặc trưng

Xây dựng mô hình bằng thuật toán huấn luyệnDữ liệu huấn luyện

Xây dựng ứng dụng và đánh giá hiệu năngDữ liệu kiểm tra

Triển khai ứng dụng

Hình thành tri thức

Mô tả dữ liệu

Phương pháp nghiên cứu khoa học

CÁC KIỂU KHAI PHÁ DỮ LIỆU

25

KHAI PHÁ DỮ LIỆU

Phân lớpHồi quy

Phát hiệnđặc trưng

Dữ liệuđặc biệt

Phân cụmPhát hiện

luật

CÁC KHOA HỌC - CÔNG NGHỆ LIÊN QUAN

26

Thuật toán

Học máyNhận dạng mẫu

CTDL & Giải thuật

2

Khai phá dữ liệu

Khoa học thống kêKhoa học trình diễn

1

Nền tảng công nghệ

Ứng dụngCông nghệ CSDLCông nghệ tính toán đám mâyTính toán hiệu năng cao (HPC)

3

Công cụ của khoa học dữ liệuData scientist's toolbox

27

4

“We chose it because we deal with huge amounts of data. Besides, it sounds really cool

Larry Page, Google (on Big Data)

2828

CÁC CÔNG CỤ

29

Nhập liệuLàm sạch

Báo cáo

Hiểu dữ liệu

Biến đổi

Trình diễn

Mô hình

Phân tíchHệ thống

DBRAW

KỸ SƯ HỆ THỐNG & KỸ SƯ PHÂN TÍCH DỮ LIỆU

Kỹ sư hệ thống dữ liệu

▰ Thiết kế▰ Phát triển▰ Kiểm thử▰ Bảo trì

Đảm bảo hệ thống CSDL và hệ thống tính toán về hiệu năng, hiệu suất, tính chịu lỗi ...

30

Kỹ sư phân tích dữ liệu

▰ Làm sạch▰ Tổ chức dữ liệu (lớn)▰ Phân tích dữ liệu▰ Báo cáo

Kết quả phân tích, mô hình, hiểu biết về dữ liệu, giải pháp cho tổ chức - doanh nghiệp

KIẾN THỨC NỀN TẢNG

31

Kỹ sư phân tích

Thống kê học

Toán họcKinh tế

Tối ưu hóa

Khoa học máy tính

Kỹ sư hệ thống

Kỹ thuật hệ thống

Khoa học máy tính

Kỹ thuật máy tính

NGÔN NGỮ, PHẦN MỀM, CÔNG CỤ

32

https://www.datacamp.com/community/blog/data-scientist-vs-data-engineer

33

CẢM ƠNLiên hệ

{thuyhq, hieupx, ltha, tqlong}@vnu.edu.vn

THAM KHẢO

Bài giảng có tham khảo:▰ Dự án EDISON về giảng dạy Khoa học dữ liệu của EU▰ APEC-2017 Data Science Initiative▰ Microsoft Data Science Program (EdX)

34