Download - Big Data and Machine Learning Workshop - Day 1 @ UTACM

1

تابستانن ۱۳۹۵

اامیر صدیقی

گذرریی بر کارربردد‌هایی ددااددهه‌هایی بزررگگ وو یاددگیریی‌ماشین

@amirsedighi تو4تر: [email protected]اایمیل:

ررووزز ااوولل - یاددگیریی‌ماشین، ررووشش‌هایی بانظاررتت

2

قبل اازز شرووععگذرریی بر کارربردد‌هایی ددااددهه‌هایی بزررگگ وو یاددگیریی‌ماشین - تابستانن ACM - ۱۳۹۵ دداانشگاهه تهراانن

UTACMBDML :یک گرووهه تلگراامی ددررست کنید براایی ااینکه ددرر طولل ددووررهه با هم ددرر ااررتباطط باشیم

ااسالید‌ها بعد اازز هر جلسه میرهه رروویی ااسالیدشر وو میتونید دداانلودد کنید

فرضض ما ااینه که با برنامه‌نویسی آآشنا هستید، ددرر هر جلسه کمی ددست به آآچارر می‌شویم

فرضض ما ااینه که سریع یادد می‌گیرید

لطفا موبایل‌هارروو خاموشش یا ساکت کنید

لطفا صندلی‌هایی نزددیک ددرر کالسس رروو براایی ااوونایی که ااحتماال ددیرتر می‌ررسن خالی بذااررین

یک کارر کوچک براایی تویی خونه ددااررید که اانجامم میدین وو قبل اازز کالسس بعدیی براامم اایمیل می‌کنید

ززمانن کالسس به همه بچه‌ها تعلق ددااررهه. پرسش‌هایی غیر بحراانی رروو بعد اازز کالسس یا ددرر گرووهه مطرحح کنیمددرر طولل کالسس کو4ز‌هایی کوچک دداارریم که ددرر ااسالید با Q مشخص شدهه‌ااند

ااگر ووااژژهه‌اایی بکارر می‌برمم که نامانوسس بگوشش میرسه، لطفا ررااهنما4م کنید

3

آآنچه ددرر ااین ددووررهه می‌آآموززیمگذرریی بر کارربردد‌هایی ددااددهه‌هایی بزررگگ وو یاددگیریی‌ماشین - تابستانن ACM - ۱۳۹۵ دداانشگاهه تهراانن

با برخی مفاهیم وو ررووشش‌هایی یاددگیریی‌ماشین آآشنا می‌شیم با مفاهیم پرددااززشش ِمه‌ددااددهه (بیگ‌ددیتا/کالنن‌ددااددهه/ددااددهه‌هایی بزررگگ) وو کارربردد‌ها آآشنا می‌شیم

با اابزاارر‌هایی متن‌بازز پرددااززشش ددااددهه‌هایی بزررگگ وو یاددگیریی ماشین (تواامم) آآشنا میشیم با ررووشش توسعه ررااهه‌حل‌هایی قابل ااعتمادد براایی پاسخ به نیازز‌هایی پیچیدهه ‌باززاارر وو صنعت آآشنا می‌شیم

اامیر صدیقی

موسس:

4

معرفی

http://recommender.ir http://helio.ir http://commentum.ir

@amirsedighi تو4تر: [email protected]اایمیل:

http://recommender.ir

http://helio.ir

http://commentum.ir

5

گذرریی بر کارربردد‌هایی ددااددهه‌هایی بزررگگ وو یاددگیریی‌ماشین - تابستانن ACM - ۱۳۹۵ دداانشگاهه تهراانن

خوشش آآمدید

6

ددرر ااطراافف ما مسائل پیچیدهه ززیاددیی ووجودد ددااررههگذرریی بر کارربردد‌هایی ددااددهه‌هایی بزررگگ وو یاددگیریی‌ماشین - تابستانن ACM - ۱۳۹۵ دداانشگاهه تهراانن

18 June 1886 – 8 or 9 June 1924

George Mallory

7


18 June 1886 – 8 or 9 June 1924

George Mallory

Q"Why did you want to climb Mount Everest?"

8


18 June 1886 – 8 or 9 June 1924

George Mallory

Q"Why did you want to climb Mount Everest?"

"Because it's there"A

9


حل کرددنن بسیارریی اازز مسائل ددنیایی ووااقعی، توسط االگورریتم‌هایی ااختصاصی، ااگر

غیر ممکن نباشد، بسیارر سخت ااست.

10


11


کداامم تومورر‌ها بدخیم‌ هستند؟

12


کداامم ملک باززگشت سرمایه بهتریی دداارردد؟

13


ااین موشک هنگامم پرتابب منفجر می‌شودد یا به پروواازز ددرر‌می‌آآید؟

14


ااین کارربر کداامم کلیپ‌ها رراا ددووست دداارردد؟

15


تشخیص چهرهه…

16


17


18


بپر!

19

سیر تکامل ررووشش‌هایی حل مسئلهگذرریی بر کارربردد‌هایی ددااددهه‌هایی بزررگگ وو یاددگیریی‌ماشین - تابستانن ACM - ۱۳۹۵ دداانشگاهه تهراانن

براایی هر مسئله االگورریتمی ااختصاصی طرااحی وو پیاددهه ساززیی کنیم

20


طرااحی وو تعریف االگورریتم‌هایی ااختصاصی براایی حل هر مسئله، عملی وو مقروونن به

صرفه نیست


21



صرفه نیست

به ماشین یاددبدهیم که یاددبگیردد


22



صرفه نیست

ماشین یاددبگیردد که یاددبگیردد



23



صرفه نیست



بشر به سمت اابدااعع ررووشش‌هایی یونیفرمم وو فرااگیر براایی حل اانوااعع مسائل پیش می‌رروودد


24



صرفه نیست



براایی هر مسئله االگورریتمی ااختصاصی طرااحی وو پیاددهه ساززیی کنیمMachine Learning


25



صرفه نیست



براایی هر مسئله االگورریتمی ااختصاصی طرااحی وو پیاددهه ساززیی کنیمMachine Learning

Deep Learning


26

یاددگیریِی ماشین - تعریفگذرریی بر کارربردد‌هایی ددااددهه‌هایی بزررگگ وو یاددگیریی‌ماشین - تابستانن ACM - ۱۳۹۵ دداانشگاهه تهراانن

یاددگیریِی ماشینMachine Learning

27


“[Machine Learning is the] field of study that gives computers the ability to learn without being explicitly programmed.” - Arthur Samuel, 1959

28


“A computer program is said to learn from experience E with respect to some task T and some performance measure P, if its performance on T, as measured by P, improves with experience E.” - Tom Mitchell, 1997

29

یاددگیریِی ماشین - مثاللگذرریی بر کارربردد‌هایی ددااددهه‌هایی بزررگگ وو یاددگیریی‌ماشین - تابستانن ACM - ۱۳۹۵ دداانشگاهه تهراانن

So if you want your program to predict, traffic patterns at a busy intersection (task T), you can run it through a machine learning algorithm with data about past traffic patterns (experience E) and, if it has successfully “learned”, it will then do better at predicting future traffic patterns (performance measure P).

Experience E Task T

30

یاددگیریِی ماشین - شما جواابب بدینگذرریی بر کارربردد‌هایی ددااددهه‌هایی بزررگگ وو یاددگیریی‌ماشین - تابستانن ACM - ۱۳۹۵ دداانشگاهه تهراانن

31


32


33

یاددگیریِی ماشین - پاسخگذرریی بر کارربردد‌هایی ددااددهه‌هایی بزررگگ وو یاددگیریی‌ماشین - تابستانن ACM - ۱۳۹۵ دداانشگاهه تهراانن

TEP

34

اانوااعع یادد‌گیریی - با‌نظاررتتگذرریی بر کارربردد‌هایی ددااددهه‌هایی بزررگگ وو یاددگیریی‌ماشین - تابستانن ACM - ۱۳۹۵ دداانشگاهه تهراانن

Supervised machine learning: The program is “trained” on a pre-defined set of “training examples”, which then facilitate its ability to reach an accurate conclusion when given new data.

35



Most Popular

36



Most PopularRight Answers are Given

37

اانوااعع یادد‌گیریی - بی‌نظاررتتگذرریی بر کارربردد‌هایی ددااددهه‌هایی بزررگگ وو یاددگیریی‌ماشین - تابستانن ACM - ۱۳۹۵ دداانشگاهه تهراانن

Unsupervised machine learning: The program is given a bunch of data and must find patterns and relationships therein.

38

اانوااعع یاددگیریی با نظاررتتگذرریی بر کارربردد‌هایی ددااددهه‌هایی بزررگگ وو یاددگیریی‌ماشین - تابستانن ACM - ۱۳۹۵ دداانشگاهه تهراانن

(Supervised Learning ) یاددگیریی با نظاررتت

ررگرااسیونن

(Classification) سامانه‌هایی یاددگیریی ماشین طبقه‌بندیی

39


چقدرر؟ چند تا؟




40



آآیا بیمارر ااست؟ کیفیتش خوبه؟




41



آآیا بیمارر ااست؟ کیفیتش خوبه؟




42

یاددگیریی با نظاررتت یا یاددگیریی نظاررتت‌شدههگذرریی بر کارربردد‌هایی ددااددهه‌هایی بزررگگ وو یاددگیریی‌ماشین - تابستانن ACM - ۱۳۹۵ دداانشگاهه تهراانن

یاددگیریی با نظاررتت

43

اانوااعع یادد‌گیریی - بانظاررتت - ررگرااسیوننگذرریی بر کارربردد‌هایی ددااددهه‌هایی بزررگگ وو یاددگیریی‌ماشین - تابستانن ACM - ۱۳۹۵ دداانشگاهه تهراانن

h(x) ددرر ااغلب کارربردد‌هایی یاددگیریِی ماشین بانظاررتت، هدفف نهایی توسعه تابع پیش‌بینی

ااست که به آآنن “فرضیه” (Hypothesis) می‌گویند.

“یاددگیریی” حاوویی بهرهه‌بردداارریی اازز االگورریتم‌هایی پیچیدهه رریاضی‌ به منظورر بهینه ساختن ااین تابع به ااززاایی مقداارر ووررووددیی x ااست.

44


h(x) ددرر ااغلب کارربردد‌هایی یاددگیریِی ماشین بانظاررتت، هدفف نهایی توسعه تابع پیش‌بینی



x = مساحت ملک به متر مربعh(x) = بهایی ملک ددرر باززاارر

45


h(x) ددرر ااغلب کارربردد‌هایی یاددگیریِی ماشیِن بانظاررتت، هدفف نهایی توسعه تابع پیش‌بینی



x = مساحت ملک به متر مربعh(x) = بهایی ملک ددرر باززااررPredictor

46


ددرر عمل معموال x بیانگر نقاطِط ددااددهه‌اایی متعدددیی‌‌ست:

x1 : مساحت بر حسب متر مربع x2 : تعداادد ااطاقق خواابب x3 : تعداادد سروویس بهدااشتی x4 : طبقه x5 : سالل ساخت x6: کد پستی

47

یاددگیریِی‌ بانظاررتت - پیش‌بینیگذرریی بر کارربردد‌هایی ددااددهه‌هایی بزررگگ وو یاددگیریی‌ماشین - تابستانن ACM - ۱۳۹۵ دداانشگاهه تهراانن

یک تابع پیش‌بینی ساددهه:

ثابت هستندوو

هدفف ما پیداا کرددنن مقاددیر ااست به شکلی که h(x) بهینه شودد.وو

48

یاددگیریِی‌ بانظاررتت - آآموززششگذرریی بر کارربردد‌هایی ددااددهه‌هایی بزررگگ وو یاددگیریی‌ماشین - تابستانن ACM - ۱۳۹۵ دداانشگاهه تهراانن

بهینه ساززیی تابع پیش‌بینی h(x) توسط مثالل‌هایی آآموززشی اانجامم می‌شودد.

49



به ااززاایی هر مثالل آآموززشی یک x_train دداارریم که مقداارر خرووجی y رراا براایی ما تولید می‌کند.

50



y رراا می‌شناسیم


51



براایی هر مثالل مقاددرر تفاووتت بین h(x_train) وو مقداارر اازز پیش تع�ن شدهه y رراا میابیم.


52



به کمک مثالل‌هایی آآززمایشی کافی، ااین ااختالفف‌ها ررووشی مفید براایی محاسبه ناددررستی (wrongness) تابع h(x) بدست می‌ددهند.



53





ووپس می‌تواانیم با ااختیارر کرددنن مقاددیر مناسبی براایی اازز میزاانن خطا بکاهیم.


54







55






ووتا جایی که سیستم به بهترین مقاددیر همگراا شودد اادداامه می‌یابد…


56

یاددگیریِی‌ بانظاررتت - ررضایتمندیی پرسنلگذرریی بر کارربردد‌هایی ددااددهه‌هایی بزررگگ وو یاددگیریی‌ماشین - تابستانن ACM - ۱۳۹۵ دداانشگاهه تهراانن

57


ررضایت‌مندیی اازز صفر تا ۱۰۰

58



آآشوبب‌

59



منطقی حاکم ااست!

60



چه کنیم؟!!!

61


Q چگونه می‌تواانیم ماشین رراا آآموززشش ددهیم تا ددقیقا،

میزاانن ررضایت یک کاررمند رراا پیش‌بینی کند؟

62


Q

نمی‌تواانیم.A

چگونه می‌تواانیم ماشین رراا آآموززشش ددهیم تا ددقیقا،میزاانن ررضایت یک کاررمند رراا پیش‌بینی کند؟

63


Q چگونه می‌تواانیم ماشین رراا آآموززشش ددهیم تا ددقیقا،

میزاانن ررضایت یک کاررمند رراا پیش‌بینی کند؟

نمی‌تواانیم.A هدفف یاددگیریی ماشین هرگز محاسبه

پیش‌بینی‌هایی مطلقا ددقیق نیست، چراا که ااصوال ددرر ددنیایی ووااقعی “ددقیقا” بی‌معنیست

64


هدفف یاددگیریی ماشین محاسبه پیشبینی‌هایی ااست کهددرر صنعت وو کسب‌وو‌کارر به ااندااززهه کافی مفید هستند.

65


“All models are wrong, but some are useful” - George E. P. Box

66


ااستفاددهه اازز ددااددهه‌هایی تصاددفی ددرر مثالل‌هایی آآموززشی

67


آآموززشش ماشین با پرسنلی که حقوقق‌هایی باال می‌گیرند


68


آآموززشش ماشین با پرسنلی که حقوقق‌هایی باال می‌گیرندآآموززشش ماشین با پرسنلی که ددرر بخش مهندسی کارر می‌کنند


69




70




ااستفاددهه اازز ددااددهه‌هایی که جامعیت کافی ندااررند یا تصاددفی نیستند، رریسک یاددگیریی االگو‌هایی که ددرر ددااددهه‌هایی ووااقعی یافت نمی‌شوند رراا اافزاایش می‌ددهد

71


قانونن ااعداادد بزررگگ

72



73



74



75



76



77



27

78



27

79



80



81


ررضایت‌مندیی۱۰۰ 1500

82





همگراا شدهه! Converged




Optimal Predictor

گذرریی بر کارربردد‌هایی ددااددهه‌هایی بزررگگ وو یاددگیریی‌ماشین - تابستانن ACM - ۱۳۹۵ دداانشگاهه تهراانن



Optimal Predictor

ررگرااسیونن خطی تک متغیر univariate linear

regression

یاددگیریِی‌ بانظاررتت - ررضایتمندیی پرسنل

87

پیچیدگیگذرریی بر کارربردد‌هایی ددااددهه‌هایی بزررگگ وو یاددگیریی‌ماشین - تابستانن ACM - ۱۳۹۵ دداانشگاهه تهراانن

88

بهبودد ددرر محاسبه مقاددیر ثابتگذرریی بر کارربردد‌هایی ددااددهه‌هایی بزررگگ وو یاددگیریی‌ماشین - تابستانن ACM - ۱۳۹۵ دداانشگاهه تهراانن

چگونه می‌تواانیم ااطمینانن حاصل کنیم که مقاددیر ددرر هر گاممووبهتر شدهه‌ااند؟

Q

89

بهبودد ددرر محاسبه مقاددیر ثابتگذرریی بر کارربردد‌هایی ددااددهه‌هایی بزررگگ وو یاددگیریی‌ماشین - تابستانن ACM - ۱۳۹۵ دداانشگاهه تهراانن

چگونه می‌تواانیم ااطمینانن حاصل کنیم که مقاددیر ددرر هر گاممووبهتر شدهه‌ااند؟

Q

Aبه کمک محاسبه میزاانن خطا (ناددررستی) نسبت به گامم قبلی وو

محاسباتت ددیفراانسیل وو اانتگراالل.

90

کمینه ساززیی خطا(ناددررستی)گذرریی بر کارربردد‌هایی ددااددهه‌هایی بزررگگ وو یاددگیریی‌ماشین - تابستانن ACM - ۱۳۹۵ دداانشگاهه تهراانن

محاسبه خطا (ناددررستی - wrongness) یا تابع هزینه

91



: تمامی ضراایبی که ددرر تابع پیش‌بینی ااستفاددهه می‌کنیم

92




93




وو ااستفاددهه می‌کنیم.میزاانن خطایی تابع پیش‌بینی h(x) ووقتی اازز مقاددیر

94

کمینه مربعاتت خطیگذرریی بر کارربردد‌هایی ددااددهه‌هایی بزررگگ وو یاددگیریی‌ماشین - تابستانن ACM - ۱۳۹۵ دداانشگاهه تهراانن

95


96


97


مربع خطا رراا کمینه می‌کند

98


99


100


101

کمینه مربعاتت خطی - مدلل عمومیگذرریی بر کارربردد‌هایی ددااددهه‌هایی بزررگگ وو یاددگیریی‌ماشین - تابستانن ACM - ۱۳۹۵ دداانشگاهه تهراانن

مدلل خطی ززیر به ددست می‌آآید:

102

تابع هزینه (میزاانن ناددررستی)گذرریی بر کارربردد‌هایی ددااددهه‌هایی بزررگگ وو یاددگیریی‌ماشین - تابستانن ACM - ۱۳۹۵ دداانشگاهه تهراانن

به کمک کمینه مربعاتت میزاانن جریمه یک حدسس بد، به صوررتت نمایی (ددررجه ۲) اافزاایش می‌یابد.

ددرر اانتخابب مقاددیر ثابت به ددنبالل آآنن‌هایی هستیم که تابع رراا کمینه کنند. اازز ااختالفف مقداارریی که حدسس ززددیم وو جواابب صحیح، ااستفاددهه می‌کند.

متوسط هزینه

103

(Gradient Descent) شیب نزوولیگذرریی بر کارربردد‌هایی ددااددهه‌هایی بزررگگ وو یاددگیریی‌ماشین - تابستانن ACM - ۱۳۹۵ دداانشگاهه تهراانن

می‌خوااهیم براایی تابع پیش‌بینی h(x) بهترین مقاددیر ممکن براایی رراا بیابیم به شکلی که تابع هزینه آآنن یعنی کمینه باشد.

وو

104


فرضض کنید ااین ترسیمی اازز تابع هزینه یک مسئله ااست:

105


فرضض کنید ااین ترسیمی اازز تابع هزینه یک مسئله ااست:

ووتغ�رااتت تابع هزینه

ددرر قبالل تغ�رااتت مقاددیر رراا می‌بینیم

106


به ااززیی اانتخابب مقاددیر مختلف براایی وو گویی رروویی یک کاسه

حرکت می‌کنیم. حدااقل هزینه پا4ن ترین قسمت کاسه ااست.

107


باید مقاددیر وو ددرر گودد ترین قسمت تابع هزینه رراا

بیابیم.

108



بیابیم.

چگونه؟Q

109



بیابیم.

چگونه؟Q

حسابب ددیفراانسیل :)A

110


شیب تابع هزینه رراا که ددرر J( , ) ووااقع ززووجج مشتق‌هاییااست (یک بارر مشتق وو یکبارر

) رراا محاسبه می‌کنیم. به ااززاایی هر تتا. وو تتا۱ می‌تواانیم

شیب رراا محاسبه کنیم.

مقداارر J به ااززاایی مقاددیر مختلف تغ�ر می‌کند. مشتق J اازز میزاانن شیب

خبر می‌ددهد. بر ااساسس میزاانن شیب می‌تواانیم تصمیم بگیریم چگونه کمی به ااضافه کرددهه وو

اازز بکاهیم تا به قعر ددررهه سرااززیر شویم

111


مقداارر J به ااززاایی مقاددیر مختلف تغ�ر می‌کند. مقداارر J اازز میزاانن شیب



112


مقداارر J به ااززاایی مقاددیر مختلف تغ�ر می‌کند. مقداارر J اازز میزاانن شیب



113


114

یاددگیریِی‌ بانظاررتت - ددنیایی ووااقعیگذرریی بر کارربردد‌هایی ددااددهه‌هایی بزررگگ وو یاددگیریی‌ماشین - تابستانن ACM - ۱۳۹۵ دداانشگاهه تهراانن

یک ددوورر اازز آآموززشش رراا به پایانن برددیم!

115



تابع پیش‌بینی ما حاال پیش‌بینی‌هایی بهتریی نسبت به قبل تولید می‌کند :)

116



تابع پیش‌بینی ما حاال پیش‌بینی‌هایی بهتریی نسبت به قبل تولید می‌کند :)

ماشین ما حاال کمی باهوشش‌تر شدهه ااست!

117


ررووشش شیب نزوولی با ااعمالل تغ�رااتی می‌توااند ددرر اانوااعع ررووشش‌هایی یاددگیریی با نظاررتت ااجراا می‌شودد. مفاهیم ااوولیه همانند آآنچه با هم ددیدیم ااست.

118



سامانه‌هایی یاددگیریی ماشین ررگرااسیونن



آآیا بیمارر ااست؟ کیفیت ااستانداارردد رراا ددااررااست؟

119

یاددگیریی با نظاررتت - طبقه‌بندیی گذرریی بر کارربردد‌هایی ددااددهه‌هایی بزررگگ وو یاددگیریی‌ماشین - تابستانن ACM - ۱۳۹۵ دداانشگاهه تهراانن

120


میخوااهیم مطمئن شویم جنس کامل وو مرغوبب به ددست مشتریی می‌ررسد

121


بیسکویت بد y = ۰ (red)

لیبل‌ها:

بیسکویت خوبب y = 1 (blue)

122


آآیا تابع پیش‌بینی ررگرااسیونن براایی حل ااین مسئله مناسب ااست؟

Q


لیبل‌ها:


123


آآیا تابع پیش‌بینی ررگرااسیونن براایی حل ااین مسئله مناسب ااست؟

Q

Aبیسکویت بد

y = ۰ (red)

لیبل‌ها:


ددرر طبقه‌بندیی معموال به یک تابع Predictor براایی ساختن گمانی بین ۰ وو ۱ نیازز دداارریم.

124



لیبل‌ها:


125




126




بد نیستفکرشو نکن

127


Sigmoid function transforms our output into the range between 0 and 1

128

یاددگیریی با نظاررتت - تابع هزینه گذرریی بر کارربردد‌هایی ددااددهه‌هایی بزررگگ وو یاددگیریی‌ماشین - تابستانن ACM - ۱۳۹۵ دداانشگاهه تهراانن

طبقه‌بندیی (Classificatoin) ددرر محاسبه هزینه نیز اازز منطق متفاووتی بهرهه می‌گیردد:

129


ااگر y براایی بیسکویتی 0 باشد وو ما 1 حدسس ززددهه باشیم، کامال ددرر ااشتباهیم! (y = 0, but h(x) = 1) !ااشتباهه فاحش، جریمه هنگفت ددرر بر دداارردد


130


ااگر یک بیسکویت صفر باشد وو ما صفر حدسس ززددهه باشیم نباید هزینه‌اایی محاسبه کنیم.



131


ااگر یک بیسکویت صفر باشد وو ما صفر حدسس ززددهه باشیم نباید هزینه‌اایی محاسبه کنیم. (y = 1, but h(x) = 0.8) ااگر بیسکویت مطلوبب باشد وولی ما یقین ندااشته باشیم

باید هزینه‌ ااندکی ددرر نظر گرفته شودد



132



باید هزینه‌ ااندکی ددرر نظر گرفته شوددااگر حدسس ما ااشتباهه باشد وولی ااطمینانن ندااشته باشیم (y = 1 but h(x) = 0.3) باید

هزینه محسوسی بپرددااززیم وولی نه به ااندااززهه‌اایی که کامال ااشتباهه کرددهه‌اایم.



133



134


ااگر یک بیسکویت صفر باشد وو ما یک حدسس ززددهه باشیم، کامال ددرر ااشتباهیم.


باید هزینه‌ ااندکی ددرر نظر گرفته شوددااگر حدسس ما ااشتباهه باشد وولی ااطمینانن ندااشته باشیم (y = 1 but h(x) = 0.3) باید

هزینه محسوسی بپرددااززیم وولی نه به ااندااززهه‌اایی که کامال ااشتباهه کرددهه‌اایم.

(y = 0, but h(x) = 1) .ااشتباهه فاحش، جریمه هنگفتبینهایت

۰

۰.۰۹۶

۰.۵۲


135


136

یاددگیریی با نظاررتت - شما جواابب بدین گذرریی بر کارربردد‌هایی ددااددهه‌هایی بزررگگ وو یاددگیریی‌ماشین - تابستانن ACM - ۱۳۹۵ دداانشگاهه تهراانن

137

یاددگیریی با نظاررتت - شما جواابب بدین گذرریی بر کارربردد‌هایی ددااددهه‌هایی بزررگگ وو یاددگیریی‌ماشین - تابستانن ACM - ۱۳۹۵ دداانشگاهه تهراانن

138

پیاددهه ساززییگذرریی بر کارربردد‌هایی ددااددهه‌هایی بزررگگ وو یاددگیریی‌ماشین - تابستانن ACM - ۱۳۹۵ دداانشگاهه تهراانن

کد بنویسیم

139

مسئلهگذرریی بر کارربردد‌هایی ددااددهه‌هایی بزررگگ وو یاددگیریی‌ماشین - تابستانن ACM - ۱۳۹۵ دداانشگاهه تهراانن

یک بنگاهه تخصصی ااررززیابی خوددرروو هایی ددست‌ددوومم براایی کنترلل صحت کیلومتر‌شمارر

(Odometer) به ما مرااجعه کرددهه

وو می‌خوااهد به کمک کامپیوتر وو ااتوماسیونن کیلومتر‌هایی

ددست‌کارریی شدهه رراا شناسایی کنیم.

140


صاحب بنگاهه معتقد ااست ااگر خوددرروویی کمتر اازز میزاانن متعاررفف سن خودد ررااهه‌ررفته، باید به عنواانن

مورردد مشکوکک شناسایی شودد.(عقل سلیم)

141


ااطالعاتت ۲۱ خوددرروو رراا ددرر ااختیارر ما قراارر ددااددهه که شامل ستونن‌هایی نوعع، سن، کیلومتر وو تخمین ددرر مورردد تقلب

ااست.

142


143

پیاددهه ساززیی - چه باید کردد؟گذرریی بر کارربردد‌هایی ددااددهه‌هایی بزررگگ وو یاددگیریی‌ماشین - تابستانن ACM - ۱۳۹۵ دداانشگاهه تهراانن

چه االگورریتم‌هایی مناسبند؟ چه ززبانن‌هایی برنامه‌نویسی مناسبند؟

چه سیستم‌عاملی؟ چقدرر طولل می‌کشه ااوولین نمونه رروو بنویسم؟

ااگر ددیتا ززیادد بشه، مشکل کارراایی پیداا نمی‌کنم؟ چطورر می‌تونم مطمئن بشم رَروِوشم ددررسته؟

آآیا کدیی که مینویسم پایدااررهه؟ مرددمم میتونن ززندگیشونن رروو بسپرنن به کد من؟

144






متقلب بوددنن یا نبوددننززبانن‌هایی متعددد …

اایدهه‌اایی ندااررممخیلی ززیادد :(

)))):باید بپرسم اازز متخصصین

نمی ددوونم ووااقعا. باید ززیر لودد برهه.وولش کن‌ ااصال به ززحمتش نمی‌ااررززهه

145






متقلب بوددنن یا نبوددننززبانن‌هایی متعددد …

اایدهه‌اایی ندااررممخیلی ززیادد :(

)))):باید بپرسم اازز متخصصین

نمی ددوونم ووااقعا. باید ززیر لودد برهه.وولش کن‌ ااصال به ززحمتش نمی‌ااررززهه

146

یاددگیریی با نظاررتت به کمک آآپاچی ماهوتتگذرریی بر کارربردد‌هایی ددااددهه‌هایی بزررگگ وو یاددگیریی‌ماشین - تابستانن ACM - ۱۳۹۵ دداانشگاهه تهراانن

لجستیک ررگرااسیونن

یک مدلل آآمارریی ررگرسیونن براایی متغیرهایی وواابسته ددووسویی مانند: بیمارریی یا سالمت •مرگگ یا ززندگی •خرید یا عدمم خرید •ثبت نامم یا عدمم ثبت نامم •ووررشکسته شدنن یا ووررشکسته نشدنن•

147

پیاددهه ساززیی - به بزررگانن ااقتداا کنیمگذرریی بر کارربردد‌هایی ددااددهه‌هایی بزررگگ وو یاددگیریی‌ماشین - تابستانن ACM - ۱۳۹۵ دداانشگاهه تهراانن

“تنبلی فضیلت ااست” آآرراا آآبرااهامیانن

148


One of Components on the Shelf:

https://builds.apache.org/job/Mahout-Quality/javadoc/org/apache/mahout/classifier/sgd/OnlineLogisticRegression.html

https://builds.apache.org/job/Mahout-Quality/javadoc/org/apache/mahout/classifier/sgd/OnlineLogisticRegression.html

149


LOGISTIC REGRESSION USING APACHE MAHOUT

Logistic regression is a supervised learning algorithm used to classify input data into a categories. If we have two possible categories, then we are using binary or binomial logistic regression and if we have more than three categories we are using multinomial logistic regression. For the binary logistic regression, the algorithm will find a mathematical function which best fits the training data. This function is the sigmoid function which takes values between 1 and 0. The classification algorithm will use the trained model function and will return the probability for a new input data to be in a category or another.

150

یاددگیریی با نظاررتت - کشف تقلب گذرریی بر کارربردد‌هایی ددااددهه‌هایی بزررگگ وو یاددگیریی‌ماشین - تابستانن ACM - ۱۳۹۵ دداانشگاهه تهراانن

DETECT CAR MILEAGE FRAUD USING LOGISTIC REGRESSION

small 10 100000 0 small 10 200000 0 small 8 30000 1 small 3 10000 1 small 5 10000 1 medium 6 60000 0 medium 4 10000 1 medium 4 200000 0 medium 5 50000 1family 2 60000 0

Model Age Milage Result Model Age Milage Resultfamily 5 10000 1 family 4 200000 0 family 7 70000 1 family 1 20000 0 family 2 10000 1 sport 6 50000 1 sport 4 100000 0 sport 2 20000 1 sport 3 30000 1 sport 10 5000 1sport 10 100000 1

151

یاددگیریی با نظاررتت - ملزووماتت گذرریی بر کارربردد‌هایی ددااددهه‌هایی بزررگگ وو یاددگیریی‌ماشین - تابستانن ACM - ۱۳۹۵ دداانشگاهه تهراانن

Prerequisites:

• Linux or Mac • Java 1.7 • Apache Maven 3

152

CM - یاددگیریی با نظاررتتگذرریی بر کارربردد‌هایی ددااددهه‌هایی بزررگگ وو یاددگیریی‌ماشین - تابستانن ACM - ۱۳۹۵ دداانشگاهه تهراانن

Create the Maven project:

mvn archetype:generate -DarchetypeGroupId=org.apache.maven.archetypes -DgroupId=com.technobium -DartifactId=mahout-logistic-regression -DinteractiveMode=false

153

یاددگیریی با نظاررتت - تغpر نامم گذرریی بر کارربردد‌هایی ددااددهه‌هایی بزررگگ وو یاددگیریی‌ماشین - تابستانن ACM - ۱۳۹۵ دداانشگاهه تهراانن

Rename the default created App class to LogisticRegression

mv mahout-logistic-regression/src/main/java/com/technobium/App.java mahout-logistic-regression/src/main/java/com/technobium/LogisticRegression.java

154

یاددگیریی با نظاررتت - وواابستگی‌ها گذرریی بر کارربردد‌هایی ددااددهه‌هایی بزررگگ وو یاددگیریی‌ماشین - تابستانن ACM - ۱۳۹۵ دداانشگاهه تهراانن

Add the Mahout and SLF4J libraries to this project:cd mahout-logistic-regression nano pom.xml

<dependencies> ... <dependency> <groupId>org.apache.mahout</groupId> <artifactId>mahout-core</artifactId> <version>0.9</version> </dependency> <dependency> <groupId>org.slf4j</groupId> <artifactId>slf4j-simple</artifactId> <version>1.7.7</version> </dependency> </dependencies>

155

یاددگیریی با نظاررتت - پالگین بیلد وو نسخه گذرریی بر کارربردد‌هایی ددااددهه‌هایی بزررگگ وو یاددگیریی‌ماشین - تابستانن ACM - ۱۳۹۵ دداانشگاهه تهراانن

Add ُthe build configuration:

<build> <plugins> <plugin> <artifactId>maven-compiler-plugin</artifactId> <configuration> <source>1.7</source> <target>1.7</target> </configuration> </plugin> </plugins> </build>

156

یاددگیریی با نظاررتت - ددااددهه‌هایی آآموززشش گذرریی بر کارربردد‌هایی ددااددهه‌هایی بزررگگ وو یاددگیریی‌ماشین - تابستانن ACM - ۱۳۹۵ دداانشگاهه تهراانن

mkdir input

copy the file containing the training data, inputData.csv

157

یاددگیریی با نظاررتت - کد تر وو تمیز گذرریی بر کارربردد‌هایی ددااددهه‌هایی بزررگگ وو یاددگیریی‌ماشین - تابستانن ACM - ۱۳۹۵ دداانشگاهه تهراانن

Edit the ClusteringDemo class file and add the following code:

158

یاددگیریی با نظاررتت -ااجراا گذرریی بر کارربردد‌هایی ددااددهه‌هایی بزررگگ وو یاددگیریی‌ماشین - تابستانن ACM - ۱۳۹۵ دداانشگاهه تهراانن

Run the class by using the following command:

mvn compile mvn exec:java -Dexec.mainClass="com.technobium.LogisticRegression"

159

یاددگیریی با نظاررتت - نتایج گذرریی بر کارربردد‌هایی ددااددهه‌هایی بزررگگ وو یاددگیریی‌ماشین - تابستانن ACM - ۱۳۹۵ دداانشگاهه تهراانن

RESULT

Pass: 0, Learning rate: 0.1759, Accuracy: 0.9615 Pass: 10, Learning rate: 0.0511, Accuracy: 0.9712 Pass: 20, Learning rate: 0.0303, Accuracy: 0.9712 ------------- Testing ------------- Probability of not fraud (0) = 0.090 Probability of fraud (1) = 0.910

a family car which is 10 years old and was used for 100000 kilometers. For this input, the algorithm tells us that there is 91% chances that the mileage of the car was manipulated. The decision was based on the data given as input during the training phase.

160

یاددگیریی با نظاررتت -چگونه کارر کردد؟ گذرریی بر کارربردد‌هایی ددااددهه‌هایی بزررگگ وو یاددگیریی‌ماشین - تابستانن ACM - ۱۳۹۵ دداانشگاهه تهراانن

To automate the decision we will use the OnlineLogisticRegression algorithm from Apache Mahout. The input of the algorithm will be an array of Observation objects. Each Observation contains a vector with the car detail (type, age mileage) and the actual category according to the input data (1 manipulate or 0 not manipulated). The first element of the vector is the intercept term, which is important in order to obtain a accurate model and which has the value 1. You can see the intercept term in action also in simple linear regression. The model is trained 30 times and each 10th iteration we check its quality against the same input data set. If we had much more data available, we would have used a subset of the data for model quality check. The final step will be to use the model in order to predict the fraud probability for car data not present in the training data set.

How It Works?

161

یاددگیریی با نظاررتت - خالصه گذرریی بر کارربردد‌هایی ددااددهه‌هایی بزررگگ وو یاددگیریی‌ماشین - تابستانن ACM - ۱۳۹۵ دداانشگاهه تهراانن

Typical usages for logistic regression are fraud detection, manufacturing error detection, weather prediction, mail filtering (spam or ham) or in medicine for case classification. Very close to linear regression this classification algorithm is one of the most used machine learning algorithms.

CONCLUSION

162

یاددگیریی با نظاررتت - مخزنن گذرریی بر کارربردد‌هایی ددااددهه‌هایی بزررگگ وو یاددگیریی‌ماشین - تابستانن ACM - ۱۳۹۵ دداانشگاهه تهراانن

https://github.com/technobium/mahout-logistic-regression/

163






164

مرجعگذرریی بر کارربردد‌هایی ددااددهه‌هایی بزررگگ وو یاددگیریی‌ماشین - تابستانن ACM - ۱۳۹۵ دداانشگاهه تهراانن

https://en.wikipedia.org/wiki/Linear_least_squares_(mathematics)http://www.datavizualization.com/blog/an-introduction-to-machine-learning-theory-and-its-applications-a

https://en.wikipedia.org/wiki/Sigmoid_functionhttps://www.coursera.org/learn/machine-learninghttp://technobium.com/logistic-regression-using-apache-mahout/

https://en.wikipedia.org/wiki/Linear_least_squares_(mathematics)

http://www.datavizualization.com/blog/an-introduction-to-machine-learning-theory-and-its-applications-a

https://en.wikipedia.org/wiki/Sigmoid_function

https://www.coursera.org/learn/machine-learning

http://technobium.com/logistic-regression-using-apache-mahout/

Download - Big Data and Machine Learning Workshop - Day 1 @ UTACM

Top Related