机器学习技术与应用
DESCRIPTION
机器学习技术与应用. 潘 炎 中山大学软件学院 [email protected]. The speaker. 潘炎,博士 / 讲师,中山大学软件学院 研究兴趣:机器学习 Learning algorithms Large-scale learning Learning on high dimensional data Structural learning Learning to rank (搜索引擎结果排序) Image classification (图像分类) Object detection&tracking (智能监控等). - PowerPoint PPT PresentationTRANSCRIPT
The speaker• 潘炎,博士 / 讲师,中山大学软件学院• 研究兴趣:机器学习
– Learning algorithms– Large-scale learning– Learning on high dimensional data– Structural learning
– Learning to rank (搜索引擎结果排序)– Image classification (图像分类)– Object detection&tracking (智能监控等)
Philosophy of the course
• Mastering a set of key principles and key tools that can solve a wide range of problems ( 通用)
• Finding a solution tailed to the special structure of the given practical problem (灵活运用)
About this course• Practical machine learning techniques• Two parts:
– 基本概念,核心工具• 学习的框架• 优化方法• 分类• 回归
– 主流技术,典型实际问题的解决方法• 支持向量机( SVM )• Boosting , decision tree• 搜索引擎、社交网络、图像视频理解等
About the exam
• 论文阅读报告 20%• 个人项目 30%• 团队项目 40%• 课堂互动 10%
软件的现状• 过去十多年,我们开发的软件系统主要是
收集数据– ERP 系统 = 单据电子化– 邮件系统 = 信件电子化– 监控摄像头(小区,交通,商铺),人工监控,
事后取证– ……
软件的未来• 从收集数据到分析数据• 市场上需要“聪明”的软件
– 智能监控是否可以实时预警?– 能否给我推荐我喜欢的电影 / 产品 / 新闻 / 广
告?– 汽车能否自动驾驶?– 能否为我公司的生产流程的改进提供建议?– 游戏里能否植入广告而又不会让玩家觉得不自
然?
Data is money ?
例子:人脸识别
例子:网页分类
例子:搜索引擎结果排序
例子:垃圾邮件过滤
例子:机器翻译
例子:文档自动摘要
例子:手写识别
例子:图像去噪
例子:视频跟踪和智能事件分析
视频跟踪
事件分析
行人跟踪 车辆跟踪
打架交通事故
?Cat Dog
Cleanliness
Size
?
$ $$ $$$ $$$$
$
$$
$$$
$$$$
Price
Top speed
x
y
Binary Classification
• Is this person Manyu Zhang or not?• Is this person male or female?• Is this person beautiful or not?
Multi-Class Classification
• Is this person 张曼玉 , 林青霞 or 黎姿 ?• Is this person happy, sad, angry or bemused?
Ordinal Regression
• Is this person very beautiful, beautiful, ordinary or ugly?
Regression
• How beautiful is this person on a continuous scale of 1 to 10? 9.99?
Ranking
• Rank these people in decreasing order of attractiveness.
Multi-Label Classification
• Tag this image with the set of relevant labels from {female, Manyu Zhang, beautiful, SYSU faculty}
Are These Problems Distinct?•Learning from experience and data
• In what form can the training data be obtained?• What is known a priori?
• Complexity of training• Complexity of prediction
Madhubala
相关学科数据挖掘统计学神经科学,心理学计算机人工智能
What is machine learning?
• Two steps• Training/Learning
– 给定一个数据样本集,从中学习出规律(模型)
• Testing/Predicting/Inference– 对于一个新的数据样本,利用学到的模型进行
预测
例子:天气预报• 目标:预测明天广州会不会下雨• 数据:过去 10 年广州每一天的天气数据
–那天是否有下雨: label s (是 / 否)–那天的前一天傍晚 18点的气温、相对湿度、风
向、风速、气压等: features
• 训练:学习得到规律(模型)• 预测:给定今天傍晚 18点的气温、相对湿度、风向、风速、气压等、根据模型预测明天是否下雨
机器学习的关键问题• 如何表示数据样本?
– 通常用一个向量来表示一个样本,向量中选用哪些特征是关键
• 如何找出规律– 通常变成一个选择题,给你 n 个候选的模型让你选。
–确定选择的标准(什么样的模型才叫好模型)–如何快速地从 n 个模型中选出最好的
• 如何根据找到的规律进行预测
步骤 1 :如何表示样本?• 把样本(一篇文章,一个图片)表示成一
个向量
例子:家庭用车• 任务:把车分类 家庭用车 /非家庭用车• 样本:车• 问题:如何把车表示成一个向量?选取哪些特征?
• 价格,排量
例子:预测病人是否会发心脏病• 样本:病人• 把病人表示成一个向量
• 血糖,血压(高,低),血脂,心率
例子:预测天气• 温度,相对湿度,风向,风速,气压
步骤 2 :如何找出规律?• 确定要找的是哪类规律(函数形式)
– 例如,假设规律是向量特征上的权重• 从众多可能的规律中选出最好的那个
– Q :选择标准是什么?– A :最小化在训练集上的损失函数– Q :如何从众多候选规律中快速地找到最好的那个?
– A :优化算法
步骤 3 :根据找到的规律进行预测
• 打分,根据分数作判别