machine learning challenges in astronomy

100
 

Upload: cosmoaims-bassett

Post on 07-May-2015

522 views

Category:

Technology


2 download

DESCRIPTION

AIMS Seminar by Prof Sajeeth Philip, July 2013

TRANSCRIPT

Page 1: Machine Learning Challenges in Astronomy

   

Page 2: Machine Learning Challenges in Astronomy

   

Ninan Sajeeth PhilipNinan Sajeeth Philip

St. Thomas College, Kozhencherry

Page 3: Machine Learning Challenges in Astronomy

   

Ninan Sajeeth PhilipNinan Sajeeth Philip

St. Thomas College, Kozhencherry

Page 4: Machine Learning Challenges in Astronomy

   

I am visiting Sudhanshu Barway as part of the joint  South­Africa  India  bilateral  project  with SAAO  for  developing  Virtual  Observatory tools for SALT.

Page 5: Machine Learning Challenges in Astronomy

   

Machine Learning Challenges in Astronomy

Ninan Sajeeth [email protected]

http://www.iucaa.ernet.in/~nspp

Page 6: Machine Learning Challenges in Astronomy

   

Machine Learning

● Objective : Mimic human ability  to  learn and make decisions.

● Need :  Surveys  are  producing  huge  data  and conventional  methods  are  insufficient  to  process them. Eg: SDSS survey could spectroscopically confirm the nature of only less than 1% of its photometric detections.

● Limitation : The  goodness  of  the  outputs  depend on the discriminative power of the inputs.

● Advantage : First level sorting of candidates.

Page 7: Machine Learning Challenges in Astronomy

   

Machine Learning

● Objective : Mimic human ability  to  learn and make decisions.

● Need :  Surveys  are  producing  huge  data  and conventional  methods  are  insufficient  to  process them. Eg: SDSS survey could spectroscopically confirm the nature of only less than 1% of its photometric detections.

● Limitation : The  goodness  of  the  outputs  depend on the discriminative power of the inputs.

● Advantage : First level sorting of candidates.

Page 8: Machine Learning Challenges in Astronomy

   

Machine Learning

● Objective : Mimic human ability  to  learn and make decisions.

● Need :  Surveys  are  producing  huge  data  and conventional  methods  are  insufficient  to  process them. Eg: SDSS survey could spectroscopically confirm the nature of only less than 1% of its photometric detections.

● Limitation : The  goodness  of  the  outputs  depend on the discriminative power of the inputs.

● Advantage : First level sorting of candidates.

Page 9: Machine Learning Challenges in Astronomy

   

Machine Learning

● Objective : Mimic human ability  to  learn and make decisions.

● Need :  Surveys  are  producing  huge  data  and conventional  methods  are  insufficient  to  process them. Eg: SDSS survey could spectroscopically confirm the nature of only less than 1% of its photometric detections.

● Limitation : The  goodness  of  the  outputs  depend on the discriminative power of the inputs.

● Advantage : First level sorting of candidates.

Page 10: Machine Learning Challenges in Astronomy

   

Machine Learning

● Objective : Mimic human ability  to  learn and make decisions.

● Need :  Surveys  are  producing  huge  data  and conventional  methods  are  insufficient  to  process them. Eg: SDSS survey could spectroscopically confirm the nature of only less than 1% of its photometric detections.

● Limitation : The  goodness  of  the  outputs  depend on the discriminative power of the inputs.

● Advantage : First level sorting of candidates.

Page 11: Machine Learning Challenges in Astronomy

   

Large Data Issues

● Multidimensional data – requires more memory● Diversity in the data – rare to rich populations● Overlapping features – observational limitations● Missing values – observational limitations● Uncertainties – inherent and observational● Processing Power – silicon limitations● Storage and retrieval – bandwidth limitations 

Page 12: Machine Learning Challenges in Astronomy

   

Large Data Issues

● Multidimensional data – requires more memory● Diversity in the data – rare to rich populations● Overlapping features – observational limitations● Missing values – observational limitations● Uncertainties – inherent and observational● Processing Power – silicon limitations● Storage and retrieval – bandwidth limitations 

Page 13: Machine Learning Challenges in Astronomy

   

Large Data Issues

● Multidimensional data – requires more memory● Diversity in the data – rare to rich populations● Overlapping features – observational limitations● Missing values – observational limitations● Uncertainties – inherent and observational● Processing Power – silicon limitations● Storage and retrieval – bandwidth limitations 

Page 14: Machine Learning Challenges in Astronomy

   

Large Data Issues

● Multidimensional data – requires more memory● Diversity in the data – rare to rich populations● Overlapping features – observational limitations● Missing values – observational limitations● Uncertainties – inherent and observational● Processing Power – silicon limitations● Storage and retrieval – bandwidth limitations 

Page 15: Machine Learning Challenges in Astronomy

   

Large Data Issues

● Multidimensional data – requires more memory● Diversity in the data – rare to rich populations● Overlapping features – observational limitations● Missing values – observational limitations● Uncertainties – inherent and observational● Processing Power – silicon limitations● Storage and retrieval – bandwidth limitations 

Page 16: Machine Learning Challenges in Astronomy

   

Large Data Issues

● Multidimensional data – requires more memory● Diversity in the data – rare to rich populations● Overlapping features – observational limitations● Missing values – observational limitations● Uncertainties – inherent and observational● Processing Power – silicon limitations● Storage and retrieval – bandwidth limitations 

Page 17: Machine Learning Challenges in Astronomy

   

Large Data Issues

● Multidimensional data – requires more memory● Diversity in the data – rare to rich populations● Overlapping features – observational limitations● Missing values – observational limitations● Uncertainties – inherent and observational● Processing Power – silicon limitations● Storage and retrieval – bandwidth limitations 

Page 18: Machine Learning Challenges in Astronomy

   

Different Machine Learning Methods● All methods assume that the different types 

(classes) are separable in the feature space.

Light profile of galaxies are different from that of stars

Page 19: Machine Learning Challenges in Astronomy

   

A Real Example

Composed  of  about  a million  points  showing clustering  of  Quasars (blue  and  red),  main sequence  stars  (green), late  type  stars  (yellow) and unresolved galaxies (pink) in a colour ­colour plot of SDSS colours.

SDSS colour­colour plot

Page 20: Machine Learning Challenges in Astronomy

   

A Real Example

Composed  of  about  a million  points  showing clustering  of  Quasars (blue  and  red),  main sequence  stars  (green), late  type  stars  (yellow) and unresolved galaxies (pink) in a colour ­colour plot of SDSS colours.

Blue are low redshift Quasars and our goal is to identify them and verify whether the actual number count match with the estimated values.

Page 21: Machine Learning Challenges in Astronomy

   

A Real Example Blue are low redshift Quasars and our goal is to identify them and verify whether the actual number count match with the estimated values.

The region in the box has about 150,000 confirmed observations and about 6 million unconfirmed cases.

Page 22: Machine Learning Challenges in Astronomy

   

A Real Example Blue are low redshift Quasars and our goal is to identify them and verify whether the actual number count match with the estimated values.

The region in the box has about 150,000 confirmed observations and about 6 million unconfirmed cases.

All objects have known colours – only their classification is unknown.

Page 23: Machine Learning Challenges in Astronomy

   

Bayesian Model

Page 24: Machine Learning Challenges in Astronomy

   

Feature Space

● SDSS provides 5 magnitudes for each object in bands  u,  g,  r,  i  and  z  that  can  be  used  to construct a ten dimensional colour space.

● A subset of the 150,000 objects with confirmed spectroscopic  classification  can  be  used  to estimate the likelihood.

● The classifier can be  tested on  remaining data to verify the accuracy of the model.

Page 25: Machine Learning Challenges in Astronomy

   

Feature Space

● SDSS provides 5 magnitudes for each object in bands  u,  g,  r,  i  and  z  that  can  be  used  to construct a ten dimensional colour space.

● A subset of the 150,000 objects with confirmed spectroscopic  classification  can  be  used  to estimate the likelihood.

● The classifier can be  tested on  remaining data to verify the accuracy of the model.

The distribution is not smooth

Page 26: Machine Learning Challenges in Astronomy

   

Feature Space● SDSS  provides  5  magnitudes  for  each  object  in 

bands u, g, r, i and z that can be used to construct a ten dimensional colour space.

● A  subset  of  the  150,000  objects  with  confirmed spectroscopic classification can be used to estimate the likelihood.

The colour space need to be binned to approximate the distribution.

● The  classifier  can  be  tested  on  remaining  data  to verify the accuracy of the model.

The distribution is not smooth

Page 27: Machine Learning Challenges in Astronomy

   

Feature Space● SDSS provides 5 magnitudes for each object  in bands u, 

g,  r,  i  and  z  that  can  be  used  to  construct  a  ten dimensional colour space.

● A  subset  of  the  150,000  objects  with  confirmed spectroscopic  classification  can  be  used  to  estimate  the likelihood.

The  colour  space  need  to  be  binned  to  approximate  the distribution. Computing conditional likelihood of the binned high dimensional feature space is nearly impossible.

● The classifier can be tested on remaining data to verify the accuracy of the model.

The distribution is not smooth

Page 28: Machine Learning Challenges in Astronomy

   

Two issues with Bayesian Formalism

● How  would  you  guess  the  True  value  of  the Prior for each bin?

● Conditional  dependency  of  the  input  feature space – likelihood is conditionally dependent on input  values  ­  Naive  Bayesian  models  fail  on even simple XOR problems.

Page 29: Machine Learning Challenges in Astronomy

   

Bayesian Methods● Ensemble methods: Multiple models, same data : many 

weak learners combined to form a strong learning model

● Bagging: each model in ensemble vote for the probable candidate

● Boosting: Emphasise the failing models with weights● Bayesian  Model  Averaging  (BMA):  Sampling 

Hypothesis from Hypothesis Space● Bayesian  Model  Combination  (BMC):  Seek 

combination of models closest to a distribution.

Page 30: Machine Learning Challenges in Astronomy

   

Bayesian Methods● Ensemble methods: Multiple models, same data● Bagging:  each  model  in  ensemble  vote  for  the 

probable candidate● Boosting:  Emphasise  the  failing  models  with 

weights● Bayesian  Model  Averaging  (BMA):  Sampling 

Hypothesis from Hypothesis Space● Bayesian  Model  Combination  (BMC):  Seek 

combination of models closest to a distribution.

Page 31: Machine Learning Challenges in Astronomy

   

Bayesian Methods● Ensemble methods: Multiple models, same data● Bagging:  each  model  in  ensemble  vote  for  the 

probable candidate● Boosting:  Emphasise  the  failing  models  with 

weights● Bayesian  Model  Averaging  (BMA):  Sampling 

Hypothesis from Hypothesis Space● Bayesian  Model  Combination  (BMC):  Seek 

combination of models closest to a distribution.

Page 32: Machine Learning Challenges in Astronomy

   

Bayesian Methods● Ensemble methods: Multiple models, same data● Bagging:  each  model  in  ensemble  vote  for  the 

probable candidate● Boosting:  Emphasise  the  failing  models  with 

weights● Bayesian  Model  Averaging  (BMA):  Sampling 

Hypothesis from Hypothesis Space● Bayesian  Model  Combination  (BMC):  Seek 

combination of models closest to a distribution.

Page 33: Machine Learning Challenges in Astronomy

   

Bayesian Methods● Ensemble methods: Multiple models, same data● Bagging: each model in ensemble vote for the 

probable candidate● Boosting: Emphasise the failing models with 

weights● Bayesian Model Averaging (BMA): Sampling 

Hypothesis from Hypothesis Space● Bayesian Model Combination (BMC): Seek a 

combination of models closest to a distribution.

Page 34: Machine Learning Challenges in Astronomy

   

Our Solution

● Estimating both Prior and Likelihood from data.● Boosting:  Emphasise  the  failing  models  with 

weights

Can  Prior  be  replaced  with  weights  for  each range  (bin)  of  input  feature  values  within  the same model?

Page 35: Machine Learning Challenges in Astronomy

   

Replacing Prior with weights● Partition the input feature space into M bins – the bins the bins 

can be centred around clusters or simple uniform binning.can be centred around clusters or simple uniform binning.

● Assign uniform small prior/weight to all the bins.Assign uniform small prior/weight to all the bins.● Compute  Bayesian  Posterior  Probability  based  on Compute  Bayesian  Posterior  Probability  based  on 

input features in the training data and identify failed input features in the training data and identify failed instances.instances.

● Update  weights  associated  with  the  input  feature Update  weights  associated  with  the  input  feature bins  corresponding  to  failed  cases  by  A bins  corresponding  to  failed  cases  by  A  x x  (1­P/P*) (1­P/P*) where A is a learning constant and P and P* are BP where A is a learning constant and P and P* are BP for failed and target outcomes respectively.for failed and target outcomes respectively.

Page 36: Machine Learning Challenges in Astronomy

   

Replacing Prior with weights● Partition the input feature space into M bins – the bins the bins 

can be centred around clusters or simple uniform binning.can be centred around clusters or simple uniform binning.

● Assign Assign uniformuniform small prior/weight to all the bins. small prior/weight to all the bins.● Compute  Bayesian  Posterior  Probability  based  on Compute  Bayesian  Posterior  Probability  based  on 

input features in the training data and identify failed input features in the training data and identify failed instances.instances.

● Update  weights  associated  with  the  input  feature Update  weights  associated  with  the  input  feature bins  corresponding  to  failed  cases  by  A bins  corresponding  to  failed  cases  by  A  x x  (1­P/P*) (1­P/P*) where A is a learning constant and P and P* are BP where A is a learning constant and P and P* are BP for failed and target outcomes respectively.for failed and target outcomes respectively.

Page 37: Machine Learning Challenges in Astronomy

   

Replacing Prior with weights● Partition the input feature space into M bins – the bins the bins 

can be centred around clusters or simple uniform binning.can be centred around clusters or simple uniform binning.

● Assign Assign uniformuniform small prior/weight to all the bins. small prior/weight to all the bins.● Compute  Bayesian  Posterior  Probability  based  on Compute  Bayesian  Posterior  Probability  based  on 

input features in the training data and input features in the training data and  identify failed identify failed instances.instances.

● Update  weights  associated  with  the  input  feature Update  weights  associated  with  the  input  feature bins  corresponding  to  failed  cases  by  A bins  corresponding  to  failed  cases  by  A  x x  (1­P/P*) (1­P/P*) where A is a learning constant and P and P* are BP where A is a learning constant and P and P* are BP for failed and target outcomes respectively.for failed and target outcomes respectively.

Page 38: Machine Learning Challenges in Astronomy

   

Replacing Prior with weights● Partition the input feature space into M bins – the bins the bins 

can be centred around clusters or simple uniform binning.can be centred around clusters or simple uniform binning.

● Assign Assign uniformuniform small prior/weight to all the bins. small prior/weight to all the bins.● Compute  Bayesian  Posterior  Probability  based  on Compute  Bayesian  Posterior  Probability  based  on 

input features in the training data and input features in the training data and  identify failed identify failed instances.instances.

● Update  weights  associated  with  the  input  feature Update  weights  associated  with  the  input  feature bins  corresponding  to  failed  cases  by bins  corresponding  to  failed  cases  by  A A  x x  (1­P/P*)(1­P/P*)  where where AA is a learning constant and  is a learning constant and PP and  and P*P* are BP  are BP for failed and target outcomes respectively.for failed and target outcomes respectively.

Page 39: Machine Learning Challenges in Astronomy

   

Replacing Prior with weights● Partition the input feature space into M bins – the bins the bins 

can be centred around clusters or simple uniform binning.can be centred around clusters or simple uniform binning.

● Assign Assign uniformuniform small prior/weight to all the bins. small prior/weight to all the bins.● Compute  Bayesian  Posterior  Probability  based  on Compute  Bayesian  Posterior  Probability  based  on 

input features in the training data and input features in the training data and  identify failed identify failed instances.instances.

● Update  weights  associated  with  the  input  feature Update  weights  associated  with  the  input  feature bins  corresponding  to  failed  cases  by bins  corresponding  to  failed  cases  by  A A  x x  (1­P/P*)(1­P/P*)  where A is a learning constant and P and P* are BP where A is a learning constant and P and P* are BP for  failed and target outcomes respectively. for  failed and target outcomes respectively.  Since  the Since  the update is based on probability, outliers do not cause an issue.update is based on probability, outliers do not cause an issue.

Page 40: Machine Learning Challenges in Astronomy

   

Likelihood estimation of Binned Space● Likelihood  estimation  becomes  an  issue  because 

we  want  to  know  the  conditional  likelihood  of  the binned  feature  space.  There may not be  sufficient samples  in  each  bin  to  estimate  likelihood  when conditional dependence constrains are imposed on them.

● We adopted an  imposed conditional  independence formula  that  approximate  the  likelihood  for  a conditionally dependent event as the product of the likelihood for pairs of input features.

Page 41: Machine Learning Challenges in Astronomy

   

Likelihood estimation of Binned Space● Likelihood  estimation  becomes  an  issue  because 

we  want  to  know  the  conditional  likelihood  of  the binned  feature  space. There may not  be  sufficient samples  to estimate  likelihood when constrains on conditional dependence is imposed on them.

● We adopted an  imposed conditional  independence formula  that  approximate  the  likelihood  for  a conditionally dependent event as the product of the likelihood for pairs of input features.

Page 42: Machine Learning Challenges in Astronomy

   

Imposed Conditional Independence

The likelihood for a conditionally dependent event A can be approximated as the product of the likelihood of paired input features.

● L(A|b,c,d,e,f) ~ 

M*L(A|b,c)* L(A|b,d)* L(A|b,e)* L(A|b,f)* L(A|c,d) *L(A|c,e)* L(A|c,f)* L(A|d,e)* L(A|d,f)* L(A|e,f)

● Works better than Naive Bayes – no issue with XOR gate

Page 43: Machine Learning Challenges in Astronomy

   

Imposed Conditional Independence

The likelihood for a conditionally dependent event A can be approximated as the product of the likelihood of  its paired inputs.

● L(A|b,c,d,e,f) ~ 

M*L(A|b,c)* L(A|b,d)* L(A|b,e)* L(A|b,f)* L(A|c,d) *L(A|c,e)* L(A|c,f)* L(A|d,e)* L(A|d,f)* L(A|e,f)

● Works better than Naive Bayes – no issue with XOR gate

Page 44: Machine Learning Challenges in Astronomy

   

Classification of the 6 million Objects

Blue are Quasars, Yellow are unresolved Galaxies and Green are main sequence Stars

Page 45: Machine Learning Challenges in Astronomy

   

Verification of Predictions

Page 46: Machine Learning Challenges in Astronomy

   

Comparison with expected number counts

Page 47: Machine Learning Challenges in Astronomy

   

Further Information

Page 48: Machine Learning Challenges in Astronomy

   

The Predicted Catalogue

Page 49: Machine Learning Challenges in Astronomy

   

A more complex situation

● What if all input features are not known?

Straightforward solution : Compute the inverse probability for the missing feature just as you handle missing values.

Not so easy situation: What if we do not have a training data with all features for computing inverse probability?

Page 50: Machine Learning Challenges in Astronomy

   

A more complex situation

● What if all input features are not known?

Straightforward  solution  :  Compute  the  inverse probability  for  the  missing  feature  just  as  you handle missing values.

Not  so  easy  situation:  What  if  we  do  not  have  a training data with all features for computing inverse probability?

Page 51: Machine Learning Challenges in Astronomy

   

A more complex situation

● What if all input features are not known?

Straightforward  solution  :  Compute  the  inverse probability  for  the  missing  feature  just  as  you handle missing values.

Not  so  easy  situation:  What  if  we  do  not  have  a training data with all features for computing inverse probability?

Page 52: Machine Learning Challenges in Astronomy

   

A Challenging Problem

Page 53: Machine Learning Challenges in Astronomy

   

A Challenging Problem● Generate alerts on optical transient detections● Minimize false alarms● Customize alarms to user demands● Send the alarms immediately – given minimal or 

sometime very little information about it.

Example : Nearest distance to a galaxy or star

 : Distance to nearest known radio object  : Distance to nearest known x­ray detections : Magnitudes in archives and in earlier detections

Page 54: Machine Learning Challenges in Astronomy

   

A Challenging Problem

● Generate alerts on optical transient detections● Minimize false alarms● Customize alarms to user demands● Send the alarms immediately – given minimal or 

sometime very little information about it.

Example : Nearest distance to a galaxy or star

 : Distance to nearest known radio object  : Distance to nearest known x­ray detections : Magnitudes in archives and in earlier detections

Page 55: Machine Learning Challenges in Astronomy

   

A Challenging Problem

● Generate alerts on optical transient detections● Minimize false alarms● Customize alerts to user demands● Send the alarms immediately – given minimal 

or sometime very little information about it.

Example : Nearest distance to a galaxy or star

 : Distance to nearest known radio object  : Distance to nearest known x­ray detections : Magnitudes in archives and in earlier detections

Page 56: Machine Learning Challenges in Astronomy

   

A Challenging Problem● Generate alerts on optical transient detections● Minimize false alarms● Customize alarms to user demands● Send the alerts immediately – given minimal or 

sometime very little information about it.

Example : Nearest distance to a galaxy or star

 : Distance to nearest known radio object  : Distance to nearest known x­ray detections : Magnitudes in archives and in earlier detections

Page 57: Machine Learning Challenges in Astronomy

   

A Challenging Problem● Generate alerts on optical transient detections● Minimize false alarms● Customize alarms to user demands● Send the alerts immediately – given minimal or 

sometime very little information about it.

Example : Nearest distance to a galaxy or star

 : Distance to nearest known radio object  : Distance to nearest known x­ray detections : Magnitudes in archives and in earlier  detections

Page 58: Machine Learning Challenges in Astronomy

   

Missing Values

Example : Nearest distance to a galaxy or star

 : Distance to nearest known radio object  : Distance to nearest known x­ray detections : Magnitudes in archives and in earlier detections

Possible only if the object is within the foot print of a survey

Each survey may use a different unit for their catalogues – need to be considered separately 

Page 59: Machine Learning Challenges in Astronomy

   

Missing Values

Example : Nearest distance to a galaxy or star

 : Distance to nearest known radio object  : Distance to nearest known x­ray detections : Magnitudes in archives and in earlier detections

Possible only if the object is within the foot print of a survey

Each survey may use a different unit for their catalogues – need to be considered separately 

Page 60: Machine Learning Challenges in Astronomy

   

Missing Data Values

The training data itself has missing data values.Note:  The  accuracy  of  the  actual  observation  is  not    beyond  one  or  two  decimal places.  The  double  precision  is  used  here  only  to  reduce  round  off  error  while rescaling the data during the processing.

Page 61: Machine Learning Challenges in Astronomy

   

Missing Values

No way to compute inverse probability­ makes 

No way to compute inverse probability­ makes 

it impossible for standard machine learning 

it impossible for standard machine learning 

algorithms to learn and predict the outcome

algorithms to learn and predict the outcome

Page 62: Machine Learning Challenges in Astronomy

   

Our Approach

The likelihood for a conditionally dependent event A can be approximated as the product of the likelihood of  its paired inputs.

● L(A|b,c,d,e,f) ~ 

M*L(A|b,c)* L(A|b,d)* L(A|b,e)* L(A|b,f)* L(A|c,d) *L(A|c,e)* L(A|c,f)* L(A|d,e)* L(A|d,f)* L(A|e,f)

Page 63: Machine Learning Challenges in Astronomy

   

Our Approach

The likelihood for a conditionally dependent event A can be approximated as the product of the likelihood of  its paired inputs.

● L(A|b,c,d,e,f) ~ 

M*L(A|b,c)* L(A|b,d)* L(A|b,e)* L(A|b,f)* L(A|c,d) *L(A|c,e)* L(A|c,f)* L(A|d,e)* L(A|d,f)* L(A|e,f)

Page 64: Machine Learning Challenges in Astronomy

   

Our Approach

The likelihood for a conditionally dependent event A can be approximated as the product of the likelihood of  its paired inputs.

● L(A|b,c,d,e,f) ~ 

M*L(A|b,c)* L(A|b,d)* L(A|b,e)* L(A|b,f)* L(A|c,d) *L(A|c,e)* L(A|c,f)* L(A|d,e)* L(A|d,f)* L(A|e,f)

● Estimate approximate Likelihood based on whatever information available and use it for training and testing.

Page 65: Machine Learning Challenges in Astronomy

   

Approximate Likelihood

● Since we do not have  the  luxury  to decide  the input  features, we go  for a greedy collection of what all  information –  input data –  that can be collected to compute the approximate likelihood.

● It is expected (assumed) that the redundancy in the  available  information  will  help  us  to approximate  the  likelihood  to  some  reasonable accuracy.

Page 66: Machine Learning Challenges in Astronomy

   

Approximate Likelihood

● Since we do not have  the  luxury  to decide  the input  features, we go  for a greedy collection of what all  information –  input data –  that can be collected to compute the approximate likelihood.

● It is expected (assumed) that the redundancy in the  available  information  will  help  us  to approximate  the  likelihood  to  some  reasonable accuracy.

Page 67: Machine Learning Challenges in Astronomy

   

Approximate Likelihood

● Since we do not have  the  luxury  to decide  the input  features, we go  for a greedy collection of what all  information –  input data –  that can be collected to compute the approximate likelihood.

● It is expected (assumed) that the redundancy in the  available  information  will  help  us  to approximate  the  likelihood  to  some  reasonable accuracy.

More like a forensic investigationMore like a forensic investigation

Page 68: Machine Learning Challenges in Astronomy

   

What about Prior?

The likelihood for a conditionally dependent event A is approximated to the product of the likelihood of  paired input features.

The prior is to be determined from the data

Uses a gradient descent algorithm to determine the prior from the data

Page 69: Machine Learning Challenges in Astronomy

   

What about Prior?

The likelihood for a conditionally dependent event A can is approximated to the product of the likelihood of paired input features.

The prior is to be determined from the data with missing data

We use a gradient descent algorithm to determine the prior from the data

Page 70: Machine Learning Challenges in Astronomy

   

What about Prior?

The likelihood for a conditionally dependent event A is approximated as the product of the likelihood of paired input features.

The prior is to be determined from the data with missing data

We use a gradient descent algorithm to determine the prior – weights ­ from the data, similar to boosting.

Page 71: Machine Learning Challenges in Astronomy

   

Dynamic Learning

● With lot of missing values in the observations, each input data has partial information about the features associated to an outcome.

● Learn as we go... use Bayesian update rule to update the belief in each input feature and its consequences.  

Page 72: Machine Learning Challenges in Astronomy

   

Dynamic Learning

● With lot of missing values in the observations, each input data has partial information about the features associated to an outcome.

● Learn as we go... use Bayesian update rule to update the belief in each input feature and its effect on the outcome.  

Page 73: Machine Learning Challenges in Astronomy

   

Dynamic Addition of Features

● We want to use all available information about the detections as and when they become available.

● Since likelihood is computed as the product, it is feasible to update it with new evidences as and when they become available.

Page 74: Machine Learning Challenges in Astronomy

   

Dynamic Addition of Features

● We want to use all available information about the detections

● Since likelihood is computed as the product, it is feasible to update it with new evidences as and when they become available.

Page 75: Machine Learning Challenges in Astronomy

   

Dreaming Computers

● We  now  have  many  input  features  but  not  so many examples  to  learn  from. This can  lead  to over­fitting the data and Memorising rather than generalising the situation.

● Dreams  are  synthetic  inputs  our  brain  uses  to teach  us  how  to  react  to  plausible  situations. Can we create dreams for computers? 

Page 76: Machine Learning Challenges in Astronomy

   

Dreaming Computers

● We  now  have  many  input  features  but  not  so many examples  to  learn  from. This can  lead  to over­fitting the data and Memorising rather than generalising the situation.

● Dreams  are  synthetic  inputs  our  brain  uses  to teach  us  how  to  react  to  plausible  situations. Can we create dreams for computers? 

Page 77: Machine Learning Challenges in Astronomy

   

Information from Error Bars

● Can error bars give additional information?

● Error bars tell us that the nature of the object remains same even if the measurement value is varied within the range of the error bar – can be used to generate new data

Page 78: Machine Learning Challenges in Astronomy

   

Information from Error Bars

● Can error bars give additional information?

● Error bars tell us that the nature of the object remains same even if the measurement value is varied within the range of the error bar – can be used to generate new data

Page 79: Machine Learning Challenges in Astronomy

   

DBNN

● The algorithm described so far is the core design concept of the Difference Boosting Neural Network or DBNN algorithm.

● It is GNU public and the source code can be downloaded from 

http://www.iucaa.ernet.in/~nspp/dbnn.html

Page 80: Machine Learning Challenges in Astronomy

   

DBNN Annotator

A  collaborative  project  with  Ashish  Mahabal A  collaborative  project  with  Ashish  Mahabal (Caltech),  IUCAA,  Pune  and  the  CRTS  Team (Caltech),  IUCAA,  Pune  and  the  CRTS  Team with funding  from IUSSTF and ISRO.with funding  from IUSSTF and ISRO.

Page 81: Machine Learning Challenges in Astronomy

   

CRTS Predictions

1, "Cataclysmic Variable"2 "Supernova"3 "other"5 "Blazar Outburst"6 "AGN Variability"7 "UVCeti Variable"8 "Asteroid"9 "Variable"10 "Mira Variable"11 "High Proper Motion Star"12 "Comet"

Page 82: Machine Learning Challenges in Astronomy

   

CRTS Predictions

  [1] [2] [3] [5] [6] [7] [8] [9] [10] [11] [12] [16] Total [1]  273  3  4  1  1  0  1  3  3  3  0  1  293  [2]   4  402 3  0  4  1  3  2  0  1  1  0  421  [3]   0  0  34  0  0  0  0  0  0  0  0  0  34  [5]   0  0  0  60  0  0  0  0  1  0  0  0  61  [6]   0  0  0  0  126 0  0  0  0  0  0  0  126  [7]   0  0  0  0  0  32  0  0  0  0  0  0  32  [8]   0  0  0  0  0  0  6  0  0  0  0  0  6  [9]   0  0  0  0  0  0  0  18  0  0  0  0  18  [10] 0  0  0  0  0  0  0  0  12  0  0  0  12  [11]  0  0  0  0  0  0  0  0  0  43  0  0  43  [12] 0  0  0  0  0  0  0  0  0  0  5  0  5  [16] 0  0  0  0  0  0  0  0  0  0  0  1  1  _________________________________________________________Total 277 405  41  61  131  33  10  23  16  47  6  2  1052 

1,"Cataclysmic Variable"2,"Supernova"3,"other"5,"Blazar Outburst"6,"AGN Variability"7,"UVCeti Variable"8,"Asteroid"9,"Variable"10,"Mira Variable"11,"High Proper Motion Star"12,"Comet"

Page 83: Machine Learning Challenges in Astronomy

   

CRTS Predictions

  [1] [2] [3] [5] [6] [7] [8] [9] [10] [11] [12] [16] Total [1]  273  3  4  1  1  0  1  3  3  3  0  1  293  [2]   4  402 3  0  4  1  3  2  0  1  1  0  421  [3]   0  0  34  0  0  0  0  0  0  0  0  0  34  [5]   0  0  0  60  0  0  0  0  1  0  0  0  61  [6]   0  0  0  0  126 0  0  0  0  0  0  0  126  [7]   0  0  0  0  0  32  0  0  0  0  0  0  32  [8]   0  0  0  0  0  0  6  0  0  0  0  0  6  [9]   0  0  0  0  0  0  0  18  0  0  0  0  18  [10] 0  0  0  0  0  0  0  0  12  0  0  0  12  [11]  0  0  0  0  0  0  0  0  0  43  0  0  43  [12] 0  0  0  0  0  0  0  0  0  0  5  0  5  [16] 0  0  0  0  0  0  0  0  0  0  0  1  1  _________________________________________________________Total 277 405  41  61  131  33  10  23  16  47  6  2  1052 

1,"Cataclysmic Variable"2,"Supernova"3,"other"5,"Blazar Outburst"6,"AGN Variability"7,"UVCeti Variable"8,"Asteroid"9,"Variable"10,"Mira Variable"11,"High Proper Motion Star"12,"Comet"

Recall   273/277 =98.5%→False Alarms   (293­273)/293 = 7%→

Page 84: Machine Learning Challenges in Astronomy

   

Parallel DBNN

● Since  DBNN  split  likelihood  as  the  product  of individual  pairs,  computation  of  likelihood  may be independently carried out by a different node in a HPC system.

● Broadcast likelihoods to nodes● Compute● Gather Bayesian belief for each outcome

Page 85: Machine Learning Challenges in Astronomy

   

Parallel DBNN

● Since  DBNN  split  likelihood  as  the  product  of individual  pairs,  computation  of  likelihood  may be independently carried out by a different node in a HPC system.

● Broadcast likelihoods to nodes● Compute● Gather Bayesian belief for each outcome

Page 86: Machine Learning Challenges in Astronomy

   

Parallel DBNN

● Since  DBNN  split  likelihood  as  the  product  of individual  pairs,  computation  of  likelihood  may be independently carried out by a different node in a HPC system.

● Broadcast likelihoods to nodes● Compute● Gather Bayesian belief for each outcome

Page 87: Machine Learning Challenges in Astronomy

   

Parallel DBNN

● Since  DBNN  split  likelihood  as  the  product  of individual  pairs,  computation  of  likelihood  may be independently carried out by a different node in a HPC system.

● Broadcast likelihoods to nodes● Compute● Gather Bayesian belief for each outcome

Page 88: Machine Learning Challenges in Astronomy

   

Parallel DBNN Code

Ajay Vibhute

Photometric Redshift Estimation

8 million Point sources from SDSSRedshift with a step size of 0.05Ranging from 0 to 7 

Four compute nodes, 16 Gb RAMTraining time reduced from 3 days to 11 hours

Page 89: Machine Learning Challenges in Astronomy

   

Parallel DBNN Code

Ajay Vibhute

Photometric Redshift Estimation

8 million Point sources from SDSSRedshift with a step size of 0.05Ranging from 0 to 7 

Four compute nodes, 16 Gb RAMTraining time reduced from 3 days to 11 hours

Page 90: Machine Learning Challenges in Astronomy

   

Parallel DBNN Code

Ajay Vibhute

Photometric Redshift Estimation

8 million Point sources from SDSSRedshift with a step size of 0.05Ranging from 0 to 7 

Four compute nodes, 16 Gb RAMTraining time reduced from 3 days to 11 hours

Page 91: Machine Learning Challenges in Astronomy

   

Parallel DBNN Code

Ajay Vibhute

Photometric Redshift Estimation

8 million Point sources from SDSSRedshift with a step size of 0.05Ranging from 0 to 7 

Four compute nodes, 16 Gb RAMTraining time reduced from 3 days to 11 hours

Page 92: Machine Learning Challenges in Astronomy

   

Parallel DBNN ResultsPhotometric redshift estimation of unresolved SDSS detections compared with spectroscopically confirmed samples.

Unpublished : under preparation

Page 93: Machine Learning Challenges in Astronomy

   

Parallel DBNN Results

Page 94: Machine Learning Challenges in Astronomy

   

Work in Progress

● Use of features extracted from light curves can improve the classification

● Not all interesting objects – discoveries – may have light curves

● A VO ­ Machine learning Tool kit is under development

● It will provide a VO compatible platform for astronomical data mining. 

Page 95: Machine Learning Challenges in Astronomy

   

Work in Progress● Use of features extracted from light curves can 

improve the classification

Eclipsing Binary

Planetary System

Red Giant

Page 96: Machine Learning Challenges in Astronomy

   

Work in Progress

● Use of features extracted from light curves can improve the classification

Correlation analysis of 58 features extracted from CRTS light curves.

Arun Kumar

Page 97: Machine Learning Challenges in Astronomy

   

Work in Progress

● Use of features extracted from light curves can improve the classification

● Not all interesting objects – discoveries – may have light curves

● A VO ­ Machine learning Tool kit is under development

● It will provide a VO compatible platform for astronomical data mining. 

Page 98: Machine Learning Challenges in Astronomy

   

Work in Progress● Use of features extracted from light curves can 

improve the classification

Spectroscopic Pipeline for the  Double  Spectrograph at Palomar Observatory

Sheelu Abraham

Page 99: Machine Learning Challenges in Astronomy

   

Work in Progress

● Use of features extracted from light curves can improve the classification

● Not all interesting objects – discoveries – may have light curves

● A VO ­ Machine learning Tool kit is under development

● It will provide a VO compatible platform for astronomical data mining. 

Page 100: Machine Learning Challenges in Astronomy

   

Photometric Databases and Data Analysis Techniques

Indo­ US Joint  Centers

Jan 20­24th 2014

1. CLASS ACT ­ IUCAA, Caltech, St. Thomas College

2. Variable Stars ­ Univ. Delhi, SUNY Oswego, Univ. of Florida, Gainesville, Texas A&M Univ., IUCAAA