6 Τεχν. Χρον. Επιστ. Έκδ. ΤΕΕ, v, τεύχ. 1&2 2001, tech. chron...

11
Τεχν. Χρον. Επιστ. Έκδ. ΤΕΕ, V, τεύχ. 1&2 2001, Tech. Chron. Sci. J. TCG, V, No 1&2 7 Περίληψη Οι μέθοδοι πολυμεταβλητής στατιστικής προβολής χρησιμοποιού- νται ευρέως τα τελευταία χρόνια στην επίλυση των προβλημάτων της διασφάλισης ποιότητας και του στατιστικού ελέγχου διεργασιών. Στο παρόν άρθρο παρουσιάζεται το σχετικό λογισμικό εφαρμογής των παραπάνω μεθόδων, το οποίο έχει αναπτυχθεί στο Εργαστήριο Μηχανικής Αντιδράσεων Πολυμερών (Ε.Μ.Α.Π.) του Τμήματος Χη- μικών Μηχανικών του Αριστοτελείου Πανεπιστημίου Θεσσαλονίκης (Α.Π.Θ.). 1. ΕΙΣΑΓΩΓΗ Στη σύγχρονη ανταγωνιστική οικονομία οι διεργασίες παραγωγής είναι απαραίτητο να λειτουργούν κάτω από καλά ελεγχόμενες συνθήκες, ώστε να τηρούνται οι προδιαγραφές ποιότητας των παραγόμενων προϊόντων και να περιορίζεται το κόστος παραγωγής. Ο έλεγχος των λειτουργικών συνθη- κών συνδέεται, επίσης, με ιδιαίτερα «ευαίσθητους» τομείς, όπως είναι η ασφάλεια λειτουργίας και η προστασία του περιβάλλοντος. Στο επίπεδο του ελέγχου των λειτουργικών συνθηκών, η ικανοποίηση των παραπάνω απαιτήσεων προϋ- ποθέτει την αντιμετώπιση των προβλημάτων που προκαλού- νται από τις διακυμάνσεις των λειτουργικών συνθηκών. Η ανάλυση, η παρακολούθηση και ο έλεγχος φυσικών και χημικών διεργασιών προϋποθέτουν την ύπαρξη κατάλ- ληλων μαθηματικών μοντέλων, τα οποία αντιπροσωπεύουν το σύστημα που μελετάται. Μία κοινή αλλά συχνά πολύ δύσκολη προσέγγιση είναι εκείνη της ανάπτυξης ενός μηχα- νιστικού μοντέλου, με βάση τη γνώση των φυσικοχημικών φαινομένων που διέπουν τη λειτουργία μιας διεργασίας. Η ανάπτυξη στατιστικών μοντέλων, που βασίζονται σε δεδο- μένα της διεργασίας, αποτελεί μία αποτελεσματική εναλλα- κτική λύση, καθώς απαιτεί σε μικρότερο βαθμό την ύπαρξη προηγούμενης γνώσης γύρω από τη διεργασία που μελετά- ται. Οι τεχνικές, με τις οποίες αυτή πραγματοποιείται, βασί- ζονται μόνο στην ανάλυση διαθέσιμων μετρήσεων, οι οποίες είναι αντιπροσωπευτικές της συμπεριφοράς της διεργασίας και της ποιότητας ή των ιδιοτήτων του προϊόντος. Η χρησιμοποίηση στατιστικών μοντέλων για τον έλεγχο των λειτουργικών συνθηκών μιας διεργασίας οδήγησε στη δημιουργία της έννοιας του Πολυμεταβλητού Στατιστι- κού Ελέγχου Διεργασιών (Multivariate Statistical Process Control, MSPC). Ο όρος «στατιστικός έλεγχος» δηλώνει την εκτίμηση της κατάστασης λειτουργίας μιας διεργασίας, μέσω της στατιστικής επεξεργασίας διαθέσιμων δεδομένων. Περιλαμβάνει ένα πλήθος από στατιστικές τεχνικές, οι οποί- ες έχουν ως βασικό στόχο την έγκαιρη αναγνώριση και τη διόρθωση σφαλμάτων λειτουργίας και γενικότερα αποκλί- σεων από την επιθυμητή λειτουργία. Εκτός του προβλήματος ελέγχου της απόδοσης λειτουρ- γίας μιας διεργασίας, ένα ακόμη σημαντικό πρόβλημα, που αντιμετωπίζεται στατιστικά, είναι εκείνο του επαρκούς και έγκαιρου ποιοτικού ελέγχου. Η έλλειψη κατάλληλων αισθη- τήρων καθιστά αδύνατη τη συνεχή εκτίμηση σημαντικών μεταβλητών ποιότητας, καθ' όλη τη διάρκεια λειτουργίας μιας διεργασίας. Ως εκ τούτου, η μέτρηση των τελικών ιδιοτήτων των παραγόμενων προϊόντων γίνεται παραδοσι- ακά με εργαστηριακές μεθόδους ανάλυσης, οι οποίες είναι χρονοβόρες και έχουν υψηλό κόστος. Το πρόβλημα αυτό αντιμετωπίζεται με την εφαρμογή κατάλληλων στατιστικών τεχνικών παλινδρόμησης, οι οποίες επιτρέπουν την εκτί- μηση σε σειρά των μεταβλητών ποιότητας μέσω των τιμών των μεταβλητών της διεργασίας. Στο παρόν άρθρο περιγράφεται το λογισμικό, το οποίο έχει αναπτυχθεί στο Εργαστήριο Μηχανικής Αντιδράσε- ων Πολυμερών του Τμήματος Χημικών Μηχανικών του Αριστοτελείου Πανεπιστημίου Θεσσαλονίκης, για το στα- τιστικό έλεγχο και την πρόβλεψη ποιότητας φυσικών και χημικών διεργασιών. Οι μέθοδοι, οι οποίες χρησιμοποιού- νται, ανήκουν στην κατηγορία των μεθόδων στατιστικής προβολής, οι οποίες απλοποιούν ριζικά το πρόβλημα του στατιστικού ελέγχου αναδεικνύοντας τις χρήσιμες πληροφο- ρίες από τις συχνά τεράστιες ποσότητες δεδομένων που συλ- λέγονται καθημερινά στις σύγχρονες βιομηχανικές μονάδες. Περιλαμβάνονται οι σημαντικότερες μέθοδοι στατιστικού ελέγχου διεργασιών, όπως είναι η μέθοδος Ανάλυσης σε Πρωτεύουσες Διαστάσεις (Principal Component Analysis, PCA) και η μέθοδος Προβολής σε Λανθάνουσες Δομές (Projection to Latent Structures, PLS). Οι παραπάνω μέθο- δοι, εκτός από την απλοποίηση της διαδικασίας ελέγχου της απόδοσης διεργασιών, παρέχουν, επιπρόσθετα, σημαντικές δυνατότητες διερεύνησης των φαινομένων που διέπουν μία διεργασία, επιτρέποντας την καλύτερη κατανόησή τους και διευκολύνοντας τη διάγνωση σφαλμάτων λειτουργίας. Ένας μεγάλος αριθμός εφαρμογών των μεθόδων PCA και PLS στο πεδίο της ανάλυσης και του ελέγχου διεργασι- Ανάπτυξη Λογισμικού Διασφάλισης Ποιότητας και Στατιστικού Ελέγχου Διεργασιών Ι.Ν. ΣΤΑΥΡΟΠΟΥΛΟΣ Κ. ΚΥΠΑΡΙΣΣΙΔΗΣ Χημικός Μηχανικός Α.Π.Θ. Καθηγητής Α.Π.Θ. Υποβλήθηκε: 16.6.1995 Έγινε δεκτή: 3.2.1997

Upload: others

Post on 20-Jun-2020

3 views

Category:

Documents


0 download

TRANSCRIPT

Page 1: 6 Τεχν. Χρον. Επιστ. Έκδ. ΤΕΕ, V, τεύχ. 1&2 2001, Tech. Chron ...library.tee.gr/digital/techr/2001/techr_2001_v_1_2_7.pdf · 2016-07-13 · Η ανάλυση,

6 Τεχν. Χρον. Επιστ. Έκδ. ΤΕΕ, V, τεύχ. 1&2 2001, Tech. Chron. Sci. J. TCG, V, No 1&2 Τεχν. Χρον. Επιστ. Έκδ. ΤΕΕ, V, τεύχ. 1&2 2001, Tech. Chron. Sci. J. TCG, V, No 1&2 7

ΠερίληψηΟι μέθοδοι πολυμεταβλητής στατιστικής προβολής χρησιμοποιού-νται ευρέως τα τελευταία χρόνια στην επίλυση των προβλημάτων της διασφάλισης ποιότητας και του στατιστικού ελέγχου διεργασιών. Στο παρόν άρθρο παρουσιάζεται το σχετικό λογισμικό εφαρμογής των παραπάνω μεθόδων, το οποίο έχει αναπτυχθεί στο Εργαστήριο Μηχανικής Αντιδράσεων Πολυμερών (Ε.Μ.Α.Π.) του Τμήματος Χη-μικών Μηχανικών του Αριστοτελείου Πανεπιστημίου Θεσσαλονίκης (Α.Π.Θ.).

1. ΕΙΣΑΓΩΓΗ

Στη σύγχρονη ανταγωνιστική οικονομία οι διεργασίες παραγωγής είναι απαραίτητο να λειτουργούν κάτω από καλά ελεγχόμενες συνθήκες, ώστε να τηρούνται οι προδιαγραφές ποιότητας των παραγόμενων προϊόντων και να περιορίζεται το κόστος παραγωγής. Ο έλεγχος των λειτουργικών συνθη-κών συνδέεται, επίσης, με ιδιαίτερα «ευαίσθητους» τομείς, όπως είναι η ασφάλεια λειτουργίας και η προστασία του περιβάλλοντος. Στο επίπεδο του ελέγχου των λειτουργικών συνθηκών, η ικανοποίηση των παραπάνω απαιτήσεων προϋ-ποθέτει την αντιμετώπιση των προβλημάτων που προκαλού-νται από τις διακυμάνσεις των λειτουργικών συνθηκών.

Η ανάλυση, η παρακολούθηση και ο έλεγχος φυσικών και χημικών διεργασιών προϋποθέτουν την ύπαρξη κατάλ-ληλων μαθηματικών μοντέλων, τα οποία αντιπροσωπεύουν το σύστημα που μελετάται. Μία κοινή αλλά συχνά πολύ δύσκολη προσέγγιση είναι εκείνη της ανάπτυξης ενός μηχα-νιστικού μοντέλου, με βάση τη γνώση των φυσικοχημικών φαινομένων που διέπουν τη λειτουργία μιας διεργασίας. Η ανάπτυξη στατιστικών μοντέλων, που βασίζονται σε δεδο-μένα της διεργασίας, αποτελεί μία αποτελεσματική εναλλα-κτική λύση, καθώς απαιτεί σε μικρότερο βαθμό την ύπαρξη προηγούμενης γνώσης γύρω από τη διεργασία που μελετά-ται. Οι τεχνικές, με τις οποίες αυτή πραγματοποιείται, βασί-ζονται μόνο στην ανάλυση διαθέσιμων μετρήσεων, οι οποίες είναι αντιπροσωπευτικές της συμπεριφοράς της διεργασίας και της ποιότητας ή των ιδιοτήτων του προϊόντος.

Η χρησιμοποίηση στατιστικών μοντέλων για τον έλεγχο των λειτουργικών συνθηκών μιας διεργασίας οδήγησε στη δημιουργία της έννοιας του Πολυμεταβλητού Στατιστι-κού Ελέγχου Διεργασιών (Multivariate Statistical Process Control, MSPC). Ο όρος «στατιστικός έλεγχος» δηλώνει

την εκτίμηση της κατάστασης λειτουργίας μιας διεργασίας, μέσω της στατιστικής επεξεργασίας διαθέσιμων δεδομένων. Περιλαμβάνει ένα πλήθος από στατιστικές τεχνικές, οι οποί-ες έχουν ως βασικό στόχο την έγκαιρη αναγνώριση και τη διόρθωση σφαλμάτων λειτουργίας και γενικότερα αποκλί-σεων από την επιθυμητή λειτουργία.

Εκτός του προβλήματος ελέγχου της απόδοσης λειτουρ-γίας μιας διεργασίας, ένα ακόμη σημαντικό πρόβλημα, που αντιμετωπίζεται στατιστικά, είναι εκείνο του επαρκούς και έγκαιρου ποιοτικού ελέγχου. Η έλλειψη κατάλληλων αισθη-τήρων καθιστά αδύνατη τη συνεχή εκτίμηση σημαντικών μεταβλητών ποιότητας, καθ' όλη τη διάρκεια λειτουργίας μιας διεργασίας. Ως εκ τούτου, η μέτρηση των τελικών ιδιοτήτων των παραγόμενων προϊόντων γίνεται παραδοσι-ακά με εργαστηριακές μεθόδους ανάλυσης, οι οποίες είναι χρονοβόρες και έχουν υψηλό κόστος. Το πρόβλημα αυτό αντιμετωπίζεται με την εφαρμογή κατάλληλων στατιστικών τεχνικών παλινδρόμησης, οι οποίες επιτρέπουν την εκτί-μηση σε σειρά των μεταβλητών ποιότητας μέσω των τιμών των μεταβλητών της διεργασίας.

Στο παρόν άρθρο περιγράφεται το λογισμικό, το οποίο έχει αναπτυχθεί στο Εργαστήριο Μηχανικής Αντιδράσε-ων Πολυμερών του Τμήματος Χημικών Μηχανικών του Αριστοτελείου Πανεπιστημίου Θεσσαλονίκης, για το στα-τιστικό έλεγχο και την πρόβλεψη ποιότητας φυσικών και χημικών διεργασιών. Οι μέθοδοι, οι οποίες χρησιμοποιού-νται, ανήκουν στην κατηγορία των μεθόδων στατιστικής προβολής, οι οποίες απλοποιούν ριζικά το πρόβλημα του στατιστικού ελέγχου αναδεικνύοντας τις χρήσιμες πληροφο-ρίες από τις συχνά τεράστιες ποσότητες δεδομένων που συλ-λέγονται καθημερινά στις σύγχρονες βιομηχανικές μονάδες. Περιλαμβάνονται οι σημαντικότερες μέθοδοι στατιστικού ελέγχου διεργασιών, όπως είναι η μέθοδος Ανάλυσης σε Πρωτεύουσες Διαστάσεις (Principal Component Analysis, PCA) και η μέθοδος Προβολής σε Λανθάνουσες Δομές (Projection to Latent Structures, PLS). Οι παραπάνω μέθο-δοι, εκτός από την απλοποίηση της διαδικασίας ελέγχου της απόδοσης διεργασιών, παρέχουν, επιπρόσθετα, σημαντικές δυνατότητες διερεύνησης των φαινομένων που διέπουν μία διεργασία, επιτρέποντας την καλύτερη κατανόησή τους και διευκολύνοντας τη διάγνωση σφαλμάτων λειτουργίας.

Ένας μεγάλος αριθμός εφαρμογών των μεθόδων PCA και PLS στο πεδίο της ανάλυσης και του ελέγχου διεργασι-

Ανάπτυξη Λογισμικού Διασφάλισης Ποιότητας και Στατιστικού Ελέγχου Διεργασιών

Ι.Ν. ΣΤΑΥΡΟΠΟΥΛΟΣ Κ. ΚΥΠΑΡΙΣΣΙΔΗΣΧημικός Μηχανικός Α.Π.Θ. Καθηγητής Α.Π.Θ.

Υποβλήθηκε: 16.6.1995 Έγινε δεκτή: 3.2.1997

Page 2: 6 Τεχν. Χρον. Επιστ. Έκδ. ΤΕΕ, V, τεύχ. 1&2 2001, Tech. Chron ...library.tee.gr/digital/techr/2001/techr_2001_v_1_2_7.pdf · 2016-07-13 · Η ανάλυση,

8 Τεχν. Χρον. Επιστ. Έκδ. ΤΕΕ, V, τεύχ. 1&2 2001, Tech. Chron. Sci. J. TCG, V, No 1&2 Τεχν. Χρον. Επιστ. Έκδ. ΤΕΕ, V, τεύχ. 1&2 2001, Tech. Chron. Sci. J. TCG, V, No 1&2 9

ών αναφέρεται στη βιβλιογραφία. Ενδεικτικά αναφέρονται η πρόβλεψη των σημαντικών χαρακτηριστικών ποιότητας σε μια διεργασία παραγωγής πολυαιθυλενίου χαμηλής πυ-κνότητας από τους Skagerberg, MacGregor και Kiparissides (1992), ο στατιστικός έλεγχος μιας βιομηχανικής διεργασίας πολυμερισμού από τους Piovoso et al. (1992), ο στατιστικός έλεγχος του τμήματος καταλυτικής διάσπασης ενός διυλι-στηρίου από το Slama (1991), η διάγνωση προβλημάτων στην ευαισθητοποίηση φωτογραφικού χαρτιού από τους Miller et al. (1995). Επίσης, εφαρμογές της μεθόδου PLS στο σχεδιασμό συστημάτων ρύθμισης διεργασιών παρατί-θενται από τους Kaspar και Ray (1992 και 1993) και τους Lakshminarayanan et al. (1997) [1].

2. ΣΥΜΒΟΛΙΣΜΟΙ

�: ������� ����������� ����������: ������� ��� ��µ������� ��� ���������

������µ���� � ������n: ����µ�� ������������ ��� ����µ���� ����µ����m: ����µ�� µ��������� ��� ���������� ��� ����µ�

����µ����k: ����µ�� µ��������� ��������� ��� ����µ�

����µ����A: ����µ�� ����������� ���������� ��� µ�������x: µ�������� ��� ����������T2 : ���������� ����� Hotellingt� : ������µ� ��������µ���� ��� ������ � ���

���������� �������� �p� : ������µ� ������� ��� ������ � ��� ����������

�������� �u� : ������µ� ��������µ���� ��� ������ � ���

���������� �������� �q� : ������µ� ������� ��� ������ � ��� ����������

�������� �X: ������� ����µ���� ��� µ��������� ��� ����������Y: ������� ����µ���� ��� µ��������� ����������: ������� ����������� ��������µ���� µ� ���� ��

����� �=��E: ������� ��������� ��� ����������� �������� ���

������ �F: ������� ��������� ��� ����������� �������� ���

������ �

3. ΜΕΘΟΔΟΙ PCA KAI PLS

Η στατιστική ανάλυση ενός συνόλου παρατηρήσεων, οι οποίες περιγράφουν ένα φαινόμενο, εφαρμόζεται με σκοπό τη μαθηματική έκφραση, τη γραφική απεικόνιση και την ερμηνεία του. Στις περισσότερες διεργασίες τα παρατηρού-μενα φαινόμενα είναι σύνθετα και για την ερμηνεία τους απαιτείται ο συνδυασμός πληροφοριών από περισσότερες από μία μεταβλητές.

Το κύριο χαρακτηριστικό των μεθόδων στατιστικής προ-βολής PCA και PLS είναι η συμπίεση του μεγάλου όγκου πληροφοριών, οι οποίες συλλέγονται γύρω από μεταβλητές με υψηλό βαθμό συσχέτισης, σε μια συνοπτική μορφή, η οποία περιγράφει ικανοποιητικά το σημαντικότερο μέρος της μεταβλητότητας των δεδομένων. Με τον τρόπο αυτό δίνουν τη δυνατότητα ανάπτυξης απλών και ταυτόχρονα εξαιρετικά αποτελεσματικών διαδικασιών στατιστικού ελέγχου πολύπλοκων συστημάτων, οι οποίες ικανοποιούν τις τέσσερις βασικές συνθήκες μιας διαδικασίας στατιστικού ελέγχου [2]:• Λαμβάνουν υπόψη τις συσχετίσεις μεταξύ των μεταβλη-

τών.• Απαντούν στο ερώτημα αν η διεργασία βρίσκεται υπό

έλεγχο ή είναι εκτός ελέγχου μέσω ενός μοναδικού στα-τιστικού κριτηρίου.

• Παρέχουν δυνατότητες διερεύνησης των αιτιών ανεπιθύ-μητων καταστάσεων λειτουργίας.

• Η πιθανότητα λανθασμένης εκτίμησης της κατάστασης λειτουργίας της διεργασίας προσδιορίζεται σαφώς.

Για τη συμπίεση των δεδομένων οι μέθοδοι στατιστικής προβολής χρησιμοποιούν την έννοια των λανθανουσών μεταβλητών. Οι λανθάνουσες μεταβλητές είναι υποθετικές μεταβλητές, οι οποίες ορίζονται ως ανεξάρτητοι γραμμικοί συνδυασμοί των πρωτότυπων μεταβλητών που ικανοποιούν ένα ορισμένο στατιστικό κριτήριο (π.χ. μεγιστοποίηση με-ταβλητότητας). Έτσι, παρ' όλο που δεν είναι πραγματικές μεταβλητές, μπορούν να υποστούν ανάλυση, καθώς περι-έχουν τις πληροφορίες των πρωτότυπων μεταβλητών. Στην περίπτωση της μεθόδου PCA, κάθε λανθάνουσα μεταβλητή ορίζεται έτσι, ώστε να εξηγεί το μεγαλύτερο μέρος της μεταβλητότητας των δεδομένων που απομένει μετά την αφαίρεση των προηγούμενων λανθανουσών μεταβλητών. Έτσι, η πρώτη λανθάνουσα μεταβλητή αντιπροσωπεύει το μεγαλύτερο τμήμα της μεταβλητότητας των δεδομένων, η δεύτερη το αμέσως μικρότερο κ.ο.κ.

Όταν οι μεταβλητές συσχετίζονται σε υψηλό βαθμό, όπως συνήθως συμβαίνει σε συστήματα φυσικών και χημικών διεργασιών, η προηγούμενη διαδικασία έχει ως αποτέλεσμα να συνοψίζονται οι σημαντικότερες στατιστικά πληροφορίες σε έναν πολύ μικρό αριθμό (συνήθως 2 με 3) λανθανουσών μεταβλητών. Το υπόλοιπο τμήμα των δεδο-μένων αντιπροσωπεύει συνήθως σε μεγάλο βαθμό θόρυβο και απορρίπτεται. Με την παραπάνω διαδικασία στατιστικής προβολής επιτυγχάνονται δύο σημαντικά πλεονεκτήματα [3]:

Page 3: 6 Τεχν. Χρον. Επιστ. Έκδ. ΤΕΕ, V, τεύχ. 1&2 2001, Tech. Chron ...library.tee.gr/digital/techr/2001/techr_2001_v_1_2_7.pdf · 2016-07-13 · Η ανάλυση,

8 Τεχν. Χρον. Επιστ. Έκδ. ΤΕΕ, V, τεύχ. 1&2 2001, Tech. Chron. Sci. J. TCG, V, No 1&2 Τεχν. Χρον. Επιστ. Έκδ. ΤΕΕ, V, τεύχ. 1&2 2001, Tech. Chron. Sci. J. TCG, V, No 1&2 9

• Μειώνεται δραστικά ο αριθμός των διαστάσεων του προ-βλήματος στατιστικού ελέγχου, δηλαδή ο αριθμός των μεταβλητών που είναι απαραίτητες για να περιγραφούν ικανοποιητικά όλα τα σημαντικά φαινόμενα που διέπουν μια διεργασία.

• Αυξάνεται σημαντικά ο λόγος σήματος προς θόρυβο και, κατά συνέπεια, διευκολύνεται η κατανόηση των φαινομέ-νων που διέπουν τη διεργασία.

Μαθηματικά, η βάση της μεθόδου PCA, όπως και κάθε πολυμεταβλητής στατιστικής τεχνικής, είναι το δείγμα δε-δομένων πολλών μεταβλητών. Ας θεωρήσουμε ότι έχουν ληφθεί n μετρήσεις γύρω από m τυχαίες μεταβλητές x1,x2 , ...,xm . Οι μετρήσεις αυτές μπορούν να τοποθετηθούν σε έναν πίνακα δεδομένων Χ, διαστάσεων n x m. Κάθε σειρά του πίνακα Χ αντιπροσωπεύει μία παρατήρηση γύρω από τις τιμές των m μεταβλητών. Κάθε στήλη του πίνακα Χ αντι-προσωπεύει το σύνολο των παρατηρήσεων μίας ορισμένης μεταβλητής.

Κατά την εφαρμογή της μεθόδου PCA, ο πίνακας Χ αποσυντίθεται, μετά από αφαίρεση του μέσου όρου κάθε μεταβλητής, σύμφωνα με τη σχέση:

X E� �T

� 1

A

� ��� t p

(2.1)

όπου tα είναι το διάνυσμα των προβολών (διάνυσμα αποτε-λεσμάτων) των n πρωτότυπων παρατηρήσεων του πίνακα Χ στη λανθάνουσα διάσταση α (α=1, 2, ..., Α), pα είναι το διάνυσμα των κανονικοποιημένων συντελεστών των πρω-τότυπων μεταβλητών (διάνυσμα φορτίων), οι οποίοι συνι-στούν τις συνεισφορές των πρωτότυπων μεταβλητών στον προσδιορισμό της λανθάνουσας διάστασης α και, τέλος, Ε είναι ο πίνακας των υπολοίπων της προβολής του πίνακα Χ στις πρώτες Α λανθάνουσες διαστάσεις.

Η μέθοδος PLS ανήκει στην κατηγορία των μεθόδων πο-λυμεταβλητής γραμμικής παλινδρόμησης. Κατά τη μέθοδο αυτή, επιχειρείται ο προσδιορισμός μίας σχέσης πρόβλεψης της μορφής Υ=ΧΒ μεταξύ των δεδομένων της διεργασίας (πίνακας Χ) και των δεδομένων ποιότητας (πίνακας Υ), μέσα από την προβολή τους σε λανθάνουσες διαστάσεις. Τα δεδομένα του πίνακα Χ προβάλλονται σύμφωνα με τη σχ. (2.1). Αντίστοιχα, η προβολή των δεδομένων του πίνακα Υ, διαστάσεων n x m (n μετρήσεων γύρω από k μεταβλητές ποιότητας), δίνεται από μία παρόμοια σχέση:

Y F� �T

� 1

A

� ���u q

(2.2)

όπου uα και qα είναι, αντίστοιχα, το διάνυσμα των αποτε-λεσμάτων και των φορτίων του πίνακα Υ στη λανθάνουσα διάσταση α. F είναι ο πίνακας των υπολοίπων της προβολής

Σχήμα 1: Λογισμικό eφαρμογής MSPC. Figure 1: MSPC software.

Page 4: 6 Τεχν. Χρον. Επιστ. Έκδ. ΤΕΕ, V, τεύχ. 1&2 2001, Tech. Chron ...library.tee.gr/digital/techr/2001/techr_2001_v_1_2_7.pdf · 2016-07-13 · Η ανάλυση,

10 Τεχν. Χρον. Επιστ. Έκδ. ΤΕΕ, V, τεύχ. 1&2 2001, Tech. Chron. Sci. J. TCG, V, No 1&2 Τεχν. Χρον. Επιστ. Έκδ. ΤΕΕ, V, τεύχ. 1&2 2001, Tech. Chron. Sci. J. TCG, V, No 1&2 11

του πίνακα Υ στις πρώτες Α λανθάνουσες διαστάσεις. Κάθε λανθάνουσα διάσταση ορίζεται έτσι, ώστε να μεγιστοποιεί-ται η συμμεταβλητότητα των πινάκων Χ και Υ. Με τον τρό-πο αυτό η μέθοδος PLS επιτυγχάνει τη βέλτιστη πρόβλεψη των μεταβλητών του πίνακα Υ και, παράλληλα, μία καλή προσέγγιση των μεταβλητών του πίνακα Χ.

4. ΑΝΑΠΤΥΞΗ ΜΟΝΤΕΛΩΝ MSPC

Υπάρχουν τρία βασικά βήματα στην ανάπτυξη ενός μο-ντέλου MSPC. Αυτά είναι:• H ανάλυση της ιστορικής βάσης δεδομένων της διεργασί-

ας. • H επιλογή του αριθμού λανθανουσών διαστάσεων του

μοντέλου. • Η επαλήθευση του μοντέλου.

Εφόσον έχει αναπτυχθεί και ελεγχθεί ένα στατιστικό μοντέλο μιας διεργασίας, η μελλοντική συμπεριφορά της διεργασίας ελέγχεται με τη βοήθεια απλών διαγραμμάτων στατιστικού ελέγχου των αποτελεσμάτων και των τε-τραγωνικών υπολοίπων της προβολής. Επιπλέον, οι μέθοδοι PCA και PLS δίνουν τη δυνατότητα περαιτέρω διερεύνησης των φαινομένων που ανακλώνται στα δεδομένα, μέσω της ανάλυσης των τιμών των αποτελεσμάτων και των τετραγω-νικών υπολοίπων στις συνεισφορές κάθε μεταβλητής.

Τα επιμέρους βήματα της ανάπτυξης αποτελεσματικών μοντέλων στατιστικού ελέγχου περιγράφονται στη συνέχεια, μέσω της παρουσίασης του λογισμικού που έχει αναπτυχθεί (σχήμα 1).

5. ΛΟΓΙΣΜΙΚΟ MSPC

Το λογισμικό εφαρμογής των μεθόδων στατιστικού ελέγχου, που πρόκειται να περιγραφεί, λειτουργεί σε πε-ριβάλλον Windows 9x. Χρησιμοποιήθηκαν η γλώσσα προγραμματισμού Visual Basic για τη δημιουργία ενός «φιλικού» προς το χρήστη περιβάλλοντος και η γλώσσα προγραμματισμού Fortran για την ταχύτερη εκτέλεση των μαθηματικών αλγορίθμων. Το περιβάλλον έχει αναπτυχθεί κατά τα πρότυπα τυπικών αντίστοιχων εφαρμογών Windows και περιλαμβάνει πλήθος προσαρμόσιμων από το χρήστη επιλογών.

Η διαδικασία εκτέλεσης του προγράμματος συνοψίζεται στα ακόλουθα βήματα:• Εισαγωγή αρχείου δεδομένων της διεργασίας.• Επεξεργασία των δεδομένων - προετοιμασία της βάσης

δεδομένων αναφοράς.• Ανάπτυξη διαφορετικών μοντέλων με επιλογή διαφορετι-

κών μεθόδων στατιστικού ελέγχου.• Εισαγωγή νέων αρχείων δεδομένων για την εφαρμογή των

μοντέλων που αναπτύχθηκαν.Οι κυριότερες δυνατότητες του προγράμματος περιγρά-

φονται στη συνέχεια:

5.1. Επιλογή τύπου δεδομένων

Οι μέθοδοι PCA και PLS είναι κατάλληλες μόνο για συνεχείς διεργασίες, οι οποίες λειτουργούν σε μόνιμη

Σχήμα 2: Επιλογή είδους δεδομένων. Figure 2: Selection of data type.

Page 5: 6 Τεχν. Χρον. Επιστ. Έκδ. ΤΕΕ, V, τεύχ. 1&2 2001, Tech. Chron ...library.tee.gr/digital/techr/2001/techr_2001_v_1_2_7.pdf · 2016-07-13 · Η ανάλυση,

10 Τεχν. Χρον. Επιστ. Έκδ. ΤΕΕ, V, τεύχ. 1&2 2001, Tech. Chron. Sci. J. TCG, V, No 1&2 Τεχν. Χρον. Επιστ. Έκδ. ΤΕΕ, V, τεύχ. 1&2 2001, Tech. Chron. Sci. J. TCG, V, No 1&2 11

κατάσταση. Παρ' όλα αυτά, ένα πλήθος σημαντικών διερ-γασιών λαμβάνουν χώρα σε ασυνεχείς αντιδραστήρες. Για την κατασκευή στατιστικών μοντέλων ασυνεχών ή ημισυνε-χών διεργασιών, οι οποίες δε λειτουργούν σε μόνιμη κατάσταση, έχουν αναπτυχθεί κατάλληλες επεκτάσεις των τεχνικών προβολής PCA και PLS, οι οποίες ονομάζονται μέθοδοι PCA και PLS Πολλών Διευθύνσεων (Μulti-Way PCA και PLS, αντίστοιχα). Η προέλευση των δεδομένων προσδιορίζεται αρχικά από το χρήστη μέσω της φόρμας που παρατίθεται στο σχήμα 2.

5.2.Ανάλυση βάσης δεδομένων

Στο πλαίσιο της προετοιμασίας μιας αντιπροσωπευτικής βάσης δεδομένων μιας διεργασίας από τα διαθέσιμα δεδομέ-να, το λογισμικό, που έχει αναπτυχθεί, περιλαμβάνει εργα-λεία (σχήμα 3), με τα οποία αντιμετωπίζονται τα ακόλουθα προβλήματα:• Ελλιπή δεδομένα.• Ασύμβατες παρατηρήσεις (outliers).• Θόρυβος.• Μη γραμμική συμπεριφορά.• Μηδενική μεταβλητότητα.• Κλιμάκωση.

Σε κάθε ομάδα δεδομένων υπάρχει η πιθανότητα να μην έχουν καταγραφεί ορισμένες μετρήσεις μεταβλητών. Στις κλασικές στατιστικές τεχνικές ο πίνακας δεδομένων πρέπει να είναι πλήρης πριν από την ανάλυση. Αντίθετα, αυτό δεν είναι απαραίτητο στις μεθόδους PCA και PLS, καθώς μπο-ρούν να δώσουν ακριβείς εκτιμήσεις των παραμέτρων του

μοντέλου, ακόμη και όταν ο πίνακας δεδομένων αναφοράς δεν είναι πλήρης, αλλά ορισμένες παρατηρήσεις λείπουν τυχαία.

Σε κάθε περίπτωση, όταν ο πίνακας δεδομένων δεν είναι πλήρης, αλλά ένας μικρός αριθμός από καταγραφές λείπουν με τυχαίο τρόπο, το πρόβλημα μπορεί να αντιμετωπιστεί με τις εξής μεθόδους [3]:• Απαλείφοντας τα αντικείμενα ή τις μεταβλητές που περι-

έχουν κενά.• Συμπληρώνοντας τα κενά με αληθοφανείς τιμές, όπως είναι

ο μέσος όρος, ο ενδιάμεσος, η τελευταία καταγεγραμμένη τιμή ή συνδυασμοί των παραπάνω.

• Εκτιμώντας τις ελλιπείς τιμές από τα υπάρχοντα δεδομένα με τη χρήση κλασικών μεθόδων γραμμικής παρεμβολής.

• Εκτιμώντας τις ελλιπείς τιμές με εφαρμογή της μεθόδου ανάλυσης σε πρωτεύουσες διαστάσεις.

Ως ασύμβατες παρατηρήσεις ορίζονται οι μετρήσεις, οι οποίες είναι ασύμφωνες με τα υπόλοιπα δεδομένα. Οι παρατηρήσεις αυτές βρίσκονται μακριά από το (νέφος( που σχηματίζουν τα υπόλοιπα δεδομένα στο χώρο των πρωτό-τυπων μεταβλητών. Οι μέθοδοι PCA και PLS είναι αρκετά ευαίσθητες στην ύπαρξη ασύμβατων παρατηρήσεων. Ακόμη και ένας μικρός αριθμός έντονα ασύμβατων παρατηρήσεων μπορεί να επηρεάσει εξ ολοκλήρου την κατεύθυνση της μέ-γιστης μεταβλητότητας και, κατ' επέκταση, την απόδοση του στατιστικού μοντέλου.

Η ανίχνευση ασύμβατων παρατηρήσεων γίνεται χρη-σιμοποιώντας ένα μέτρο της στατιστικής προβολής, όπως είναι το στατιστικό κριτήριο του Hotelling, σε συνδυασμό με ένα μέτρο της απόκλισης από το μοντέλο, όπως είναι το άθροισμα τετραγώνων των υπολοίπων [4].

Σχήμα 3: Εργαλεία προεργασίας των δεδομένων. Figure 3: Data preprocessing tools

Page 6: 6 Τεχν. Χρον. Επιστ. Έκδ. ΤΕΕ, V, τεύχ. 1&2 2001, Tech. Chron ...library.tee.gr/digital/techr/2001/techr_2001_v_1_2_7.pdf · 2016-07-13 · Η ανάλυση,

12 Τεχν. Χρον. Επιστ. Έκδ. ΤΕΕ, V, τεύχ. 1&2 2001, Tech. Chron. Sci. J. TCG, V, No 1&2 Τεχν. Χρον. Επιστ. Έκδ. ΤΕΕ, V, τεύχ. 1&2 2001, Tech. Chron. Sci. J. TCG, V, No 1&2 13

Τα δύο μεγέθη είναι συμπληρωματικά, καθώς μετρούν την ποιότητα της προσαρμογής εντός και εκτός του χώρου του μοντέλου, αντίστοιχα. Αξίζει να σημειωθεί ότι μία ασύμ-βατη παρατήρηση στην ιστορική βάση δεδομένων δεν είναι απαραίτητο να αντιπροσωπεύει εσφαλμένη λειτουργία. Για παράδειγμα, μπορεί να είναι απλά η μοναδική παρατήρηση που περιγράφει ένα συγκεκριμένο φαινόμενο, το οποίο είναι επιθυμητό να συμπεριληφθεί στο μοντέλο.

Με βάση την προηγούμενη παρατήρηση, η απομάκρυν-ση ανεπιθύμητων παρατηρήσεων δε γίνεται αυτόματα στο συγκεκριμένο λογισμικό αλλά από το χρήστη, με τη βοήθεια των διαγραμμάτων των στατιστικών που προαναφέρθηκαν και των εργαλείων διερεύνησης σφαλμάτων που περιλαμβά-νονται. Η διαδικασία, που ακολουθείται, είναι η εξής:• Κατασκευάζεται αρχικά ένα προκαταρκτικό μοντέλο.• Εξετάζονται τα διαγράμματα των αποτελεσμάτων (ή του

στατιστικού κριτηρίου T2) και των τετραγωνικών υπολοί-πων, για τον εντοπισμό παρατηρήσεων, οι οποίες υπερβαί-νουν σημαντικά τα όρια που προσδιορίζουν την περιοχή κανονικής λειτουργίας της διεργασίας.

• Οι «ύποπτες» παρατηρήσεις εξετάζονται περαιτέρω με εργαλεία διερεύνησης, για τη διαπίστωση των αιτιών εμφάνισής τους. Το λογισμικό περιλαμβάνει βασικά δια-γνωστικά εργαλεία, με τα οποία είναι δυνατός ο προσδιο-ρισμός του συνδυασμού των μεταβλητών της διεργασίας που είναι πιθανότερο να ευθύνονται για την ασυνήθιστη συμπεριφορά μιας διεργασίας.

• Με βάση τα αποτελέσματα της διερεύνησης, αποφασίζεται κατά πόσο ένα «ύποπτο» αντικείμενο θα πρέπει να απομα-κρυνθεί από τη βάση δεδομένων αναφοράς.

Παρ' όλο που τα διαγνωστικά διαγράμματα δεν απο-καλύπτουν πάντοτε τα αίτια εμφάνισης ανεπιθύμητων καταστάσεων, απλοποιούν σε ένα βαθμό το πρόβλημα, εστιάζοντας σε μία ορισμένη ομάδα μεταβλητών, οι οποίες δεν είναι πλέον συνεπείς με τις συνθήκες κανονικής λειτουρ-γίας, αλλά έχουν σημαντική συνεισφορά στο σήμα εκτός ελέγχου. Συνδυάζοντας τις πληροφορίες των διαγραμμάτων συνεισφορών με γνώση γύρω από τα φαινόμενα που διέπουν τη διεργασία που εξετάζεται, είναι δυνατό να εξαχθούν συ-μπεράσματα γύρω από αίτια μιας απόκλισης και να ληφθούν εγκαίρως κατάλληλες διορθωτικές ενέργειες.

Η παρουσία θορύβου στα δεδομένα μπορεί να επισκιάσει το τι πραγματικά συμβαίνει μέσα σε μια διεργασία και, για το λόγο αυτό, είναι σημαντική η απομάκρυνσή του. Μικρά ποσά θορύβου μπορούν, συνήθως, να απομακρυνθούν μέσω της μείωσης των διαστάσεων του μοντέλου, κατά την εφαρ-μογή των μεθόδων στατιστικής προβολής. Για την απομά-κρυνση, όμως, σημαντικών ποσοτήτων θορύβου απαιτείται η εφαρμογή φίλτρων στα δεδομένα. Στο συγκεκριμένο λο-γισμικό παρέχονται ορισμένα βασικά φίλτρα, τα οποία είναι κατάλληλα για δεδομένα φυσικοχημικών διεργασιών [3].

Οι μέθοδοι PCA και PLS είναι γραμμικές μέθοδοι. Κατά συνέπεια, αποτυγχάνουν, όταν εφαρμόζονται σε διεργασίες, οι οποίες εμφανίζουν έντονα μη γραμμική συμπεριφορά. Μία λύση στο πρόβλημα αυτό είναι η απομάκρυνση τμήμα-τος της μη γραμμικής φύσης των δεδομένων μέσα από την εφαρμογή κατάλληλων μαθηματικών μετασχηματισμών.

Τυπικές μαθηματικές συναρτήσεις, οι οποίες περιλαμβά-νονται στο παρόν λογισμικό, είναι οι πολυωνυμικές, λογα-ριθμικές και εκθετικές συναρτήσεις, η τετραγωνική ρίζα, ο αντίστροφος κ.λπ. Ένας δεύτερος τρόπος αντιμετώπισης του προβλήματος είναι η εφαρμογή μη γραμμικών επεκτάσεων των μεθόδων PCA και PLS. Στο λογισμικό περιλαμβάνεται μία μη γραμμική μορφή της μεθόδου PLS, η οποία συνδέει τα αποτελέσματα των δύο πινάκων δεδομένων Χ και Υ με μία πολυωνυμική εσωτερική σχέση δεύτερης τάξης [5].

Πριν από την ανάπτυξη του μοντέλου, τα δεδομένα θα πρέπει, επίσης, να ελεγχθούν για να διαπιστωθεί αν υπάρ-χουν μεταβλητές με σταθερές τιμές, καθώς είναι απαραίτητο η μεταβλητότητα των μεταβλητών, που λαμβάνονται υπόψη στην ανάλυση, να είναι διαφορετική του μηδενός. Αυτό γίνεται υπολογίζοντας την τυπική απόκλιση ή τους συντελε-στές συσχέτισης των μεταβλητών. Οι μεταβλητές αυτές θα πρέπει να παραλειφθούν από τη βάση δεδομένων αναφοράς. Εναλλακτικά, εάν είναι απαραίτητη η συμμετοχή τους στο μοντέλο, μπορεί να προστεθεί σε αυτές ένα κατάλληλο ποσό θορύβου, ώστε να εξασφαλιστεί ότι επιδεικνύουν κάποια μορφή μεταβλητότητας [3].

Ένα τελευταίο, σημαντικό ζήτημα είναι εκείνο της κλι-μάκωσης των δεδομένων. Οι μεταβλητές, που συνιστούν τη βάση δεδομένων αναφοράς, θα πρέπει να έχουν την ίδια βα-ρύτητα στην εξαγωγή των παραμέτρων του μοντέλου. Στην περίπτωση που δεν υπάρχει προηγούμενη γνώση γύρω από το εύρος τιμών των μεταβλητών και οι μεταβλητές εκφρά-ζουν διαφορετικά μεγέθη, αδιαστατοποιούνται με διαίρεση με την τυπική τους απόκλιση. Εξαιρούνται οι μεταβλητές που έχουν ελάχιστη μεταβλητότητα. Επίσης, αφαιρείται κατά κανόνα ο μέσος όρος, ο οποίος μπορεί να θεωρηθεί ότι εκφράζει την εγγενή κοινή μεταβλητότητα των δεδομένων στο σύστημα που μελετάται. Στο συγκεκριμένο λογισμικό δίνεται η δυνατότητα διαφορετικής κλιμάκωσης των επι-μέρους μεταβλητών. Αξίζει να σημειωθεί ότι η κλιμάκωση απαιτεί ιδιαίτερη προσοχή, ώστε να μη διαταράσσονται οι φυσικές συσχετίσεις μεταξύ μεταβλητών του ίδιου είδους.

5.3 Ανάπτυξη μοντέλου

Μετά την προετοιμασία της βάσης δεδομένων αναφοράς μπορούν να κατασκευαστούν ένα ή περισσότερα μοντέλα στατιστικού ελέγχου επιλέγοντας μία από τις μεθόδους που περιλαμβάνονται στο λογισμικό (σχήμα 1):• PCA, PCR, PLS, Multi-block PCA/PLS (ΜΒPCA MBPLS)

και Quadratic PLS (QPLS) για δεδομένα συνεχών διεργα-σιών.

• Multi-Way PCA/PLS (MPCA και MPLS) για δεδομένα ασυνεχών/ημισυνεχών διεργασιών.

Οι μέθοδοι MBPCA και MBPLS αποτελούν παραλλαγές των αντίστοιχων μεθόδων PCA και PLS, οι οποίες απλο-ποιούν το πρόβλημα του στατιστικού ελέγχου πολύπλοκων διεργασιών, οι οποίες μπορούν να διασπαστούν με φυσικό τρόπο σε πολλά τμήματα. Η μέθοδος QPLS χρησιμοποιείται για την πρόβλεψη ποιότητας σε διεργασίες με έντονα μη γραμμικά χαρακτηριστικά. Τέλος, οι μέθοδοι MPCA και

Page 7: 6 Τεχν. Χρον. Επιστ. Έκδ. ΤΕΕ, V, τεύχ. 1&2 2001, Tech. Chron ...library.tee.gr/digital/techr/2001/techr_2001_v_1_2_7.pdf · 2016-07-13 · Η ανάλυση,

12 Τεχν. Χρον. Επιστ. Έκδ. ΤΕΕ, V, τεύχ. 1&2 2001, Tech. Chron. Sci. J. TCG, V, No 1&2 Τεχν. Χρον. Επιστ. Έκδ. ΤΕΕ, V, τεύχ. 1&2 2001, Tech. Chron. Sci. J. TCG, V, No 1&2 13

MPLS χρησιμοποιούνται για το στατιστικό έλεγχο και την πρόβλεψη ποιότητας, αντίστοιχα, σε ασυνεχείς και ημισυνε-χείς διεργασίες.

Η επιλογή του αριθμού λανθανουσών διαστάσεων του μοντέλου δε γίνεται αυτόματα αλλά από το χρήστη, με τη βοήθεια κριτηρίων. Στις μεθόδους παλινδρόμησης (PCR, PLS κ.λπ.) εφαρμόζεται κατ' επιλογή η ενδεδειγμένη διαδι-κασία της επαλήθευσης με διασταύρωση (cross-validation) [6]. Στις μεθόδους με βάση το PCA, οι δοκιμές κριτηρίων, που έχουν προταθεί στη βιβλιογραφία σε προσομοιωμένα δεδομένα, έχουν δείξει ότι δεν υπάρχει «ιδανική» λύση στο πρόβλημα της επιλογής του αριθμού λανθανουσών δι-αστάσεων, λόγω της πολυπλοκότητας του προβλήματος του διαχωρισμού συστηματικής και τυχαίας μεταβλητότητας. Το παρόν λογισμικό περιλαμβάνει τα σημαντικότερα κριτήρια που έχουν προταθεί έως τώρα στη βιβλιογραφία [7]. Αυτά διακρίνονται σε:• Εμπειρικά κριτήρια που στηρίζονται στο ποσοστό μετα-

βλητότητας που εξηγείται από τις λανθάνουσες διαστά-σεις.

• Εμπειρικές συναρτήσεις, όπως το ενσωματωμένο σφάλμα (imbedded error) [8].

• Στατιστικές προσεγγίσεις, όπως η διαδικασία επαλήθευσης με διασταύρωση για το PCA [9].

5.4. Επαλήθευση μοντέλου

Το στατιστικό μοντέλο, που αναπτύχθηκε, θα πρέπει να ελεγχθεί ως προς την αποτελεσματικότητά του, με εφαρμογή του σε δεδομένα, τα οποία δεν περιλαμβάνονται στη βάση αναφοράς. Η διαδικασία της επαλήθευσης του στατιστικού μοντέλου περιλαμβάνει κατά κανόνα δύο βήματα:

α. Αρχικά, ελέγχεται κατά πόσο προβλέπεται σωστά η κατάσταση κανονικής λειτουργίας, χρησιμοποιώντας δεδο-μένα, τα οποία αντιστοιχούν σε κανονική λειτουργία.

β. Στη συνέχεια, ελέγχεται η ικανότητα του μοντέλου να εντοπίζει γνωστές ανεπιθύμητες καταστάσεις λειτουργίας, χρησιμοποιώντας δεδομένα, τα οποία αντιπροσωπεύουν συγκεκριμένα σφάλματα ή αποκλίσεις από την κανονική λειτουργία.

Το λογισμικό περιλαμβάνει επιλογές, όπως ο στατιστικός έλεγχος δεδομένων του πρωτότυπου αρχείου και η εισαγωγή νέων αρχείων δεδομένων για την κάλυψη των δύο απαιτή-σεων. Εξετάζοντας τη συμπεριφορά του μοντέλου απέναντι σε δεδομένα κανονικής και μη κανονικής λειτουργίας, απο-κτάται μία συνολική εικόνα της απόδοσής του. Με βάση αυτή κρίνεται κατά πόσο το μοντέλο είναι ικανοποιητικό ή πρέπει να διορθωθεί, είτε ως προς τη βάση δεδομένων ανα-

Σχήμα 4: Προσομοίωση της εφαρμογής των μεθόδων MSPC σε πραγματικό χρόνο. Figure 4: Simulation of real-time MSPC.

Page 8: 6 Τεχν. Χρον. Επιστ. Έκδ. ΤΕΕ, V, τεύχ. 1&2 2001, Tech. Chron ...library.tee.gr/digital/techr/2001/techr_2001_v_1_2_7.pdf · 2016-07-13 · Η ανάλυση,

14 Τεχν. Χρον. Επιστ. Έκδ. ΤΕΕ, V, τεύχ. 1&2 2001, Tech. Chron. Sci. J. TCG, V, No 1&2 Τεχν. Χρον. Επιστ. Έκδ. ΤΕΕ, V, τεύχ. 1&2 2001, Tech. Chron. Sci. J. TCG, V, No 1&2 15

φοράς (π.χ. επιλογή καταλληλότερων δεδομένων αναφοράς, εφαρμογή ενός κατάλληλου μετασχηματισμού κ.λπ.) είτε ως προς τον αριθμό των λανθανουσών διαστάσεων που πρέπει να κρατηθούν.

5.5. Στατιστικός Έλεγχος Νέων Δεδομένων

Το μοντέλο MSPC, που δημιουργήθηκε, είναι δυνατό να χρησιμοποιηθεί για το στατιστικό έλεγχο διεργασιών σε πραγματικό χρόνο, με δεδομένα, τα οποία λαμβάνο-νται δυναμικά από το σύστημα συλλογής δεδομένων (data acquisition system) της διεργασίας. Αυτό επιτυγχάνεται χάρη στη δυνατότητα δυναμικής ανταλλαγής δεδομένων (dynamic data exchange) μεταξύ των εφαρμογών που τρέ-χουν σε περιβάλλον Windows. Επίσης, δίνεται η δυνατότητα προσομοίωσης της διαδικασίας στατιστικού ελέγχου (σχήμα 4), με δεδομένα που εισάγονται από ένα αρχείο.

6. ΣΥΜΠΕΡΑΣΜΑΤΑ

Η χρησιμοποίηση στατιστικών μεθόδων πολυμεταβλη-τής ανάλυσης για την περιγραφή της συμπεριφοράς διερ-γασιών παραγωγής αποτελεί μία αποτελεσματική λύση στο πρόβλημα της διασφάλισης ποιότητας των παραγόμενων προϊόντων και του στατιστικού ελέγχου της παραγωγικής διαδικασίας, όταν το σύστημα, που εξετάζεται, είναι πολύ-πλοκο και η ανάπτυξη λεπτομερών μαθηματικών μοντέλων είναι πολύ δύσκολη ή οικονομικά ανέφικτη. Το λογισμικό, που αναπτύχθηκε, αποτελεί μία συλλογή από τα βασικά στατιστικά εργαλεία εφαρμογής των παραπάνω μεθόδων για τη βελτίωση της παραγωγής, σε ένα «φιλικό» προς το χρήστη περιβάλλον, το οποίο χαρακτηρίζεται από απλότητα και λειτουργικότητα.

ΒΙΒΛΙΟΓΡΑΦΙΑ

1. T. Kourti and J. F. MacGregor, Multivariate SPC Methods for Process and Product Monitoring, Journ. Qual. Tech., 1996, vol. 28, pp. 409-428.

2. J.E. Jackson, A User's Guide to Principal Components, John Wiley & Sons, 1991.

3. S.D. Brown, Chemical Systems Under Indirect Observation: Latent Properties and Chemometrics, Appl. Spec., 1995, vol. 49, pp. 14A-31A.

4. Ε.Β. Martin, Α. Bettoni and A.J. Morris. Recommendations on Testing, Data Collection Procedures and Data Prescreening, ESPRIT Project 22281, Deliverable D1.4, 1997.

5. D.M. Hawkins, Identification of Outliers, Chapman & Hall, London, 1980.

6. S. Wold, N. Kettaneh-Wold and B. Skagerberg, Nonlinear PLS Modeling. Chem. Intel. Lab. Sys, 1989, vol. 7, pp. 53-56.

7. P. Geladi and B. R. Kowalski, Partial Least-Squares Regression: A Tutorial, Anal. Chim. Acta, 1986, vol. 185, pp. 1-17.

8. L. Ferre, Selection of Components in Principal Component Analysis: A Comparison of Methods, Comp. Stat. Data Anal., 1995, vol. 19, pp. 669-682.

9. Α. Elbergali, J. Nygren and M. Kubista, An Automated Procedure to Predict the Number of Components in Spectroscopic Data, Anal. Chim. Acta, 1999, vol. 379, pp. 143-158.

10. S. Wold, Cross-Validatory Estimation of the Number of Components in Factor and Principal Components Models, Technometrics, 1978, vol. 20, No 4, pp. 397-405.

Ι.Ν. Σταυρόπουλος,Χημικός Μηχανικός Α.Π.Θ., Αρτέμιδος 17, Ανάληψη 546 44, Θεσσαλονίκη.Κ. Κυπαρισσίδης,Καθηγητής Α.Π.Θ., Τμήμα Χημικών Μηχανικών, Αριστοτέλειο Πανεπιστήμιο Θεσσαλονίκης 540 06, Τ.Θ. 472, Θεσσαλονίκη.

Page 9: 6 Τεχν. Χρον. Επιστ. Έκδ. ΤΕΕ, V, τεύχ. 1&2 2001, Tech. Chron ...library.tee.gr/digital/techr/2001/techr_2001_v_1_2_7.pdf · 2016-07-13 · Η ανάλυση,

14 Τεχν. Χρον. Επιστ. Έκδ. ΤΕΕ, V, τεύχ. 1&2 2001, Tech. Chron. Sci. J. TCG, V, No 1&2 Τεχν. Χρον. Επιστ. Έκδ. ΤΕΕ, V, τεύχ. 1&2 2001, Tech. Chron. Sci. J. TCG, V, No 1&2 15

AbstractMultivariate statistical process control concepts and methods have become very important in process industries for the development of effective quality assurance and statistical process control schemes. In the present article, the MSPC software developed in the Laboratory of Polymer Reactions Engineering (LPRE) of the Aristotle University of Thessaloniki (A.U.TH.) is demonstrated.

1. INTRODUCTION

In today's competetive atmosphere, process industries are required to operate under well controlled conditions to achieve high quality standards and consistent production at reduced operational costs. The requirement to operate safely according to health, safety and environmental protection regulations have also become imperative due to market and public demands.

Schemes for monitoring process operating performance are based on process models. A common but often difficult approach is to develop a detailed mathematical model based upon the underlying fundamental physical and chemical process phenomena. An alternative approach is the development of statistical models built from process data. A statistical model is based upon the philosophy of Multivariate Statistical Process Control (MSPC), under which the behavior of a process can be characterized using a historical database of successful process operation. The objective of MSPC methods is to monitor process operating performance in order to detect and diagnose process faults and malfunctions. A second problem to be addressed by MSPC is that of quality inference. The lack of robust on-line sensors makes it difficult to control product quality using only direct measurements. Suitable calibration techniques have been developed that use the process measurements to infer important product properties.

The present article demonstrates the MSPC software developed in LPRE. It is based on multivariate statistical projection techniques, such as principal component analysis (PCA) and projection to latent structures (PLS), which are particularly suited for analysing high-correlated physical and chemical process and quality data, and for interpreting out-of-control signals. A number of applications of PCA and PLS

have been reported in the literature, including the analysis of an LDPE reactor (Skagerberg, MacGregor and Kiparissides, 1992), an industrial polymerization process (Piovoso et al., 1992), catalytic cracking in petroleum refining (Slama, 1991), photographic paper manufacturing (Miller et al., 1995) and many others [1].

2. PCA AND PLS METHODS

Multivariate statistical analysis is the representation, visualization and interpretation of a set of observations that describe a natural physical phenomenon. Typically, process phenomena are multivariate in nature. PCA and PLS can handle large sets of high-correlated data by summarizing the information contained within the process and/or quality variables in terms of a reduced set of latent variables. These are defined as linear combinations of the original variables. PCA is used to explain the variability in a single data block. It calculates latent vectors that are

uncorrelated, and that describe the directions of greatest variability in the data set. Conceptually PLS is similar to PCA except that it simultaneously reduces the dimensions of both process (X) and quality (Y) variable spaces to find the latent vectors for the X space which are most predictive of the Y space.

Consider the situation where one has measurements on m process variables and on k quality variables taken at n different times. These data can be arranged into a nm process data matrix X and a nk quality data matrix Y. In PCA, the mean-centered X matrix is decomposed as follows:

X E� �T

� 1

A

� ��� t p

(2.1)

where tα is the vector of scores whose elements express the projection of each row of X to the a-th latent dimension. pα is the vector of loading, whose elements express the contribution of each original variable toward defining the a-th latent variable. Ε is the matrix of residuals after fitting

Extended summary

Development of a Software Package for Quality Assurance and Statistical Process Control

Ι.Ν. STAVROPOULOS Κ. KIPARISSIDESChemical Engineer, A.U.TH. Professor, A.U.TH.

Suvmitted: Jun. 16. 1995 Accepted: Feb. 3. 1997

Page 10: 6 Τεχν. Χρον. Επιστ. Έκδ. ΤΕΕ, V, τεύχ. 1&2 2001, Tech. Chron ...library.tee.gr/digital/techr/2001/techr_2001_v_1_2_7.pdf · 2016-07-13 · Η ανάλυση,

16 Τεχν. Χρον. Επιστ. Έκδ. ΤΕΕ, V, τεύχ. 1&2 2001, Tech. Chron. Sci. J. TCG, V, No 1&2 Τεχν. Χρον. Επιστ. Έκδ. ΤΕΕ, V, τεύχ. 1&2 2001, Tech. Chron. Sci. J. TCG, V, No 1&2 17

A latent variables (i.e., the deviations of original data from the A-dimensional model). With highly correlated variables, the first few latent dimensions (usually two or three) account for most of the variability present in the data. The remaining components are of limited significance and are typically attributed to noise inherent in the system. Hence, for monitoring it is often sufficient to consider only the first few dimensions ( a = 1, 2 ) in eq. (2.1).

Projection to Latent Structures (PLS) is a multivariate regression method whose objective is to establish a predictive relationship between two data sets, X and Y, and reduce problem dimensionality by compressing the covariance between X and Y into a low-dimensional subspace. The mean-centered X matrix is decomposed as shown in eq. (1). Similarly, the mean-centered Y matrix is decomposed as:

Y F� �T

� 1

A

� ���u q

(2.2)

where uα and qα are the vectors of scores and loadings of the Y matrix, respectively. F is the matrix of Y residuals.

There are three main steps in the development of an MSPC model:• Data preprocessing. • Selection of the dimensionality of the model. • Validation of the model.

After building a PCA or a PLS model, process monitoring can be performed in the reduced latent variable space, instead of using the original X block variables by plotting the projected scores in the selected number of dimensions. Quadratic residuals time evolution plots can be used for monitoring the deviations of original data from the MSPC model. A great advantage of PCA/PLS methods is their diagnostic capability. Once a deviation is detected in the monitoring charts, the variables which make major contributions to this deviation are easily isolated using the underlying projection model. Once the major contributing variables are known, the diagnosis problem is much easier.

3. MSPC SOFTWARE

The software presented in this article (figure 1) works in a user-friendly operating evironment under Windows 9x. It was developed in Visual Basic. The underlying algorithms of the methods included were developed in Fortran to increase execution speed.

The development of a new MSPC model is summarized in the following steps:• Import the file that contains historical data.• Prepare a representative database (data preprocessing).• Select a method and build the respective MSPC model.• Import new data files to apply to the developed models.

3.1. Selection of data type

PCA and PLS techniques are more suitable for continuous processes that operate at steady state. However, batch and semi-batch modes of operation cover a wide range of important chemical processes. Extensions of the projection techniques of PCA and PLS, namely multi-way PCA (MPCA) and multi-way PLS (MPLS) have been developed to handle batch data. The initial step in importing the process data file is the selection of the type of data imported, as shown in figure 2.

3.2. Data preprocessing

The historical database is first analyzed, prior to model development, to check whether the data contain sufficient information to develop a model and also to detect the presence of non-conforming operation. A number of important issues have been taken into consideration in the data preprocessing stage of the analysis of the historical database (figure 3):• Missing data.• Outliers.• Noise.• Non-linear behavior.• Zero variability.• Scaling.

Missing values can be handled in the following ways [3]:• by deleting partially observed objects or variables.• by infilling with plausible values for the missing

measurements such as the mean, the median, the last recorded value etc.

• by estimating the missing values using multiple linear regression, PCA etc.

Outliers can be defined as measurements that appear to be inconsistent with the rest of the data. Outliers have a strong effect on the statistical analysis and, hence, the task of outlier indentification and removal are of great importance. Outliers can be identified using a measure of the distance of a point from the center of the reduced latent space, such as Hotelling's statistic, in combination with a measure of the quadratic residuals of the projection.

The presence of noise can also obscure what is really happening within a process. Small amounts of noise are removed by applying the projection techniques. To further reduce the amount of noise in the data filtering techniques are also available.

Nonlinearities inherent within a system can be reduced by applying appropriate mathematical transformations, such as the square root, the inverse, the logarithm or the exponential function. A non-linear version of the PLS method is also included based on a quadratic polynomial inner relation between process and quality variables [5].

Prior to model development, the data are automatically checked for constant variables, since variability is required

Page 11: 6 Τεχν. Χρον. Επιστ. Έκδ. ΤΕΕ, V, τεύχ. 1&2 2001, Tech. Chron ...library.tee.gr/digital/techr/2001/techr_2001_v_1_2_7.pdf · 2016-07-13 · Η ανάλυση,

16 Τεχν. Χρον. Επιστ. Έκδ. ΤΕΕ, V, τεύχ. 1&2 2001, Tech. Chron. Sci. J. TCG, V, No 1&2 Τεχν. Χρον. Επιστ. Έκδ. ΤΕΕ, V, τεύχ. 1&2 2001, Tech. Chron. Sci. J. TCG, V, No 1&2 17

in the data. Constant variables may be excluded from the reference database or modified by adding an appropriate amount of noise [3]. In situations where the original variables are measured in different units, they must be scaled appropriately so that they are of equal importance to the projection. Typically, the inherent common variability is also removed prior to data analysis by mean-centering the data.

3.3. Model development

The outcome of the previous analysis is a reference database of normal process behavior. A representative model of the process can be developed by selecting one of the methods available (figure 1):• PCA, PCR, PLS, Multi-block PCA/PLS (ΜΒPCA and

MBPLS) and Quadratic PLS (QPLS) for continuous data.• MPCA and MPLS for batch or semi-batch data.

The multi-block extensions of PCA and PLS provide a working approach to the interpretation of faults in complex processes that comprise many distinct units. QPLS is appropriate for highly non-linear processes. MPCA and MPLS are used to construct statistical models of batch and semi-batch processes.

In multivariate calibration (e.g., PLS, PCR) the number of latent vectors retained in the model may be chosen based on the application of the cross-validation technique [6]. In PCA, however, the selection of the optimum number of latent vectors is not straightforward and many methods have been proposed [7]. Methods to identify the dimensionality of a data set can be classified into three categories:• heuristic approaches based on the percentage of variability

explained by each latent dimension.• empirical functions, such as the imbedded error [8].• statistical approaches, such as cross-validation [9].

3.4. Model validation

Model testing usually involves two steps. In the first step, the performance of the model is evaluated against data corresponding to normal operation. The second step involves importing new data that correspond to known process faults and evaluating the performance of the model against these data.

3.5. On-line MSPC

The developed MSPC model can be used for the on-line monitoring of a process based on the ability to exchange data (dynamic data exchange, DDE) with the data acquisition system (DAS). Figure 4 shows a simulation of the on-line procedure.

4. CONCLUSIONS

MSPC is a powerful methodology for process performance enhancement. The software demonstrated in the present article comprises a collection of powerful methods and techniques in a user friendly environment designed to simplify the development of effective quality assurance and statistical process control schemes.

Ι.Ν. Stavropoulos,Chemical Engineer, A.U.TH., Artemidos 17, Analipsi 546 44, Thessaloniki.Κ. Kiparissides,Professor, A.U.TH., Department of Chemical Engineering, Aristotle University of Thessaloniki 540 06, PO Box 472, Thessaloniki.