literatura_2016_models and methods of cleaning and integration of

16
147 СПИСОК ВИКОРИСТАНИХ ДЖЕРЕЛ 1. Маннинг К. Введение в информационный поиск: пер. с англ. / Кристофер Д. Маннинг, Прабхакар Рагхаван, Хайнрих Шютце. – М. : Вильямс, 2011. – 528 с. 2. Elfeky M. G. Record Linkage: A Machine Learning Approach, A Toolbox, and A Digital Government Web Service / Mohamed G. Elfeky, Vassilios S. Verykios, Ahmed K. Elmagarmid, Thanaa M. Ghanem, Ahmed R. Huwait // Dept. of Computer Sciences, Purdue University, Technical Report CSD-03-024, 2003 29 р. 3. Perkowitz M. Learning to Understand Information on the Internet: An Example-Based Approach / M. Perkowitz, R. B. Doorenbos, O. Etzioni, D. S. Weld // Intelligent Information Systems. 1997. vol. 8, no. 2. P. 133153. 4. Dasu T. Mining Database Structure; or, How to Build a Data Quality Browser / T. Dasu, T. Johnson, S. Muthukrishnan, V. Shkapenyuk // ACM SIGMOD Intl Conf. Management of Data (SIGMOD ’02). 2002. Р. 40–251. 5. Elmagarmid A. K. Duplicate Record Detection: A Survey / Ahmed K. Elmagarmid, Panagiotis G. Ipeirotis, Vassilios S. Verykios // IEEE transactions on knowledge and data engineering. 2007. vol. 19, no. 1. P. 116. 6. Hastie T. The Elements of Statistical Learning: Data Mining, Inference, and Prediction : 2nd ed. / T. Hastie, R. Tibshirani, and J. H. Friedman. Springer- Verlag, 2009. 746 p. 7. Jaro M. A. Advances in Record-Linkage Methodology as Applied to Matching the 1985 Census of Tampa, Florida / M. A. Jaro // Am. Statistical Assoc. June. 1989 . vol. 84, no. 406. Р. 414420.

Upload: vandien

Post on 07-Feb-2017

217 views

Category:

Documents


0 download

TRANSCRIPT

Page 1: Literatura_2016_Models and methods of cleaning and integration of

147

СПИСОК ВИКОРИСТАНИХ ДЖЕРЕЛ

1. Маннинг К. Введение в информационный поиск: пер. с англ. /

Кристофер Д. Маннинг, Прабхакар Рагхаван, Хайнрих Шютце. – М. :

Вильямс, 2011. – 528 с.

2. Elfeky M. G. Record Linkage: A Machine Learning Approach, A

Toolbox, and A Digital Government Web Service / Mohamed G. Elfeky, Vassilios

S. Verykios, Ahmed K. Elmagarmid, Thanaa M. Ghanem, Ahmed R. Huwait //

Dept. of Computer Sciences, Purdue University, Technical Report CSD-03-024,

2003 – 29 р.

3. Perkowitz M. Learning to Understand Information on the Internet: An

Example-Based Approach / M. Perkowitz, R. B. Doorenbos, O. Etzioni,

D. S. Weld // Intelligent Information Systems. – 1997. – vol. 8, no. 2. –

P. 133–153.

4. Dasu T. Mining Database Structure; or, How to Build a Data Quality

Browser / T. Dasu, T. Johnson, S. Muthukrishnan, V. Shkapenyuk // ACM

SIGMOD Int’l Conf. Management of Data (SIGMOD ’02). – 2002. – Р. 40–251.

5. Elmagarmid A. K. Duplicate Record Detection: A Survey / Ahmed K.

Elmagarmid, Panagiotis G. Ipeirotis, Vassilios S. Verykios // IEEE transactions on

knowledge and data engineering. – 2007. – vol. 19, no. 1. – P. 1–16.

6. Hastie T. The Elements of Statistical Learning: Data Mining, Inference,

and Prediction : 2nd ed. / T. Hastie, R. Tibshirani, and J. H. Friedman. – Springer-

Verlag, 2009. – 746 p.

7. Jaro M. A. Advances in Record-Linkage Methodology as Applied to

Matching the 1985 Census of Tampa, Florida / M. A. Jaro // Am. Statistical Assoc.

– June. – 1989 . – vol. 84, no. 406. – Р. 414–420.

Page 2: Literatura_2016_Models and methods of cleaning and integration of

148

8. Dempster A. P. Maximum Likelihood from Incomplete Data via the EM

Algorithm / A. P. Dempster, N. M. Laird, and D. B. Rubin // Royal Statistical Soc.

. – 1977. – vol. B, no. 39. – Р. 1–38.

9. Winkler W. E. Improved Decision Rules in the Felligi-Sunter Model of

Record Linkage / W. E. Winkler // Technical Report Statistical Research. – Report

Series RR93/12, US Bureau of the Census, Washington, D. C. : 1993. – P. 15.

10. Winkler W. E. Methods for Record Linkage and Bayesian Networks /

W. E. Winkler // Technical Report Statistical Research. – Report Series

RRS2002/05, US Bureau of the Census, Washington, D. C. : 2002. – P. 27.

11. Duda R. O. Pattern Classification and Scene Analysis : 2nd ed. / Richard

O. Duda, Peter E. Hart, David G. Stork. – Wiley, 1995. – P. 69.

12. Verykios V. S. A Bayesian Decision Model for Cost Optimal Record

Matching / V. S. Verykios, G. V. Moustakides, M. G. Elfeky // VLDB . – May. –

2003. – vol. 12, no. 1. – Р. 28–40.

13. Verykios V. S. A Generalized Cost Optimal Decision Model for Record

Matching / V. S. Verykios, G. V. Moustakides // Proc. 2004 Int’l Workshop

Information Quality in Information Systems. – 2004. – Р. 20–26.

14. Fellegi I. P. A Theory for Record Linkage, / I. P. Fellegi, A. B. Sunter //

Am. Statistical Assoc. –Dec . – 1969. –vol. 64, no. 328. – Р. 1183–1210.

15. Cochinwala M. Efficient Data Reconciliation / M. Cochinwala,

V. Kurien, G. Lalk, D. Shasha // Information Sciences. – Sept . – 2001. – vol. 137,

nos. 1–4. – Р. 1–15.

16. Bilenko M. Adaptive Name Matching in Information Integration / M.

Bilenko, R. J. Mooney, W. W. Cohen, P. Ravikumar, S. E. Fienberg // IEEE

Intelligent Systems . – Sept. / Oct . – 2003. – vol. 18, no. 5 . – Р. 16–23.

17. Monge, A. E. An Efficient Domain–Independent Algorithm for

Detecting Approximately Duplicate Database Records / A. E. Monge, C. P. Elkan

// Proc. Second ACM SIGMOD Workshop Research Issues in Data Mining and

Knowledge Discovery (DMKD ’97) . – 1997. – Р. 23–29,

Page 3: Literatura_2016_Models and methods of cleaning and integration of

149

18. Pasul H. Identity Uncertainty and Citation Matching / H. Pasula, B.

Marthi, B. Milch, S. J. Russell, and I. Shpitser // Advances in Neural Information

Processing Systems (NIPS ’02) . – 2002. – Р. 1401–1408.

19. Tejada S. Learning Domain Independent String Transformation Weights

for High Accuracy Object Identification / S. Tejada, C. A. Knoblock, S. Minton //

Proceedings of the eighth ACM SIGKDD international conference on Knowledge

discovery and data mining (KDD ’02) . – 2002. – P. 350–359.

20. Tejada S. Learning Object Identification Rules for Information

Integration / S. Tejada, C. A. Knoblock, S. Minton // Information Systems. – 2001.

– vol. 26, no. 8. – Р. 607–633.

21. Monge A. E. The Field Matching Problem : Algorithms and

Applications / A. E. Monge, C. P. Elkan // Proc. Second Int’l Conf. Knowledge

Discovery and Data Mining (KDD ’96). – 1996. – P. 267–270.

22. Dey D. Entity Matching in Heterogeneous Databases : A Distance Based

Decision Model / D. Dey, S. Sarkar, P. De // Proc. 31st Ann. Hawaii Int’l Conf.

System Sciences (HICSS ’98). – 1998. – P. 305–313.

23. Guha S. Merging the Results of Approximate Match Operations / S.

Guha, N. Koudas, A. Marathe, D. Srivastava // Proc. 30th Int’l Conf. Very Large

Databases (VLDB ’04). – 2004. – P. 636–647.

24. Ananthakrishna R. Eliminating Fuzzy Duplicates in Data Warehouses /

R. Ananthakrishna, S. Chaudhuri, V. Ganti // Proceedings of the 28th international

conference on Very Large Data Bases (VLDB ’02 ). – 2002. – P. 586-597.

25. Chaudhuri S. Robust Identification of Fuzzy Duplicates / S. Chaudhuri,

V. Ganti, R. Motwani // Proc. 21st IEEE Int’l Conf. Data Eng. (ICDE ’05). – 2005.

– P. 865-876.

26. Galhardas H. Declarative Data Cleaning : Language, Model, and

Algorithms / H. Galhardas, D. Florescu, D. Shasha, E. Simon, C.-A. Sait // Proc.

27th Int’l Conf. Very Large Databases (VLDB ’01). – 2001. – P. 371-380.

Page 4: Literatura_2016_Models and methods of cleaning and integration of

150

27. Verykios V. S. Automating the Approximate Record Matching Process /

V. S. Verykios, A. K. Elmagarmid, E. N. Houstis // Information Sciences. – July. –

2000. – vol. 126, nos. 1–4. – Р. 83–98.

28. Ravikumar P. A Hierarchical Graphical Model for Record Linkage /

P. Ravikumar, W. W. Cohen // Proceedings of the 20th conference on Uncertainty

in artificial intelligence (UAI ’04). – 2004. – P. 454–461.

29. McCallum A. Efficient Clustering of High–Dimensional Data Sets with

Application to Reference Matching / A. McCallum, K. Nigam, L. H. Ungar // Proc.

Sixth ACM SIGKDD Int’l Conf. Knowledge Discovery and Data Mining (KDD

’00). – 2000. – Р. 169–178.

30. Cohen W. W. Learning to Match and Cluster Large High–Dimensional

Data Sets for Data Integration / W. W. Cohen, J. Richman // Proc. Eighth ACM

SIGKDD Int’l Conf. Knowledge Discovery and Data Mining (KDD ’02). – 2002.

– P. 475-480.

31. Gravano L. Approximate String Joins in a Database (Almost) for Free /

L. Gravano, P. G. Ipeirotis, H. V. Jagadish, N. Koudas, S. Muthukrishnan,

D. Srivastava // Proc. 27th Int’l Conf. Very Large Databases (VLDB ’01). – 2001.

– Р. 491–500.

32. Cohen W. W. Data Integration Using Similarity Joins and a Word-Based

Information Representation Language / W. W. Cohen // ACM Trans. Information

Systems. – 2000. – vol. 18, no. 3. – Р. 288–321.

33. Gravano L. Text Joins in an RDBMS for Web Data Integration /

L. Gravano, P. G. Ipeirotis, N. Koudas, D. Srivastava // Proc. 12th Int’l World

Wide Web Conf. (WWW12). – 2003. – Р. 90–101.

34. Soffer A. Static Index Pruning for Information Retrieval Systems /

A. Soffer, D. Carmel, D. Cohen, R. Fagin, E. Farchi, M. Herscovici, and

Y. S. Maarek // Proc. 24th Ann. Int’l ACM SIGIR Conf. Research and

Development in Information Retrieval, (SIGIR ’01). – 2001. – Р. 43–50.

Page 5: Literatura_2016_Models and methods of cleaning and integration of

151

35. Sarawagi S. Efficient Set Joins on Similarity Predicates / S. Sarawagi, A.

Kirpal // Proc. 2004 ACM SIGMOD Int’l Conf. Management of Data (SIGMOD

’04). – 2004. – Р. 743–754.

36. Febrl [Electronic resource]. – Access mode : http://sourceforge.net/

projects/febrl/

37. Christen P. Febrl – A Freely Available Record Linkage System with a

Graphical User Interface / Peter Christen // Proc. 2nd Australasian Workshop on

Health Data and Knowledge Management (HDKM 2008), Wollongong, Australia.

– 2008. – Р. 17–25.

38. Elfeky M. G. TAILOR : A Record Linkage Tool Box / M. G. Elfeky, A.

K. Elmagarmid, V. S. Verykios // Proc. 18th IEEE Int’l Conf. Data Eng. (ICDE

’02). – 2002. – P. 17–28.

39. The WHIRL System [Electronic resource]. – Access mode :

http://www.cs.cmu.edu/~wcohen/whirl/

40. The FLAMINGO Project on Data Cleaning [Electronic resource]. –

Access mode : http://flamingo.ics.uci.edu/

41. WizSame by WizSoft Introduction [Electronic resource]. – Access mode

: http://www.wizsoft.com/default.asp?Win=9.

42. Yancey W. BigMatch: A Program for Extracting Probable Matches from

a Large File [Electronic resource] / William Yancey. – Access mode :

http://www.census.gov/srd/papers/pdf/rrc2007–01.pdf.

43. Каньковски П. «Как ваша фамилия?», или Русский MetaPhone /

П. Каньковски // Программист. – 2002. – № 8. – С. 36–39.

44. Holmes D. Improving precision and recall for Soundex retrieval / D.

Holmes, M. C. McCabe // Information Technology : Coding and Computing, 2002.

Proceedings. International Conference on 8–10 April 2002. – P. 22 – 26

45. Гасфилд Д. Строки, деревья и последовательности в алгоритмах:

информатика и вычислительная биология / Дэн Гасфилд. – пер. с англ. И. В.

Романовского. – СПб. : Невский Диалект, БХВ–Петербург, 2003. – 654 с.

Page 6: Literatura_2016_Models and methods of cleaning and integration of

152

46. Doster W. Contextual postprocessing system for cooperation with a

multiple–choice character–recognition system / W. Doster // IEEE Trans. Comput.

– 1977. – no. 26. – P. 1090–1101.

47. Angell R. C. Automatic spelling correction using a trigram similarity

measure / R. C. Angell, G. E. Freund, P. Willett // Inf. Process. Manage. – 1983. –

vol. 19, no. 4. – P. 255–261.

48. Jokinen P. Two algorithms for approximate string matching in static

texts / Petteri Jokinen, Esko Ukkonen // In Proceedings of the 16th International

Symposium on Mathematical Foundations of Computer Science. – Springer,

Berlin. – 1991. – P. 240–248.

49. Navarro G. Indexing variable length substrings for exact and

approximate matching / G. Navarro, L. Salmela // In Proceedings of the 16th

International Symposium on String Processing and Information Retrieval

(SPIRE'09). – Springer. – Berlin. – 2009. – P. 214–221.

50. Navarro G. A guided tour to approximate string matching / G. Navarro //

ACM Comput. Surv. – 2001. – vol. 33, no. 1. – P. 31–88.

51. Navarro G. Indexing text with approximate q–grams / G. Navarro, E.

Sutinen, J. Tarhio // Discrete Algorithms. – J. – 2005. – vol. 3, no. 2–4. –

P. 157–175.

52. Burkhardt S. One–gapped q–gram filter for Levenshtein distance / S.

Burkhardt, J. Kärkkäinen // In Proceedings of the 13th Symposium on

Combinatorial Pattern Matching (CPM'02). – Springer, Berlin. – 2002. –

P. 225–234.

53. Hadjieleftheriou M. Approximate String Processing / Marios

Hadjieleftheriou, Divesh Srivastava. – Foundations and Trends in Databases. –

Now Publishers, 2011. – 144 р.

54. Manber Udi. Fast text search allowing errors / Udi Manber, Sun Wu //

Communications of the ACM. – 1992. – October. – 35(10). – P. 83–91.

Page 7: Literatura_2016_Models and methods of cleaning and integration of

153

55. Grossi R. Simple and Efficient String Matching with k Mismatches /

Roberto Grossi, Fabrizio Luccio // Inf. Process. Lett. – 1989. – vol. 33, no. 3. –

P. 113–120.

56. Jokinen P. A Comparison of Approximate String Matching Algorithms /

Petteri Jokinen, Jorma Tarhio, Esko Ukkonen // Software Pract Exp. 1996. –

Volume 26, Issue 12. – P. 1439–1458.

57. Navarro G. Multiple Approximate String Matching by Counting /

G. Navarro // In Proceedings of the 4th South American Workshop on String

Processing. Carleton University Press, Ottawa, Ontario, 1997. – P. 95–111.

58. Boytsov L. Indexing methods for approximate dictionary searching :

Comparative analysis / Leonid Boytsov // ACM Journal of Experimental

Algorithmics. – May 2011. – Volume 16, Issue 1. – P. 1–91.

59. Similarity Search The Metric Space Approach / Pavel Zezula, Giuseppe

Amato, Vlastislav Dohnal, Michal Batko. – Series : Advances in Database

Systems. – Springer, 2006. – Vol. 32, XVII. – 220 p.

60. Weber R. A quantitative analysis and performance study for similarity–

search methods in high–dimensional spaces / Roger Weber, Hans–Jörg Schek,

Stephen Blott // VLDB '98 Proceedings of the 24th International Conference on

Very Large Data Bases. – Morgan Kaufmann Publishers Inc. San Francisco, CA,

USA. – 1998. – P. 194–205.

61. Chavez E. Fixed Queries Array : A fast and economical data structure

for proximity searching / Edgar Chavez, Jose L. Marroquín, Gonzalo Navarro //

Multimedia Tools and Applications. – Kluwer Academic Pubhshers. – 2001. –

vol. 14(2). – P. 13–135.

62. Shakhnarovich G. Nearest–Neighbor Methods in Learning and Vision :

Theory and Practice / Gregory Shakhnarovich, Piotr Indyk, Trevor Darrell. –

Cambridge, Mass. : The MIT Press, 2006. – 252 p.

63. Learning Embeddings for Fast Approximate Nearest Neighbor Retrieval

/ Vassilis Athitsos, Jonathan Alon, Stan Sclaroff, George Kollios // Book chapter

Page 8: Literatura_2016_Models and methods of cleaning and integration of

154

in Nearest–Neighbor Methods in Learning and Vision, Theory and Practice. – MIT

Press, March 2006. – P. 143–161.

64. Beckmann N. The R*–Tree : An efficient and robust access method for

points and rectangles / Norbert Beckmann, Hans–Peter Kriegel, Ralf Schneider,

Bernhard Seeger // Proceedings of the ACM International Conference on

Management of Data (SIGMOD 1990), Atlantic City, NJ, May 23–25, ACM Press.

– 1990. – P. 322–331.

65. A cost model for nearest neighbor search in high–dimensional data space

/ Stefan Berchtold, Christian Böhm, Daniel A. Keim, Hans–Peter Kriegel // PODS

'97 Proceedings of the sixteenth ACM SIGACT–SIGMOD–SIGART symposium

on Principles of database systems, Tucson, Arizona, USA, May 12–14, ACM New

York, NY, USA. – ACM Press. – 1997. – P. 78–86. – ISBN: 0–89791–910–6.

66. The Soundex Indexing System [Electronic resource]. – May 30, 2007. –

Access mode : http://www.archives.gov/research/census/soundex.html.

67. Soundexing and Genealogy by Gary Mokotoff [Electronic resource]. −

Access mode : http://www.avotaynu.com/soundex.htm.

68. Double Metaphone – Soundex Alternative [Electronic resource]. −

Access mode : http://fox.wikis.com/wc.dll?Wiki~DoubleMetaphone-Soundex

Alternative.

69. Кнут Д. Э. Искусство программирования. – Т. 3 : Сортировка и

поиск / Дональд Э. Кнут. – 2–е издание – М. : Диалектика–Вильямс,

2001. – 824 с.

70. Гусятников В. Н. Эффективность алгоритмов сопоставления

персональных данных / В. Н. Гусятников, Е. А. Палькин // Программные

продукты и системы. – 2011. – N 1. – С. 100–103.

71. Broder A. Z. On the resemblance and containment of documents /

Andrei Z. Broder // IEEE. – Compression and Complexity of Sequences :

Proceedings, Positano, Amalfitan Coast, Salerno, Italy. – June 11–13. – 1997. – P.

21–29.

Page 9: Literatura_2016_Models and methods of cleaning and integration of

155

72. Фильтр Блума [Электронный ресурс]. – Режим доступа :

http://habrahabr. ru/blogs/algorithm/112069/Фильтр Блума.

73. Bloom B. H. Space/time trade–offs in hash coding with allowable errors

/ Burton Howard Bloom // Communications of the ACM 1970. – 1970. – Т. 13 (7).

– P. 422–426.

74. Бойцов Л. М. Использование хеширования по сигнатуре для поиска

по сходству / Л. М. Бойцов // Прикладная математика и информатика. – М.

Изд-во факультета ВМиК, МГУ. – 2001. – № 8. – С. 135-154.

75. Tan Pang-Ning. Introduction to Data Mining / Pang-Ning Tan, Michael

Steinbach, Vipin Kumar. – Boston, MA, USA, Addison Wesley, 2006. – 769 р.

76. Meghanathan N. Advances in Computer Science and Information

Technology, Part 1 / Natarajan Meghanathan, Brajesh Kumar Kaushik, Dhinaharan

Nagamalai. – Springer–Verlag Berlin Heidelberg. –2011. – 619 p.

77. Nomograms for Visualization of Naive Bayesian Classifier / M. Mozina,

J. Demsar, M. Kattan, B. Zupan // In Proc. of PKDD–2004. – 2004. –

P. 337–348.

78. Тулупьев А. Л. Байесовские сети. Логико–вероятностный подход /

А. Л. Тулупьев, С. И. Николенко, А. В. Сироткин. – Санкт-Петербург : Наука,

2006. – 607 с.

79. Левитин А. Алгоритмы: введение в разработку и анализ /

А. В. Левитин. – Пер. с англ. – М. : Вильямс, 2006. – 576 c.

80. Yang Y. A re-examination of text categorization methods / Y. Yang,

X. Liu // Proc. of Int. ACM Conference on Research and Development in

Information Retrieval (SIGIR–99). – 1999. – P. 42–49.

81. Marshall R. J. Generation of Boolean classification rules / R. J. Marshall

// Proceedings of Computational Statistics 2000 – Utrecht, The Netherlands, –

Springer-Verlag, Heidelberg, 2000. – P. 355–360.

82. Steinwart I. Support Vector Machines / Ingo Steinwart, Andreas

Christmann. – New York : Springer, 2008. – 601 p.

Page 10: Literatura_2016_Models and methods of cleaning and integration of

156

83. Thorsten J. Learning to Classify Text Using Support Vector Machines:

Methods, Theory, and Algorithms / Joachims Thorsten. – Kluwer, 2002. – 224 p.

84. Хайкин С. Нейронные сети : полный курс / Саймон Хайкин. – 2 e

издание. : пер. с анrл. – М. : Вильямс, 2006. – 1104 с.

85. Воронцов К. В. Лекции по методу опорных векторов [Электронный

ресурс] / К. В. Воронцов. − Режим доступа : http://www.ccas.ru/voron/

download/SVM.pdf.

86. Тодоріко О. О. Застосування нейронної мережі для автоматичної

класифікації коротких текстових документів / О. О. Тодоріко,

Г. А. Добровольський, М. Г. Добровольська // Вісник Херсонського

національного технічного університету. – Херсон : ХНТУ. – 2009. – № 2(35).

– C. 421-425.

87. Тодоріко О. О. Оцінка якості автоматичної класифікації коротких

текстових документів / О. О. Тодоріко, Г. А. Добровольський // Вісник

Запорізького національного університету. – Запоріжжя : ЗНУ. – 2010. – № 2.

– С. 131-140.

88. Тодоріко О. О. Застосування нейронної мережі для автоматичної

класифікації коротких текстових документів / О. О. Тодоріко,

Г. А. Добровольський, М. Г. Добровольська // Збірник тез доповідей

всеукраїнської наукової конференції молодих дослідників «Актуальні

проблеми математики та інформатики». – Запоріжжя : ЗНУ. – 2009. – С. 6-7.

89. Wagner R. A. The String–to–String Correction Problem / Robert A.

Wagner, Michael J. Fischer // Journal of the ACM. – New York, NY, USA. –

1974. – vol. 21, no. 1. – P. 168–173.

90. Ukkonen E. Algorithms for approximate string matching / E. Ukkonen //

International Conference on Foundations of Computation Theory. – Information

and Control. – 1985. – vol. 64, no. 1–3. – P. 100–118.

91. Veronis J. Computerized correction of phonographic errors / J. Veronis //

Computers and the Humanities. – 1988. – vol. 22, no. 1. – P. 43–56.

Page 11: Literatura_2016_Models and methods of cleaning and integration of

157

92. Brill E. An improved error model for noisy channel spelling correction /

E. Brill, R. C. Moore // In Proceedings of the 38th Annual Meeting on Association

for Computational Linguistics. – Association for Computational Linguistics. –

Stroudsburg, PA. – 2000. – P. 286–293.

93. Mount D. Bioinformatics : Sequence and Genome Analysis / David W.

Mount // 2nd. – Cold Spring Harbor Laboratory Press : Cold Spring Harbor, NY,

2004. – 692 р.

94. Lowrance R. An extension of the string–to–string correction problem /

R. Lowrance, R. Wagner // ACM. – J. – 1975. – vol. 22, no. 2. – P. 177–183

95. Jaro M. A. Probabilistic linkage of large public health data file / M. A.

Jaro // Statistics in Medicine. – 1995. – 14 (5–7). – P. 491–498.

96. Jaro M. A. Advances in Record Linking Methodology / Matthew A. Jaro

// Journal of the American Statistical Society. – 1989. – vol. 84, no. 406. –

P. 414–420.

97. Winkler W. E. String Comparator Metrics and Enhanced Decision Rules

in the Fellegi–Sunter Model of Record Linkage / William E. Winkler //

Proceedings of the Section on Survey Research Methods (American Statistical

Association). – 1990. – Р 354–359.

98. Winkler W. E. Overview of Record Linkage and Current Research

Directions / W. E. Winkler // Technical report, Statistical Research Division U. S.

Census Bureau Washington, DC 20233 Research Report Series. – 2006. – P. 1–44.

99. Roman, Steven. Coding and Information Theory / Steven Roman. –

Springer, New York, NY, 1996. – 336 p.

100. Hall J. I. Notes on Coding Theory. Chapter 4. Hamming Codes

[Electronic resource] / J. I. Hall // Departmen of Mathematics, Michigan State

University, East Lansing, MI 48824 USA. – 2010. – 194 p. − Access mode :

http://www.mth.msu.edu/~jhall/classes/codenotes/Hamming.pdf

101. Hamming R. Coding and Information Theory / R. Hamming. –

Englewood Cliffs, Prentice Hall NJ, 1986. – 259 p.

Page 12: Literatura_2016_Models and methods of cleaning and integration of

158

102. Naumann F. An Introduction to Duplicate Detection / Felix Naumann,

Melanie Herschel. – Morgan Claypool, 2010. – 92 р.

103. Сепир Э. Избранные труды по языкознанию и культурологии / Э.

Сепир. – М. : Прогресс, 1993. – 656 с.

104. Реформатский А. А. Введение в языковедение / Под ред. В. А.

Виноградова. – M. : Аспект Пресс, 1996. – 536 с.

105. Вендина Т. И. Введение в языкознание : учеб. пособие для пед.

вузов / Т. И. Вендина. – М. : Высш. шк. , 2001. – 288 с.

106. Языкознание. Большой энциклопедический словарь / Гл. ред.

В. Н. Ярцева. – М. : Большая Российская энциклопедия, 1998. – 685 с.

107. Тодорико О. А. Обзор баз данных. Перспективы развития /

О. А. Тодорико, С. И. Гоменюк // Вестник Херсонского национального

технического университета. – Херсон : ХНТУ. – 2005. – № 1(21). –

С. 312-316.

108. Тодорико О. А. Cовременные пути развития баз данных /

О. А. Тодорико, С. И. Гоменюк // Збірник тез доповідей третьої регіональної

наукової конференції молодих дослідників «Актуальні проблеми математики

та інформатики». – Запоріжжя : ЗНУ. – 2005. – С. 17-18.

109. Тодорико О. А. Перспективы развития объектно-ориентированных

баз данных и объектно-реляционных баз данных / О. А. Тодорико,

С. И. Гоменюк, М. Ю. Семикина // Дні науки. Збірник тез доповідей. –

Запоріжжя : ГУ «ЗІДМУ». – 2005. – С. 60-61.

110. Тодорико О. А. Поиск в сложноструктурированных системах:

проблемы и их решение / О. А. Тодорико, М. Ю. Семикина // Дні науки.

Збірник тез доповідей. – Запоріжжя : ГУ «ЗІДМУ». – 2006. – Т. 3. –

С. 100-101.

111. Харрингтон Д. Проектирование объектно-ориентированных баз

данных : Пер. с англ. / Джен Харрингтон. – М. : ДМК Пресс, 2001. – 272 с.

Page 13: Literatura_2016_Models and methods of cleaning and integration of

159

112. Гниловская Л. П. Автоматическая коррекция орфографических

ошибок / Л. П. Гниловская, Н. Ф. Гниловская // Культура народов

Причерноморья. – 2004. – Т. 2. – № 48. – С. 171–180.

113. Manber U. A text compression scheme that allows fast searching

directly in the compressed file in Combinatorial Pattern Matching / U. Manber //

5th Annual Symposium, CPM 94. Proceedings, Asilomar, CA, USA. – 5-8 June. –

1994. – Р. 113–124.

114. Ehrenfeucht A. A. New Distance Metric on Strings Computable in

Linear Time / A. Ehrenfeucht, D. Haussler // Discrete Applied Mathematics. –

1988. – Р. 191–203.

115. Paar C. Understanding Cryptography : A Textbook for Students and

Practitioners / Christof Paar, Jan Pelzl, Bart Preneel. – Springer. – 2010. – 372 p.

116. Информационный поиск и поиск по схожести [Электронный

ресурс]. − Режим доступа : http://www.itman. narod. ru/

117. Харитоненков А. В. Поиск на неточное соответствие : коды

Хемминга [Электронный ресурс] / А. В. Харитоненков. – Режим доступа :

http://www.jurnal.org/articles/2009/inf32.html.

118. Kuenning G. International spell : a fast screen–oriented spelling

checker / G. Kuenning, R. E. Gorin, P. Willisson, W. Buehring, and K. Stevens. –

1988. – Access mode : http://www.lasr.cs.ucla.edu/geoff/ispell.html.

119. kd–tree [Electronic resource]. − Access mode : http://www.ray–

tracing.ru/articles181.html.

120. de Berg M. Computational Geometry : Algorithms and Applications –

3rd Edition / Mark de Berg, Otfried Cheong, Marc van Kreveld, Mark Overmars. –

Springer. – 2008. – 386 p.

121. Compression: a Key for Next–Generation Text Retrieval Systems

[Electronic resource] / Nivio Ziviani, Edleno de Moura, Gonzalo Navarro, Ricardo

Baeza-Yates. – Access mode : http://cse.Hanyang.ac.kr/jmchoi/class/2001–

l/ir/papers/compression.pdf.

Page 14: Literatura_2016_Models and methods of cleaning and integration of

160

122. Russo L. Approximate String Matching with Compressed Indexes /

L. Russo, G. Navarro, A. Oliveira, P. Morales // Algorithms. – 2009. –

P. 1105–1136.

123. Chang Ye-In. A hash trie filter method for approximate string matching

in genomic databases / Ye-In Chang, Jiun-Rung Chen, Min-Tze Hsu // Applied

Intelligence, Springer Netherlands. – vol. 33, Issue 1. – 2010. – P. 21–38.

124. Burkowski F. J. Surrogate subsets : a free space management strategy

for the index of a text retrieval system / Forbes J. Burkowski // SIGIR'90, 13th

International Conference on Research and Development in Information Retrieval,

Brussels, Belgium, Proceedings. – ACM 1990. – P. 211–225.

125. Бойцов Л. М. Синтез системы автоматической коррекции,

индексации и поиска текстовой информации : диссертационная работа к. т. н.

: 05. 13. 01 / Л. М. Бойцов. – М. , 2003. – 144 с.

126. Patent № US 7,010,522 B1, Method оf Performing Approximate

Substring Indexing, МПК G06F17/30, applicant AT&T Corp. , New York, NY

(US), assignee AT&T Corp. , New York, NY (US), Date of Patent Mar. 7, 2006.

127. Тодоріко О. О. Побудова моделі математичного представлення

текстових даних, для знаходження рядків схожих за написанням /

О. О. Тодоріко // Вісник Запорізького національного університету. –

Запоріжжя : ЗНУ. – 2011. – № 1. – С. 118-127.

128. Бойцов Л. М. Классификация и экспериментальное исследование

современных алгоритмов нечеткого словарного поиска [Электронный

ресурс] / Л. М. Бойцов // Труды 6–ой Всероссийской научной конференции

«Электронные библиотеки: перспективные методы и технологии,

электронные коллекции» – RCDL2004, Пущино, Россия, 2004. – Режим

доступа : http://www.rcdl.ru/papers/2004/paper27.pdf.

129. Кочерган М. П Вступ до мовознавства : підручник для студ.

філологічних спец. вузів / М. П. Кочерган. – К. : Академія, 2001. – 368 с.

130. Тодорико О. А. Использование хеширования по нескольким

сигнатурам для очистки и объединения словарей данных на примере

Page 15: Literatura_2016_Models and methods of cleaning and integration of

161

названий географических объектов / О. А. Тодорико, Г. А. Добровольский //

Весник Херсонского национального технического университета. – Херсон :

ХНТУ. – 2011. – № 3(42). – С. 419-423.

131. Miller F. P. Damerau-Levenshtein Distance / Frederic P Miller, Agnes

F Vandome, ed. John McBrewster. – VDM Publishing House Ltd. , 2010. – 68 р.

132. Ras Z. W. Advances in Music Information Retrieval / Zbigniew W.

Ras, Alicja Wieczorkowska. – Berlin : Springer, Verlag Berlin Hiedelberg,

2010. – 420 р.

133. Спосіб пошуку текстової інформації за схожістю : патент на

корисну модель № 71159, МПК G06F 7/10 (2006/01) ; заявл. 14.11.2011 ;

опубл. 10.07.2012, Бюл. № 13.

134. Смит Б. Методы и алгоритмы вычислений на строках : Пер. с англ.

/ Билл Смит. – М. : Вильямс, 2006. – 496 с.

135. Бойцов Л. М. Поиск по сходству в документальных базах данных /

Леонид Моисеевич Бойцов // Программист. – 2001. – № 1. – С. 32–35

136. Лавошникова Э. К. О компьютерной коррекции психологически

обусловленных ошибок правописания в текстах на русском языке

[Электронный ресурс] / Э. К. Лавошникова. – М. : 2008. – Режим доступа :

www.lcl.srcc.msu.ru/library/EL_MISTAKES.doc.

137. Тодоріко О. О. Оцінка сигнатурних алгоритмів пошуку за

схожістю в словнику / О. О. Тодоріко, Г. А. Добровольський // Вісник

Херсонського національного технічного університету. – Херсон : ХНТУ. –

2011. – № 2(41). – С. 250-254.

138. Seidel R. Randomized Search Trees / Raimund Seidel, Cecilia Aragon,

R. Algorithmica. – 1996. – Р. 540–545

139. Тодоріко О. О. Оцінка імовірності колізій для хеш-функцій, які

представляють слово за допомогою набору сигнатур / О. О. Тодоріко,

Г. А. Добровольський // Вісник Херсонського національного технічного

університету. – Херсон : ХНТУ. – 2012. – № 2(45). – С. 383-388.

Page 16: Literatura_2016_Models and methods of cleaning and integration of

162

140. Тодоріко О. О. Програмний інструментарій для пошуку за

схожістю та зіставлення записів / О. О. Тодоріко, Г. А. Добровольський //

Вісник Херсонського національного технічного університету. – Херсон :

ХНТУ. – 2012. – № 1(44). – С. 204-208.

141. Etzion O. Event Processing in Action / Opher Etzion, Peter Niblett. –

Greenwich : Manning. – 2010. – 384 p.

142. Davidovsky M. V. Adaptable enterprise information systems

development using advanced active data dictionary framework /

M. V. Davidovsky, G. A. Dobrovolsky, O. A. Todoriko, V. M. Davidovsky //

Information Systems : Methods, Models, and Applications. – Berlin Heidelberg :

Springer-Verlag. – 2013. – Vol. 137. – P. 152–161.

143. Автоматизация обнаружения и исправления опечаток в названиях

географических объектов для системы семантического контроля документов

электронной библиотеки / А. М. Андреев, Д. В. Березкин, А. С. Нечкин, К. В.

Симаков, Ю. Л. Шаров // НПЦ «ИНТЕЛТЕК ПЛЮС» RSDL. – 2007.

144. Органи місцевого самоврядування : Законодавство, щодо

адміністративно–територіального устрою [Електронний ресурс]. – Режим

доступу : http://www.rada.gov.ua/zakon/new/ADM/zmist.html.

145. Тодоріко О. О. Словниковий пошук за схожістю за допомогою

хешів на основі сигнатур / О. О. Тодоріко, Г. А. Добровольський // Вісник

Херсонського національного технічного університету. – Херсон : ХНТУ. –

2010. – № 3(39). –С. 467-471.

146. ДК 014–97. Класифікатор об'єктів адміністративно–

територіального устрою України ( 3 тома) (КОАТУУ). – 1998. – 1306 c.

147. Документація ЄДЕБО [Электронный ресурс]. – Режим доступа :

http://edbo.copyni.com.