ЗАРОДЖЕННЯ «АНАЛІЗУ ДАНИХ» ЯК НАУКОВОЇ ДИСЦИПЛІНИ
Анотація
Стаття висвітлює еволюцію аналізу даних від традиційної статистики до науки про дані. Починаючи з твердження Пітера Хьюбера про емпіричний характер аналізу даних, де дослідник наголошує, що цей етап розвитку не можна визначити як нову наукову парадигму, але як певну тенденцію, яка об’єднується під назвою «наука про дані». Основний акцент робиться на внеску Джона Т’юкі, який першим висловив ідеї, що лягли в основу аналізу даних. Робота розкриває концепції «підтверджувального» та «експлораторного» аналізу даних, визначає їхні цілі та різницю, а також відзначає важливість чергування цих етапів у процесі дослідження. Принципи Т’юкі для сучасного аналізу даних, такі як «максимальне проникнення в дані» та «візуалізація закономірностей», розглядаються як ключові підходи для виявлення нових знань. Роботи Т’юкі викликали значні дебати серед статистиків, а його погляди на аналіз даних шокували академічне співтовариство. Докладно розглядається вплив робіт Т’юкі на розвиток науки про дані протягом півстоліття, включаючи коментарі відомого статистика Пітера Губера. Заклики Т’юкі до реформування статистики та його погляди на важливість ставлення правильних запитань і отримання приблизних відповідей наголошують на його важливості в контексті аналізу даних і науки про дані. Важливий акцент робиться на впливі обчислювальних середовищ на розвиток аналізу даних. Зазначається, що реальний прогрес в розумінні поняття «аналіз даних» був стимульований кодом і обчислювальними середовищами. Вказується на роль різних статистичних пакетів та програмних середовищ, таких як BMDP, SPSS, SAS, Minitab, S, STATA і R у розвитку аналізу даних. Вивчається їхній вплив за допомогою аналізу частоти слів у літературі. Зазначається, що сьогодні R є домінуючим середовищем програмування в академічній статистиці з великою кількістю прихильників. Завдяки роботі зі скриптами можна точно кодифікувати кроки обчислень. Ці зміни викликали зміну у правилах гри, і тепер вираз «науковий підхід до аналізу даних» став більш очевидним, відповідаючи твердженню Дж. Т’юкі щодо можливостей вивчення аналізу даних як науки.
Посилання
Huber P.J. Data Analysis: What Can Be Learned From the Past 50 Years. John Wiley & Sons, 2011.
Tukey J.W. The future of data analysis. Annals of Mathematical Statistics. 1962. Vol. 33. № 1. Р. 1–67.
Donoho D. 50 Years of Data Science. Journal of Computational and Graphic Statistics. 2017. No 26(4). Pp. 745–766. DOI: https://doi.org/10.1080/10618600.2017.1384734 (дата звернення: 08.11.2023).
Mosteller F., Tukey J.W. Data Analysis, Including Statistics. Handbook of Social Psychology / Eds. G. Lindzey, E. Aronson. Vol. 2. Reading, MA : Addison-Wesley, 1968. P. 80–203.
Chambers J.M. Greater or Lesser Statistics: A Choice for Future Research. Statistics and Computing. 1993. No. 3. P. 182–184.
Cleveland W.S. Data Science: An Action Plan for Expanding the Technical Areas of the Field of Statistics. International Statistical Review. 2001. No. 69. P. 21–26.
Brillinger D.R., Fernholz L.T., Morgenthaler S. The Practice of Data Analysis: Essays in Honor of John W. Tukey. Princeton, New Jersey : Princeton University Press, 1997. 352 р.
Dempster A.P. John W. Tukey as «philosopher». Annals of Mathematical Statistics. 2002. Vol. 30. № 6. Р. 1619–1628. URL: http://surl.li/ntixf (дата звернення: 08.11.2023).
Kafadar К. John Tukey and Robustness. Statistical Science. 2003. Vol. 18. № 3. Р. 319–331. URL: http://surl.li/ntixn (дата звернення: 08.11.2023).
Кислова О.Н. Интеллектуальный анализ данных: история становления термина. Український соціологічний журнал. 2011. № 1–2. С. 83–94. URL: http://surl.li/ntixs (дата звернення: 08.11.2023).
Google’s N-grams viewer. URL: http://surl.li/ntiyc (дата звернення: 08.11.2023).
Google’s N-grams viewer. URL: http://surl.li/ntiyj (дата звернення: 08.11.2023).
Huber P. J. (2011) Data Analysis: What Can Be Learned From the Past 50 Years. John Wiley & Sons.
Tukey J. W. (1962) The future of data analysis. Annals of Mathematical Statistics, vol. 33. no. 1, pp. 1–67.
Donoho D. (2017) 50 Years of Data Science. Journal of Computational and Graphic Statistics, no. 26(4), pp. 745–766. DOI: https://doi.org/10.1080/10618600.2017.1384734
Mosteller F. & Tukey J. W. (1968) Data Analysis, Including Statistics. Handbook of Social Psychology / Eds. G. Lindzey, E. Aronson, vol. 2. Reading, MA: Addison-Wesley.
Chambers J. M. (1993) Greater or Lesser Statistics: A Choice for Future Research. Statistics and Computing, no. 3, pp. 182–184.
Cleveland W. S. (2001) Data Science: An Action Plan for Expanding the Technical Areas of the Field of Statistics. International Statistical Review, no. 69, pp. 21–26.
Brillinger D. R., Fernholz L. T. & Morgenthaler S. (1997) The Practice of Data Analysis: Essays in Honor of John W. Tukey. Princeton, New Jersey: Princeton University Press.
Dempster A. P. & John W. (2002) Tukey as «philosopher». Annals of Mathematical Statistics, vol. 30, no. 6, pp. 1619–1628. Available at: http://surl.li/ntixf
Kafadar K. (2003) John Tukey and Robustness. Statistical Science, vol. 18, no. 3, pp. 319–331. Available at: http://surl.li/ntixn
Kyslova O. (2011) Intelektualnyy analiz danykh: istoriya rozvytku termina [Data mining: the history of the term]. Ukrayinskyy sotsiolohichnyy zhurnal, no. 1-2, pp. 83–94. Available at: http://surl.li/ntixs
Google’s N-grams viewer. Available at: http://surl.li/ntiyc
Google’s N-grams viewer. Available at: http://surl.li/ntiyj