Семинары
27.02.2024 Очередное заседание семинара "Математическая экономика"
Очередное заседание семинара "Математическая экономика" (руководители - д.ф.-м.н. В.И.Данилов и академик В.М.Полтерович) состоится в очном и дистанционном режиме:
во вторник, 27 февраля 2024 г., в 11 часов 30 минут, в комн. 524
Ссылка для входа в видео-конференцию (заработает за 10-15 минут до начала семинара):
https://us02web.zoom.us/j/87685525576?pwd=dmM5VmF1Zi9xbWtaVnhncklJRDhRZz09
Meeting ID: 876 8552 5576, Passcode: 542542
Программа заседания:
Б.Г. Миркин (НИУ Высшая школа экономики, Москва)
Использование критерия квадратичной ошибки для определения количества кластеров
Using the summary square error for determining the number of clusters
Аннотация к докладу
Кластер-анализ - это, прежде всего, деятельность по автоматическому разбиению множества объектов, охарактеризованных матрицей признаков или/и связей между ними, на "несхожие" группы "схожих" объектов, называемые кластерами. Эта деятельность пока что не нашла общепринятого теоретического представления, хотя и широко используется в ряде практических приложений (маркетинг, банковское дело, анализ изображений и пр.).
Самый естественный критерий качества разбиения - это суммарная квадратичная ошибка, называемая также инерцией, т.е. сумма квадратов покоординатных отклонений векторных представлений объектов от центров их кластеров. К сожалению, минимальное значение этого критерия монотонно убывает при увеличении количества кластеров.
Поэтому сама по себе инерция не может использоваться для решения актуальной задачи определения "правильного" числа кластеров. В литературе предложены различные варианты типа "величины локтя" или "отношения Фишера" в дополнение к другим, более эвристическим характеристикам. В докладе дается обзор этой тематики, следуя /1/, а также недавних результатов широкого экспериментального исследования /2/.
Cluster analysis is, first of all, an activity of automatic partitioning a given set of interrelated objects in rather dissimilar groups of rather similar objects called "clusters". This activity so far has found no universally accepted theoretical framework, although it is used in practically oriented areas such as marketing research, banking, and image processing.
A most natural clustering criterion is the summary quadratic error, also referred to as inertia, which is the sum of squared differences between corresponding coordinates of objects and centers of their clusters. Regretfully, the minimum of intertia monotonely decreases when the number of clusters grows. This is why the inertia as is cannot indicate "the right number of clusters", a matter of urgency in some applications. I am going to review some popular versions such as Elbow or Fisher's quotient, as well as more heuristic criteria.
I am going to present a review of the subject based on [1], as well as results of recent computational experiments [2].
Литература
1. Mirkin, B. (2011). Choosing the number of clusters. Wiley Interdisciplinary Reviews: Data Mining and Knowledge Discovery, 1(3), 252-260.
2. Rykov, A., De Amorim, R. C., Makarenkov, V., & Mirkin, B. (2024). Inertia-based indices to determine the number of clusters in K-means: an experimental evaluation. IEEE Access, 12, 11761-11773.
Приглашаем Вас принять участие в заседании семинара!
Видео-записи прошедших семинаров можно посмотреть здесь:
https://www.youtube.com/playlist?list=PLCz88q2rdEwA-HJa6ZLz4DdLqMIhPfFKQ