После вчерашней дискуссии про то, за сколько же все-таки можно отпустить Тикнизяна в Европу, я задумался: вот есть Трансфермаркт. Кто-то думает что цифры там взяты чуть ли не с потолка, другие привыкли полагаться на рассчитанную ТМ трансферную стоимость игрока практически вслепую (я, пожалуй, ближе ко второму лагерю).
А как обстоят дела на самом деле? Насколько вообще цифры, которые нам рисует ТМ, имеют отношение к реальности? Я решил немного поисследовать этот вопрос подручными средствами.
Для начала я собрал с сайта ТМ данные о трансферах этого лета — сколько игрок стоил на момент продажи по версии ТМ, и сколько за него реально заплатили (опять-таки по версии ТМ правда, но тут уж, думаю, более-менее на них положиться можно). Плюс я еще собрал возраст игроков, просто чтобы был.
Я брал только трансферы, в которых:
— указана расчетная трансферная стоимость игрока на момент перехода
— указана цена трансфера
— происходил именно полноценный трансфер, то есть игрок переходил не свободным агентом и не в аренду.
Получилось 312 трансферов. Что теперь с ними делать?
Для начала просто построим график зависимости между расчетной и реальной ценой игрока. Черная линия на графике показывает отношение 1:1, то есть отражает идеальное состояние, когда Трансфермаркт абсолютно точно угадывает стоимость игроков. Красная и зеленя линии — это 0.67:1 и 1.5:1 то есть случаи когда цена трансфера в полтора раза меньше/больше расчитанной. Как видно на графике, большинство точек (то есть, собственно реальных трансферов) попадают между красной и зеленой линиями, то есть можно в целом считать, что указанная на ТМ стоимость игрока обычно близка к тем деньгам, за которые его в итоге продадут (для Тикнизяна такая оценка дает интервал от 1.67 до 3.75 миллионов).
Здесь, однако, стоит уточнить: Трансфермаркт судя по всему гораздо точнее угадывает цены дорогих футболистов (посмотрите, сколько точек вылезает за линии в левом нижнем углу графика). Что по-своему логично: про звезд больше информации, плюс для ТМ наверно важнее правильно угадывать их стоимость, чем стоимость менее известных игроков.
Затем я решил воспользоваться алгоритмом K-means. Грубо говоря, он разделяет данные на несколько групп (в данном случае я взял K=5, поскольку именно такое значение получилось оптимальным), каждую из которых представляет некий «усредненный по больнице» представитель.
В качестве параметров для модели я взял:
— расчетную трансферную стоимость
— процент «прибыли», то есть на сколько процентов больше (или меньше) ТС реально выручили на продаже этого игрока
— возраст игрока
Получилось интересно (на первом графике, кстати, точки тоже обозначены цветами в соответствии с этими кластерами. На втором графике размер точек зависит от трансферной стоимости игрока на момент продажи)
Итак, программа разделила все трансферы этого лета на пять групп. Попробую дать этому логическое объяснение:
Первый кластер: «Сбитые летчики» (красный)
Средний возраст — 26.4 года, хотя встречаются игроки и намного моложе
Средняя трансферная стоимость 8.5 миллионов, но даже ее они отбивают в среднем только на две трети. Видимо, это игроки, которые в какой-то момент выстрелили, но в итоге так и остались всю жизнь «подающими надежды», памятью о которых остался завышенный ценник на Трансфермаркте.
135 из 312 трансферов попали именно в эту, самую многочисленную, категорию.
Второй кластер: «Звезды» (зеленый)
Хотя можно и без кавычек, пожалуй. В среднем, трансфер игроков из этой группы обходится почти в 50 миллионов каждый, и Трансфермаркт практически идеально угадывает эти суммы, по крайней мере в среднем. В этой категории 31 трансфер, и практически все громкие переходы этого лета попали именно сюда.
Третий кластер: «Новые Месси» (синий)
Таких всего пятеро, но они настолько выделяются на фоне остальных, что ни в какой другой кластер машина их впихнуть не смогла. Даже когда я уменьшил количество кластеров до двух, получились вот они и все остальные. За этих молодых (старшему 20 лет) игроков переплачивали в 4-8 (!) раз против ценника с Трансфермаркта... Что, впрочем, все равно не такие большие деньги, с учетом невысокого значения этого самого ценника (миллион с четвертью в среднем). Двое из пяти сразу отправились по арендам, третий за первые два матча в новом клубе на поле провел 14 минут... Как-то там Жалолиддинов поживает, интересно?
Четвертый кластер: «Восходящие звезды» (циан)
По сути, более вменяемая вариация предыдущего кластера: игроки постарше (средний возраст 22.4 года), их самих побольше (36), переплачивают за них «всего лишь» вдвое... Но и цены уже начинают кусаться, средняя трансферная стоимость 5.9 миллионов евро — это уже ощутимо, по меркам РПЛ так точно.
Ну и пятый кластер: «Нормальные люди» (мажента)
Средний возраст 23 года, средняя трансферная стоимость около 10 миллионов евро, покупают их за эту самую стоимость, ну может с небольшой наценкой. Наверно, самые типичные европейские/латиноамериканские футболисты. Также это второй самый многочисленный кластер после «Сбитых летчиков», 105 трансферов из 312.
Как вы думаете, насколько такие кластеры действительно описывают картину трансферного рынка?
Но это все лирика, вернемся к основному вопросу: насколько точно ТМ предсказывает стоимость игроков?
На втором графике черная прямая линия — это ноль процентов «прибыли», то есть соответствие расчетной и реальной цены игрока. Ломаная черная линия — это средний процент «прибыли» по возрастам. Интересно, что где-то до 25 лет она выше нуля, а потом опускается ниже. То есть видимо ТМ ставит слишком низкие цены на молодых игроков и слишком высокие — на ветеранов, хотя и не сильно.
Красная прямая линия показывает расчитанное простенькой математической моделью (линейная регрессия, по сути мы пытаемся показать, что одна величина более-менее прямо или обратно пропорциональна другой) направление этого отклонения. Тут результат получился довольно близким — линия уходит ниже нуля в 26 лет.
То есть, если подвести итоги:
— Трансфермаркт сравнительно точен в своих прогнозах, обычно реальная цена футболиста отличается от предсказанной не больше чем в полтора раза
— Для более дешевых футболистов качество предсказания хуже
— Для футболистов моложе 25 лет стоит ожидать, что их продадут скорее дороже указанной цены, для футболистов старше 25 — наоборот, что их продадут дешевле
Как-то так. Не знаю, зачем я угробил на это столько времени, но было забавно