Опубликованы алгоритмы работы TikTok

Иллюстрация: pixebay.com

Обозреватель New York Times Бен Смит на условиях анонимности получил внутренний документ TikTok о том, как работают алгоритмы платформы. Этот весьма откровенный рассказ для сотрудников компании позволяет понять и нам, как пользователей в TikTok заставляют привыкать видеосервису.

Как TikTok заставляет всех «залипать»

Документ, озаглавленный «TikTok Algo 101», был подготовлен командой инженеров TikTok в Пекине. Пресс-секретарь компании Хилари Маккуэйд подтвердила его подлинность и сказала, что он был написан, чтобы объяснить нетехническим сотрудникам, как работает рекомендательный алгоритм платформы.

Описание раскрывает детали схемы работы TikTok и дает наглядное представление, во-первых, о математическом ядре приложения, а во-вторых демонстрирует глубокое понимание человеческой природы — нашу склонность к скуке и чувствительности к культурным трендам. Это объясняет, почему так трудно отказаться от приложения — мы в него буквально «залипаем».

Если вы вдруг ничего не знаете о TikTok

Это мобильное приложение, демонстрирующее бесконечный поток видео, созданного самими пользователями; и служит оно скорее развлечением, чем средством связи с друзьями. У TikTok уже более миллиарда пользователей и оно все больше теснит прочие социальные сети.

Успех приложения заключается в простоте создания контента. Оно упрощает создание видеороликов, предоставляя пользователям фоновую музыку для танцев или смешные картинки, — что делает ролики более живыми.

При этом приложение поразительно хорошо «читает» предпочтения пользователей, причем настолько, что удивляет даже их самих.

TikTok и раньше в общих чертах делился с публикой схемой работы своей системы рекомендаций, рассказывая об учете лайков, комментариев, звуков и хэштегов. Но недавний репортаж Wall Street Journal показал, что рекомендации TikTok сильно зависят от того, сколько времени пользователь тратит на просмотр каждого видео, и это нужно для того, чтобы показать ему еще больше подобных роликов. Такая схема, по мнению Бена Смита, иногда может привести молодых пользователей к просмотру контента о самоубийствах или причинении себе вреда; хотя такого рода видео в TikTok, как там утверждают, пытаются удалять как нарушающие условия пользовательского соглашения.

Зависимость пользователя — основная цель TikTok?

В попавшем в прессу документе откровенно говорится, что для достижения «основной цели» компании по наращиванию количества ежедневных активных пользователей они решили оптимизировать два тесно связанных показателя: «удержание» (возвращается ли пользователь) и «потраченное время». Т. е. приложение нацелено на то, чтобы пользователи оставались с ним как можно дольше. Подобное иногда описывают как «зависимость», проводя аналогии с поп-культурой.

Аналитики, считающие, что алгоритмические рекомендации представляют социальную угрозу, уверились в своих подозрениях после обнародования этого внутреннего документа TikTok о работе алгоритмов платформы.

«Такая система работы означает, что время просмотра является ключевым фактором для платформы. Алгоритм пытается увлечь людей, а не дать им то, что они действительно хотят», – прокомментировал Гийом Часло, основатель Algo Transparency. Он, в частности, изучал систему рекомендаций YouTube и сейчас пессимистично смотрит на влияние TikTok на детей.

«Я думаю, что это сумасшедшая идея – позволять алгоритму TikTokа управлять жизнью наших детей», – заявил он. – «С каждым видеороликом, которые смотрит ребенок, TikTok получает некоторую информацию о нем. Так за несколько часов алгоритм может определить музыкальные вкусы ребенка, его физическую привлекательность, в депрессии ли он, может ли он употреблять наркотики, и много другой конфиденциальной информации. При этом существует риск, что часть этой информации будет использована против него. Потенциально, например, это возможно для микро-таргетинга на конкретного ребенка или для формирования ещё большей зависимости от платформы».

Формула пользователя

Однако в описанном журналистом документе говорится, что время просмотра – не единственный фактор, который учитывает TikTok. В нем также приведено приблизительная формула для оценки видео, в которой суммируются
прогноз поведения пользователя (построенный на базе машинного обучения) и его фактическое поведение, выявляемые по лайкам, комментариям, времени воспроизведения роликов и досмотра видео до конца.

Формула выглядит так:
Plike х Vlike + Pcomment х Vcomment + Eplaytime х Vplaytime + Pplay х Vplay
(Комментарий iFreedomLab: формула никак не расшифровывается.
Судя по всему, Р в формуле — прогноз, V — фактические действия, E — сумма (суммарное время роликов, используется только для такого показателя — playtime); like — лайки, comment — комментарии, playtime — время воспроизведения, play — досмотр видео до конца).

«Рекомендательная система оценивает все видео на основе этого уравнения и предлагает пользователям видео с самыми высокими оценками», – объясняется в документе. – «Для краткости уравнение сильно упрощено. Фактическое используемое уравнение намного сложнее, но логика та же самая».

Тонкие настройки

Также в этом документе подробно рассказано, как компания настраивает свою систему и фильтрует видеоролики и как продумывает более тонкие параметры оценки контента и самих пользователей.

«У некоторых авторов в их видео может присутствовать определенный культурный контекст, и пользователи могут лучше понять его только просмотрев больше видеороликов этого автора. Поэтому общая ценность просмотра пользователем всех этих видео суммарно выше, чем ценность просмотра каждого отдельного видео, сложенного вместе», – цитирует документ Бен Смит. – «Другой пример: если пользователю нравится определенный вид видеороликов, но приложение продолжает предлагать ему аналогичные, то ему быстро станет скучно и он закроет приложение. В этом случае суммарно оценки для однотипных видео будут ниже, чем для каждого видеоролика по отдельности, – потому что повторяемость приводит к скуке».

«Есть два решения этого вопроса», – поясняется в документе. – «В частности, задать параметры ценности просматриваемого видеоконтента в нашей формуле. Например, при повторном просмотре видеороликов от одного автора мы можем добавить в неё показатель “same_author_seen”, а для борьбы со скукой можно ввести отрицательное значение “same_tag_today”. Могут сработать и другие решения, вроде принудительных рекомендаций в ленте или разнообразия».

С другой стороны, в документе подчеркивается, что «монетизация создателей» является одной из целей компании, что свидетельствует скорее о том, что TikTok может стараться продвигать те видео, которые приносят прибыль, а не просто развлекают.

Ничего удивительного?

Джулиан Маколи, профессор Калифорнийского университета, после ознакомления с этим документом отметил, что в нем не хватает подробностей о том, как именно TikTok делает свои прогнозы, а описание механизма рекомендаций «абсолютно разумно, но традиционно». Преимущество компании, по его словам, заключается в сочетании машинного обучения с «фантастическими объемами данных, высоко вовлеченными пользователями и настройками, предлагающими пользователю рекомендованный контент. Это не какая-то алгоритмическая магия».

И действительно, документ многое делает для демистификации системы рекомендаций, которую технологические компании часто представляют как невероятно сложную для понимания критиками и регулирующими органами, но которая обычно фокусируется на функциях, понятных любому обычному пользователю. Например, в недавнем материале The Journal о просочившихся документах Facebook* было проиллюстрировано, как решение Facebook* придать больший вес комментариям способствовало распространению противоречивого контента. И хотя модели могут быть действительно сложными, в алгоритме рекомендаций TikTok, изложенном в документе, нет ничего зловещего или непонятного по своей сути.

Свободный перевод статьи New York Times: How TikTik reads your mind

*доступ к Facebook заблокирован в РФ 4.03.022 решением РКН, 21.03.2022 организация Meta Platforms Inc., владеющая социальными сетями Facebook и Instagram, признана судом РФ экстремистской организацией

Рекомендуем почитать