Я створив плеєр забутих треків українського Spotify
Нещодавно Annas Archive виклали на торенти великий датасет з метаданими треків зі Spotify: приблизно 200 ГБ в архіві, а повна колекція аудіо – близько 300 ТБ (ще не релізнули).
В Discover Weekly час від часу з’являються артисти з 2–3 підписниками, і їх майже неможливо знайти через пошук. Маючи ці метадані, я за півгодини навайбкодив власний jukebox із семплами треків, які мають дуже мало прослуховувань.
Плеєр взагалі не ідеальний – іноді повертає булшит, іноді на екстремумах повертає який AI-generated контент або якісь дивні записи, які треками не назвеш. Іноді навіть простіше вимикати всі фільтри, окрім одного-двох, бо час від часу він повертає щось незрозуміле :)
У плеєрі можуть бути і відомі автори – в момент створення датасету популярність цього треку була на нулі.
Спотіфай має свою формулу для визначення популярності:
The popularity of a track is a value between 0 and 100, with 100 being the most popular. The popularity is calculated by algorithm and is based, in the most part, on the total number of plays the track has had and how recent those plays are.
Generally speaking, songs that are being played a lot now will have a higher popularity than songs that were played a lot in the past. Duplicate tracks (e.g. the same track from a single and an album) are rated independently. Artist and album popularity is derived mathematically from track popularity.
Трохи цифр
Загальні цифри по Spotify доступні на сайті Annas Archive.
В українській «бульбашці» я знайшов близько 16 тисяч артистів, у яких був хоча б один трек українською. Іноді у вибірку потрапляють і російськомовні треки—їх потрібно чистити вручну, але цього разу я залишив як є, бо сам плеєр радше фановий експеримент.
Ці виконавці згенерували 6,5 млн треків, із яких 5,3 млн мають нульову популярність—що добре корелює з загальною статистикою.