Новини України
Підбірка новин з українських джерел

Вчені знайшли точніший спосіб передбачати майбутнє
Команда математиків нещодавно зробила крок уперед у розвитку наших можливостей передбачати майбутні дані. Це, звісно, не ворожіння, але прогнозування — величезна індустрія та сервіс, на якому тримається значна частина економіки: від забезпечення наявності нових книжок у магазинах до гарантування достатньої кількості індичок до Дня подяки.
Теход Кім з Університету Ліхай очолив команду з семи математиків у цій роботі, яка наразі доступна у вигляді препринту на arXiv, тобто ще не пройшла рецензування та не опублікована в науковому журналі. У вступі Кім та його колеги пояснюють, чому прогнозування, яке колись було фантазією чи елементом наукової фантастики, у 21 столітті перетворилося на життєво важливий глобальний інструмент:
«[П]рогнозування […] є одним із найважливіших і найнаслідковіших завдань статистиків, математиків, дослідників машинного навчання, науковців із даних та спеціалістів зі штучного інтелекту, з глибокими наслідками та користю для багатьох сфер науки, інженерії, медицини, охорони здоров’я, економіки, бізнесу, політики та суспільства загалом. […] Регресійні моделі, безліч алгоритмів машинного навчання, штучні нейромережі, глибоке навчання та великі мовні моделі — це, по суті, машини прогнозування!»
Дехто вважає, що за умови наявності достатньої кількості інформації можна передбачити будь-що. Але навіть якщо це так, «достатня кількість інформації» — це надто вагоме поняття: дослідники хочуть застосовувати алгоритми прогнозування до наборів даних і кількості змінних, які занадто великі для звичайного опрацювання. Більшість методів прогнозування в складних задачах працює лише в дуже вузьких ділянках, де неповну інформацію можна заповнити більш-менш обґрунтованими припущеннями.
Коефіцієнт кореляції Пірсона (PCC) вимірює, наскільки дві змінні — наприклад, вартість готелю та якість сніданку — узгоджуються між собою вздовж прямої. Це дозволяє зрозуміти, що точка далеко від передбаченої лінії гірше вписується в набір даних. А от коефіцієнт конкордації (CCC) «вимагає, щоб Y та X мали однакові одиниці вимірювання і були оцінками однієї характеристики, ознаки чи явища», як пояснюється у статті. Завдяки таким вимогам CCC може вимірювати не лише близькість двох змінних до прогнозу, а й наскільки значущим є їхній ступінь узгодженості (виходячи зі спільних одиниць вимірювання або масштабу).
Команда запропонувала новий предиктор: лінійний предиктор максимального узгодження (MALP). Не заглиблюючись у складні деталі: MALP — це точніше налаштована версія CCC, яка може краще оцінювати дуже специфічні взаємозв’язки, у яких CCC уже показує високу ефективність. У результаті, як підсумовують автори, MALP забезпечує прогнозування з вищим загальним рівнем узгодження. Це також відкриває можливість роботи з даними, які менш чітко організовані у звичні XY-графіки — те, з чим лінійна регресія традиційно мала труднощі.
Статистики завжди прагнуть надати своїм колегам найкращий інструмент для розв’язання конкретної задачі. Ви ж не використовуєте хрестоподібну викрутку, щоб відкрутити плоский шуруп, і хоча це інколи можливо, усе ж не ідеально. Кожна ситуація має свій інструмент, і жоден із них не є «поганим» — просто не завжди підходить до задачі. MALP може стати таким інструментом для окремих дослідників і математиків.
У висновку команда наводить перелік подальших кроків і запитань, які необхідно опрацювати в наступних дослідженнях. Щоб відчути важливість цієї роботи, уявіть сюжет «Парку Юрського періоду»: якщо б ми мали 95% геному тварини і використали алгоритм прогнозування, щоб «домалювати» решту 5%? Результат, звісно, не стане вигаданим монстром, але може взагалі не бути життєздатним організмом. Наша здатність заповнювати прогалини в даних може мати гігантські наслідки для наших висновків.
Однією з найбільш важливих сфер, на які впливають алгоритми прогнозування, є сама галузь вимірювань: «відтворюваність, валідація методів та інші типи досліджень узгодженості» — усе це важливі напрями. У науці відтворюваність — гаряча тема, а дослідження узгодженості важливі для метааналізів, де різні, але подібні дослідження об’єднують, щоб отримати ширше уявлення. Часто саме такі метааналізи є найнадійнішим способом розглянути проблему комплексно.
У заяві Університету Ліхай Техо Кім зазначив, що хоча ця робота зосереджена на класичній 45-градусній лінії, він сподівається, що MALP зможе перетворитися на більш загальний «предиктор максимального узгодження». «Нам потрібно дослідити це далі», — підсумував він.