Новини України
Підбірка новин з українських джерел

Apple створила ШІ, який обчислює дії користувача по звуку та рухам
Apple досліджує, як великі мовні моделі можуть розпізнавати активність користувача за звуком і рухами
Apple оприлюднила результати дослідження, яке показує, що великі мовні моделі (LLM) можуть значно покращити розпізнавання активності користувача, аналізуючи мультимодальні дані — аудіо, рухи та текстові описи.
У науковій роботі «Використання LLM для подальшого об’єднання мультимодальних даних датчиків для розпізнавання активності» дослідники показали, як поєднання ШІ та даних сенсорів дає змогу точніше визначати, чим займається людина — від приготування їжі до занять спортом.
Команда Apple використала набір даних Ego4D з тисячами годин відео від першої особи. Невеликі моделі попередньо аналізували аудіо та рухи, перетворюючи їх у текстові описи, які потім передавалися у великі LLM, зокрема Gemini-2.5-pro та Qwen-32B.
Результат виявився вражаючим: навіть без спеціального навчання LLM змогли точно визначати активність за короткими текстовими підказками. А коли моделі отримували один приклад для навчання, точність суттєво зростала.
Найкращі результати були отримані в «закритому наборі», де моделі обирали відповідь із 12 варіантів активності. У «відкритому наборі» (без варіантів) точність також була високою, хоча іноді моделі давали надто узагальнені відповіді.
Apple вважає, що такі можливості відкривають шлях до створення більш розумних та контекстно-обізнаних систем у смартфонах, годинниках та інших ґаджетах. Це може вивести фітнес-трекинг, персональних помічників та інші функції на новий рівень точності. Джерело