Apple створила ШІ, який обчислює дії користувача по звуку та рухам

Apple досліджує, як великі мовні моделі можуть розпізнавати активність користувача за звуком і рухами Apple оприлюднила результати дослідження, яке показує, що великі мовні моделі (LLM) можуть значно покращити розпізнавання активності користувача, аналізуючи мультимодальні дані — аудіо, рухи та текстові описи. У науковій роботі «Використання LLM для подальшого об’єднання мультимодальних даних датчиків для розпізнавання активності» дослідники показали, як поєднання ШІ та даних сенсорів дає змогу точніше визначати, чим займається людина — від приготування їжі до занять спортом. Команда Apple використала набір даних Ego4D з тисячами годин відео від першої особи. Невеликі моделі попередньо аналізували аудіо та рухи, перетворюючи їх у текстові описи, які потім передавалися у великі LLM, зокрема Gemini-2.5-pro та Qwen-32B. Результат виявився вражаючим: навіть без спеціального навчання LLM змогли точно визначати активність за короткими текстовими підказками. А коли моделі отримували один приклад для навчання, точність суттєво зростала. Найкращі результати були отримані в «закритому наборі», де моделі обирали відповідь із 12 варіантів активності. У «відкритому наборі» (без варіантів) точність також була високою, хоча іноді моделі давали надто узагальнені відповіді. Apple вважає, що такі можливості відкривають шлях до створення більш розумних та контекстно-обізнаних систем у смартфонах, годинниках та інших ґаджетах. Це може вивести фітнес-трекинг, персональних помічників та інші функції на новий рівень точності. Джерело

Новини України

Apple створила ШІ, який обчислює дії користувача по звуку та рухам

Категорії

Джерела