Набор данных для обучения искусственного интеллекта, разработанный децентрализованным поставщиком решений в области ИИ OORT, достиг значительных успехов на платформе Google Kaggle.
Набор данных OORT’s Diverse Tools был опубликован в начале апреля; с тех пор он поднялся на первую страницу в нескольких категориях. Kaggle — это онлайн-платформа, принадлежащая Google, для соревнований в области науки о данных и машинного обучения, обучения и сотрудничества.
Рамкумар Субраманиам, основной участник крипто-ИИ проекта OpenLedger, рассказал Cointelegraph, что «попадание на главную страницу Kaggle — это сильный социальный сигнал, указывающий на то, что набор данных привлекает нужные сообщества специалистов по данным, инженеров и практиков машинного обучения».
Макс Ли, основатель и генеральный директор OORT, рассказал Cointelegraph, что компания «зафиксировала многообещающие показатели вовлеченности, подтверждающие ранний спрос и актуальность» своих обучающих данных, собранных с помощью децентрализованной модели. Он добавил:
«Органический интерес со стороны сообщества, включая активное использование и вклад, демонстрирует, как децентрализованные, управляемые сообществом конвейеры данных, такие как OORT, могут обеспечить быстрое распространение и вовлечение без использования централизованных посредников».
Ли также сообщил, что OORT планирует выпустить несколько наборов данных в ближайшие месяцы. Среди них — набор данных голосовых команд в автомобиле, набор данных голосовых команд для умного дома и набор данных дипфейков, предназначенный для улучшения проверки медиа с помощью ИИ.
Первая страница в нескольких категориях
Cointelegraph независимо проверил, что набор данных достиг первой страницы в категориях General AI, Retail & Shopping, Manufacturing и Engineering на Kaggle в начале этого месяца. На момент публикации он потерял эти позиции после обновления набора данных, возможно, не связанного с ним, 6 мая и еще одного 14 мая.
Набор данных OORT на первой странице Kaggle в категории Engineering. Источник: Kaggle
Признавая это достижение, Субраманиам сказал Cointelegraph, что «это не окончательный показатель реального внедрения или качества, подходящего для корпоративного использования». Он сказал, что отличает набор данных OORT «не только рейтинг, но и происхождение и система стимулирования, лежащая в основе набора данных». Он пояснил:
«В отличие от централизованных поставщиков, которые могут полагаться на непрозрачные конвейеры, прозрачная система, стимулируемая токенами, предлагает отслеживаемость, кураторство сообщества и потенциал для постоянного улучшения, при условии правильного управления».
Лекс Соколин, партнер венчурной фирмы Generative Ventures в области ИИ, сказал, что хотя он не считает, что эти результаты трудно повторить, «это показывает, что крипто-проекты могут использовать децентрализованные стимулы для организации экономической деятельности».
Высококачественные обучающие данные для ИИ: дефицитный товар
Данные, опубликованные исследовательской фирмой Epoch AI, показывают, что сгенерированные человеком текстовые обучающие данные для ИИ исчерпаются в 2028 году. Напряжение достаточно велико, что инвесторы сейчас выступают посредниками при заключении сделок, предоставляющих права на материалы, защищенные авторским правом, компаниям, работающим с ИИ.
Сообщения о растущем дефиците обучающих данных для ИИ и о том, как это может ограничить рост в этой сфере, циркулируют уже несколько лет. Хотя синтетические (сгенерированные ИИ) данные все чаще используются с определенным успехом, данные, созданные человеком, по-прежнему в основном считаются лучшей альтернативой, более качественными данными, которые приводят к лучшим моделям ИИ.
Когда речь идет об изображениях для обучения ИИ, ситуация становится все более сложной, поскольку художники намеренно саботируют усилия по обучению. Nightshade позволяет пользователям «отравлять» свои изображения и серьезно ухудшать производительность модели, чтобы защитить их изображения от использования для обучения ИИ без разрешения.
Производительность модели в зависимости от количества отравленных изображений. Источник: TowardsDataScience
Субраманиам сказал: «Мы вступаем в эпоху, когда высококачественные данные изображений будут становиться все более дефицитными». Он также признал, что этот дефицит усугубляется растущей популярностью отравления изображений:
«С ростом таких методов, как маскировка изображений и использование водяных знаков для отравления обучения ИИ, открытые наборы данных сталкиваются с двойной проблемой: количеством и доверием».
В этой ситуации Субраманиам сказал, что проверяемые и ориентированные на сообщество стимулируемые наборы данных «ценнее, чем когда-либо». По его словам, такие проекты «могут стать не просто альтернативой, а столпами согласования ИИ и происхождения в экономике данных».