Мнение автора: Rowan Stone, генеральный директор Sapien
ИИ – это бумажный тигр без опыта людей в управлении данными и методах обучения. Несмотря на прогнозы значительного роста, инновации в области ИИ будут неактуальны, если они продолжат обучать модели на некачественных данных.
Помимо улучшения стандартов данных, ИИ-моделям необходимо вмешательство человека для контекстуального понимания и критического мышления, чтобы обеспечить этичную разработку ИИ и правильную генерацию результатов.
У ИИ есть проблема с "плохими данными"
Люди обладают тонким пониманием. Они опираются на свой опыт, чтобы делать выводы и принимать логичные решения. Однако ИИ-модели хороши настолько, насколько хороши данные, на которых они обучаются.
Точность ИИ-модели не зависит полностью от технической сложности лежащих в ее основе алгоритмов или объема обработанных данных. Вместо этого, точная производительность ИИ зависит от надежных, высококачественных данных во время обучения и аналитических тестов.
Плохие данные имеют многогранные последствия для обучения ИИ-моделей: они генерируют предвзятые результаты и галлюцинации из-за ошибочной логики, приводя к потере времени на переобучение ИИ-моделей для избавления от плохих привычек, что увеличивает затраты компании.
Предвзятые и статистически недостаточно представленные данные непропорционально усиливают недостатки и искаженные результаты в ИИ-системах, особенно в здравоохранении и системах безопасности наблюдения.
Например, в отчете Innocence Project перечислены многочисленные случаи ошибочной идентификации, и бывший начальник полиции Детройта признал, что полагаться исключительно на ИИ-системы распознавания лиц приведет к 96% ошибочных идентификаций. Более того, согласно отчету Гарвардской медицинской школы, ИИ-модель, используемая в медицинских учреждениях США, отдавала приоритет более здоровым пациентам белой расы, а не более больным пациентам афроамериканской расы.
ИИ-модели следуют концепции "Мусор на входе — мусор на выходе" (GIGO), поскольку дефектные и предвзятые входные данные, или "мусор", генерируют результаты низкого качества. Плохие входные данные создают операционную неэффективность, поскольку проектным командам приходится задерживаться и тратить больше средств на очистку наборов данных перед возобновлением обучения модели.
Помимо их операционного эффекта, ИИ-модели, обученные на некачественных данных, подрывают доверие и уверенность компаний в их развертывании, нанося непоправимый ущерб репутации. Согласно исследованию, частота галлюцинаций для GPT-3.5 составляла 39,6%, что подчеркивает необходимость дополнительной проверки исследователями.
Такой репутационный ущерб имеет далеко идущие последствия, поскольку становится трудно привлекать инвестиции и влияет на позиционирование модели на рынке. На саммите CIO Network 21% ведущих ИТ-лидеров Америки выразили отсутствие надежности как самую серьезную проблему, которая мешает им использовать ИИ.
Плохие данные для обучения ИИ-моделей обесценивают проекты и приводят к огромным экономическим потерям для компаний. В среднем, неполные и некачественные данные для обучения ИИ приводят к принятию ошибочных решений, которые обходятся компаниям в 6% от их годовой выручки.
_ Недавно:_ Дешевле, быстрее, рискованнее — расцвет DeepSeek и связанные с этим проблемы безопасности
Низкокачественные данные для обучения влияют на инновации в области ИИ и обучение моделей, поэтому поиск альтернативных решений необходим.
Проблема плохих данных заставила ИИ-компании перенаправить ученых на подготовку данных. Почти 67% специалистов по данным тратят свое время на подготовку правильных наборов данных, чтобы предотвратить доставку дезинформации от ИИ-моделей.
ИИ/ML-модели могут испытывать трудности с поддержанием релевантного вывода, если специалисты — реальные люди с соответствующей квалификацией — не будут работать над их улучшением. Это демонстрирует необходимость привлечения экспертов для руководства разработкой ИИ путем обеспечения высококачественными курируемыми данными для обучения ИИ-моделей.
Данные от людей являются ключевыми
Илон Маск недавно сказал, «Сумма человеческих знаний исчерпана при обучении ИИ». Ничто не может быть дальше от истины, поскольку данные от людей являются ключом к созданию более сильных, надежных и непредвзятых ИИ-моделей.
Отрицание Маском человеческих знаний является призывом использовать искусственно созданные синтетические данные для тонкой настройки обучения ИИ-моделей. Однако, в отличие от людей, синтетические данные лишены реального жизненного опыта и исторически не смогли выносить этические суждения.
Человеческий опыт обеспечивает тщательную проверку и валидацию данных для поддержания согласованности, точности и надежности ИИ-модели. Люди оценивают, анализируют и интерпретируют вывод модели, чтобы выявить предвзятости или ошибки и обеспечить их соответствие общественным ценностям и этическим стандартам.
Более того, человеческий интеллект предлагает уникальные перспективы при подготовке данных, привнося контекстную справку, здравый смысл и логическое рассуждение в интерпретацию данных. Это помогает разрешать неоднозначные результаты, понимать нюансы и решать проблемы при обучении ИИ-моделей высокой сложности.
Симбиотические отношения между искусственным и человеческим интеллектом имеют решающее значение для раскрытия потенциала ИИ как преобразующей технологии без причинения вреда обществу. Совместный подход между человеком и машиной помогает раскрыть человеческую интуицию и креативность для создания новых алгоритмов и архитектур ИИ для общественного блага.
Децентрализованные сети могут стать недостающим звеном для укрепления этих отношений в глобальном масштабе.
Компании теряют время и ресурсы, когда у них слабые ИИ-модели, которые требуют постоянного улучшения со стороны штатных специалистов по данным и инженеров. Используя децентрализованное вмешательство человека, компании могут снизить затраты и повысить эффективность, распределив процесс оценки по глобальной сети тренеров и участников.
Децентрализованное обучение с подкреплением на основе обратной связи от человека (RLHF) делает обучение ИИ-модели совместным предприятием. Повседневные пользователи и специалисты в предметной области могут участвовать в обучении и получать финансовые стимулы за точную аннотацию, маркировку, сегментацию и классификацию.
Автоматизированный децентрализованный механизм на основе блокчейна компенсирует участников, которые получают вознаграждение на основе измеримых улучшений ИИ-модели, а не на основе жестких квот или ориентиров. Кроме того, децентрализованный RLHF демократизирует данные и обучение моделей, вовлекая людей из разных слоев общества, снижая структурные предубеждения и повышая общий интеллект.
По данным опроса Gartner, к 2026 году компании откажутся от более чем 60% проектов в области ИИ из-за недоступности данных, готовых к ИИ. Поэтому человеческие способности и компетентность имеют решающее значение для подготовки данных для обучения ИИ, если отрасль хочет внести вклад в размере 15,7 триллионов долларов в мировую экономику к 2030 году.
Инфраструктура данных для обучения ИИ-моделей требует постоянного улучшения на основе новых и возникающих данных и вариантов использования. Люди могут обеспечить организациям поддержание базы данных, готовой к ИИ, за счет постоянного управления метаданными, наблюдаемости и управления.
Без контроля со стороны человека предприятия будут бороться с огромным объемом данных, изолированных в облаке и офшорном хранилище данных. Компании должны принять подход «человек в контуре», чтобы настроить наборы данных для создания высококачественных, производительных и релевантных ИИ-моделей.
Мнение автора: Rowan Stone, генеральный директор Sapien.
Эта статья предназначена только для общих информационных целей и не должна рассматриваться как юридическая или инвестиционная консультация.