DeepSeek из Китая запускает новую AI с открытым исходным кодом после R1, бросив вызов OpenAI

Китайская компания, занимающаяся разработкой искусственного интеллекта, DeepSeek, выпустила новую большую языковую модель (LLM) с открытым весом.

DeepSeek загрузила свою новейшую модель, Prover V2, в хостинг-сервис Hugging Face 30 апреля. Последняя модель, выпущенная под разрешительной лицензией MIT с открытым исходным кодом, направлена на решение задачи проверки математических доказательств.

Репозиторий DeepSeek-Prover-V2 на HuggingFace. Источник: HuggingFace

Prover V2 имеет 671 миллиард параметров, что значительно больше, чем у ее предшественниц, Prover V1 и Prover V1.5, которые были выпущены в августе 2024 года. В статье, сопровождающей первую версию, объяснялось, что модель была обучена для преобразования математических задач из соревнований в формальную логику с использованием языка программирования Lean 4 — инструмента, широко используемого для доказательства теорем.

Разработчики утверждают, что Prover V2 сжимает математические знания в формат, позволяющий генерировать и проверять доказательства, что потенциально может помочь в исследованиях и обучении.

Что это значит?

Модель, которую в AI-пространстве также неформально и ошибочно называют «весами», представляет собой файл или набор файлов, позволяющий локально запускать AI без использования внешних серверов. Однако стоит отметить, что самые современные LLM требуют оборудования, к которому у большинства людей нет доступа.

Это связано с тем, что эти модели, как правило, имеют большое количество параметров, что приводит к большим файлам, требующим большого количества оперативной памяти или видеопамяти (VRAM) и вычислительной мощности для запуска. Новая модель Prover V2 весит примерно 650 гигабайт и, как ожидается, будет работать на оперативной памяти или видеопамяти.

Чтобы уменьшить размер до этого значения, веса Prover V2 были квантованы до 8-битной точности с плавающей запятой, что означает, что каждый параметр был приближен, чтобы занимать вдвое меньше места, чем обычные 16 бит, при этом бит является одной цифрой в двоичных числах. Это эффективно вдвое уменьшает объем модели.

Prover V1 основан на семимиллиардной параметрической модели DeepSeekMath и был дообучен на синтетических данных. Синтетические данные относятся к данным, используемым для обучения AI-моделей, которые, в свою очередь, также генерировались AI-моделями, при этом данные, созданные человеком, обычно рассматриваются как все более дефицитный источник данных более высокого качества.

Prover V1.5, как сообщается, улучшил предыдущую версию, оптимизировав как обучение, так и выполнение, и достигнув более высокой точности.

Доступные языковые модели

Теперь даже пользователи без доступа к суперкомпьютеру, который стоит дороже, чем средний дом во многих странах мира, могут запускать LLM локально. Это стало возможным благодаря двум методам разработки AI: дистилляции моделей и квантованию.

Дистилляция относится к обучению компактной «студенческой» сети для воспроизведения поведения более крупной «учительской» модели, чтобы сохранить большую часть производительности, одновременно уменьшив количество параметров, чтобы сделать ее доступной для менее мощного оборудования. Квантование состоит в уменьшении числовой точности весов и активаций модели, чтобы уменьшить размер и повысить скорость вывода с минимальной потерей точности.

Примером является уменьшение Prover V2 от 16 до 8-битных чисел с плавающей запятой, но дальнейшее уменьшение возможно путем дальнейшего уменьшения количества бит. Оба этих метода имеют последствия для производительности модели, но обычно оставляют модель в основном функциональной.

R1 от DeepSeek была дистиллирована в версии с переобученными моделями LLaMA и Qwen, варьирующимися от 70 миллиардов параметров до 1,5 миллиардов параметров. Самая маленькая из этих моделей может даже надежно работать на некоторых мобильных устройствах.