+86-028-83139288
3B3F, Цзинжронхуэй, № 200, 5-я улица Тяньфу, зона высоких технологий, город Чэнду, провинция Сычуань

2025-12-31
Когда слышишь этот вопрос, первая реакция — да, конечно, по объёмам данных и внедрения. Но сразу хочется оговориться: лидер в чём именно? В распознавании лиц на каждом углу или в создании фундаментальных моделей, которые действительно понимают контекст? Часто эти вещи в обсуждениях сливаются в одну смазанную картину, и это главная ошибка.
Многие коллеги на Западе до сих пор свысока смотрят на китайский ИИ, мол, всё держится на грубой силе данных и жёстком регулировании, которое создаёт искусственный спрос. Отчасти это так. Нигде в мире вы не найдёте такого масштаба ?песочницы? для компьютерного зрения: миллиарды лиц, проходящих через камеры в метро, на перекрёстках, в жилых комплексах. Это инженерный рай и этический ад одновременно. Но сводить всё только к данным — наивно.
Возьмём, к примеру, распознавание в сложных условиях. Пару лет назад мы тестировали одну известную китайскую платформу для распознавания лиц в условиях слабой освещённости и при частичном перекрытии (шапка, медицинская маска). Точность, конечно, была высокой, но не уникальной. А вот где был прорыв — так это в скорости дообучения модели на месте. Привезли систему на склад, где рабочие носят каски и маски, загрузили пару сотен новых образцов — и через несколько часов модель адаптировалась без потери производительности на основном массиве. Это уже вопрос не столько данных, сколько инженерной культуры и оптимизации конвейера обучения.
Или вот распознавание действий в реальном времени на производстве. Китайские компании, особенно те, что работают с умными городами и промышленностью, здесь сильно продвинулись. Не просто ?человек идёт?, а ?человек поднимает руки в зоне работы конвейера? или ?несанкционированное проникновение в периметр?. Алгоритмы учатся на относительно небольших, но очень специфичных наборах данных с заводов. Это менее заметно, чем сканеры в аэропорту, но именно здесь идёт реальная борьба за эффективность и безопасность.
Всё познаётся в полевых условиях. Помню проект по внедрению системы контроля доступа на одном крупном химическом заводе в провинции Цзянсу. Задача — не просто распознавать лица сотрудников, но и фиксировать, соблюдают ли они требования по спецодежде (очки, перчатки, каска). Использовали решение от одной из топовых вендоров.
Первые недели были катастрофой. Высокая влажность, пары, пыль — камеры запотевали, а на рабочих были однотипные комбинезоны и каски, что сводило эффективность распознавания лиц почти к нулю. Алгоритм по экипировке срабатывал через раз. Местные инженеры, не долго думая, пошли нестандартным путём: они дополнительно настроили модель на распознавание не столько самих предметов, сколько характерных нарушений — например, открытый клапан на рукаве, отсутствие ремня на каске. Сместили фокус с абсолютной идентификации на выявление аномалий. Это сработало. Проект не стал громким успехом, но завод остался доволен — количество инцидентов упало. Это типично: громкие заявления о точности в 99.9% разбиваются о реальность цеха, а побеждает не самый совершенный, а самый гибкий и приземлённый подход.
Ещё один камень преткновения — распознавание эмоций. Много шума, мало толку. В Китае это пытались внедрять в системах онлайн-образования и при приёме на работу. На собственном опыте скажу: технологии определения базовых состояний вроде ?внимателен/рассеян? ещё как-то работают в контролируемой среде. Но всё, что сложнее — бесполезно. Культурные особенности, контроль над мимикой, просто плохой свет — и система выдаёт полную ерунду. От этой идеи сейчас многие практически отказались, сосредоточившись на более осязаемых вещах.
Часто говорят об алгоритмах, забывая про железо и софт вокруг них. А здесь Китай создал целую экосистему. Возьмём чипы для обработки видео на edge-устройствах. Компании вроде Cambricon или Horizon Robotics могут не быть на слуху у широкой публики, но их решения по энергоэффективности и стоимости за единицу производительности — это то, что позволяет ставить камеры с ИИ-обработкой на каждом столбе. Без этой удешевлённой и локализованной цепочки поставок не было бы и массового внедрения.
Платформы для разметки данных — ещё один пример. Проект, над которым я работал, сотрудничал с Chengdu Haofu Technology Co. (ООО Технология Чэнду Хаофу). Их штаб-квартира находится в высокотехнологичной зоне Чэнду. Они не столько разрабатывают core-алгоритмы, сколько создают инструменты для их эффективного обучения и развёртывания. Когда нужно быстро подготовить датасет из тысяч часов видео с дорожного движения, чтобы обучить модель видеть аварийно опасные ситуации, именно такие компании обеспечивают необходимую ?кухню?. Это неброская, но критически важная работа.
Именно такая глубокая, порой невидимая со стороны, инфраструктура — от специализированных процессоров до платформ разметки и отладочных инструментов — и создаёт ту среду, в которой технологии распознавания могут развиваться не точечно, а системно. Это как раз то, что сложно быстро скопировать.
Безусловно, в фундаментальных исследованиях, в создании таких моделей-титанов, как GPT, пальма первенства пока у американских компаний. Китай здесь догоняет, делая ставку на прикладные, вертикально интегрированные решения. Но и здесь есть свои ловушки.
Первая — зависимость от открытых международных фреймворков (TensorFlow, PyTorch). Да, есть внутренние разработки (PaddlePaddle от Baidu), но чтобы быть в мейнстриме, приходится работать с тем, что есть. Санкции и угроза отключения от ключевых технологий — это постоянный фон для планирования.
Вторая ловушка — внутренний рынок. Он огромен и позволяет оттачивать технологии, но иногда создаёт ?пузырь? специфических требований. Система социального рейтинга и тотальное видеонаблюдение формируют запрос на одни типы распознавания (лиц, поведения в толпе) и могут тормозить развитие других, например, для медицины или творческих индустрий. Хотя в последнее время виден сильный крен именно в сторону промышленного и медицинского ИИ.
Третье — этика и регулирование. Китай быстро движется к созданию одних из самых жёстких в мире законов об ИИ. Это не только ограничивает, но и заставляет компании с самого начала закладывать определённые рамки в продукты, что в долгосрочной перспективе может стать преимуществом при выходе на строгие рынки вроде европейского.
Возвращаясь к заглавному вопросу. Если мерить по глубине проникновения технологии в повседневную жизнь и бизнес-процессы, по скорости итераций и способности решать конкретные, пусть и узкие, инженерные задачи — да, безусловный лидер. Китайское распознавание образов вышло из лабораторий и живёт на заводах, стройках, в магазинах и на улицах. Оно заточено под практику, иногда грубовато, но невероятно эффективно в своих нишах.
Если же говорить о прорывных, меняющих парадигму открытиях в области компьютерного зрения, о создании универсальных ?мозгов? для машин — здесь картина смешанная. Есть сильные исследовательские центры, есть таланты, но экосистема всё ещё больше ориентирована на быстрое применение, чем на фундаментальный рывок с неизвестным исходом.
Поэтому мой ответ, основанный на том, что вижу своими глазами на проектах: Китай — абсолютный лидер в инженерии и масштабировании прикладных систем ИИ-распознавания. Это лидерство другого рода — не в гонке за одним алгоритмом с рекордной точностью на датасете ImageNet, а в умении опустить технологию на землю, сделать её работающим, хоть и не идеальным, инструментом для миллионов сценариев. И в этом, пожалуй, и заключается его главная сила и главное отличие.