Чат-окна были первой точкой соприкосновения многих разработчиков с большими языковыми моделями. Они копировали туда сообщение об ошибке, получали объяснение, просили набросать функцию и вручную переносили полезные части. Для серьезной разработки такой режим теперь стал неудобным. Код создается в репозитории: с файлами, тестами, сборками, правилами линтеров и старыми решениями, которые невозможно полностью описать в одном промпте. Поэтому большие языковые модели (LLM) приближаются к среде разработки. Claude Code, Codex и Cursor относятся к новому классу инструментов, которые не просто дают ответы, но и могут вносить изменения в проект.
Разработчики теперь описывают не отдельную функцию, а задачу в контексте репозитория: воспроизведи ошибку, напиши тест, измени код и проверь результат. Для повседневной работы поэтому менее важно, какая модель лидирует в рейтинге. Важнее то, что происходит в реальной кодовой базе. Предоставляет ли агент рабочий pull request? Учитывает ли он существующие архитектурные границы? Остается ли патч проверяемым? И сколько человеческого ревью требуется, прежде чем результат станет кодом, готовым к продакшену? Чтобы это проверить, я применил три инструмента к одним и тем же задачам в Workledger (открывается в новом окне), одном из моих проектов с открытым исходным кодом.
Вы уже подписаны?
Войти здесь
Дополнительная информация о Golem Plus