Плюрализация популяции
May. 25th, 2024 09:04 pmВчера больше половины рабочего дня я чинил маленький баг в английском. И прямо захотелось описать процесс. Получился лонгрид в шести актах.
1. Нужно сделать, чтобы слово population могло согласовываться с глаголами во множественном числе: The population enjoy apple-picking. Так можно, даже в словаре написано singular or plural verb.
Это решается довольно просто: добавлением population в специальный список слов, которые вроде сами в единственном числе, но умеют согласовываться и со множественным:
committee, police, и много других. Дальше прогоняются юнит-тесты. Находится тест, ожидающий ошибку в The bulk of the population live in suburbs. Теперь наша суперпрограмма будет считать это предложение корректным, так что я правлю тест.
Проверяю, как изменились результаты проверки грамматики на корпусе текстов с ошибками и без. Почти миллион предложений анализируются за 45 секунд (на ноутбуке; на десктопе 22). В результатах много исчезнувших ошибок согласования вроде population are. Часть вроде по делу, в другой части хотелось бы всё же подчёркивать, но там в основном и наши ML-проверки справляются. Так что вроде всё хорошо.
Но есть и пара неприятных изменений: в each population prefer to eat something special исчезла ошибка, а в Sweden's population begun to grow rapidly предлагалось has begun, а теперь перестало.
( Read more... )
1. Нужно сделать, чтобы слово population могло согласовываться с глаголами во множественном числе: The population enjoy apple-picking. Так можно, даже в словаре написано singular or plural verb.
Это решается довольно просто: добавлением population в специальный список слов, которые вроде сами в единственном числе, но умеют согласовываться и со множественным:
committee, police, и много других. Дальше прогоняются юнит-тесты. Находится тест, ожидающий ошибку в The bulk of the population live in suburbs. Теперь наша суперпрограмма будет считать это предложение корректным, так что я правлю тест.
Проверяю, как изменились результаты проверки грамматики на корпусе текстов с ошибками и без. Почти миллион предложений анализируются за 45 секунд (на ноутбуке; на десктопе 22). В результатах много исчезнувших ошибок согласования вроде population are. Часть вроде по делу, в другой части хотелось бы всё же подчёркивать, но там в основном и наши ML-проверки справляются. Так что вроде всё хорошо.
Но есть и пара неприятных изменений: в each population prefer to eat something special исчезла ошибка, а в Sweden's population begun to grow rapidly предлагалось has begun, а теперь перестало.
( Read more... )