Технологии

«Поиск по архивам»: нейросеть поможет распознать тексты рукописных исторических документов

«Поиск по архивам»: нейросеть поможет распознать тексты рукописных исторических документов
Метрическая книга Никитской церкви на Старой Басманной улице за 1785 год. Главархив Москвы
В системе размещено уже 2,5 миллиона страниц метрических книг и других документов по генеалогии, и их количество будет расти.

Столичный Главархив и компания «Яндекс» разработали платформу «Поиск по архивам». Нейросеть сможет распознавать рукописные тексты в исторических документах и переводить их в цифровой формат. Новая система облегчит поиски горожанам, которые изучают историю своего рода и активно пользуются онлайн-ресурсом Главархива «Моя семья». Аудитория этого сервиса к настоящему моменту составляет более 10 миллионов человек.

«Наш совместный проект по внедрению искусственного интеллекта в сферу архивного дела нужен для распознавания и перевода документов XVII-XIX веков в машиночитаемый формат. В основу проекта лег наш онлайн-сервис “Моя семья” — именно на его материалах разработчики обучали нейросеть. И если раньше поиски занимали десятки часов, то сейчас нужные имена можно найти за считаные минуты. Мы надеемся, что благодаря настолько удобному сервису количество горожан, интересующихся историей своей семьи, сильно возрастет. Сейчас на платформе “Поиск по архивам” доступно 2,5 миллиона страниц метрических книг и других документов по генеалогии. В дальнейшем их количество будет только расти», — отметил руководитель Главархива Москвы Ярослав Онопенко.

«Поиск по архивам» станет помощником в безошибочном прочтении рукописного шрифта. Метрические документы оформляли от руки, поэтому у современных исследователей периодически возникают сложности с расшифровкой фамилий и имен, что может затруднять дальнейшие поиски. Теперь достаточно вбить в поисковую строку имена, и система покажет все соответствующие упоминания. Это существенно сэкономит время на составление родословного дерева.

Основной массив документов, обрабатываемых нейросетью, составили материалы столичного Главархива, но в новый сервис также вошли метрические записи из архивов Оренбургской и Новгородской областей. По прогнозам разработчиков, со временем количество хранилищ и доступных отсканированных файлов будет увеличиваться.

Использование новой технологии позволит минимизировать потоковую выдачу оригиналов документов, тем самым уберегая их от быстрого обветшания. Это предоставит городу возможность сохранить документальный массив о жителях Москвы и Московской губернии для будущих поколений.

До настоящего времени поиск данных о рождении, браке и смерти горожан, родившихся до 1917 года, проводился практически вручную. Исследователю необходимо было хорошо ориентироваться в фондах и делах, полистно просматривая большие объемы документов в читальном зале Главархива Москвы или в онлайн-сервисе «Моя семья», где пользователям доступно более восьми миллионов страниц метрических книг, ревизских сказок и исповедных ведомостей.

Сервис «Поиск по архивам» — не первый цифровой проект, реализуемый в архивной сфере. Несколько лет назад был открыт виртуальный музей «Москва — с заботой об истории», где можно увидеть документы, предметы и фотографии, переданные жителями на хранение, а также другие архивные материалы из фондов столичного Главархива. В 2020 году совместно с Государственной инспекцией по контролю за использованием объектов недвижимости города Москвы был создан проект «Уникальные документы», который знакомит с документами о Москве и ее жителях, представляющими большую историческую ценность. Цифровые разработки в архивном деле создают максимально комфортные условия и значительно экономят время москвичей при сборе и получении необходимых сведений.

Семейные истории: клубу мемуаристики «Линия жизни» исполнилось два года