Yandex lärde neurala nätverk att dechiffrera arkivdokument med komplex stavning
Miscellanea / / April 03, 2023
Historiska manuskript, som är svåra för en person att tolka, omvandlas nästan omedelbart av artificiell intelligens till tryckt text.
Yandex har lanserat en ny tjänst som heter Archive Search, som använder neurala nätverk för att dechiffrera arkivdokument med komplex förrevolutionär stavning.
Tjänsten ger tillgång till mer än 2,5 miljoner sidor med historiska dokument med textutskrifter. Dess algoritm, byggd på grundval av ett optiskt teckenigenkänningssystem, tar hänsyn till handstilens egenheter, känner igen bokstäver som har förlorat sin relevans och förstår den speciella strukturen hos arkivdokument.
Företagets specialister tränade det neurala nätverket på en datauppsättning av hundratusentals handskrivna rader från verkliga texter från 1700- och 1800-talen och tiotals miljoner genererade exempel.
Manuskript som är svåra för en oförberedd person att analysera, förvandlas Yandex-teknik nästan omedelbart till tryckt text. Tack vare detta, i tjänstens databas, kan du snabbt hitta dokument med ett omnämnande av efternamn, ort eller andra ord.
"Sök i arkiv" kommer att öka effektiviteten i arbetet för historiker, sociologer, demografer, släktforskare och kommer att hjälpa dem som söker information om sin familj.
Den första fonden som presenterades i tjänsten var Moskvas huvudarkiv - det var på dess material som utvecklarna tränade det neurala nätverket. Databasen innehåller också dokument från arkiven i regionerna Orenburg och Novgorod. Med tiden kommer antalet lagringar och tillgängliga skannade filer att öka.
Du kan söka efter material från 1700-talet - början av 1900-talet, som är mest populärt bland användarna. Det är församlingsböcker, bekännelseblad och revideringssagor med resultat av folkräkningen. Dokument kan hittas i katalogen eller via sökfältet. Det finns filter efter årtal, arkiv, fonder och inventeringar.
Bredvid skanningen av varje sida visas en rad-för-rad-avkodning gjord av neurala nätverk. Om du håller muspekaren över det önskade fragmentet kommer det omedelbart att markeras på den digitala kopian.