Making Sense of Bureaucratic Documents : Named Entity Recognition for State Authority Archives
Publiceringsår
2024
Upphovspersoner
Poso, Venla; Lipsanen, Mikko; Toivanen, Ida; Välisalo, Tanja
Abstrakt
The usability and accessibility of digitised archival data can be improved using deep learning solutions. In this paper, the authors present their work in developing a named entity recognition (NER) model for digitised archival data, specifically state authority documents. The entities for the model were chosen based on surveying different user groups. In addition to common entities, two new entities were created to identify businesses (FIBC) and archival documents (JON). The NER model was trained by fine-tuning an existing Finnish BERT model. The training data also included modern digitally born texts to achieve good performance with various types of inputs. The finished model performs fairly well with OCR-processed data, achieving an overall F1 score of 0.868, and particularly well with the new entities (F1 scores of 0.89 and 0.97 for JON and FIBC, respectively).
Visa merOrganisationer och upphovspersoner
Publikationstyp
Publikationsform
Artikel
Moderpublikationens typ
Konferens
Artikelstyp
Annan artikel
Målgrupp
VetenskapligKollegialt utvärderad
Inte kollegialt utvärderadUKM:s publikationstyp
B3 Icke-referentgranskad artikel i konferenspublikationPublikationskanalens uppgifter
Journal
Archiving
Moderpublikationens namn
Konferens
Archiving Conference
Förläggare
Society for Imaging Science & Technology
Sidor
6-10
ISSN
ISBN
Öppen tillgång
Öppen tillgänglighet i förläggarens tjänst
Ja
Öppen tillgång till publikationskanalen
Helt öppen publikationskanal
Parallellsparad
Ja
Övriga uppgifter
Vetenskapsområden
Data- och informationsvetenskap; Historia och arkeologi; Övriga humanistiska vetenskaper
Nyckelord
[object Object],[object Object],[object Object],[object Object],[object Object],[object Object]
Publiceringsland
Förenta staterna (USA)
Förlagets internationalitet
Internationell
Språk
engelska
Internationell sampublikation
Nej
Sampublikation med ett företag
Nej
DOI
10.2352/issn.2168-3204.2024.21.1.2
Publikationen ingår i undervisnings- och kulturministeriets datainsamling
Ja