undefined

Making Sense of Bureaucratic Documents : Named Entity Recognition for State Authority Archives

Publiceringsår

2024

Upphovspersoner

Poso, Venla; Lipsanen, Mikko; Toivanen, Ida; Välisalo, Tanja

Abstrakt

The usability and accessibility of digitised archival data can be improved using deep learning solutions. In this paper, the authors present their work in developing a named entity recognition (NER) model for digitised archival data, specifically state authority documents. The entities for the model were chosen based on surveying different user groups. In addition to common entities, two new entities were created to identify businesses (FIBC) and archival documents (JON). The NER model was trained by fine-tuning an existing Finnish BERT model. The training data also included modern digitally born texts to achieve good performance with various types of inputs. The finished model performs fairly well with OCR-processed data, achieving an overall F1 score of 0.868, and particularly well with the new entities (F1 scores of 0.89 and 0.97 for JON and FIBC, respectively).
Visa mer

Organisationer och upphovspersoner

Jyväskylä universitet

Toivanen Ida Orcid -palvelun logo

Välisalo Tanja Orcid -palvelun logo

Poso Venla Orcid -palvelun logo

Publikationstyp

Publikationsform

Artikel

Moderpublikationens typ

Konferens

Artikelstyp

Annan artikel

Målgrupp

Vetenskaplig

Kollegialt utvärderad

Inte kollegialt utvärderad

UKM:s publikationstyp

B3 Icke-referentgranskad artikel i konferenspublikation

Publikationskanalens uppgifter

Journal

Archiving

Konferens

Archiving Conference

Förläggare

Society for Imaging Science & Technology

Sidor

6-10

Öppen tillgång

Öppen tillgänglighet i förläggarens tjänst

Ja

Öppen tillgång till publikationskanalen

Helt öppen publikationskanal

Parallellsparad

Ja

Övriga uppgifter

Vetenskapsområden

Data- och informationsvetenskap; Historia och arkeologi; Övriga humanistiska vetenskaper

Nyckelord

[object Object],[object Object],[object Object],[object Object],[object Object],[object Object]

Publiceringsland

Förenta staterna (USA)

Förlagets internationalitet

Internationell

Språk

engelska

Internationell sampublikation

Nej

Sampublikation med ett företag

Nej

DOI

10.2352/issn.2168-3204.2024.21.1.2

Publikationen ingår i undervisnings- och kulturministeriets datainsamling

Ja