A Organização, mineração e inserção automatizada de dados documentais no Tainacan

propostas para os Bens Culturais Registrados pelo Iphan

Autores

DOI:

https://doi.org/10.22477/vi.widat.43

Palavras-chave:

extração de dados, mineração de texto, importação automatizada, Tainacan

Resumo

Introdução:  O presente artigo refere-se ao esforço teórico/prático no intuito de lidar com a grande massa de documentos e dados não estruturados e o uso de tecnologias que auxiliem na automatização do processo de subida de dados Objetivo:  Propor um método para extração e importação de grandes volumes de dados de documentos não estruturado para inserção no Tainacan.  Apresentar os resultados do método desenvolvido no Banco de Bens culturais registrado RBCNIs   Metodologia: A proposta conta com seis etapas metodológicas: análise documental e identificação de metadados; categorização dos documentos; padronização do título dos arquivos; conversão dos documentos em imagem e em texto; mineração de texto; e, importação e visualização dos dados no software Tainacan. Foram utilizadas metodologias qualitativas e técnicas computacionais para a realização das etapas, com destaque para Python, regex e Tesseract Resultados: Com uso do método foi possível o processamento de 1.027 arquivos, sendo 637 documentos de texto e 390 mídias (fotografias e vídeos) de forma automática para a inserção no Tainacan. Conclusão: Os processos e tecnologias utilizadas demonstram-se úteis para importação em massa de dados de arquivos em formatos heterogêneos, como o caso do Registro de Bens Culturais de Natureza Imaterial (RBCNIs). Além disso, o software Tainacan se mostrou uma ferramenta robusta para a execução dos processos propostos.

Downloads

Não há dados estatísticos.

Biografia do Autor

Danielle do Carmo, Instituto Brasileiro de Informação em Ciência e Tecnologia (Ibict)

Doutoranda em Ciência da Informação na Universidade de Brasília (UnB), Brasília- DF. Pesquisadora no Instituto Brasileiro de Informação em Ciência e Tecnologia (Ibict), Brasília- DF.

Paulo Henrique Ribeiro Costa, Instituto Brasileiro de Informação em Ciência e Tecnologia (Ibict)

Graduando em Ciência da Computação na Universidade de Fortaleza (Unifor), Fortaleza -CE.  Pesquisador no Instituto Brasileiro de Informação em Ciência e Tecnologia (Ibict), Brasília- DF.

João de Melo Maricato, Universidade de Brasília (UnB)/ Instituto Brasileiro de Informação em Ciência e Tecnologia (Ibict)

Doutor em Ciência da Informação. Professor da Universidade de Brasília (UnB); Brasília- DF. Pesquisador no Instituto Brasileiro de Informação em Ciência e Tecnologia (Ibict), Brasília- DF.

Thayane Morais de Alencar, Instituto Brasileiro de Informação em Ciência e Tecnologia (Ibict)

Doutoranda em Ciência da Informação na Universidade de Brasília (UnB); Brasília- DF. Pesquisadora no Instituto Brasileiro de Informação em Ciência e Tecnologia (Ibict), Brasília- DF.

Gustavo Cardoso Paiva, Instituto Brasileiro de Informação em Ciência e Tecnologia (Ibict)

Graduado em Museologia, Universidade de Brasília (UnB); Brasília- DF. Pesquisador no Instituto Brasileiro de Informação em Ciência e Tecnologia (Ibict), Brasília- DF.

Milton Shintaku, Instituto Brasileiro de Informação em Ciência e Tecnologia (Ibict)

Doutor em Ciência da Informação. Coordenador de Articulação, Geração e Aplicação de Tecnologia no Instituto Brasileiro de Informação em Ciência e Tecnologia (COTEC/Ibict), Brasília- DF.

Downloads

Publicado

17/08/2023

Como Citar

DO CARMO, D.; COSTA, P. H. R.; MARICATO, J. de M.; ALENCAR, T. M. de; PAIVA, G. C.; SHINTAKU, M. A Organização, mineração e inserção automatizada de dados documentais no Tainacan: propostas para os Bens Culturais Registrados pelo Iphan. Anais do Workshop de Informação, Dados e Tecnologia - WIDaT, [S. l.], v. 6, 2023. DOI: 10.22477/vi.widat.43. Disponível em: https://widat.ibict.br/index.php/widat2023/article/view/43. Acesso em: 6 abr. 2026.