Termos, relacionamentos e representatividade na indexação de texto para recuperação de informação
Abstract
Uma das fases da recuperação de informação é a indexação dos textos dos documentos. Nesta fase, um conjunto de descritores (termos e/ou relacionamentos entre termos) descreve conceitos (atômicos e/ou complexos) presentes nos textos. Diversas estratégias com tais finalidades são encontrados na bibliografia, algumas consideram dependência de termos e outras não. Com o objetivo de apresentar uma visão geral das estratégias de representação de textos que consideram dependência de termos, são descritas quatro experiências onde as representatividades dos relacionamentos dependem dos termos componentes (estratégias com índices múltiplos, com árvore binária, com triplas e com famílias morfológicas), três onde as representatividades dos relacionamentos dependem de suas próprias freqüências de ocorrência (estratégias com expressões de índice, com pares lematizados e com expressões ternárias), duas onde os relacionamentos são reconhecidos mas não são utilizados como descritores (estratégias com nodos temáticos e com conexões gramaticais) e uma experiência onde os relacionamentos são eminentemente estatísticos (estratégia com bitermos).
Downloads
Downloads
Published
How to Cite
Issue
Section
License
Copyright
The submission of originals to Letras de Hoje implies the transfer by the authors of the right for publication. Authors retain copyright and grant the journal right of first publication. If the authors wish to include the same data into another publication, they must cite Letras de Hoje as the site of original publication.
Creative Commons License
Except where otherwise specified, material published in this journal is licensed under a Creative Commons Attribution 4.0 International license, which allows unrestricted use, distribution and reproduction in any medium, provided the original publication is correctly cited.