Detección de paráfrasis utilizando algoritmos de aprendizaje maquinal Público Deposited

La detección de paráfrasis es una importante área de estudio, dentro del procesamiento del lenguaje natural (PLN), con muchas aplicaciones como: la generación de respuestas automáticas, mejoras en el desempeño en traducciones automáticas, ranking de consultas, asignación de autoría y detección de plagio. El fenómeno lingüístico de la paráfrasis ha sido estudiado, desde un enfoque computacional, proponiendo modelos de inteligencia artificial que codifican el texto y pronostican el grado de similitud semántica. Todo modelo propuesto es guiado por datos y mucho del desempeño de los modelos depende de la calidad y cantidad de los datos que se utilizan para realizar la fase de entrenamiento. En este trabajo presentamos la creación de un nuevo corpus de paráfrasis extrayendo segmentos discursivos de un repositorio de tesis académicas. También proponemos una serie de modelos, basados en algoritmos de aprendizaje maquinal, que analizan y clasifican un par de textos en las clases paráfrasis y no paráfrasis. Además, utilizamos el modelo que obtuvo el mejor desempeño para generar una representación visual de la comparación de pares de documentos y ver como se distribuye la similitud semántica entre ellos. El corpus que generamos cuenta con un total de 1,203,964 pares de oraciones de los documentos que procesamos y el desempeño del mejor modelo obtenido alcanza una exactitud, en promedio, de 94 % (sobre los datos del nuevo corpus). La comparación de documentos, página por página, muestra correctamente como se distribuye la similitud semántica y las regiones donde se concentra la mayor similitud encontrada. Palabras clave: Aprendizaje Maquinal; Paráfrasis; Corpus; Aprendizaje profundo;

Relacionamentos

No conjunto administrativo:

Descrições

Nome do AtributoValores
Creador
Colaboradores
Tema
Editor
Idioma
Identificador
Palavra-chave
Año de publicación
  • 2022
Tipo de Recurso
Derechos
División académica
Línea académica
Licencia
Última modificação: 01/11/2024
Citações:

EndNote | Zotero | Mendeley

Unid