Modelados de Tópicos. Clasificación no supervisada con LDA

Fil: Gogni, Valeria. Universidad de Buenos Aires. Facultad de Ciencias Económicas; Argentina.

Bibliographic Details
Main Authors: Gogni, Valeria, Bianco, María José
Format: video
Language:spa
Published: 2020
Subjects:
Online Access:http://hdl.handle.net/11086/16847
_version_ 1801216515937140736
author Gogni, Valeria
Bianco, María José
author_facet Gogni, Valeria
Bianco, María José
author_sort Gogni, Valeria
collection Repositorio Digital Universitario
description Fil: Gogni, Valeria. Universidad de Buenos Aires. Facultad de Ciencias Económicas; Argentina.
format video
id rdu-unc.16847
institution Universidad Nacional de Cordoba
language spa
publishDate 2020
record_format dspace
spelling rdu-unc.168472021-09-23T11:54:41Z Modelados de Tópicos. Clasificación no supervisada con LDA Gogni, Valeria Bianco, María José Tópicos Modelado Algoritmo Variables latentes Covid 19 Fil: Gogni, Valeria. Universidad de Buenos Aires. Facultad de Ciencias Económicas; Argentina. Fil: Bianco, María José. Universidad de Buenos Aires. Facultad de Ciencias Económicas; Argentina. El modelado de tópicos es una técnica avanzada de recuperación de información que automáticamente encuentra los temas generales en un conjunto de documentos de texto. Intenta encontrar temáticas implícitas en un conjunto de textos, permitiendo así organizar, comprender, buscar y resumir automáticamente gran cantidad de archivos electrónicos. Busca reducir la matriz de termino-documento, difícil de procesar debido a su tamaño, a un subespacio de menor dimensión que capture la mayor parte de la varianza en un set de textos y en consecuencia poder agruparlos. Existen diversos algoritmos para implementar esta técnica, siendo los más referenciados: LDA (Latent Dirichlet Allocation), LSI (Latent Semantic Indexing) HDP (Hierarchical Dirichlet Process). LDA es una herramienta potente a la hora de determinar variables ocultas en grandes volúmenes de texto, siendo uno de los métodos más relevantes en clasificación no supervisada. Pertenece a la familia de modelos generativos probabilísticos donde mediante un proceso generativo se define una distribución conjunta de probabilidad sobre las variables latentes y observables y se pretende calcular la probabilidad condicional de las variables latentes dadas las variables observables, es decir, la distribución a posteriori. Para calcular la probabilidad a posteriori se aplica el algoritmo Gibbs Sampling que aproxima una distribución muestreando subconjuntos de variables con baja dimensionalidad, donde cada subconjunto está condicionado por los valores de los otros. Se itera secuencialmente hasta que la aproximación converge a un valor próximo a la distribución original. Su mayor ventaja reside en que las variables latentes representan la estructura temática de dichos documentos permitiendo así, realizar una clasificación en forma automática. El objetivo de este trabajo es aplicar el algoritmo LDA a un conjunto de documentos periodísticos nacionales de actualidad relacionados a la temática de COVID-19 identificando tópicos implícitos que nos permitan comprender y resumir automáticamente la información. Fil: Gogni, Valeria. Universidad de Buenos Aires. Facultad de Ciencias Económicas; Argentina. Fil: Bianco, María José. Universidad de Buenos Aires. Facultad de Ciencias Económicas; Argentina. 2020-11-20T21:35:55Z 2020-11-20T21:35:55Z 2020-10 video http://hdl.handle.net/11086/16847 spa Atribución-NoComercial-CompartirIgual 4.0 Internacional http://creativecommons.org/licenses/by-nc/4.0/
spellingShingle Tópicos
Modelado
Algoritmo
Variables latentes
Covid 19
Gogni, Valeria
Bianco, María José
Modelados de Tópicos. Clasificación no supervisada con LDA
title Modelados de Tópicos. Clasificación no supervisada con LDA
title_full Modelados de Tópicos. Clasificación no supervisada con LDA
title_fullStr Modelados de Tópicos. Clasificación no supervisada con LDA
title_full_unstemmed Modelados de Tópicos. Clasificación no supervisada con LDA
title_short Modelados de Tópicos. Clasificación no supervisada con LDA
title_sort modelados de topicos clasificacion no supervisada con lda
topic Tópicos
Modelado
Algoritmo
Variables latentes
Covid 19
url http://hdl.handle.net/11086/16847
work_keys_str_mv AT gognivaleria modeladosdetopicosclasificacionnosupervisadaconlda
AT biancomariajose modeladosdetopicosclasificacionnosupervisadaconlda