O projeto de pesquisa sofreu algumas alterações no seu objetivo principal e nos objetivos específicos, alem da metodologia a ser utilizada. A base empírica que no pré-projeto estava definida, tambem esta em fase de modificação, não possuindo ainda uma base de textos para investigação. O resumo e o problema não sofreram alterações.
Resumo
Esta pesquisa aborda a aplicação da técnica de Descoberta de Conhecimento em Textos (DCT), com recursos avançados de Processamento de Linguagem Natural (PLN). Seu objetivo é verificar a eficiência do processo de DCT com uso de métodos linguísticos e não só estatísticos. O estudo propõe identificar automaticamente estruturas com potencial de descrever o conhecimento contido no texto, classificá-las morfologicamente, reorganizá-las, para, enfim, executar procedimento de efetiva descoberta de conhecimento.
Identificação do Problema
Estima-se que 80% das informações de uma empresa estão armazenadas em formato textual, informações essas que frequentemente não são percebidas, manipuladas e utilizadas como um potencial produto organizacional das instituições. O volume enorme de dados gerados e a dificuldade de recuperação da informação contida nos textos são os fatores principais para o abandono, com o passar do tempo, do conhecimento registrado em texto.
A descoberta de conhecimento em texto (DCT) surge como uma forma de resolver essa questão, porem o uso de métodos simplesmente quantitativos no pré processamento dos dados gera resultados insatisfatórios devido a inúmeros problemas linguísticos não tratados de forma automática.
Objetivo
O objetivo principal da pesquisa é verificar se o uso de métodos linguísticos no processamento automático de textos em língua natural aumenta a precisão e a eficiência na descoberta de conhecimento
Objetivo específico
Identificar problemas linguísticos de representação do conhecimento, classificando-os em problemas de função (morfológica ou sintática), significação (semântica) ou contextualização (pragmática).
Analisar e propor soluções automáticas, quando possível, para os problemas identificados.
Identificar ferramentas adequadas para resolução dos problemas linguísticos de forma automática.
Propor aplicação das ferramentas disponíveis para o tratamento dos dados em bases de textos na fase de pré-processamento, antes da efetiva mineração.
Comparar o resultado da DCT obtido com técnicas avançadas de Processamento de Linguagem Natural (PLN) em relação ao resultado sem os tratamentos linguísticos.
Método
O método utilizado na pesquisa será o Método de Arquitetura da Informação Aplicada - MAIA. Esse método foi proposto por Ismael Costa em sua dissertação de mestrado orientada pelo Professor Mamede e defendida no final de 2009. Para ter acesso a pesquisa, clique aqui. O método propõe um olhar humanista para sistemas de Informação. Utilizar um método proposto no departamento nessa pesquisa irá auxiliar a trazer uma visão da Ciência da Informação sobre o tema, pois as técnicas de Descoberta de Conhecimento em Textos e Processamento de Linguagem Natural são geralmente abordadas com uma visão da Ciência da Computação.
Base conceitual
Base de conhecimento ligado a Ciência da Informação, Linguística e Processamento de Linguagem Natural.
Base empírica
A base empírica para a investigação ainda não foi definida, porém será uma base de textos em lingua portuguesa.
segunda-feira, 13 de setembro de 2010
Assinar:
Postar comentários (Atom)
Nenhum comentário:
Postar um comentário