Acesso a informação

sexta-feira, 19 de março de 2010

Pré-projeto de pesquisa

Resumo

Esta pesquisa aborda a aplicação da técnica de Descoberta de Conhecimento em Textos (DCT), com recursos avançados de Processamento de Linguagem Natural (PLN). Seu objetivo é verificar a eficiência do processo de DCT com uso de métodos linguísticos e não só estatísticos. O estudo propõe identificar automaticamente estruturas com potencial de descrever o conhecimento contido no texto, classificá-las morfologicamente, reorganizá-las, para, enfim, executar procedimento de efetiva descoberta de conhecimento.

Identificação do Problema

Estima-se que 80% das informações de uma empresa estão armazenadas em formato textual, informações essas que frequentemente não são percebidas, manipuladas e utilizadas como um potencial produto organizacional das instituições. O volume enorme de dados gerados e a dificuldade de recuperação da informação contida nos textos são os fatores principais para o abandono, com o passar do tempo, do conhecimento registrado em texto.
A descoberta de conhecimento em texto (DCT) surge como uma forma de resolver essa questão, porem o uso de métodos simplesmente quantitativos no pré processamento dos dados gera resultados insatisfatórios devido a inúmeros problemas linguísticos não tratados de forma automática.

Objetivo

Propor uma metodologia de Processamento de Linguagem Natural para uso na Descoberta de Conhecimento em Texto visando solucionar problemas lingüísticos ocorridos em processamento automático de textos em língua portuguesa com o uso de métodos simplesmente estatísticos, aumentando a precisão e eficiência na descoberta de conhecimento contido em dados não estruturados.

Objetivo específico

• Testar a eficácia do uso de técnicas avançadas de PLN aplicada em DCT em comparação com a utilização de métodos convencionais.
• Extrair conhecimento da base textual com aplicação da DCT e PLN e identificar padrões e relacionamentos dos dados descritos com base no conteúdo dos textos analisados.
• Criar classificação automática dos textos através da DCT.


Apresentação

Me chamo Carlos Duarte ou simplesmente Duarte. Sou aluno do Professor Andre Porto na disciplina Metodologia em Ciência da Informação, blog http://metodologiaci.blogspot.com/. Essa pesquisa é na linha Representação e Organização da Informação e do Conhecimento.

Nenhum comentário:

Postar um comentário