Acesso a informação

segunda-feira, 13 de setembro de 2010

Situaçao atual do projeto

O projeto de pesquisa sofreu algumas alterações no seu objetivo principal e nos objetivos específicos, alem da metodologia a ser utilizada. A base empírica que no pré-projeto estava definida, tambem esta em fase de modificação, não possuindo ainda uma base de textos para investigação. O resumo e o problema não sofreram alterações.


Resumo

Esta pesquisa aborda a aplicação da técnica de Descoberta de Conhecimento em Textos (DCT), com recursos avançados de Processamento de Linguagem Natural (PLN). Seu objetivo é verificar a eficiência do processo de DCT com uso de métodos linguísticos e não só estatísticos. O estudo propõe identificar automaticamente estruturas com potencial de descrever o conhecimento contido no texto, classificá-las morfologicamente, reorganizá-las, para, enfim, executar procedimento de efetiva descoberta de conhecimento.

Identificação do Problema

Estima-se que 80% das informações de uma empresa estão armazenadas em formato textual, informações essas que frequentemente não são percebidas, manipuladas e utilizadas como um potencial produto organizacional das instituições. O volume enorme de dados gerados e a dificuldade de recuperação da informação contida nos textos são os fatores principais para o abandono, com o passar do tempo, do conhecimento registrado em texto.
A descoberta de conhecimento em texto (DCT) surge como uma forma de resolver essa questão, porem o uso de métodos simplesmente quantitativos no pré processamento dos dados gera resultados insatisfatórios devido a inúmeros problemas linguísticos não tratados de forma automática.

Objetivo

O objetivo principal da pesquisa é verificar se o uso de métodos linguísticos no processamento automático de textos em língua natural aumenta a precisão e a eficiência na descoberta de conhecimento

Objetivo específico

Identificar problemas linguísticos de representação do conhecimento, classificando-os em problemas de função (morfológica ou sintática), significação (semântica) ou contextualização (pragmática).

Analisar e propor soluções automáticas, quando possível, para os problemas identificados.

Identificar ferramentas adequadas para resolução dos problemas linguísticos de forma automática.

Propor aplicação das ferramentas disponíveis para o tratamento dos dados em bases de textos na fase de pré-processamento, antes da efetiva mineração.

Comparar o resultado da DCT obtido com técnicas avançadas de Processamento de Linguagem Natural (PLN) em relação ao resultado sem os tratamentos linguísticos.

Método

O método utilizado na pesquisa será o Método de Arquitetura da Informação Aplicada - MAIA. Esse método foi proposto por Ismael Costa em sua dissertação de mestrado orientada pelo Professor Mamede e defendida no final de 2009. Para ter acesso a pesquisa, clique aqui. O método propõe um olhar humanista para sistemas de Informação. Utilizar um método proposto no departamento nessa pesquisa irá auxiliar a trazer uma visão da Ciência da Informação sobre o tema, pois as técnicas de Descoberta de Conhecimento em Textos e Processamento de Linguagem Natural são geralmente abordadas com uma visão da Ciência da Computação.

Base conceitual

Base de conhecimento ligado a Ciência da Informação, Linguística e Processamento de Linguagem Natural.

Base empírica

A base empírica para a investigação ainda não foi definida, porém será uma base de textos em lingua portuguesa.

Nenhum comentário:

Postar um comentário