Acesso a informação

segunda-feira, 13 de setembro de 2010

Situaçao atual do projeto

O projeto de pesquisa sofreu algumas alterações no seu objetivo principal e nos objetivos específicos, alem da metodologia a ser utilizada. A base empírica que no pré-projeto estava definida, tambem esta em fase de modificação, não possuindo ainda uma base de textos para investigação. O resumo e o problema não sofreram alterações.


Resumo

Esta pesquisa aborda a aplicação da técnica de Descoberta de Conhecimento em Textos (DCT), com recursos avançados de Processamento de Linguagem Natural (PLN). Seu objetivo é verificar a eficiência do processo de DCT com uso de métodos linguísticos e não só estatísticos. O estudo propõe identificar automaticamente estruturas com potencial de descrever o conhecimento contido no texto, classificá-las morfologicamente, reorganizá-las, para, enfim, executar procedimento de efetiva descoberta de conhecimento.

Identificação do Problema

Estima-se que 80% das informações de uma empresa estão armazenadas em formato textual, informações essas que frequentemente não são percebidas, manipuladas e utilizadas como um potencial produto organizacional das instituições. O volume enorme de dados gerados e a dificuldade de recuperação da informação contida nos textos são os fatores principais para o abandono, com o passar do tempo, do conhecimento registrado em texto.
A descoberta de conhecimento em texto (DCT) surge como uma forma de resolver essa questão, porem o uso de métodos simplesmente quantitativos no pré processamento dos dados gera resultados insatisfatórios devido a inúmeros problemas linguísticos não tratados de forma automática.

Objetivo

O objetivo principal da pesquisa é verificar se o uso de métodos linguísticos no processamento automático de textos em língua natural aumenta a precisão e a eficiência na descoberta de conhecimento

Objetivo específico

Identificar problemas linguísticos de representação do conhecimento, classificando-os em problemas de função (morfológica ou sintática), significação (semântica) ou contextualização (pragmática).

Analisar e propor soluções automáticas, quando possível, para os problemas identificados.

Identificar ferramentas adequadas para resolução dos problemas linguísticos de forma automática.

Propor aplicação das ferramentas disponíveis para o tratamento dos dados em bases de textos na fase de pré-processamento, antes da efetiva mineração.

Comparar o resultado da DCT obtido com técnicas avançadas de Processamento de Linguagem Natural (PLN) em relação ao resultado sem os tratamentos linguísticos.

Método

O método utilizado na pesquisa será o Método de Arquitetura da Informação Aplicada - MAIA. Esse método foi proposto por Ismael Costa em sua dissertação de mestrado orientada pelo Professor Mamede e defendida no final de 2009. Para ter acesso a pesquisa, clique aqui. O método propõe um olhar humanista para sistemas de Informação. Utilizar um método proposto no departamento nessa pesquisa irá auxiliar a trazer uma visão da Ciência da Informação sobre o tema, pois as técnicas de Descoberta de Conhecimento em Textos e Processamento de Linguagem Natural são geralmente abordadas com uma visão da Ciência da Computação.

Base conceitual

Base de conhecimento ligado a Ciência da Informação, Linguística e Processamento de Linguagem Natural.

Base empírica

A base empírica para a investigação ainda não foi definida, porém será uma base de textos em lingua portuguesa.

quinta-feira, 2 de setembro de 2010

A não neutralidade da ciência em Tomanik

A não neutralidade da Ciência em Tomanik(2004)


Eduardo Tomanik em seu livro “Um olhar no espelho” trata sobre a não neutralidade da ciência e esse tema gera sempre muita discussão entre os cientistas. A ciência não precisa ser neutra para ser considerada um elemento fundamental para o conhecimento sobre os fatos? Quando um cientista propõe uma hipótese e a investiga, sem a neutralidade, essa hipótese não seria sempre confirmada? Os métodos científicos e a analise dos pares não garante a neutralidade da ciência?
A neutralidade pressupõe, do ponto de vista científico, o não envolvimento do cientista com o objeto de sua ciência, o que para Tomanik é impossível. O cientista esta completamente envolvido com sua pesquisa em todos as suas etapas. Vejamos um modelo básico para planejamento de uma pesquisa proposto por Tomanik para os iniciantes na Ciência.


Adaptado de Tomanik(2004)

Eduardo Tomanik ao propor esse modelo, esclarece que não é o único modelo correto, alem de exemplificar durante todo seu livro, que o uso de um manual para todo o tipo de pesquisa pode levar a grandes erros. Porem, vamos nos ater as fases. Na fase do tema, a escolha é do pesquisador ou do seu grupo de pesquisa, ou seja, é uma definição subjetiva, baseada em interesses pessoais.
Fundamentação teórica é a busca por autores científicos que tratam o tema proposto na fase inicial. É nessa fase, segundo Tomanik, que se separa uma pesquisa científica de uma pesquisa baseada no senso comum. Porem, o pesquisador é que escolhe os autores, segundo os seus critérios.
Definição detalhada do problema é uma fase completamente definida pelo pesquisador. Que aspecto desse tema é importante? O que essa pesquisa pretende responder?
A hipótese, que é uma resposta provável e provisória ao problema também é fruto do pesquisador e seu trabalho nas fases anteriores.
Os procedimentos e métodos utilizados dependem da escolha dos objetivos da pesquisa. Apenas quando se sabe o que pesquisar é que se pode definir o como.

Podemos observar que em todas as etapas do planejamento a definição é do pesquisador, e suas escolhas serão baseadas em seus conhecimentos, crenças, necessidades e objetivos. Não é possível pensar em uma neutralidade completa da ciência, pois ela é produzida por cientistas que precisam tomar decisões, fazer escolhas e toda escolha não é neutra.
Porem, o pesquisador não tem liberdade de fazer o que quiser. Se assim fosse, não existiria uma continuidade do conhecimento. Não seria possível aproveitar de um trabalho anterior, pois esse conhecimento seria fruto apenas de uma pessoa e serviria apenas para o seu mundo. O processo de conhecimento é sobre algo(objeto) e visa ser aproveitado. Sendo assim a descrição do objeto, mesmo que seja totalmente subjetiva, precisa ser clara e o mais próxima da realidade. Quais aspectos foram considerados e quais não foram considerados? Quais cientistas também tem a mesma visão sobre esse fenômeno? E quais observam de forma diferente? A base teórica, os objetivos, o pesquisador, a época e outras variáveis precisam ser claras para compreender a base empírica e as conclusões de um trabalho científico.
A não neutralidade da ciência colocada por Tomanik não diminui a sua importância na aquisição do conhecimento sobre a realidade, apenas nos demonstra que não podemos considerar apenas esse conhecimento como verdade absoluta. Todo conhecimento produzido tem seus limites e seus campos de observação, compreender esses limites faz parte do processo de compreensão e produção do conhecimento científico.

TOMANIK, Eduardo Augusto. O olhar no espelho: “conversas” sobre a pesquisa em Ciências Sociais. Maringá: Eduem, 2004.