Universidade de Brasília – UnB
Faculdade de Ciências Sociais Aplicadas
Departamento de Ciência da Informação e Documentação
Disciplina Monografia em Biblioteconomia
INDEXAÇÃO MANUAL VERSUS INDEXAÇÃO AUTOMÁTICA:
ESTUDO COMPARATIVO PRELIMINAR DA EFICIÊNCIA DE RECUPERAÇÃO DA INFORMAÇÃO NA INTERNET
ORIENTADOR: Prof. Dr. Jaime Robredo
ALUNO: Ayrão de Castro
e-mail – ayra_on@zipmail.com.br
Sumário
INTRODUÇÃO II
1 JUSTIFICATIVA 1
2 REVISÃO DE LITERATURA 2
2.1 INDEXAÇÃO MANUAL 2
2.1.1 Tempo estimado para indexação 2
2.2 INDEXAÇÃO AUTOMÁTICA 4
2.3 RECUPERAÇÃO DA INFORMAÇÃO 5
2.4 CONCEITOS E PROBLEMAS DA EXAUSTIVIDADE, PRECISÃO, SILÊNCIO E RUÍDO NA RECUPERAÇÃO DA INFORMAÇÃO 6
2.5 VANTAGENS E DESVANTAGENS DAS DUAS INDEXAÇÕES 8
3 PROBLEMA 11
3.1 DELIMITAÇÃO DO PROBLEMA 11
4 PRESSUPOSTO 12
5 OBJETIVOS 13
6 METODOLOGIA 14
7 ANÁLISE DE DADOS 15
7.1 DESCRIÇÃO DAS BASES 15
7.2 INDEXAÇÃO MANUAL E ESTIMATIVA DE TEMPO MÉDIO PARA INDEXAR MANUALMENTE E AUTOMATICAMENTE 16
7.3 VERIFICAR A EFICIÊNCIA DA RECUPERAÇÃO 18
7.3.1 Bases A (indexação manual) e B (indexação automática) 18
7.3.1.1 Índice de precisão 19
7.3.1.2 Índice de ruído 19
7.3.1.3 Índice de exaustividade 19
7.3.1.4 Índice de silêncio 21
8 CONCLUSÃO 22
ANEXOS 24
9 BIBLIOGRAFIA 31
Resumo
O presente trabalho estuda a indexação manual e automática comparando-as. Buscou-se estimar do tempo gasto para efetuar as duas indexações e definir índices de precisão, exaustividade, ruído e silêncio das bases analisadas.
Introdução
A cada dia são introduzidas inúmeras informações na internet em bancos de dados do mundo inteiro. O que é claramente visível para qualquer um que busca informação é a grande dificuldade em recuperar informações relevantes para as demandas freqüentes de informação.
Problemas como ruídos e possíveis silêncios na busca de informação, hoje cada vez mais urgente de precisão e rapidez na recuperação dos dados, geram a necessidade de maior atenção para estudos em bancos de dados para a internet.
Antes trabalhando com centenas de informações, o tratamento destas seguia com ótimos resultados, mas o advento da internet transformou estas centenas em milhares e milhões de informações. O tratamento de todas estas informações demandaria tempo e gastos altíssimos, o que não poderia ser uma solução aceitável.
Visto que já é comprovada a instalação do aplicativo CDS/ISIS na internet, tal aplicativo transformou-se em objeto de estudo neste trabalho, para que possa ser feita uma projeção dos eventos ocorridos com freqüência quando se busca informação na rede mundial, considerando este uma fração do universo total que é a internet.
1 Justificativa
O maior problema enfrentado na recuperação da informação na internet é a baixa confiabilidade da indexação dos registros armazenados nas bases de dados.
Existem vários trabalhos no Departamento de Ciência da Informação e Documentação – CID acerca da comparação entre indexação automática e indexação manual do ponto de vista da recuperação da informação na Internet. Entretanto, não há nestes documentos informação sobre vantagens e inconvenientes de ambos os métodos de indexação em relação à eficiência da busca e recuperação na Internet.
Outra monografia de fim de curso do Departamento de Ciência da Informação e Documentação – CID mostrou a possibilidade de adequar bases de dados bibliográficas para a Internet utilizando o aplicativo da BIREME, denominado WWWISIS. Neste trabalho foi utilizada uma técnica de indexação automática, consistindo da filtragem de varias palavras (preposições, artigos, conjunções, etc) .
2 Revisão de literatura
2.1 Indexação manual
As discussões acerca da construção de uma metodologia para recuperação da informação e formas de representação do documento (indexação) tiveram início em meados da década de 50 e avanço a partir dos anos 70. Nesses vinte anos muito se conseguiu no tocante a teoria, mas quanto ao processo, pouco havia sido tratado. O próprio conceito de indexação é tratado por muitos autores de maneira difusa. LEIVA (1999), atentou-se para presença de várias ações encontradas em conceituações de outros autores referindo-se ao ato de indexar. Indexação poderia retratar para diversos autores: “reter, assinar, extrair, captar, resumir, descrever, caracterizar, analisar, identificar” LEIVA (1999).
Para que um Sistema de Recuperação de Informação (SRI) possa atender a “pergunta” de um usuário, com tempos e respostas cabíveis, é preciso que os documentos sejam submetidos a um tratamento prévio. Caso este tratamento envolva a formação de classes de objetos (documentos) com base em seu conteúdo temático (LANCASTER, 1991) buscando representa-lo (sendo por meio de descritores, números de classificação ou atribuição de cabeçalhos de assunto), estará sento executada a indexação do assunto.
2.1.1 Tempo estimado para indexação manual
Quanto ao tempo estimado para a indexação manual não há um consenso. Autores e indexadores empiricamente demonstram que o de tempo gasto para indexar um documento automaticamente é infinitamente menor que o gasto para indexar um documento intelectualmente.
Em estudo de GUTIÉRREZ citado por LEIVA (1999) o indexador, para obter até 4 palavras-chave, necessitava de cinco minutos; para obter de 5 a 10 foram gastos cinco minutos; oito minutos para obter de 11 a 20 e doze minutos para um número de palavras-chave maior que 20. CLEVERDON (1962) citado por LEIVA (1999) apurou a existência de um tempo ótimo para a indexação de um documento, quatro minutos. Este autor levou em consideração um fator deixado de lado por GARCIA, o ambiente de trabalho do indexador. Sobre o mesmo assunto, AMAT (1989) apud LEIVA (1999) constatou que, para aproximadamente 10 termos, o indexador necessita de uma média de vinte minutos.
Baseado no exposto acima, a conclusão de LEIVA (1999) é que ainda não se conseguiu constatar o tempo real da indexação intelectual devido à existência de variáveis que ainda não podem ser controladas em pesquisa. As alterações dos resultados encontrados pelos autores supracitados se dão também pela variância metodológica e contextual vivida pelos autores que trabalharam este tema.
Serão enumeradas estas variáveis que não podem ser controladas dificultando a mensuração do tempo gasto para indexar manual:
· Método utilizado pelo indexador para analisar o documento não é uma constante, uma vez que cada indexador faz uso de caminhos cognitivos únicos (FUGITA, 1999);
· Extrai descritores em partes diferentes do mesmo documento (FUGITA, 1999);
· O ambiente tem influência direta na indexação seguindo preceitos de cada instituição (GUTIÉRREZ apud LEIVA, 1999);
· O tempo de leitura e extração de termos dos documentos depende do background do indexador (FUGITA), também não pode ser mensurado;
· A língua estrangeira pode ocasionar demora ao indexador que não tenha domínio de tal língua e pode ser rapidamente indexado por outro conhecedor do idioma;
· Leituras técnicas podem ocasionar uma maior demora na extração de termos;
2.2 Indexação automática
O conceito de indexação automática foi muito estudado nos anos seguintes à década de 70. Existe um grande número (aproximadamente vinte) de formas de denominar a indexação automática, mas todas se referindo a três conceitos diferenciados. São eles:
· Indexação assistida por computador durante o armazenamento da informação: programas informatizados que auxiliam no armazenamento da informação, uma vez obtido de modo intelectual;
· Indexação semiautomática: sistemas cujo objetivo é analisar o documento de forma automática para passar pela validação ou não de um profissional;
· Indexação automática: segundo VIEIRA (1988) a indexação automática é uma operação que identifica palavras e expressões significativas dos documentos, para descrever seu conteúdo de forma condensada por meio de programas de computador.
Dos três conceitos acima referidos, neste trabalho será tratado apenas o conceito de indexação automática, tendo em vista que os objetos analisados são bases de dados indexadas intelectualmente e automaticamente.
LANCASTER, (1991) aponta para dois tipos diferentes de indexação automática. A indexação por extração e a por atribuição.
A indexação automática por extração é aquela que, por métodos estatísticos, pode extrair palavras com certo grau de ocorrência em um documento. Este procedimento pode ser de grande ajuda para um indexador identificar possíveis descritores no texto analisado ou anunciar um termo a ser alterado para se tornar um descritor.
A indexação automática por atribuição é, das duas levantadas por Lancaster, a que mais se aproxima ao processo de indexação humana. Os programadores ainda encontram dificuldades ao tentar elaborar programas que executem as tarefas de atribuição.
Neste tipo de indexação são atribuídos outros conceitos aos termos selecionados. Geralmente vinculada a um vocabulário controlado, esta indexação oferece a termos freqüentes detectados por um sistema, novos termos relacionados e equivalentes, agregando novo valor à indexação automática feita no primeiro momento. Para exemplificar, digamos que em um texto a palavra “indexação automática” apareça com uma relativa freqüência. Uma vinculação ao vocabulário controlado poderia atribuir a este termo termos relacionados (indexação semiautomática, indexação manual, indexação de documentos não textuais etc.) ou termos equivalentes (automatic indexing, mechanized indexing, etc.). Este processo torna estes sistemas relativamente parecidos à indexação manual por atribuição, salvo os erros fatais de sinonímias, anáforas e elipses .
2.3 Recuperação da Informação
Inicialmente o surgimento de novas técnicas para o tratamento tradicional da informação pouco acrescentaram aos Sistemas de Recuperação da Informação (SRI). A capacidade de simular eventos repetitivos levou a sua utilização na elaboração de catálogos, índices, controles estatísticos e controles burocráticos a sua máxima, deixando de lado a capacidade de armazenamento e resposta aquém de seu potencial de uso.
No início da década de 60, uma nova forma de ver o computador se propaga. Não mais como um auxiliar incansável e sim como uma máquina que poderia também simular mecanismos mentais, podendo assim chegar a referenciar e/ou armazenar a informação. Essa nova rotina consiste no fornecimento de dados que representem fielmente a informação, permitindo ao computador interpretá-los, processá-los e fornecê-los de acordo com os parâmetros impostos pela pergunta.
Apesar de ter sofrido uma evolução considerável no processamento e resposta, os sistemas ainda mantinham as desvantagens de seu baixo índice de precisão e exaustão (recall). LANCASTER (1991) define coeficiente de precisão como sendo “a relação entre itens úteis e o total de itens recuperados” ou como “a capacidade de evitar itens inúteis” e coeficiente de exaustividade (recall) como “capacidade de encontrar documentos úteis”.
O SRI hoje se apresenta cada vez mais próximo dos usuários finais, mas o problema ainda é saber como recuperar os recursos de forma fácil e precisa. O usuário ainda encontra dificuldade no uso de tais sistemas.
Para fazer uso de tais sistemas, o usuário deve conhecer um grande número de informações que permeiam seu processo de busca (conhecimento de informática, idioma, organização dos dados, vocabulário técnico etc.), o que talvez dificulte a sua interação com o sistema.
2.4 Conceitos e problemas da exaustividade, precisão, silêncio e ruído na recuperação da informação
LEIVA (1999) afirma que a eficiência da recuperação está no ganho de exaustividade e precisão.
As formulas citadas abaixo foram extraídas do livro de ROBREDO (1994).
A precisão (relevance) consiste na capacidade de encontrar com a maior exatidão os documentos buscados. É a razão entre o total de documentos relevantes recuperados e o total de documentos encontrados (somatório dos documentos relevantes recuperados e de documentos não relevantes recuperados):
P = Q : A
Onde,
P = índice de precisão
Q = registros pertinentes recuperados
A = total de registros recuperados
A exaustividade (recall) é a razão entre os documentos relevantes recuperados e todos os documentos relevantes da base de dados:
R = Q : F
Onde,
R = índice de exaustividade;
Q = registros pertinentes recuperados
F = registros pertinentes no arquivo;
O problema encontrado nesta definição está na dificuldade de obter resultados consistentes para a variável F (registros pertinentes no arquivo). Para tanto seria necessário ter conhecimento de todos os documentos existentes na base de dados que satisfaçam a necessidade de uma determinada busca; o que é impossível visto que não se conhece todo o universo de dados em um banco de dados.
O mesmo problema se aplica ao coeficiente de silêncio (information loss) da base de dados. O silêncio da informação existe quando não se recupera alguma informação relevante na base de dados pesquisada e subscreve-se na razão do número de documentos perdidos pelos registros pertinentes existentes no arquivo. Saber com precisão quais os registros relevantes não foram recuperados numa pesquisa significa saber os registros relevantes existentes na base (saber o valor da variável F) o que ainda não se pode afirmar.
L = (F – Q) : F
Onde,
L = índice de silêncio;
Q = registros pertinentes recuperados
F = registros pertinentes no arquivo;
O coeficiente de ruído (information noise) é entendido pela “informação resultante de uma busca que não interessa ao usuário” LEIVA (1999) e consiste na razão entre os números de documentos não relevantes encontrados e o número de documentos encontrados.
N = (A – Q) : A
Onde,
N = índice de ruído;
Q = registros pertinentes recuperados
A = total de registros recuperados;
2.5 Vantagens e desvantagens das duas indexações
Para tratar das vantagens e desvantagens dos dois métodos de indexação analisados neste trabalho será necessário demonstrar as discussões apresentadas pelos autores desde os anos sessenta.
Os primeiros defensores da indexação automática fundamentaram seus ideais nos avanços da informática ocorridos nos anos sessenta e setenta com o desenvolvimento de ferramentas para o Processo de Linguagem Natural (PLN) e com os primeiros sistemas de inteligência artificial, sistemas esses passivos de constantes avanços (fácil desatualização) e amarrados a maquinário e programas para computador (compatibilidade).
Os problemas relacionados pelos autores defensores da indexação automática, criticando a indexação intelectual são:
· A indexação manual é subjetiva, lenta e custosa, o desenvolvimento da produção e publicação de documentos eletrônicos favorece a indexação automática;
· Ferramentas como os ordenadores tornam mais eficiente o trabalho do indexador;
· A indexação com base em PLN pode precisar uma indexação se utilizado um tesauro;
· A indexação manual é, geralmente, inconstante e de custo alto;
· Padronização de procedimentos não podem ser controlados pelos indexadores;
· A indexação automática é mais rápida, econômica, consistente e efetiva;
· Aumento da precisão na recuperação da informação;
· Maior objetividade, já que existe um padrão de procedimento;
· Reduz a possibilidade de ocorrerem erros enquanto indexado um registro;
· Apresenta uma recuperação mais rica.
· A indexação automática garante consistência de extração de termos em valores variando entre 25% e 60%.
Segundo LEIVA (1999), a indexação automática proporciona melhores resultados na utilização de palavras como termos de indexação, quando os termos são temas e quando se busca raiz de palavras (truncamento) .
Acrescentando ao exposto acima, há uma desvantagem envolvendo processo de leitura do indexador. Ao ler um documento, são ativadas funções mentais variadas, desde conhecimento de vocabulário e conhecimentos da estrutura textual e do assunto, até conhecimento do mundo. A leitura pode ser parcial, sofrendo a ação do contexto do leitor (seu conhecimento prévio, valores, crenças, preconceitos), o que pode levar a uma descrição injusta e, em pior hipótese, errônea.
Em contrapartida os detratores da indexação automática vêem uma degeneração da indexação humana, onde o indexador se converte em um mero observador dos indicadores estatísticos do programa informatizado. Estes autores argumentam sobre a impossibilidade do computador simular o conhecimento de um indexador profissional e que estes não tem a capacidade de analisar, detectar, relacionar e selecionar os conceitos explícitos, e principalmente implícitos, dos documentos que melhor representariam seu conteúdo. Fazem parte das críticas:
· O profissional indexador passa a ser um mero observador de dados estatísticos analisados pelo sistema;
· O indexador pode reconhecer os diferentes significados de uma palavra ou frase em seus diferentes contextos, tendo portanto, significado diferente;
· As palavras deixam de ser meros dados vazios de significado e tomam forma de representação mental de objetos do conhecimento;
· Tendo uma maior profundidade na análise de significados, evita problemas com a polissemia;
· Há sugestão de novos termos e seu acréscimo;
· Aumento do nível de precisão na recuperação da informação;
3 Problema
· Nos grandes volumes de dados e documentos atuais (Internet), como faz para obter resultados de busca/recuperação aceitáveis?
· A indexação automática pode oferecer qualidade igual ou melhor que a manual com menor preço?
3.1 Delimitação do problema
Não será tratada neste trabalho a instalação de base de dados e indexação manual ou automática na internet. O estudo limitar-se-á a indexação manual de mesma base (Base A) utilizando o motor de busca empregado por OLIVEIRA (2000), indexada automaticamente (Base B).
4 Pressuposto
Considerando maior gasto de tempo para indexar manualmente, comparado a uma indexação automática, para resultado da recuperação mais ou menos compatíveis, a indexação automática é mais econômica.
5 Objetivos
Verificar a eficiência da recuperação;
Estimar o tempo médio para indexar manualmente e automaticamente;
6 Metodologia
· Dados: Base Produção Científica de 1994/1995, no Micro Isis for Windows;
· Indexação automática: referindo ao procedimento de OLIVEIRA (2000);
· Indexação manual: método tradicional utilizando linguagem natural;
· Enumeração da recuperação e comparação dos resultados de pesquisa;
7 Análise de Dados
7.1 Descrição das bases
MicroISIS é a denominação comum para o conjunto de soluções da família ISIS (CDS/ISIS, MicroISIS, ISIS, WWWISIS). O nome MicroISIS vem da primeira versão do ISIS para Microcomputadores, em 1985. Trata-se de um software, desenvolvido e mantido pela Unesco para o tratamento genérico de informações.
Analisando bases de dados do CDS/ISIS para Windows buscou-se estudar a efetividade de dois tipos de indexação (manual e automática) na internet, partindo da conclusão de OLIVEIRA (2000) sobre a possibilidade de instalar o CDS/ISIS para Windows - Versão 1.3 de Novembro 1998 na internet utilizando o aplicativo WWWISIS.
Os dados analisados fazem parte dos compêndios da produção científica e artística dos anos de 1994 e 1995, publicados pela Universidade de Brasília – UnB em 1997 .
Para facilitar a compreensão às bases serão chamadas de A para os dados indexados manualmente e B para os dados indexados automaticamente.
Constatou-se um número total de 4728 registros nas versões impressas, sendo 1975 registros no ano de 1994 e 2659 registros no ano de 1995. A Base A, mostra um total de 3378 sendo que no ano de 1994 se obtém 1415 registros e em 1995 um número de 1963. Esta base apresentou aproximadamente 28% perda de dados com relação à versão impressa. Na Base B foi encontrado menos de 1% de perda de dados.
7.2 Indexação manual e estimativa de tempo médio para indexar manualmente e automaticamente
Foram indexados 506 documentos, equivalentes a aproximadamente 11% do total de registros dos livros de 1994 e 1995. Os dois critérios para escolha dos dados foram:
· Situação dos dados na base A, sendo indexados os 506 primeiros;
· Escolha de departamentos com menor incidência de perda de dados, o que reduziu a diferença das bases A e B de 27% para 8 %;
A extração dos termos tomou por fonte as referências bibliográficas contidas na Base A. Para a introdução de termos foi utilizado o seguinte procedimento:
· Correção do nome do autor transformando-o em abreviações no campo 35 (autor[es]) introduzindo-os entre os sinais de maior (<) e menor (>). Exemplo: SILVA, LUIS MARTINS = ;
· Introdução do tipo de documento no campo 650 (palavra-chave). Exemplo: <01> igual a
· Inserção dos Departamentos, Núcleos, Institutos e Faculdades. Exemplo: igual a
· Busca de descritores no campo 130 (título original), diferenciando-os pelos sinais de maior e menor. Exemplo: Teoria Assintótica das Estatísticas Extremais igual a das .
· Acréscimos de descritores no campo 650 (palavra-chave);
Um número maior de termos foi encontrado no título, mas alguns puderam ser encontrados em nomes de congressos, títulos de revistas e jornais. Como exemplo o termo “Colheita” presente somente no nome do congresso “Anais do 2.Simpósio Brasileiro sobre Colheita e Transporte Florestal”
Mesmo com a redução do campo de visão do indexador sobre o que realmente trata o assunto, já que a indexação apenas pelo título oferece somente uma generalização do assunto, foram extraídos em média 10 a 15 termos. Para tanto foram:
· Transformadas em descritores palavras que carregavam representação do texto;
· Aglutinadas palavras separadas dando assim o perfil de descritor. Exemplo: “Responsabilidade social das organizações” obtendo como termo “responsabilidade das organizações”;
· Tomando títulos completos como descritor. Exemplo: “Teoria dos números”;
· Transformando expressões existentes no plural para o singular e promovendo ambas, plural e singular a descritores. Exemplo: Buracos negros como primeiro termo e Buraco negro como segundo termo;
· Usando introduzindo descritores que melhor representem o assunto: Exemplo: no título “Origem e definição” introduzindo Origem do xadrez, História do xadrez e Definição do xadrez;
· Buscando variar a forma de entrada sempre que usado um termo composto. Exemplo: “automação da indexação” e também “indexação, automação”.
Optou-se pela alternância dos termos para devido à possibilidade de serem feitas buscas com truncamento no segundo termo e também pela facilidade de localização destes no dicionário do CDS/ISIS.
A falta de um vocabulário assunto fez com que os termos selecionados fossem incluídos apenas um critério de controle: a consulta no dicionário do CDS/ISIS, uma espécie de lista dos termos já existentes na base de dados, deixando a inclusão de descritores aberta à possibilidade de erros conceituais, de tradução e digitação. Isso teve influência direta na recuperação de dados, podendo aumentar o número de ruído ou ocasionando possível silêncio.
O tempo médio gasto para a indexação dos títulos foi de 25 minutos por referência analisada. Este grande gasto de tempo foi devido à inexperiência do indexador, falta do domínio do conhecimento das áreas indexadas (geralmente assuntos específicos de cada ciência), não adoção de tesauros específicos dos assuntos tratados na Base A e alguma dificuldade com a língua estrangeira (alguns termos técnicos do inglês tiveram que ser consultados em dicionários, títulos em alemão foram traduzidos palavra por palavra utilizando dicionário português – alemão).
7.3 Verificar a eficiência da recuperação
7.3.1 Bases A (indexação manual) e B (indexação automática)
Aplicou-se às bases A e B 30 (trinta) perguntas, cada uma gerando outras 10 perguntas utilizando as fórmulas abaixo:
(T¹ and T²), (T$¹ and T$²), (T¹ or T²) , (T$¹ or T$²), (T¹), (T$¹), (T²), (T$²), (T¹T²), (T¹T$²)
sendo,
T¹ = primeiro termo da pergunta;
T² = segundo termo da pergunta;
T$¹ = primeiro termo da pergunta com truncamento;
T$² = segundo termo com truncamento;
T¹T² = termo composto da pergunta;
T¹T² = termo composto da pergunta com truncamento;
As bases de dados, relativamente iguais em seu conteúdo, necessitam de critérios diferenciados na recuperação de dados como mostram os resultados.
A Base B mostrou melhor desempenho em recuperação de dados se questionada com a utilização dos boleanos “and” e “or” e também em truncamentos utilizando estes mesmos boleanos, mas obteve 0% de recuperação de dados utilizando termos compostos.
Quando a pergunta se formula com apenas um termo a Base B obtém maior recuperação, salvo casos em que a indexação manual tomou o termo como relevante (como o termo pseudoelasticos, por exemplo) e termos não utilizados pelos autores, acrescidos à base de dados (como o termo fitoquímica).
A Base A demonstrou eficiência na recuperação de informações com termos compostos e termos compostos utilizando truncamento. Os termos compostos foram também localizados quando a base foi questionada pela expressão T$¹ (primeiro termo da pergunta com truncamento). O mesmo resultado se seguiu para T$², já que na entrada dos dados foi tomado o cuidado de alterar as entradas.
7.3.1.1 Índice de precisão
Este trabalho provou que a indexação manual (Base A) atinge resultados um pouco melhores que a indexação automática (Base B). A diferença entre as duas indexações é de somente 17%.
Precisão BASE A Precisão BASE B
Soma de percentual 1015% 804%
Média 34% 27%
7.3.1.2 Índice de ruído
Os dados mostram uma maior ocorrência de ruído na indexação automática (Base B) demonstrando o melhor desempenho da indexação manual (Base A). A diferença entre os valores é de 6%.
Ruído na BASE A Ruído na BASE B
Soma de percentual 1323% 1516%
Média 44% 50%
7.3.1.3 Índice de exaustividade
Quanto à exaustividade este trabalho encontrou resultados apenas aproximados, visto que a variável F (registros pertinentes no arquivo) da fórmula de ROBREDO, que indica o número de registros pertinentes no arquivo não pode ser demonstrada com exatidão. Para encontrar estes valores foi considerado como verdade à premissa de que ambas as bases recuperariam, de uma forma ou outra, todos os documentos que satisfariam a busca, logo, caso uma base recuperasse um numero x e a outra base recuperasse um numero menor que este y, o a diferença entre esses dois números seria o valor aproximado de F.
F = (X – Y)
Para,
F= Registros pertinentes no arquivo;
X= maior valor de respostas pertinentes obtidos na recuperação das duas bases;
Y= menor valor de respostas pertinentes obtidos na recuperação das duas bases.
O resultado aproximado desses valores está expresso na tabela abaixo:
Exaustividade da Base A Exaustividade da Base B
Soma de percentual 20400% 44400%
Média 58% 71%
Este resultado deve, entretanto, ser considerados com cautela, já que se está trabalhando com um único termo, e sua relevância pode varia dentro do contexto específico do documento. Exemplo: numa pesquisa visando encontrar o autor MARFIM, Antonio Costa, se utilizados os à estrutura de busca COSTA and MARFIM, poderá ser encontrado também documentos que tratem do assunto COSTA do MARFIM, que não necessariamente podem ser relevantes à pesquisa.
Fica demonstrado, dentro dessa ressalva, então que a indexação automática (Base B) recupera, em um mesmo número de registros, mais informação relevante que a indexação manual (Base A).
7.3.1.4 Índice de silêncio
O exposto acima sobre a variável F (registros pertinentes no arquivo) é aplicado também no cálculo de silêncio entre as bases. Abaixo é demonstrado o resultado obtido
Silêncio Base A Silêncio Base B
Soma de percentual 914% 824%
Média 21% 9%
Como indica os resultados, a indexação automática (Base B) apresenta menor índice de documentos relevantes não recuperados.
8 Conclusão
Concluiu-se neste trabalho que a indexação automática opera com melhor eficiência na recuperação de informações, já que obtém menor índice de silêncio em grandes quantidades de dados e maior exaustividade, porém executa esta tarefa ainda com um número muito alto de ruído.
A indexação manual recuperou dados com maior precisão, mas devido a problemas no processo de indexação (método inconstante, variando de indexador para indexador, influência do ambiente, background do indexador, grau de conhecimento da língua estrangeira, grau de conhecimento do assunto e grau de conhecimento do vocabulário controlado), em grandes volumes de informação tem índice de silêncio significativo.
A indexação manual é por demais morosa e de custo muito alto em comparação aos níveis de produção alcançados pela indexação automática. Um indexador profissional tem um custo que varia entre 1.500 e 2000 reais por mês. Este profissional gastaria em média 1 mês para indexar 506 documentos. Em grandes quantidades de dados (bem acima dos mencionados aqui) o indexador automático, com índices de desempenho muito parecidos executaria a tarefa em minutos.
O trabalho alertou para a necessidade de um cuidado maior na hora de indexar manualmente. Antes a indexação era feita por um intermediário da informação. Esse profissional geralmente conhece as formas de se perguntar ao sistema e qual a melhor pergunta fazer. Com o advento da internet tem-se que tomar as devidas providências por parte do indexador para que o usuário remoto, sendo ele um pesquisador conhecedor de formas avançadas de busca ou um usuário não tão familiarizado com os motores de busca, possa encontrar o que está procurando. As formas de entrada devem ser amarradas de maneira a responder a um grande número de tipos diferentes de perguntas. Mas isto, em termos de indexação manual é inviável devido aos custos frente à indexação automática.
Finalizando, atento ao fato de novas pesquisas envolvendo a indexação automática, especialmente nos pontos obscuros neste trabalho, como a exaustividade e o silêncio que não puderam oferecer dados confiáveis.
Anexos 1
8.1 Tabelas de termos pesquisados nas bases A e B
Estrutura de busca Base A Base B Base A Base B Base A Base B Base A Base B Base A Base B Base A Base B
Termo teoria literaria historia do xadrez fadiga material ensino medico laser-base pseudoelasticidade formato
Truncamento teor$ liter$ hist$ xadr$ fadig$ material ensi$ medic$ laser$ bas$ pseudoelas$ form$
(T¹ and T²) 0 3 0 2 0 0 0 1 0 1 0 2
(T$¹ and T$²) 0 0 3 2 0 0 1 1 0 1 1 2
(T¹ or T²) 2 3 23 29 0 2 4 19 2 4 6 6
(T$¹ or T$²) 9 4 32 40 8 6 71 128 5 17 7 17
(T¹) 2 3 15 14 0 1 4 15 2 3 6 2
(T²) 0 0 8 13 0 1 0 4 0 1 0 6
(T$¹) 8 4 4 14 2 5 40 109 3 2 6 6
(T$²) 1 0 31 28 6 1 30 20 2 15 5 10
(T¹T²) 2 0 3 0 0 0 1 0 0 0 0 0
(T¹T$²) 2 0 3 0 2 0 1 0 0 0 0 0
Total 26 17 122 142 18 16 152 297 14 44 31 51
Estrutura de busca Base A Base B Base A Base B Base A Base B Base A Base B Base A Base B Base A Base B
Termo guerra mitologia egípcia fitoquimica sistema elíptico chagas tripanossoma buraco negro
Truncamento guer$ mitol$ egi$ fitoqui$ sistem$ el$ tripanos$ chaga$ burac$ negr$
(T¹ and T²) 0 0 0 0 0 0 0 0
(T$¹ and T$²) 0 0 3 4 0 0 0 2
(T¹ or T²) 0 0 1 10 11 44 0 1
(T$¹ or T$² 1 1 4 4 13 59 0 3
(T¹) 0 0 0 0 1 0 2 9 0 0 0 0
(T²) 0 1 5 1 11 44 0 1
(T$¹) 0 6 1 0 1 0 19 24 0 0 2 2
(T$²) 1 1 14 28 13 50 0 1
(T¹T²) 1 0 0 0 0 0 2 0
(T¹T$²) 1 0 2 0 0 0 2 0
Total 0 6 5 3 14 0 50 80 48 197 6 10
Estrutura de busca Base A Base B Base A Base B Base A Base B Base A Base B Base A Base B Base A Base B
Termo redação de dissertações subvariedade toroidal cerrado queimado leishamania leishamaniose subvariedade torroidal ciclopentanol etanol
Truncamento reda$ dissert$ subvarieda$ toroid$ cerrad$ queim$ leisha$ subconcav$ toroid$ cliclopent$ etan$
(T¹ and T²) 0 0 0 0 0 0 0 0 1 0 0 0
(T$¹ and T$²) 1 1 0 2 0 0 1 0 2 0 1 0
(T¹ or T²) 2 0 0 2 8 8 1 0 3 2 1 0
(T$¹ or T$² 2 1 0 6 8 8 1 0 3 2 3 4
(T¹) 0 0 0 6 8 8 1 0 3 0 0 2
(T²) 0 0 1 2 0 0 1 2 1 2
(T$¹) 2 1 0 6 8 8 1 0 3 0 1 2
(T$²) 1 1 2 2 0 1 2 2 3 2
(T¹T²) 1 0 0 0 0 0 0 0 0 0 0 0
(T¹T$²) 1 0 0 0 0 0 0 0 0 0 0 0
Total 10 4 3 26 32 33 5 0 18 8 8 12
Estrutura de busca Base A Base B Base A Base B Base A Base B Base A Base B Base A Base B Base A Base B
Termo schistosoma mansoni teoria do número$ mata ciliar sintese intermediários curva constante Constante de Avogrado
Truncamento schistos$ manso$ teor$ númer$ mata$ ciliar$ sinte$ intermed$ Curva$ constant$ Consta$ Avograd$
(T¹ and T²) 0 2 1 0 0 1 0 1 0 0 0 1
(T$¹ and T$²) 0 2 0 1 0 2 0 2 2 2 0 1
(T¹ or T²) 0 2 2 7 2 2 0 14 0 2 0 4
(T$¹ or T$² 1 6 15 15 11 10 12 15 7 7 4 4
(T¹) 0 2 2 3 0 7 0 14 0 0 0 4
(T²) 0 2 1 4 2 1 0 2 0 5 0 1
(T$¹) 1 3 7 5 10 10 12 15 5 3 4 4
(T$²) 0 5 9 13 0 2 0 2 2 4 0 1
(T¹T²) 1 0 1 0 2 0 0 0 2 0 1 0
(T¹T$²) 1 0 1 0 2 0 0 0 2 0 1 0
Total 4 24 39 48 29 35 24 65 20 23 10 20
Estrutura de busca Base A Base B Base A Base B Base A Base B Base A Base B Base A Base B Base A Base B
Termo grupo finito sistema mecanico rearranjo genico Darwinismo e neodarwinismo solução viscosa Laplace Cartan
Truncamento grup$ fini$ sistem$ mecanic$ rearan$ gen$ darwi$ neodarwi$ solu$ visco$ Lapla$ Cart$
(T¹ and T²) 1 0 0 0 0 1 1 1 0 0 1 1
(T$¹ and T$²) 1 5 0 3 0 2 1 1 1 1 1 1
(T¹ or T²) 2 4 2 9 0 1 1 1 0 0 3 3
(T$¹ or T$² 7 15 24 76 1 9 1 1 6 9 3 3
(T¹) 2 2 2 9 0 1 1 1 0 0 3 3
(T²) 1 2 0 0 0 1 1 1 0 0 1 1
(T$¹) 5 8 19 24 0 2 1 1 2 6 3 3
(T$²) 4 10 5 52 1 7 1 1 5 2 1 1
(T¹T²) 2 0 0 0 0 0 1 0 1 0 0 0
(T¹T$²) 2 0 0 0 0 0 1 0 1 0 0 0
Total 27 46 52 173 2 21 10 8 16 18 16 16
ANEXO 2
Tabelas de índices de resposta dos bancos A e B
A Q (A - Q) (F - Q) R P N L
Base A 9 2 7 0 100% 100% 22% 0%
Base B 4 0 4 2 0% 0% 100% 0%
A Q (A - Q) (F - Q) R P N L
Base A 32 3 29 0 100% 9% 90% 0%
Base B 40 2 38 1 66% 5% 95% 66%
A Q (A - Q) (F - Q) R P N L
Base A 8 2 6 0 100% 25% 75% 0%
Base B 40 2 38 0 100% 5% 95% 0%
A Q (A - Q) (F - Q) R P N L
Base A 71 1 70 0 100% 1% 98% 0%
Base B 128 1 127 0 100% 1% 99% 0%
A Q (A - Q) (F - Q) R P N L
Base A 5 1 4 0 100% 22% 80% 0%
Base B 17 1 16 0 100% 5% 94% 0%
A Q (A - Q) (F - Q) R P N L
Base A 7 1 6 1 50% 14% 85% 50%
Base B 17 2 15 0 100% 13% 88% 0%
A Q (A - Q) (F - Q) R P N L
Base A 0 0 0 6 0% 0% 0% 100%
Base B 6 6 0 1 100% 100% 0% 0%
A Q (A - Q) (F - Q) R P N L
Base A 1 1 0 0 100% 100% 0% 0%
Base B 1 1 0 0 100% 100% 0% 0%
A Q (A - Q) (F - Q) R P N L
Base A 1 1 0 0 100% 100% 0% 0%
Base B 0 0 0 1 0% 0% 0% 100%
A Q (A - Q) (F - Q) R P N L
Base A 4 3 1 0 100% 75% 33% 0%
Base B 4 2 2 1 66% 50% 66% 66%
A Q (A - Q) (F - Q) R P N L
Base A 13 13 0 37 20% 100% 0% 74%
Base B 59 50 9 0 100% 84% 15% 0%
A Q (A - Q) (F - Q) R P N L
Base A 2 2 0 0 100% 100% 0% 0%
Base B 2 2 0 0 100% 100% 0% 0%
A Q (A - Q) (F - Q) R P N L
Base A 1 1 0 1 50% 100% 0% 50%
Base B 6 2 4 0 100% 33% 66% 33%
A Q (A - Q) (F - Q) R P N L
Base A 15 1 14 0 100% 20% 93% 0%
Base B 15 1 14 0 100% 20% 93% 0%
A Q (A - Q) (F - Q) R P N L
Base A 11 2 9 0 100% 18% 81% 0%
Base B 10 2 8 0 100% 20% 80% 0%
A Q (A - Q) (F - Q) R P N L
Base A 12 0 12 2 0% 0% 100% 100%
Base B 15 2 13 0 100% 13% 86% 0%
A Q (A - Q) (F - Q) R P N L
Base A 7 2 5 0 100% 28% 71% 0%
Base B 7 2 5 0 100% 28% 71% 0%
A Q (A - Q) (F - Q) R P N L
Base A 4 1 3 0 100% 25% 75% 0%
Base B 4 1 3 0 100% 25% 75% 0%
A Q (A - Q) (F - Q) R P N L
Base A 7 2 5 3 40% 28% 71% 60%
Base B 15 5 10 0 100% 33% 66% 0%
A Q (A - Q) (F - Q) R P N L
Base A 24 0 24 3 0% 0% 100% 100%
Base B 76 3 73 0 100% 3% 96% 0%
A Q (A - Q) (F - Q) R P N L
Base A 1 0 1 2 0% 0% 100% 100%
Base B 9 2 7 0 100% 22% 77% 0%
A Q (A - Q) (F - Q) R P N L
Base A 1 1 0 0 100% 100% 0% 0%
Base B 1 1 0 0 100% 100% 0% 0%
A Q (A - Q) (F - Q) R P N L
Base A 6 1 5 0 100% 16% 83% 0%
Base B 9 1 8 0 100% 11% 88% 0%
A Q (A - Q) (F - Q) R P N L
Base A 3 1 2 0 100% 33% 66% 0%
Base B 3 1 2 0 100% 33% 66% 0%
9 Bibliografia
COHEN, Laura. Boolean Searching on the Internet. 1999. URL: http://www.albany.edu/library/internet/boolean.html (Obtido em 25/05/1999)
FUGITA, Mariângela Spotti Lopes. A leitura do indexador: estudo de observação. Perspect. cienc. inf., Belo Horizonte, v.4, n. 1, p. 101 – 116, jan/ jun. 1999.
LANCASTER, F. W. Indexação e resumos: teoria e prática. Brasília: Briquet de lemos, 1991.
LAKATOS, Eva Maria. Metodologia do trabalho científico. 4.ed. São Paulo: Atlas, 1992.
LEIVA, Isidoro Gil. La automatización de la indización de documentos. Madrid: Trea, 1999.
OLIVEIRA, Leandro Rodor de. Disponibilização de bases de dados CDS ISIS na internet. Brasília: Departamento de Ciência da Informação e Documentação, 1999. Monografia (Biblioteconomia)
ROBREDO, Jaime. Documentação de hoje e de amanhã. São Paulo: Global, 1994 (edição fac-símilar da 2.ed. publicada pelo autor)
UNIVERSIDADE DE BRASÍLIA. Produção científica e Artística: 1994. Brasília: UnB, 1997.
UNIVERSIDADE DE BRASÍLIA. Produção científica e Artística: 1994. Brasília: UnB, 1997.
WIVES, Leandro Krug. Tecnologias de Descoberta de conhecimento em textos aplicadas à inteligência competitiva. Porto Alegre: Universidade Federal do Rio Grande do Sul, 2000.