Pesquisa
Caixa de Diálogo
Para efetuar uma pesquisa o usuário faz uso de uma amigável caixa de diálogo que
sumariza as várias possibilidades, mostra as palavras indexadas e o histórico das
pesquisas anteriores.
A pesquisa pode ser feita por palavras, frases, palavras com erros de grafia, usando
sinônimos etc. Os tipos básicos de pesquisa estão descritos nos tópicos a seguir.
Pesquisa por Frases
- Operadores Booleanos: permitem simplesmente clicar para adicionar
conectores como e/ou/não em qualquer pesquisa de palavras ou frases.
- Pesquisa por proximidade: permite especificar o distanciamento entre os termos da
pesquisa.
- Caracteres curinga: podem ser usados caracteres como "? "no lugar de um
caractere, ou "*" no lugar de múltiplos caracteres.
- Pesquisa fonética (inglês): permite pesquisar palavras com sons próximos como
"Smythe" ao procurar "Smith".
- Pesquisa por raízes das palavras (stemming): permite encontrar
variações como "aplica," "aplicado", ou "aplicando", numa
pesquisa sobre "aplicação".
- Recurso de faixas de números: permite pesquisar números em intervalos. Por
exemplo, "entre 6 e 36".
- Campos: podem ser usados campos para pesquisa em documentos que contenham alguma
estruturação, ou para pesquisa em bases de dados como a do Access.
Pesquisa Fuzzy
A pesquisa fuzzy é feita com algorítimos exclusivos do dtSearch e
localiza termos mesmo que haja erros de grafia. As pesquisas fuzzy podem ter o
nível de tolerância ajustado entre 0 e 10, para que se possa adequar a pesquisa ao
nível de erros provável em originais digitados, capturados via OCR, etc.
Por exemplo, uma pesquisa sobre Brasília com um índice fuzzy de 1 encontraria
Brazilia; Com índice 2 poderia encontrar Brazilia e Brazilha.
O índice pode ser definido na ocasião da pesquisa.
Pesquisa em Linguagem Natural
A linguagem natural opera atualmente apenas sobre textos em inglês. Permite pesquisar
em linguagem corrente, por exemplo "get me Sam's memo on the 1996 CorpX
takeover".
Também conhecida como "query-by-example", a pesquisa de linguagem
natural localiza todos os arquivos que contenham palavras que casam com os termos da
pesquisa proposta. O dtSearch faz então uma análise de relevância ponderando
automaticamente os termos segundo a freqüência e a densidade dos alvos.
Pesquisa por Thesaurus
Também conhecida como pesquisa conceitual, a pesquisa por thesaurus permite,
por exemplo, procurar por "contrato" e localizar também "acordo".
O dtSearch oferece diversos níveis de expansão automática de sinônimos com
base em thesaurus que o usuário pode definir, ou com base em amplo vocabulário da
língua inglesa (WordNet), incluído no dtSearch.
Na ocasião da formulação da pesquisa o thesaurus pode ser consultado para
ajudar a selecionar os termos a serem incluídos na pesquisa.
Combinando Tipos de Pesquisa
Quase todos os tipos de pesquisa podem ser combinados. A pesquisa pode ser simples ou
complexa e pode ter até 8.000 caracteres.
Recursos Auxiliares
- A lista de palavras é apresentada à medida em que se vai digitando as primeiras
letras.
- Um clique duplo, num bloco de palavras do documento resultante de uma pesquisa,
automaticamente inicia nova pesquisa.
- O histórico da pesquisa é registrado.
- A pesquisa pode ser limitada aos arquivos não encontrados numa pesquisa anterior.
- Pode ser examinado o efeito de utilização dos recursos fuzzy, fonética,
raízes (stemming) ou caracteres curinga.
Recursos Avançados
- Pode usar até 100 índices em cada pesquisa.
- Também pesquisa em arquivos não indexados e faz pesquisas combinadas (arquivos
indexados + arquivos não indexados).
- Permite a ponderação de termos para aumentar ou reduzir a importância de uma ou mais
palavras na pesquisa.
- Permite filtragem para limitar os arquivos recuperados segundo nome, data ou tamanho.
- Permite customização de alfabeto para suportar a indexação e a pesquisa de texto em
línguas que não o inglês.
- Permite segmentar automaticamente arquivos longos para tratá-los como múltiplos
sub-documentos lógicos. (Por exemplo, pastas de Emails, que normalmente reúnem
diversas mensagens num único arquivo.).