Como primeira parte , objetivo desta tarefa é desenvolver um programa para ler e processar arquivos ASCII para encontrar as palavras mais usadas na língua portuguesa. Para isso utilizei como base livros em língua portuguesa disponíveis em: Projeto Guteberg Como segunda parte, foi implementado o índice remissivo das palavras mais frequentes encontradas. O índice remissivo é aquele que mostra para cada palavra, as páginas que elas aparecem no texto. Neste projeto, ao invés de considerar as páginas onde essas palavras aparecem, iremos exibir as linhas. Além disso, para otimizar o armazenamento, foi desenvolver um método de compressão.
Há muitas maneiras de atingir esse objetivo, mas usei uma tabela hash para contar o número de vezes que cada palavra única ocorre à medida que digitalizamos o arquivo ascii. Quando terminar de processar o documento, a tabela de hash conterá N palavras exclusivas e seus contadores de palavras associados.
Existem várias questões-chave de design que foram abordadas neste projeto:
- como ler o arquivo de texto e extrair as palavras individuais;
- como armazenar e acessar pares de "(palavras,contagem)" na tabela de hash;
- como extrair e classificar pares de "(palavras/contagem)" para identificar as 50 palavras mais usadas no documento.
O tipo abstrato de dados hash com encadeamento separado contém as seguintes rotinas implementadas:
- Construtor: Deve receber como entrada o tamanho M da tabela.
- Insere : O parametro de entrada deve ser um registro.
- Busca : Dado a chave de busca, a rotina deve retornar o ponteiro para o registro procurado. A função deve retornar nullptr caso a busca seja invalida.
- Remove : Dada uma chave de busca, deve-se remover o registro da tabela hash.
- ImprimeInfo : Imprime o número de colisões ocorridas nas inserções de dados na tabela ao usar uma determinada função hash.
- Destrutor : desaloca toda a memoria ocupada pela tabela hash.
Foi feito estudo comparativo entre diferentes funções hash. Para tanto, foi escolhido um texto disponível no Projeto Guteberg e indexou-se as palavras em tabelas hashes com funções distintas. O programa reporta o número de palavras e o total de colições para cada uma das funções testadas.
Ao identificar as 50 palavras mais usadas de um livro, se analisou o desempenho de pelo menos 3 métodos de ordenação.
É processado um conjunto de 10 livros. O programa é capaz de:
-
Identificar as 50 palavras mais usadas de cada livro. Para cada livro, foi feito o processamento e escrito em um arquivo ascii as 50 palavras mais frequentes com suas respectivas contagens.
-
Identificar as 50 palavras mais usadas no total. Foi escrito em um arquivo ascii as 50 palavras mais frequentes no total com suas respectivas contagens ordenadas em ordem decrescente.
Para padronizar a leitura dos dados, considere que os arquivos com os textos de entrada estejam dentro da pasta input do projeto raiz.
Observações: Palavras como artigos (o, a, um …), preposições (de, em, para, …) e pontuações (‘.’ , ‘ !’, ‘?’, ...) são nas contagens.
Para a execução do programa instale o CMAKE em sua máquina.
cmake -B build
cmake --build build
- Primeira parte
./build/main/main
- Segunda parte ( Trie )
./build/main/mainTrie
- Segunda parte ( Huffman )
./build/main/mainHuffman