Força do Dicionário no Tesseract 3

9

Como eu aumento / diminuo a força do dicionário no tesseract 3?

No FAQ, diz que preciso alterar o valor de "NON_WERD" e "GARBAGE_STRING", mas eles não existem no Tesseract 3.

    
por William Lopes 20.01.2012 в 12:34
fonte

2 respostas

4

De acordo com link , você altera essas variáveis:

enable_new_segsearch    1
language_model_penalty_non_freq_dict_word 0.2
language_model_penalty_non_dict_word 0.3

Aumente seus valores para tornar o Tesseract mais tendencioso para as palavras do dicionário.

Observação: você deve definir enable_new_segsearch , caso contrário, eles não terão efeito .

    
por roocell 25.11.2012 / 23:51
fonte
1

Para transformar totalmente as habilidades de conhecimento de idioma do tesseract, execute cada uma delas:

tess.setTessVariable("load_system_dawg", "false");
tess.setTessVariable("load_freq_dawg", "false");
tess.setTessVariable("load_punc_dawg", "false");
tess.setTessVariable("load_number_dawg", "false");
tess.setTessVariable("load_unambig_dawg", "false");
tess.setTessVariable("load_bigram_dawg", "false");
tess.setTessVariable("load_fixed_length_dawgs", "false");

Ou, para um controle melhor, apenas alguns deles. (Eu não sei de um lugar explicando bem o que todos eles fazem, mas os nomes são bem explicativos) Este é o código do meu projeto atual, usando Tess4J, mas você pode facilmente traduzi-los para c ++ ou um arquivo de configuração ou qualquer outra coisa que você precisar.

    
por Mongoose1021 05.07.2013 / 16:55
fonte