Perguntas sobre 'tokenize'

2
respostas

Dividir tokens na string usando Regex em c #

Eu tenho alguns modelos "tokenizados", por exemplo (eu chamo tokens a parte entre chaves duplas): var template1 = "{{TOKEN1}} is a {{TOKEN2}} and it has some {{TOKEN3}}"; Eu quero extrair uma matriz desta frase, para ter algo como: Arra...
13.10.2012 / 19:57
6
respostas

Dividir uma string usando espaço em branco em JavaScript?

Eu preciso de um tokenizer que, dada uma string com espaço em branco arbitrário entre as palavras, crie uma matriz de palavras sem sub-strings vazias. Por exemplo, dada uma string: " I dont know what you mean by glory Alice said." Eu uso...
22.02.2012 / 20:50
1
resposta

Tokenizer versus filtros de token

Estou tentando implementar o preenchimento automático usando o Elasticsearch pensando que eu entendo como fazer isso ... Estou tentando criar sugestões de várias palavras (frases) usando edge_n_grams do ES ao indexar dados rastreados. Qual...
11.05.2016 / 18:47
4
respostas

PHP: divide uma string de grupos alternados de caracteres em uma matriz

Eu tenho uma string cuja sintaxe correta é a regex ^([0-9]+[abc])+$ . Portanto, exemplos de strings válidas seriam: '1a2b' ou '00333b1119a555a0c' Para maior clareza, a string é uma lista de pares (valor, letra) e a ordem é importante. Estou...
25.03.2016 / 09:50
3
respostas

NLP básica em CoffeeScript ou JavaScript - tokenização Punkt, modelos Bayes simples e treinados - por onde começar?

Meu projeto de aplicativo da web atual exige um pouco de PNL: Converter texto em frases, via Punkt e similares; Quebrar as frases mais longas por cláusula subordinada (geralmente é por vírgulas, exceto quando não é) Um modelo Bayesiano a...
15.03.2012 / 14:54
2
respostas

Conflito Division / RegExp enquanto tokenizava Javascript [duplicado]

Estou escrevendo um tokenizer javascript simples que detecta tipos básicos: Word, Number, String, RegExp, Operador, Comment e Newline. Tudo está indo bem, mas não consigo entender como detectar se o caractere atual é o delimitador Regexp ou o...
18.01.2011 / 17:14
4
respostas

Como obter cada caractere de uma palavra com codificação especial

Eu preciso obter uma matriz com todos os caracteres de uma palavra, mas a palavra tem letras com codificação especial como á, quando executo o código a seguir: $word = 'withá'; $word_arr = array(); for ($i=0;$i<strlen($word);$i++) { $w...
21.11.2012 / 21:42
4
respostas

Gerando código PHP (de tokens de parser)

Existe alguma solução disponível para (re) gerar código PHP a partir dos tokens do analisador retornados por token_get_all ? Outras soluções para gerar código PHP também são bem-vindas, de preferência com o lexer / parser associado (se hou...
21.02.2011 / 17:11
3
respostas

Qual é a ferramenta de código aberto mais precisa para divisão de sentenças? [fechadas]

Eu preciso dividir o texto em frases. Atualmente estou brincando com a ferramenta detector de sentenças do OpenNLP. Eu também ouvi falar das ferramentas NLTK e Stanford CoreNLP. Quais são as ferramentas de detecção de sentenças em inglês mais pr...
14.03.2011 / 17:48
5
respostas

Como dividir melhor as strings csv no oracle 9i

Eu quero ser capaz de dividir strings csv no Oracle 9i Eu li o seguinte artigo link Mas eu não entendi como fazer isso funcionar. Aqui estão algumas das minhas perguntas relacionadas a ele Isso funcionaria no Oracle 9i, se não, por q...
07.07.2009 / 00:31