| Tekst :: Ngrams Tekst :: Ngrams is een flexibele NGRAM-analyse (voor tekens, woorden en meer). |
Download nu |
Tekst :: Ngrams Rangschikking & Samenvatting
- Vergunning:
- Perl Artistic License
- Naam uitgever:
- Simon Cozens
- Uitgever website:
- http://search.cpan.org/~simon/Sub-Versive-0.01/Versive.pm
Tekst :: Ngrams Tags
Tekst :: Ngrams Beschrijving
Tekst :: Ngrams is een flexibele NGRAM-analyse (voor tekens, woorden en meer). Tekst :: Ngrams is een flexibele NGRAM-analyse (voor tekens, woorden en meer) .SynopsisFor Standaardkarakter N-Gram-analyse van string: Gebruik tekst :: Ngrams; Mijn $ NG3 = Tekst :: Ngrams-> Nieuw; $ NG3-> Process_Text ('ABCDEFG1235678HIJKLMNOP'); Print $ NG3-> To_String; My @NGramsarray = $ ng3-> get_ngrams; men kan ook tokens handmatig voeden: gebruik tekst :: Ngrams; Mijn $ NG3 = Tekst :: Ngrams-> Nieuw; $ NG3-> FEED_TOKENS ('A'); $ NG3-> FEED_TOKENS ('B'); $ NG3-> FEED_TOKENS ('C'); $ NG3-> FEED_TOKENS ('D'); $ NG3-> FEED_TOKENS ('E'); $ NG3-> FEED_TOKENS ('F'); $ NG3-> FEED_TOKENS ('G'); $ NG3-> FEED_TOKENS ('H'); We kunnen N-gram van verschillende maten kiezen, bijvoorbeeld: mijn $ NG = tekst :: Ngrams-> Nieuw (WONDINGSSIZE => 6); of verschillende soorten n-gram, bijv : My $ NG = Tekst :: Ngrams-> Nieuw (Type => Byte); Mijn $ NG = Tekst :: Ngrams-> Nieuw (Type => Word); Mijn $ NG = Tekst :: NGRAMS-> NIEUW (Type => UTF8); een lijst met bestanden verwerken: $ NG-> Process_Files ('SomeFile.txt', 'OtherFile.txt'); deze module implementeert tekst N- Gram-analyse, ondersteuning van verschillende soorten analyse, inclusief teken en woord n-gram. De modulekst :: Ngrams is zeer flexibel. Hiermee kan een gebruiker handmatig een reeks van eventuele tokens voeren. Het behandelt verschillende soorten tokens (karakter, woord), en maakt ook veel flexibiliteit in automatische herkenning en feed of tokens en de manier waarop ze in een N-Gram worden gecombineerd. Het telt alle N-gram-frequenties tot de maximale opgegeven lengte. Het uitvoerformaat is bedoeld om vrij veel menselijk leesbaar te zijn, terwijl ook belastbaar is door de module.De module kan worden gebruikt vanaf de opdrachtregel via het script NGRAMS.PL voorzien van de pakket.limitaties: · Als een gebruiker een type aanpast Het is mogelijk dat een resulterende N-Gram dubbelzinnig zal zijn. Op deze manier kan naar verschillende N-gram worden geteld als één. Met vooraf gedefinieerde soorten n-gram zou dit niet moeten gebeuren. Als een gebruiker bijvoorbeeld kiest dat een token een ruimte kan bevatten, en ruimte gebruikt als een N-gram-scheider, is een trigram zoals deze "x x x x x" dubbelzinnig. · Methodeproces_file hanteert standaard geen multi-line tokens. Dit kan worden opgelost, maar het lijkt de codecommunicatie niet waard. Er zijn verschillende manieren om dit als iemand echt dergelijke tokens nodig heeft: een manier is om ze te profiteren. Een andere manier is om zoveel mogelijk tekst te lezen, tegelijkertijd om het proces_text te gebruiken, dat de multi-line tokens behandelt. Vereisten: · Perl
Tekst :: Ngrams Gerelateerde software