jtokenser

Een gratis software-oplossing die een reeks tokenisers combineert die intuļtief met natuurlijke taal deal
Download nu

jtokenser Rangschikking & Samenvatting

Advertentie

  • Rating:
  • Vergunning:
  • GPL
  • Naam uitgever:
  • Andy Roberts
  • Besturingssystemen:
  • Windows All / Unix
  • Bestandsgrootte:
  • 83 KB

jtokenser Tags


jtokenser Beschrijving

Tokenisingsnaren in zijn samenstellende tokens / woorden kunnen lastig voor niet-triviale voorbeelden bewijzen. In het bijzonder, wanneer u te maken hebt met de natuurlijke taal, moet u ook in overweging nemen om de woorden te isoleren. Elk van de tokenisers keurt een vergelijkbare structuur aan naar Java.UTIL.StRingtokensizer in termen van hoe u de klassen kunt instrueren en de tokens extraheren. Dit betekent dat ze eenvoudig te gebruiken zijn. U kunt invoeren, kopiėren en plakken of zelfs een tekstbestand in de toepassing laden. U moet uw tokeniser van keuze (en eventuele interessante opties) selecteren en vervolgens op de Tokenise-knop raken. Uw resultaten worden weergegeven zodra ze worden verwerkt en u hebt de mogelijkheid om de resultaten op te slaan in het bestand, als u kiest. De GUI is bijzonder nuttig voor het experimenteren met tokenisatiemethoden in een onderwijsomgeving (zoals een NLP-cursus). Het zal ook interessant zijn voor diegenen die de Jtokeniser-bibliotheek willen gebruiken, maar de Java-programmeringservaring niet hebben om de code rechtstreeks te gebruiken. Jtokeniser bestaat uit vier tokenisers die zich allemaal uitstrekken van een Actract-tokeniser-klasse: · WhiteSpacetokeniser - Dit splitst een tekenreeks op alle voordelen van witruimte, waaronder spaties, newlines, tabbladen en linefeds. · Striettokener - Dit is eigenlijk hetzelfde als Java.Util.StRingtokensizer met enkele extra methoden (en strekt zich uit van tokeniser). Het standaardgedrag is echter optreden als een WhiteSpacetokenser, maar u kunt echter een reeks tekens opgeven die moeten worden gebruikt om Word-delimiters aan te geven. · REGEXTOKEER - Deze tokeniser is veel flexibeler omdat u reguliere uitdrukkingen kunt gebruiken om een token te definiėren. Dus, "\ w +" betekent wanneer het overeenkomt met een of meer brieven, het zal als een woord beschouwen. Standaard gebruikt het een reguliere expressie die gelijk is aan een WhiteSpace-tokeniser. · RegexSeparatortoKiser - Dit kan worden beschouwd als een geavanceerde stringtokender. Overwegende dat StrengTokender beperkt is tot het definiėren van scheidingstekens als een reeks afzonderlijke tekens, kan RegexSeparatortoKiser regelmatige uitdrukkingen gebruiken voor een rijkere en flexibelere aanpak. · BREUKITERATORTOKEISER - een van de meest geavanceerde tokenisers in de bibliotheek, hoewel alleen op natuurlijke taalkoorden moet worden gebruikt om woorden te isoleren. Het wordt ook geleverd met ingebouwde regels over het vinden van woorden, wetende hoe u interpunctie kunt negeren, enz. · Sentencetokender - Dit maakt ook gebruik van een benderiger zoals het bovenstaande, maar afgestemd op het vinden van zinsgrenzen. De "tokens" in deze tokeniser zijn in feite individuele zinnen.


jtokenser Gerelateerde software

Unidac

UNIDAC is een krachtige bibliotheek met niet-functionele Cross-database-toegangscomponenten voor Delphi, Delphi voor .NET en C ++ Builder. De Unified Access is beschikbaar voor Oracle, Microsoft SQL Server, MySQL, in ...

107 7099K

Downloaden