Terriër

Een probabilistische Java Toolkit voor het bouwen van zoekmachines.
Download nu

Terriër Rangschikking & Samenvatting

Advertentie

  • Rating:
  • Vergunning:
  • MPL
  • Prijs:
  • FREE
  • Naam uitgever:
  • University of Glasgow
  • Uitgever website:
  • http://ir.dcs.gla.ac.uk/terrier/

Terriër Tags


Terriër Beschrijving

Een probabilistische Java-toolkit voor het bouwen van zoekmachines. Terrier-project is een probabilistische Java-toolkit voor het bouwen van zoekmachines.Terrier is software voor de snelle ontwikkeling van web-, intranet- en desktopzoekmachines. Meer in het algemeen is het een modulair platform voor het bouwen van grootschalige informatie-ophaaltoepassingen, het leveren van indexering- en probabilistische ophaalfunctionaliteiten. Het wordt geleverd met een desktop-zoekopdracht. Interrier heeft verschillende geavanceerde functies, waaronder parametervrije probabilistische ophaalbenaderingen (zoals divergentie van willekeurige modellen), automatische query-uitbreiding / re-formuleringsmethodologieën en efficiënte gegevenscompressietechnieken. Terrier wordt geleverd met een krachtige proof-of-concept Desktop Search-applicatie en volledige TREC-mogelijkheden, waaronder de mogelijkheid om te indexeren, query en evalueren de standaard TREC-collecties, zoals AP, WSJ, WT10G, .gov en .gov2. Terrier is geschreven in Java en is succesvol gebruikt voor Adhoc Retrieval, Web Search and Cross-Table Retrieval, in een gecentraliseerde of gedistribueerde instelling. Momenteel wordt het ook gebruikt voor het uitvoeren van verschillende toepassingen. Hier zijn enkele belangrijke functies van "Terrier": · Open source (Mozilla Public License) · Geschreven in cross-platform Java · Zeer gecomprimeerde schijfgegevensstructuren. · Hanteren van grootschalige documentcollecties. · Direct bestand voor efficiënte query-expansie. · Modulaire en open indexering en querying-API's. · Tested voor het indexeren en ophalen van standaard TREC-testcollecties. · Interactieve vraagtoepassing. · Bureaubladzoektoepassing voor het zoeken naar verschillende soorten documenten. · Input / output van gamma, unary en binaire gecodeerde gehele getallen voor het comprimeren van streams of willekeurige toegangsbestanden. · Standaardevaluatie van TREC-AD-HOC- en bekende artikelzoekopresultaten. · Indexering van getagde documentcollecties, evenals documenten van verschillende indelingen, zoals HTML-, PDF- of Microsoft Word-, Excel- en PowerPoint-bestanden. · Indexering van veldinformatie. · Indexering van positie-informatie over een woord of een blokniveau. · Ondersteuning voor klassieke retrieval-modellen, zoals TF-IDF, BM25 en Ponte-Croft-taalmodel en Rocchio's query-expansie. · Biedt een aantal divergentie van Willings (DFR) Document Ranking-modellen. · Biedt een aantal parametervrije DFR-term weegmodellen voor automatische query-expansie. · Geavanceerde querytaal die ondersteunt en / niet-operators, uitdrukking en nabijheid zoeken. · Flexibele verwerking van termen via een pijplijn van componenten, zoals stop-woorden verwijderaars en stemmers. Wat is er nieuw in deze release: · Dit is een substantiële update, waaronder nieuwe ondersteuning voor Hadoop, voornamelijk een Hadoop-kaart vermindert het indexeren systeem, waardoor grote collecties van documenten in een zeer verdeelde mode worden geïndexeerd. · Ook inbegrepen zijn verschillende kleine verbeteringen, waaronder verbeterde ondersteuning voor de IIT CDIP1-collectie en verschillende bugfixes. · Dit is bedoeld als de ultieme release in de 2.x-serie.


Terriër Gerelateerde software

E-gads!

E-GADS! is een webgebaseerde database waarmee u kunt zoeken en redden van teams om lidmaatschap te volgen. ...

376

Downloaden