Gigabytes beheren voor Java

Gigabytes beheren voor Java is een gratis full-text-indexeringssysteem voor grote documentcollecties die in Java zijn geschreven.
Download nu

Gigabytes beheren voor Java Rangschikking & Samenvatting

Advertentie

  • Rating:
  • Vergunning:
  • LGPL
  • Prijs:
  • FREE
  • Naam uitgever:
  • Sebastiano Vigna
  • Uitgever website:
  • http://archive4j.dsi.unimi.it/

Gigabytes beheren voor Java Tags


Gigabytes beheren voor Java Beschrijving

Het beheren van Gigabytes voor Java is een gratis full-text-indexeringssysteem voor grote documentcollecties die in Java zijn geschreven. Gigabytes beheren voor Java (MG4J) is een gratis full-text-indexeringssysteem voor grote documentcollecties die in Java zijn geschreven. Als bijproduct biedt het verschillende geoptimaliseerde klassen van algemene doeleinden, waaronder snelle en compacte mutable strings, bit-level I / O, snelle niet-gecertificeerde gebufferde beken, (mogelijk ondertekend) minimale perfecte hashing voor zeer grote stringscollecties, enz. RELEASE 1.1, MG4J wordt een zeer aanpasbare, krachtige, volwaardige tekst-indexeringssystemen die state-of-the-art functies biedt (zoals BM25-score) en nieuwe onderzoeksalgorithms.Here zijn enkele belangrijke kenmerken van "Gigabytes voor Java ": - Krachtige indexering. Ondersteuning voor documentenverzamelingen en fabrieken maakt het mogelijk om consequent grote documentcollecties te analyseren, indexeren en quereren, en biedt gemakkelijk te begrijpen fragmenten die relevante passages in de opgehaalde documenten benadrukken. - Efficiëntie. We bieden geen zinloze gegevens zoals "We Index X GIB per seconde" (met welke configuratie? Welke taal? Welke gegevensbron?) - Wij nodigen u uit om het te proberen. MG4J kan zonder inspanning de TREC GOV2-collectie indexeren (documentfabrieken zijn aan dit doel verschaft) en schalen naar honderden miljoenen documenten. - interval semantiek met meerdere index. Wanneer u een query indient, retourneert MG4J, voor elke index, een lijst met intervallen die voldoen aan de query. Dit verschaft de basis voor verschillende hoge precisiescorers en voor een zeer efficiënte implementatie van geavanceerde operators. De intervallen zijn ingebouwd in lineaire tijd met behulp van nieuwe onderzoeksalgoritmen. - Expressieve operatoren. MG4J gaat ver buiten het Tas-of-Word-model, dat een efficiënte implementatie van de frase-query's, nabijheidsbeperkingen, bestelde conjunctie, en gecombineerde multiple-indexquery's. Elke operator is intern vertegenwoordigd door een abstract object, zodat u uw favoriete syntaxis gemakkelijk kunt aansluiten. - Virtuele velden. MG4J ondersteunt virtuele velden-velden die tekst bevatten voor een ander virtueel document; Het typische voorbeeld is ankertekst, die moet worden toegeschreven aan het doeldocument. - Flexibiliteit. U kunt veel kleinere indices bouwen door termposities te laten vallen, of zelfs termtellingen. Het is aan jou. Verschillende soorten codes kunnen worden gekozen om efficiëntie en indexgrootte in evenwicht te brengen. Documenten die uit een verzameling komen, kunnen worden hernummerd (bijvoorbeeld, om een statische rang of experiment met indexeringstechnieken te matchen). - Openheid. De Document Collection / Factory-interfaces bieden een eenvoudige manier om uw eigen gegevensvertegenwoordiging aan MG4J te presenteren, waardoor het een fluitje is om een webgebaseerde zoekmachine op te zetten die rechtstreeks toegang krijgen tot uw gegevens. Elk element langs het pad van queryresolutie (parsers, document-iteratorbouwers, querymotoren, enz.) Kan worden vervangen door uw eigen versies. - gedistribueerde verwerking. Indices kunnen worden gebouwd voor een verzameling die in verschillende delen wordt verdeeld en later worden gecombineerd. Combinatie van indices maakt niet-aangrenzende indices mogelijk en zelfs hetzelfde document kan worden opgesplitst in verschillende collecties (bijvoorbeeld, bij het indexeren van ankertekst). - Multithreading. Indices kunnen tegelijkertijd worden opgevraagd en scoren. - Clustering. Indices kunnen zowel lexicaal als documentair worden geclusterd (eventueel na een partitionering). Het clustersysteem is volledig open en door de gebruiker gedefinieerde strategieën beslissen hoe documenten uit verschillende bronnen kunnen worden gecombineerd. Deze architectuur maakt het bijvoorbeeld mogelijk om het deel van een index te laden, het deel van een index die vaker verschijnt in gebruikersquery's. Vereisten: · Fastic · JAL Wat is er nieuw in deze release: · WAARSCHUWING: MASSIEVE REVAMP VAN HET SUBSYSTEEM VAN DE DOCUMENTITEITERSITOR. Nu kunnen dergelijke bezoekers gegevens retourneren, net als een queryiteratorbuildervisor. Het heeft ook een speciale visitemethode voor multitermindexiterators. Je moet je eerdere implementaties aanpassen. · WAARSCHUWING: Queryparker-instanties zijn vereist om een parse (mutableestring) -methode te bieden en twee nieuwe escape-methoden die kunnen worden gebruikt om een tekenreeks in een teksttoken te veranderen. Deze functie is fundamenteel voor automatische query-generatie (dankzij Hugo Zaragoza voor het wijzen van dit probleem). · WAARSCHUWING: Om een paar dingen makkelijker te maken, hebben we nu expliciet document iterators vertegenwoordigen waar en onwaar. Hun constructie vereist een referentie-index (in tegenstelling tot wat er gebeurde met DocumentIterators.EMPTY_ITERATOR), zodat de getInstance () van de meeste document iterators moest worden bijgewerkt, en DocumentIteratorVisitor gevallen moeten geïmplementeerd twee nieuwe bezoek () methodes. De iterators worden gegenereerd door de tokens #TRUE en #FALSE. · WAARSCHUWING: Indexering van virtuele velden gebruikt veel minder geheugen, maar partijen hebben nu een andere inhoud: zij vertegenwoordigen actuele posities in de laatste virtuele document. Afmetingen van elke partij vertegenwoordigen de bekende grootte van een virtuele moment waarop de partij werd geschreven. Met deze wijziging plakken heeft niet langer meer geheugen dan Concatenate vereisen. · WAARSCHUWING: Een nieuwe RemappingDocumentIterator klasse maakt het mogelijk om de resultaten van de verschillende indices met positionele operatoren mengen. Aangezien er een nieuw Remap vraag knooppunt, zullen alle DocumentVisitors moeten worden bijgewerkt. · WAARSCHUWING: Alle afgekeurde klassen zijn verwijderd. · WAARSCHUWING: De -B optie van IndexBuilder is nu afgestemd op Scan - specificeert de basisnaam van een verzameling worden gebouwd op het indexeren van de tijd. Het gebruikt om de grootte van de buffer te combineren. · Nieuwe klassen voor efficiënt documentbeheer collectie aanbouw op indexeren. De architectuur is nu ook heel open - u kunt aansluiten op uw eigen bouwers. · Volledig gerenoveerd formaat behandeling voor combineer en subklassen. Tenzij u gebruik maken van Golomb codering, zult u niet hoeft te belasting maten. Dit geldt zelfs voor batches van virtuele velden, zoals nu plakken standaard niet hernummer posities, maar verwacht dat zij al worden hernummerd. De oude gedrag kan worden verkregen door middel van een vlag. · We zijn verhuisd naar Jetty 6. Ook, een paar problemen met Velocity niet vinden templates zijn vastgesteld. · Nieuwe, intelligenter geheugen hanteren die moeten in staat zijn om volledig te voorkomen dat out-of-memory fouten. Er is ook een limiet op het aantal termen per batch die moeten helpen met garbage collection. · Fixed a bug in de collectie van de schepping: we gebruikt om de oorspronkelijke fabrieksinstellingen te bieden, maar dit is verkeerd, aangezien we misschien niet indexeert alle gebieden. Nu genereren we een geschikte fabriek die alleen de geïndexeerde velden bevat. · Nieuwe belangrijke eigenschap: high-performance indices kunnen nu variabele quanta, afhankelijk van de lijst frequentie en dichtheid. Indices nu sport een .posnumbits bestand dat gegevens hoeveel bits worden gebruikt voor het opslaan van posities. Het wordt gebruikt als een basis statistieken om de juiste quantum berekenen. U kunt vragen om een percentage van de index te gebruiken om torens te slaan, en het recht quantum voor elke lijst zal worden berekend voor u. Het proces is heel empirisch, dus altijd kijken naar .stats bestanden om te controleren dat je eigenlijk niet meer dan het percentage aangevraagde gebruikt. In het algemeen zal de oude indices hebben voordat zij in staat om ze te combineren in een index met een variabele quanta worden herbouwd, maar voor high-performance indices van de functie ComputePosNumBitsPositions kan worden gebruikt om het ontbrekende bestand toe te voegen. · Geheugen in kaart brengen van indices maakt nu gebruik van de nieuwe multiplex-benadering in ByteBufferInputStream geïmplementeerd. Dit betekent dat we in kaart kunnen brengen in het geheugen in wezen elke index. Met dank aan Valentin Tablan en Ian Roberts voor het suggereren deze aanpak. · Functie Nu we een implementatie van de state-of-the-art BM25F ranking functie. · ZipDocumentCollection.getInstance () maakt het mogelijk om realiably laden ZipDocumentCollection gevallen zelfs als ze niet in de huidige directory. · Nieuwe UTF-8 leuke wiskundige symbolen voor conjunctie, disjunctie, WAAR en ONWAAR. · Probleem met te veel verbindingen te openen bij gebruik van JdbcDocumentCollection. · Een nieuwe SUCCINCTSIZES URI-toets maakt het mogelijk om te vragen voor het laden van maten in een Elias-Fano gecomprimeerde lijst. Dit zal vertragen de toegang door twee ordes van grootte, maar het kan zeer nuttig zijn bij het plakken van grote indices, zoals het plakken van de behoeften van een grote hoeveelheid van de grootte gegevens te laden. · EmptyIndexIterator gevallen niet langer Index op basis van eenlingen. Deze verandering was nodig om het mogelijk te lopen ranking algoritmen die nodig is om het gewicht of id zelfs van lege iterators te stellen. Dit moet geen probleem opleveren. · Alle document iterators hebben nu een instelbaar gewicht. Het gewicht kan worden espressed in standaard syntax gebruikt beugels. Merk op dat de gewichten per se geen betekenis hebben - het is aan de scorers om ze te gebruiken. · Nu de metagegevens-enige optie van combineren en de implementaties van het bestand het bestand van frequenties genereert. Dit is erg handig omdat het het mogelijk maakt om de termfrequenties voor de virtuele documenten te berekenen die zijn verkregen door alle velden samen te voegen - iets dat nodig is voor de juiste berekening van BM25F. · Een fout opgelost in de grammatica: query's zoals "(a))" zou geparseerd zijn als "(a)" vanwege een gebrek aan cheque voor EOF (dankzij Hugo Zaragoza voor het melden van deze bug). · De parser accepteert nu Unicode-tekens 0x2227 en 0x2228 (de standaard wiskundige symbolen voor conjunctie en disjunctie) voor en en respectievelijk. · Na een aantal testen van TREC GOV2 zijn de standaardinstellingen voor MAXPreeschor en MaxPostanchor in HTMLDocumentfactory verlaagd tot respectievelijk 8 en 4. · Vaste oude bug in halvexternalgammalist; Aanmeldingen (0) werden niet na de raming van Numlongs genoemd, wat leidde tot EOFEXCEPTIES. · Documentaanwijzers kunnen nu in Unary worden gecodeerd. · Fixed Bad Fuct In PartitionIlex: voor hoogwaardige indices werden de posities van de laatste termijn niet geschreven. · HTTPFILESERVER heeft een instelbare haven. · Nieuwe scorer.getweights () -methode om gewichten te krijgen. · Een bug opgelost in TFIDF-scorer die nans zou hebben veroorzaakt. · Query accepteert een newline-gescheiden lijst met titels, naast het gebruikelijke geserialiseerde object.


Gigabytes beheren voor Java Gerelateerde software