Xapian en omega

XAPIAN is een open source Probabilistic Information Retrieval-bibliotheek, vrijgegeven onder de GPL.
Download nu

Xapian en omega Rangschikking & Samenvatting

Advertentie

  • Rating:
  • Vergunning:
  • GPL
  • Prijs:
  • FREE
  • Naam uitgever:
  • Xapian Team
  • Uitgever website:
  • http://www.xapian.org/

Xapian en omega Tags


Xapian en omega Beschrijving

Xapian is een open source probabilistische informatie-ophaalbibliotheek, vrijgegeven onder de GPL. Xapian is een open source probabilistische informatie-ophaalbibliotheek, vrijgegeven onder de GPL. XAPIAN ISS Geschreven in C, met bindingen om gebruik uit andere talen toe te staan (PERL, JAVA, PYTHON, PHP en TCL worden momenteel ondersteund; Grey en C # worden gewerkt aan) .xapian is ontworpen om een zeer aanpasbare toolkit te zijn om ontwikkelaars te zijn Om gemakkelijk geavanceerde indexering en zoekfaciliteiten toe te voegen aan hun eigen toepassingen. Als je na een verpakte zoekmachine voor je website hebt, moet je een kijkje nemen naar Omega, wat een applicatie is die we leveren op Xapian. Maar in tegenstelling tot de meeste andere website-zoekoplossingen, stelt de veelzijdigheid van Xapian de mogelijkheid om Omega te verlengen om aan uw behoeften te voldoen terwijl ze groeien. Hier zijn enkele belangrijke kenmerken van "Xapian and Omega": · Gratis software / open source - gelicentieerd onder de GPL. · Zeer draagbare - loopt op veel Linux, MacOS X, vele andere UNIX-platforms en Microsoft Windows. · Geschreven in c. Perl-bindingen zijn beschikbaar in de module Zoeken :: Xapian op CPAN. Java JNI-bindingen zijn opgenomen in de modules van de Xapian-Bindings. We ondersteunen ook SWIG die bindingen kan genereren voor 13 talen. Op dit moment werken die voor Python, PHP4 en TCL. Gluile en C # worden gewerkt. · Gerangschikte probablicistische zoekopdracht - Belangrijke woorden worden meer gewicht dan onbelangrijke woorden, dus de meest relevante documenten komen waarschijnlijker bij de bovenkant van de resultatenlijst. · Relevantie Feedback - Gegeven een of meer documenten, kan Xapian de meest relevante indexvoorwaarden voorstellen om een query uit te breiden, gerelateerde documenten te suggereren, documenten te categoriseren, enz. · Zin en nabijheid zoeken - Gebruikers kunnen zoeken naar woorden die voorkomen in een exacte zin of binnen een bepaald aantal woorden, hetzij in een opgegeven volgorde of in een willekeurige volgorde. · Volledig bereik van gestructureerde Booleaanse zoekoperators ("Voorraad niet op de markt", enz.). De resultaten van de Booleaanse zoekopdracht worden gerangschikt door de probablistische gewichten. Booleaanse filters kunnen ook worden toegepast om een probabilistische zoekopdracht te beperken. · Ondersteunt stemming van de zoektermen (bijvoorbeeld een zoektocht naar "voetbal" zou overeenkomen met documenten die "voetballen" of "voetballer" noemen). Dit helpt om relevante documenten te vinden die anders kunnen worden gemist. Stemmen zijn momenteel inbegrepen voor deens, Nederlands, Engels, Fins, Frans, Duits, Italiaans, Noors, Portugees, Russisch, Spaans en Zweeds. · Ondersteunt database-bestanden> 2GB - essentieel voor het schalen naar grote documentcollecties. · Platformonafhankelijke gegevensindelingen - U kunt een database op één machine bouwen en op een ander zoeken. · Maakt gelijktijdige update toe en zoeken. Nieuwe documenten worden meteen doorzoekbaar. Naast de bibliotheek leveren wij een aantal kleine voorbeeldprogramma's en een grotere toepassing - een indexering en CGI-gebaseerde applicatie genaamd Omega: · De meegeleverde indexer kan HTML-, PHP-, PDF-, PostScript- en duidelijke tekst indexeren. Het toevoegen van ondersteuning voor het indexeren van andere indelingen is eenvoudig waar conversiefilters beschikbaar zijn (b.v. Microsoft Word). Deze indexer werkt met behulp van het archiveringssysteem, maar we bieden ook een script om de HTDIG Web Crawler te laten verslaan, waardoor externe sites kunnen worden doorzocht met Omega. · U kunt ook gegevens indexeren in een SQL of andere RDBMS die wordt ondersteund door de PERL DBI-module. Dat omvat MySQL, PostgreSQL, SQLITE, SYBASE, MS SQL, LDAP en ODBC. · CGI zoekt front-end geleverd met zeer aanpasbare uiterlijk. Dit kan ook worden aangepast aan uitvoerresultaten in XML of CSV, wat handig is als u dynamisch de pagina's genereert (bijvoorbeeld met PHP of MOD_PERL) en gewoon RAW-zoekresultaten wilt die u in uw eigen lay-outcode kunt verwerken. Wat is er nieuw in deze release: API: · Xapian :: Document slaat niet langer lege waarden uitdrukkelijk op. Dit was niet opzettelijk gedrag en hoe deze zaak werd behandeld, was niet gedocumenteerd. Het gewijzigde gedrag is consistent met hoe de gebruikermetadata wordt afgehandeld. Deze wijziging is niet waarneembaar met behulp van document :: Get_Value (), maar kan worden opgemerkt wanneer herhoogt met document :: Waarden_begin (), met behulp van document :: waarden_count () of proberen de waarde te verwijderen met document :: Verwijderen_Value (). test pak: · Fix Testcase Scaleweight4 niet falen op x86 wanneer het is samengesteld met -O0. Het probleem was in de testcase-code en werd veroorzaakt door overmatige precisie in intermediaire FP-waarden. · Testscases die controleren of de operaties het verwachte o (...) gedrag hebben, geen controle van de CPU-tijd in plaats van Wallclock-tijd op de meeste platforms, die af en toe storingen zouden moeten elimineren als gevolg van ladingspikes van andere processen. · (Ticket # 308) · Fix Test-fouten als gevolg van skip_test_for_backend ("inmemory") die niet overslaan wanneer het zou moeten doorgaan met het vergelijken van charsnaren met == (op de kofferbak die de retourwaarde wordt getest, is STD :: string in plaats van const char *). · Verbeter de testdekking in verschillende hoekcases. · Fix Testcase Consistentie2 om daadwerkelijk te worden uitgevoerd (gelukkig passeert het). · In de gegenereerde testcases, bel dan Get_Description () op het standaard geconstrueerde object van elke klas om ervoor te zorgen dat het werkt (en probeert niet null null, of faalt wat bewering, enz.). Alle momenteel gecontroleerde klassen zijn prima - dit is om toekomstige regressies of dergelijke problemen met nieuwe klassen te voorkomen. · Gebruik in de testdekking, gebruik "- Coverage" in plaats van "-Frofile-Arcs -FTest-Coverage". · Het testharnas heeft nu de inmemory backend gemarkeerd als ondersteunende door de gebruiker gespecificeerde metadata (afgezien van iteratie via metadata-sleutels). Kaper: · Als een query een matchall-subquery bevat, controleer dan voordat u de andere termen controleert, zodat de lus die controleert hoeveel termenwedstrijd vroeg kan verlaten als ze allemaal overeenkomen. · Wanneer een of of andere_maybe tot een en, de kinderen zorgvuldig wisselen voor maximale efficiëntie, maar de conditie was omgekeerd, dus we waren in feite het maken van dingen erger. Dit werd opgemerkt omdat het resulteerde in dezelfde query die sneller loopt als er meer resultaten werden gevraagd! · Bouw alleen de Termname naar Termfreq en Gewichtskaart voor de eerste subdatabase in plaats van het voor elk te herbouwen. Kopieer ook niet deze kaart om het terug te sturen. Dit zou een beetje moeten versnellen, vooral die meer dan meerdere databases. · Als een onderinrichting mislukt, maar de fouthandler vertelt ons om zonder het te gaan, gebruiken we gewoon een nul-aanwijzer om in plaats van een speciaal dummy-houder-houderobject toe te wijzen. · Verwijder de enpostist, ten gunste van multiandpostist. AndPostist werd alleen gebruikt als een vervalproduct (door AndMaybePostlist en Orpostlist), en lijkt niet sneller te zijn. Het verwijderen van het vermindert de CPU-cachedruk en is minder code om te onderhouden. · Oproepcontrole () in plaats van Skip_to () op de optionele tak van and_maybe. Flint Backend: · Bevestig een bug in Termiterator :: Skip_to () over metadata-sleutels. afstandsbediening: · Fix XAPIAN-TCPSRV---interface-optie om op MacOS X te werken (ticket # 373). · Fix typo waardoor we de DOCID terugkeerden in plaats van het maximale gewicht een document van een externe wedstrijd kan terugkeren! Dit had ertoe kunnen leiden tot verkeerde resultaten bij het zoeken van meerdere databases met de afgelegen backend, maar meestal maakte het meestal niet uit zoals bij BM25 de gewichten zijn over het algemeen klein (vaak alle <1) terwijl docids onvermijdelijk> = 1 zijn. Inmemory Backend: · De inmemory backend ondersteunt geen herhorend over metadata-sleutels. Proberen dit te doen gebruikt om een lege iteratie te geven, maar is nu gerepareerd om te gooien · UnimplementedError (en deze beperking is nu gedocumenteerd). Build System: · Verwijder veel ongebruikte headerinsluitingen en een ongebruikte code die de build sneller en iets kleiner moet maken. · Fixeren om te compileren onder - Disbaar-Backend-Flint, - Disbaar-Backend-afstandsbediening, en - displaving-backend-inmemory. · Verwijder eventuele gebouwde bronnen niet in "Maak reinigen", zelfs onder - MAY-MODUSER-MODE omdat die breekt het schakelen van een boom weg van de onderhoudsmodus met: Distreclean maken; ./ configureer · Configureren: MEER GCC-waarschuwingen inschakelen - "-Woverloaded-Virtual" voor alle versies, "-WSTRICT-NULL-Sentinel" voor 4,0+, "-Wlogical-op -Wmissing-declarations" voor 4.3+. Met name "-Wmissing-verklaringen" betrapt op dat consistentie2 niet werd uitgevoerd. · Bepaal intern de weinige plaatsen waar we doorstaan aan Std :: String per waarde om in plaats daarvan door een const-referentie door te geven (behalve waar we toch een modificeerbare kopie nodig hebben) als benchmarking laat zien dat een const-referentie iets sneller is en minder code genereert met de referentie van GCC en genereert :: String implementatie - met een niet-referentie getelde implementatie, zou een const-referentie veel sneller moeten zijn. (Ticket # 140) documentatie: · Installeren: we testen niet langer regelmatig met GCC 2.95.4 en we verhogen de minimale GCC-versie die vereist is voor 3.1 voor Xapian 1.1.x. · Documenteer wat passerende Maxitems = 0 om te informeren :: Get_MSET () Doe. · DOCS / QUARERPARSER.HTML: voeg voorbeelden toe van het gebruik van een voorvoegsel op een uitdrukking of subexpressie. · Correcte Doxygen-opmerkingen voor gebruiker Metagegevensfuncties: Database :: Get_metadata () gooien unimplementedError, maar geschakeldatabase :: Set_metadata () kan. · Documenteer dat database ::: metadata_keys_begin () een eindwerper retourneert als de backend geen metadata ondersteunt. · Hacken: update de lijst met Debian / Ubuntu-pakketten die nodig zijn voor een ontwikkelingsomgeving. Debugcode: · Fix build met --debug. · Toegevoegd enkele meer beweringen.


Xapian en omega Gerelateerde software

Civicrm

CIVICRM is relatiebeheersoftware voor de non-profit- en nongovernentale sectoren. ...

77

Downloaden

Kennis

Kennisgeving is een functie-rijk documentbeheersysteem met kennisbeheer. ...

236

Downloaden