Tekst :: Deduper

Dichtbij duplicaten Detectiemodule
Download nu

Tekst :: Deduper Rangschikking & Samenvatting

Advertentie

  • Rating:
  • Vergunning:
  • Perl Artistic License
  • Prijs:
  • FREE
  • Naam uitgever:
  • Jan Pomikalek
  • Uitgever website:
  • http://search.cpan.org/~janpom/

Tekst :: Deduper Tags


Tekst :: Deduper Beschrijving

Dichtbij duplicaten Detectiemodule Tekst :: Deduper is een PERL-module die de lijkende maatregel gebruikt zoals voorgesteld door Andrei Z. Broder bij AL (http://www.ra.ethz.ch/cdstore/www6/technical/paper205/paper205.html) om vergelijkbaar te detecteren (bijna-duplicaat) documenten op basis van hun tekst.Note van Let op: de module werkt alleen correct met talen waarbij teksten tkeniseerd kunnen worden aan woorden door alfabetische karakters sequenties te detecteren. Daarom biedt het mogelijk geen zeer goede resultaten voor b.v. Chinese.synopsis Gebruik tekst :: Deduper; $ Deduper = nieuwe tekst :: Deduper (); $ Deduper-> Add_doc ("DOC1", $ DOC1TEXT); $ Deduper-> Add_doc ("DOC2", $ DOC2TEXT); @Similar_Docs = $ Deduper-> Find_Similar ($ DOC3TEXT); ... # Verwijderen in de buurt van duplicaten van een reeks teksten $ Deduper = Nieuwe tekst :: Deduper (); Foreach $ Text (@TEXTS) {volgende als $ Deduper-> Find_Similar ($ Text); $ deduper-> add_doc ($ i ++, $ tekst); Duw @NO_NEAR_DUPLICATES, $ TEKST; } Vereisten: · Perl


Tekst :: Deduper Gerelateerde software