Tekst :: Record :: Deduper

Afzonderlijk compleet, gedeeltelijk en in de buurt van dubbele tekstrecords
Download nu

Tekst :: Record :: Deduper Rangschikking & Samenvatting

Advertentie

  • Rating:
  • Vergunning:
  • Perl Artistic License
  • Prijs:
  • FREE
  • Naam uitgever:
  • Kim Ryan
  • Uitgever website:
  • http://search.cpan.org/~kimryan/Locale-SubCountry-1.37/lib/Locale/SubCountry.pm

Tekst :: Record :: Deduper Tags


Tekst :: Record :: Deduper Beschrijving

Afzonderlijk compleet, gedeeltelijk en in de buurt van dubbele tekstrecords Tekst :: Record :: Deduper is een Perl-module met afzonderlijke complete, gedeeltelijke en in de buurt van dubbele tekstrecords. Synopsis Gebruik tekst :: Record :: Deduper; Mijn $ Deduper = Nieuwe tekst :: Record :: Deduper; # Zoek en verwijder hele lijnen die gedupliceerd zijn $ Deduper-> Dedupe_File ("Orig.txt"); # Dedupe Comma gescheiden records, duplicaten gedefinieerd door verschillende velden $ Deduper-> Field_Separator (','); $ Deduper-> Add_Key (FIELD_NUMMER => 1, IGNORE_CASH => 1); $ Deduper-> Add_Key (Field_Number => 2, negeer_whitespace => 1); # Unieke records gaan naar bestandsnamen_uniqs.csv, dupes to names_dupes.csv $ deduper-> dedupe_file ('names.csv'); # Zoek 'in de buurt' Dupes door toe te staan voor gegeven naam aliassen mijn% nick_names = (bob => 'robert', rob => 'robert'); Mijn $ dichtbij_deduper = Nieuwe tekst :: Record :: Deduper (); $ near_deduper-> add_toets (veld_number => 2, alias => \% nick_names) of sterven; $ near_deduper-> dedupe_file ('namen.txt'); # Maak een tekstrapport, names_report.txt om alle duplicaten $ in de buurt van_deduper-> report_file ('namen.txt', all_records => 1) te identificeren; # Zoek 'in de buurt' Dupes in een reeks records, terugkerende referenties # naar een unieke en een dubbele array mijn ($ uniqs, $ dupes) = $ near_deduper-> dedupe_array (@some_records); Met deze module kunt u een tekstbestand innemen van records en split het in een bestand van uniek en een bestand van dubbele records.Records worden gedefinieerd als een reeks velden. Velden kunnen worden gescheiden door spaties, komma's, tabbladen of een andere scheidingsteken. Records worden gescheiden door een nieuwe regel. Als er geen opties zijn opgegeven, wordt alleen een duplicaat gemaakt wanneer alle velden in een record (de volledige regel) worden gedupliceerd. Door opties op te geven een duplicaat-record wordt gedefinieerd door welke velden of gedeeltelijke velden worden gedefinieerd niet meer dan één keer per record voorkomen. Er zijn ook opties om de gevoeligheid van de zaak te negeren, die leiden en white spatie leiden. Verslooien 'in de buurt' of 'fuzzy' duplicaten kunnen worden gedefinieerd. Dit wordt gedaan door aliassen te maken, zoals Bob => Robert.Deze module is handig voor het vinden van duplicaten die zijn gemaakt door meerdere gegevensinvoer of samenvoegen van vergelijkbare records. Vereisten: · Perl


Tekst :: Record :: Deduper Gerelateerde software