NCBIX :: BIGFETCH

Robulust ophalen zeer grote NCBI Sequence Results-sets op basis van zoekopdrachten op zoekopdrachten met NCBI Eutils
Download nu

NCBIX :: BIGFETCH Rangschikking & Samenvatting

Advertentie

  • Rating:
  • Vergunning:
  • Perl Artistic License
  • Prijs:
  • FREE
  • Naam uitgever:
  • Roger A Hall
  • Uitgever website:
  • http://search.cpan.org/~rogerhall/

NCBIX :: BIGFETCH Tags


NCBIX :: BIGFETCH Beschrijving

Robuust halen zeer grote NCBI opeenvolging resultaat sets op basis van trefwoord zoeken met NCBI eUtils NCBIx :: BigFetch is een Perl module nuttig is voor het downloaden van zeer grote resultaat sets van sequenties uit NCBI gegeven een tekst query. Het eerste gebruik had meer dan 11.000.000 sequenties als gevolg van een enkel trefwoord. Het maakt gebruik van YAML om een configuratie bestand aan te maken om project staat in de uitvoering geval netwerk of server problemen interrupts te handhaven, in welk geval het gemakkelijk kan worden gestart nadat de laatste batch.Downloaded data wordt georganiseerd door "project id" en "base directory" en opgeslagen in tekstbestanden. Elk bestand bevat het project id in zijn naam. De project_id en base_dir toetsen zijn de enige vereiste toetsen, hoewel u dezelfde zoekopdracht "apoptose" everytime zal krijgen, tenzij u ook de toets "vraag". In ieder geval, zodra een project wordt gestart, moet het slechts de twee parameters om reloaded.Besides de gegevensbestanden, zijn twee andere bestanden worden opgeslagen: 1) de eerste zoekresultaat, waarin de WebEnv sleutel bevat, en 2) een configuratiebestand , die slaat de ontlede data en wordt gebruikt om pick-up het downloaden en te herstellen ontbrekende batches of sequences.Results zijn retrived in batches afhankelijk van de toets "return_max". Standaard is de "index" begint bij 1 en downloads doorgaan totdat de index exceedes "count" Af en toe fouten gebeuren en volledige batches worden niet gedownload. In dit geval wordt de "index" toegevoegd aan de "ontbrekende" lijst. Deze lijst wordt opgeslagen in het configuratiebestand. De ontbrekende batches moet worden gedownload elke dag, en niet bewaard tot het einde van de volledige run.Working scripts zijn opgenomen in het script directory: fetch-all.pp fetch-missing.pp fetch-unavailable.ppThe aanbevolen workflow is: 1. Kopieer de scripts en bewerken van hen voor een specifiek project. Gebruik een nieuw nummer als het project-ID. 2. Begin met het downloaden van door het uitvoeren van fetch-all.pp, die voor het eerst een vraag zal voorleggen en sla de resulterende WebEnv sleutel in een project specifieke configuratie bestand (met behulp van YAML). 3. De volgende ochtend, doden de fetch-all.pp proces en fetch-missing.pp tot dit voltooid is. 4. Start fetch-all.pp. Als u re-download "niet beschikbaar" sequenties, mag u fetch-unavailable.pp. Ze zullen echter worden gedownload op het einde van de haal-all.pp als het normally.If uw queryresultaatset voltooid is zo groot dat je WebEnv een time-out, gewoon een nieuw project met die laatste index van het vorige project te starten, en het pikt het resultaat set van daar (met een nieuwe WebEnv). (Geplande upgrade zal automagisch een nieuwe zoekopdracht te starten.) Waarschuwing: Je kunt een (zeer) weinig sequenties verliezen als je download strekt zich uit over meerdere projecten. Echter, onze tests blijkt dat de partijen zijn gegenereerd met dezelfde vraag binnen een paar dagen na elkaar zijn grotendeels identical.SYNOPSIS gebruik NCBIx :: BigFetch; # Parameters mijn $ params = {project_id => "1", base_dir => "/ home / user / data", db => "eiwit", vraag => "apoptose", return_max => "500"}; # Start project mijn $ project = NCBIx :: BigFetch-> new ($ params); # Liefde degene die je bent met print "Auteurs:". $ Project-> auteurs (). "\N"; # Poging alle partijen sequenties while ($ project-> results_waiting ()) {$ project-> get_next_batch (); } # Get ontbrekende batches while ($ project-> missing_batches ()) {$ project-> get_missing_batch (); } # Zoek niet beschikbaar ids mijn $ id = $ project-> unavailable_ids (); # Ophalen niet beschikbaar ids foreach my $ id (@ $ ids) {$ project-> get_sequence ($ id); } Vereisten: · Perl


NCBIX :: BIGFETCH Gerelateerde software

Scriptutil

Object georiënteerde klasse om typische opdrachtregelscripts gemakkelijker te maken te schrijven ...

135

Downloaden