Wp2txt

Extract-tekst uit Wikipedia Dump-bestand snel en eenvoudig.
Download nu

Wp2txt Rangschikking & Samenvatting

Advertentie

  • Rating:
  • Naam uitgever:
  • Yoichiro Hasebe
  • Bestandsgrootte:
  • 5.2 MB

Wp2txt Tags


Wp2txt Beschrijving

WP2TXT is een kleine, eenvoudig te gebruiken applicatie die speciaal is ontworpen om u te helpen bij het extraheren van gewone tekstgegevens van Wikipedia Dump-bestand (gecodeerd in XML / gecomprimeerd met BZIP2), het strippen van alle MediaWiki-markeringen en andere metadata. Het is oorspronkelijk bedoeld om nuttig te zijn voor onderzoekers die op zoek zijn naar een gemakkelijke manier om open-source multi-lingual corpora te verkrijgen, maar misschien handig voor andere doeleinden.


Wp2txt Gerelateerde software