| Webstemmer Gratis en Open Source Web Crawler en HTML Layout Analyzer |
Download nu |
Webstemmer Rangschikking & Samenvatting
- Naam uitgever:
- Yusuke Shinyama
- Uitgever website:
- http://www.unixuser.org/~euske/
- Besturingssystemen:
- Mac OS X
Webstemmer Tags
Webstemmer Beschrijving
Gratis en Open Source Web Crawler en HTML Layout Analyzer Webstemmer is een HTML-lay-outanalysator en een webcrawler die de hoofdtekst van een nieuwssite automatisch uittelt zonder banners, advertenties en / of navigatiebanden te laten mixen. Generalally, het extraheren van tekstinhoud van websites (vooral nieuwssites) eindigt met veel Onnodige dingen: advertenties en banners. Je zou enkele reguliere expressiepatronen kunnen maken om alleen gewenste delen op te halen, maar om een dergelijk patroon te construeren, is vaak een lastige en tijdrovende taak. Bovendien moeten sommige patronen op de hoogte zijn van de omringende contexten. Sommige nieuwssites hebben zelfs verschillende lay-outs.Webstemmer analyseert de lay-out van elke pagina in een bepaalde website en cijfers waar de hoofdtekst zich bevindt. Analyse kan op een volledig automatische manier worden gedaan met weinig menselijke interventie. U hoeft alleen een URL van de bovenste pagina te geven. Vereisten: · Python Wat is er nieuw in deze release: · Setup.py Toegevoegd
Webstemmer Gerelateerde software