Html parser

HTML PARDER is een Java-bibliotheek die wordt gebruikt om HTML te ontleden in een lineaire of geneste mode.
Download nu

Html parser Rangschikking & Samenvatting

Advertentie

  • Rating:
  • Vergunning:
  • LGPL
  • Prijs:
  • FREE
  • Naam uitgever:
  • Derrick Oswald
  • Uitgever website:
  • http://htmlparser.org

Html parser Tags


Html parser Beschrijving

HTML PARDER is een Java-bibliotheek die wordt gebruikt om HTML te parseren in een lineaire of geneste mode. HTMLPARSER is een supersnelle real-time parser voor HTML van echte wereld. Wat de meeste ontwikkelaars naar HTmlparker heeft aangetrokken, is de eenvoud geweest in ontwerp, snelheid en het vermogen om het streamen van de real-world HTML te verwerken. De twee fundamentele gebruiksgevallen die door de parser worden afgehandeld, zijn extractie en transformatie (het gebruik van de syntheses, waar html Pagina's worden vanaf nul gemaakt, wordt beter afgehandeld door andere gereedschappen die dichter bij de bron van gegevens komen). Terwijl eerdere versies zich concentreerden op gegevensafzuiging van webpagina's, heeft versie 1.4 van de HTMLPARSER aanzienlijke verbeteringen op het gebied van transformerende webpagina's, met vereenvoudigde tagcreatie en bewerkings- en -verbatim tohtml () methode-uitgang.In om HTMLParker te gebruiken. om code in de Java-programmeertaal te kunnen schrijven. Hoewel sommige voorbeeldprogramma's worden verschaft die mogelijk nuttig zijn als ze staan, is het meer dan waarschijnlijk nodig (of wil) om uw eigen programma's te maken of de daarvoor bestemde toepassing te wijzigen. Om de bibliotheek te gebruiken, moet u de bibliotheek gebruiken. Voeg de HTMLLEXERER.JAR of HTMLPARSER.JAR toe aan uw klassenpad bij het samenstellen en uitvoeren. De HTMLLEXER.JAR biedt toegang tot een laag niveau tot generieke string, opmerking en tag knooppunten op de pagina in een lineaire, platte, sequentiële manier. De HTMLPARSER.JAR, die de klassen in HTMLLEXER.JAR omvat, biedt toegang tot een pagina als een sequentie van geneste gedifferentieerde tags die string, opmerking en andere tag-knooppunten bevatten. Dus waar de uitvoer van oproepen naar de Lexer NEXTNODE () -methode kan zijn: "WELKOM" ETC ... De uitvoer van de Parser Nodeiterator zou Nest de tags als kinderen van de en andere knooppunten (hier vertegenwoordigd door inkeping): "WELKOM" ETC ... De Parser probeert in evenwicht te brengen Tags openen met eindtags om de structuur van de pagina te presenteren, terwijl de lexer eenvoudig knooppunten uitspuwt. Als uw aanvraag alleen een bescheiden structurele kennis van de pagina nodig heeft, en voornamelijk bezig is met individuele, geïsoleerde knooppunten, moet u overwegen gebruik te maken van de lichtgewicht lexer. Maar als uw aanvraag kennis vereist van de geneste structuur van de pagina, bijvoorbeeld het verwerken van tabellen, wilt u waarschijnlijk de volledige parser gebruiken. ExtractionExtractie omvat alle informatie-ophaalprogramma's die niet bedoeld zijn om de bronpagina te behouden. Deze covers gebruikt als: · Tekstwinning, voor gebruik als invoer voor tekstzoekers-databases bijvoorbeeld · Link-extractie, voor het kruipen door webpagina's of het oogsten van e-mailadressen · Screen-schraap, voor programmatische gegevensinvoer van webpagina's · Resource-extractie, het verzamelen van afbeeldingen of geluid · Een browser-voorkant, de voorlopige fase van de pagina-display · Linkcontrole, zorgen voor koppelingen zijn geldig · Sitemonitoring, controle voor paginaverschillen die verder gaan dan simplistische diffsleer zijn verschillende faciliteiten in de htmlparker-codebase om te helpen met extractie, inclusief filters, bezoekers en Javabeans.transformationTransformatie omvat alle verwerking waarbij de invoer en de uitvoer HTML-pagina's zijn. Enkele voorbeelden zijn: · URL herschrijven, sommige of alle links op een pagina wijzigen · Site Capture, het verplaatsen van inhoud van het web naar lokale schijf · Censuur, het verwijderen van beledigende woorden en zinsdelen van pagina's · HTML-opruiming, het corrigeren van foutieve pagina's ingenomen URL's verwijzende reclame · Conversie naar XML, het verplaatsen van bestaande webpagina's naar XMLDURING of na het lezen op een pagina, kunnen operaties op de knooppunten vele transformatietaken "op zijn plaats" uitvoeren, die vervolgens kunnen worden uitgevoerd met de methode TOHTML (). Afhankelijk van het doel van uw toepassing, wilt u waarschijnlijk kijken naar knooppuntdecorateurs, bezoekers of aangepaste tags in combinatie met de prototypicalnodefactory. De HTML-parser is een open source-bibliotheek die is vrijgegeven onder GNU-mindere General Public License, die eigenlijk zegt dat u dat wel zegt Gratis om de bibliotheek te gebruiken "AS is" in andere (zelfs gepatenteerde) producten, zolang het verschuldigde krediet wordt gegeven aan de auteurs en de broncode voor de HTMLPARSER is meegeleverd of verkrijgbaar met het andere product. Raadpleeg de LGPL-licentie voor gewijzigd of ingesloten gebruik.


Html parser Gerelateerde software

XJ3D

XJ3D is een project van het Web3D-consortium gericht op het maken van een toolkit voor VRML97 en X3D-inhoud volledig geschreven in Java. ...

250

Downloaden