metadata_parser

Een module om metadata uit documenten te parseren
Download nu

metadata_parser Rangschikking & Samenvatting

Advertentie

  • Rating:
  • Vergunning:
  • MIT/X Consortium Lic...
  • Prijs:
  • FREE
  • Naam uitgever:
  • Jonathan Vanasco
  • Uitgever website:
  • http://search.cpan.org/~jvanasco/Authen-PluggableCaptcha-0.05/lib/Authen/PluggableCaptcha/Tutorial.pm

metadata_parser Tags


metadata_parser Beschrijving

Metadata_parser is een Python-module voor het trekken van metadata uit webdocumenten. Het vereist Beautifulsoup, en was grotendeels gebaseerd op de OpenGraph-module van Erik River (https://github.com/erikriver/opengraph). Ik had iets agressiever dan Erik's Module, dus Had te vork. InstallatiePip Installeer metadata_parserfeatures - het trekt zoveel mogelijk metadata uit een document - je kunt een 'strategie' instellen voor het vinden van metadata (dat wil zeggen, alleen opengreep of paginatibuten accepteren) Opmerkingen Dit vereist dat dit nodig is Kan importeren BS4 Het doet anders, anders probeert het Moopsoup (3) voor snelheid, het zal een prachtige parser met LXML instantiëren en terugvallen op 'geen' (de interne pure python) als het geen LXMLDe Default 'strategie' kan laden is Om in deze volgorde te kijken: OG, DC, META, pagina OG = OpenGRAPH DC = DUBLINCORE META = METADATA PAGINA = Pagina-elementenU kunt een strategie opgeven als een door komma's gescheiden lijst van het bovenstaande. De slechts 2 pagina-elementen die momenteel worden ondersteund, zijn: Waarde -> Meta Gegevens -> METADATA UserFrom Een URL >>> Importeer metadata_parser >>> Page = metadata_parser.metadataparker (URL = "http://www.cnn.com") >>> Print Page.metadata >>> Print Page.get_field ('titel') >>> Print Page.get_field ('Titel', Strategie = 'og') >>> Pagina afdrukken.get_field ('titel', strategie = 'pagina, og, dc') van HTML >>> HTML = "" "" "" >>> pagina = metadata_parser.metadataparker (HTML = HTML) >>> Print Page.metADATA >>> Print Page.get_field ('titel') >>> Print Page.get_field ('titel', strategie = 'og') >>> Print Page.get_field ('titel) ', strategie =' pagina, og, dc ') product-startpagina


metadata_parser Gerelateerde software