pelican-theme/pelican/readers.py

# -*- coding: utf-8 -*-
try:
    import docutils
    import docutils.core
    import docutils.io
    from docutils.writers.html4css1 import HTMLTranslator

    # import the directives to have pygments support
    from pelican import rstdirectives  # NOQA
except ImportError:
    core = False
try:
    from markdown import Markdown
except ImportError:
    Markdown = False  # NOQA
import re

from pelican.contents import Category, Tag, Author
from pelican.utils import get_date, open


_METADATA_PROCESSORS = {
    'tags': lambda x, y: [Tag(tag, y) for tag in unicode(x).split(',')],
    'date': lambda x, y: get_date(x),
    'status': lambda x, y: unicode.strip(x),
    'category': Category,
    'author': Author,
}


class Reader(object):
    enabled = True
    extensions = None

    def __init__(self, settings):
        self.settings = settings

    def process_metadata(self, name, value):
        if name in _METADATA_PROCESSORS:
            return _METADATA_PROCESSORS[name](value, self.settings)
        return value


class _FieldBodyTranslator(HTMLTranslator):

    def __init__(self, document):
        HTMLTranslator.__init__(self, document)
        self.compact_p = None

    def astext(self):
        return ''.join(self.body)

    def visit_field_body(self, node):
        pass

    def depart_field_body(self, node):
        pass


def render_node_to_html(document, node):
    visitor = _FieldBodyTranslator(document)
    node.walkabout(visitor)
    return visitor.astext()


class RstReader(Reader):
    enabled = bool(docutils)
    extension = ['rst']

    def _parse_metadata(self, document):
        """Return the dict containing document metadata"""
        output = {}
        for docinfo in document.traverse(docutils.nodes.docinfo):
            for element in docinfo.children:
                if element.tagname == 'field':  # custom fields (e.g. summary)
                    name_elem, body_elem = element.children
                    name = name_elem.astext()
                    if name == 'summary':
                        value = render_node_to_html(document, body_elem)
                    else:
                        value = body_elem.astext()
                else:  # standard fields (e.g. address)
                    name = element.tagname
                    value = element.astext()
                name = name.lower()

                output[name] = self.process_metadata(name, value)
        return output

    def _get_publisher(self, filename):
        extra_params = {'initial_header_level': '2'}
        pub = docutils.core.Publisher(
                destination_class=docutils.io.StringOutput)
        pub.set_components('standalone', 'restructuredtext', 'html')
        pub.process_programmatic_settings(None, extra_params, None)
        pub.set_source(source_path=filename)
        pub.publish()
        return pub

    def read(self, filename):
        """Parses restructured text"""
        pub = self._get_publisher(filename)
        parts = pub.writer.parts
        content = parts.get('body')

        metadata = self._parse_metadata(pub.document)
        metadata.setdefault('title', parts.get('title'))

        return content, metadata


class MarkdownReader(Reader):
    enabled = bool(Markdown)
    extension = ['md', 'markdown', 'mkd']
    extensions = ['codehilite', 'extra']

    def read(self, filename):
        """Parse content and metadata of markdown files"""
        text = open(filename)
        md = Markdown(extensions=set(self.extensions + ['meta']))
        content = md.convert(text)

        metadata = {}
        for name, value in md.Meta.items():
            name = name.lower()
            metadata[name] = self.process_metadata(name, value[0])
        return content, metadata


class HtmlReader(Reader):
    extension = ['html', 'htm']
    _re = re.compile('\<\!\-\-\#\s?[A-z0-9_-]*\s?\:s?[A-z0-9\s_-]*\s?\-\-\>')

    def read(self, filename):
        """Parse content and metadata of (x)HTML files"""
        with open(filename) as content:
            metadata = {'title': 'unnamed'}
            for i in self._re.findall(content):
                key = i.split(':')[0][5:].strip()
                value = i.split(':')[-1][:-3].strip()
                name = key.lower()
                metadata[name] = self.process_metadata(name, value)

            return content, metadata


_EXTENSIONS = dict((cls.extension, cls) for cls in Reader.__subclasses__())


def read_file(filename, fmt=None, settings=None):
    """Return a reader object using the given format."""
    if not fmt:
        fmt = filename.split('.')[-1]

    if fmt not in _EXTENSIONS:
        raise TypeError('Pelican does not know how to parse %s' % filename)

    reader = _EXTENSIONS[fmt](settings)
    settings_key = '%s_EXTENSIONS' % fmt.upper()

    if settings and settings_key in settings:
        reader.extensions = settings[settings_key]

    if not reader.enabled:
        raise ValueError("Missing dependencies for %s" % fmt)

    content, metadata = reader.read(filename)

    # eventually filter the content with typogrify if asked so
    if settings and settings['TYPOGRIFY']:
        from typogrify import Typogrify
        content = Typogrify.typogrify(content)

    return content, metadata
Fix #65. Unicode, grr. Thanks Bruno Bord. 2011-02-01 22:49:33 +00:00			`# -- coding: utf-8 --`
Make readers with external dependencies optional. 2011-02-24 05:15:04 +00:00			`try:`
ReST metadata parsing using docutils. 2011-05-10 07:55:30 +06:00			`import docutils`
			`import docutils.core`
			`import docutils.io`
			`from docutils.writers.html4css1 import HTMLTranslator`
Make readers with external dependencies optional. 2011-02-24 05:15:04 +00:00
			`# import the directives to have pygments support`
PEP8-ify. Wrap to 80 chars, sanitize imports. 2012-03-09 16:21:38 +01:00			`from pelican import rstdirectives # NOQA`
Make readers with external dependencies optional. 2011-02-24 05:15:04 +00:00			`except ImportError:`
			`core = False`
			`try:`
			`from markdown import Markdown`
			`except ImportError:`
PEP8-ify. Wrap to 80 chars, sanitize imports. 2012-03-09 16:21:38 +01:00			`Markdown = False # NOQA`
Welcome Pelican 2.0 ! Refactoring of the internals to be more extensible. --HG-- rename : pelican/bloggenerator.py => pelican/generators.py 2010-10-30 00:56:40 +01:00			`import re`

PEP8-ify. Wrap to 80 chars, sanitize imports. 2012-03-09 16:21:38 +01:00			`from pelican.contents import Category, Tag, Author`
Welcome Pelican 2.0 ! Refactoring of the internals to be more extensible. --HG-- rename : pelican/bloggenerator.py => pelican/generators.py 2010-10-30 00:56:40 +01:00			`from pelican.utils import get_date, open`


Metadata, not metadatas. 2011-05-07 20:00:30 +01:00			`_METADATA_PROCESSORS = {`
Support configurable URL's & SAVE_AS path for Author, Category and Tag 2011-12-23 23:43:32 +00:00			`'tags': lambda x, y: [Tag(tag, y) for tag in unicode(x).split(',')],`
			`'date': lambda x, y: get_date(x),`
PEP8-ify. Wrap to 80 chars, sanitize imports. 2012-03-09 16:21:38 +01:00			`'status': lambda x, y: unicode.strip(x),`
Create a Category class which has a url property 2011-12-22 15:13:12 +00:00			`'category': Category,`
Create a Author class which has a url property 2011-12-22 16:22:34 +00:00			`'author': Author,`
Fixed tags parsing, now it can parse tags like this "blah,minor, foo , bar". Also, code for metadata parsing was slightly refactored. 2010-12-22 01:08:23 +03:00			`}`
Welcome Pelican 2.0 ! Refactoring of the internals to be more extensible. --HG-- rename : pelican/bloggenerator.py => pelican/generators.py 2010-10-30 00:56:40 +01:00
PEP8-ify. Wrap to 80 chars, sanitize imports. 2012-03-09 16:21:38 +01:00
Make readers with external dependencies optional. 2011-02-24 05:15:04 +00:00			`class Reader(object):`
			`enabled = True`
Allow overriding reader extensions. This adds an extensions setting all readers in the style of [ext]_EXTENSIONS. So for the MarkdownReader, who's extension is "md", the setting read is MD_EXTENSIONS. The settings allow overriding the default options passed through the readers. In the case of Markdown the default values are ['codehilite','extra'], but user may change this through the setting: MD_EXTENSIONS = ['footnotes','abbr','codehilite'] 2011-06-15 23:48:54 +00:00			`extensions = None`
ReST metadata parsing using docutils. 2011-05-10 07:55:30 +06:00
Support configurable URL's & SAVE_AS path for Author, Category and Tag 2011-12-23 23:43:32 +00:00			`def __init__(self, settings):`
			`self.settings = settings`

			`def process_metadata(self, name, value):`
Make names of metadata lower. 2012-03-12 01:33:30 +09:00			`if name in _METADATA_PROCESSORS:`
			`return _METADATA_PROCESSORS[name](value, self.settings)`
Support configurable URL's & SAVE_AS path for Author, Category and Tag 2011-12-23 23:43:32 +00:00			`return value`

PEP8-ify. Wrap to 80 chars, sanitize imports. 2012-03-09 16:21:38 +01:00
ReST metadata parsing using docutils. 2011-05-10 07:55:30 +06:00			`class _FieldBodyTranslator(HTMLTranslator):`

Fix markup for single-paragraph summary in reST metadata 2012-03-25 21:39:41 +04:00			`def __init__(self, document):`
			`HTMLTranslator.__init__(self, document)`
			`self.compact_p = None`

ReST metadata parsing using docutils. 2011-05-10 07:55:30 +06:00			`def astext(self):`
			`return ''.join(self.body)`

			`def visit_field_body(self, node):`
			`pass`

			`def depart_field_body(self, node):`
			`pass`


			`def render_node_to_html(document, node):`
			`visitor = _FieldBodyTranslator(document)`
			`node.walkabout(visitor)`
			`return visitor.astext()`

PEP8-ify. Wrap to 80 chars, sanitize imports. 2012-03-09 16:21:38 +01:00
Make readers with external dependencies optional. 2011-02-24 05:15:04 +00:00			`class RstReader(Reader):`
ReST metadata parsing using docutils. 2011-05-10 07:55:30 +06:00			`enabled = bool(docutils)`
Add support for multiple file extensions per file reader. Conflicts: pelican/readers.py 2012-04-10 00:15:12 -04:00			`extension = ['rst']`
Welcome Pelican 2.0 ! Refactoring of the internals to be more extensible. --HG-- rename : pelican/bloggenerator.py => pelican/generators.py 2010-10-30 00:56:40 +01:00
ReST metadata parsing using docutils. 2011-05-10 07:55:30 +06:00			`def _parse_metadata(self, document):`
Support configurable URL's & SAVE_AS path for Author, Category and Tag 2011-12-23 23:43:32 +00:00			`"""Return the dict containing document metadata"""`
			`output = {}`
			`for docinfo in document.traverse(docutils.nodes.docinfo):`
			`for element in docinfo.children:`
PEP8-ify. Wrap to 80 chars, sanitize imports. 2012-03-09 16:21:38 +01:00			`if element.tagname == 'field': # custom fields (e.g. summary)`
Support configurable URL's & SAVE_AS path for Author, Category and Tag 2011-12-23 23:43:32 +00:00			`name_elem, body_elem = element.children`
			`name = name_elem.astext()`
Keep raw metadata text (but for summary) 2012-03-18 15:12:06 +01:00			`if name == 'summary':`
			`value = render_node_to_html(document, body_elem)`
			`else:`
			`value = body_elem.astext()`
PEP8-ify. Wrap to 80 chars, sanitize imports. 2012-03-09 16:21:38 +01:00			`else: # standard fields (e.g. address)`
Support configurable URL's & SAVE_AS path for Author, Category and Tag 2011-12-23 23:43:32 +00:00			`name = element.tagname`
			`value = element.astext()`
Make names of metadata lower. 2012-03-12 01:33:30 +09:00			`name = name.lower()`
Support configurable URL's & SAVE_AS path for Author, Category and Tag 2011-12-23 23:43:32 +00:00
			`output[name] = self.process_metadata(name, value)`
			`return output`
ReST metadata parsing using docutils. 2011-05-10 07:55:30 +06:00
			`def _get_publisher(self, filename):`
			`extra_params = {'initial_header_level': '2'}`
PEP8-ify. Wrap to 80 chars, sanitize imports. 2012-03-09 16:21:38 +01:00			`pub = docutils.core.Publisher(`
			`destination_class=docutils.io.StringOutput)`
ReST metadata parsing using docutils. 2011-05-10 07:55:30 +06:00			`pub.set_components('standalone', 'restructuredtext', 'html')`
			`pub.process_programmatic_settings(None, extra_params, None)`
			`pub.set_source(source_path=filename)`
			`pub.publish()`
			`return pub`
Welcome Pelican 2.0 ! Refactoring of the internals to be more extensible. --HG-- rename : pelican/bloggenerator.py => pelican/generators.py 2010-10-30 00:56:40 +01:00
			`def read(self, filename):`
ReST metadata parsing using docutils. 2011-05-10 07:55:30 +06:00			`"""Parses restructured text"""`
			`pub = self._get_publisher(filename)`
			`parts = pub.writer.parts`
			`content = parts.get('body')`

			`metadata = self._parse_metadata(pub.document)`
			`metadata.setdefault('title', parts.get('title'))`

Metadata, not metadatas. 2011-05-07 20:00:30 +01:00			`return content, metadata`
Welcome Pelican 2.0 ! Refactoring of the internals to be more extensible. --HG-- rename : pelican/bloggenerator.py => pelican/generators.py 2010-10-30 00:56:40 +01:00
ReST metadata parsing using docutils. 2011-05-10 07:55:30 +06:00
Make readers with external dependencies optional. 2011-02-24 05:15:04 +00:00			`class MarkdownReader(Reader):`
			`enabled = bool(Markdown)`
Add support for multiple file extensions per file reader. Conflicts: pelican/readers.py 2012-04-10 00:15:12 -04:00			`extension = ['md', 'markdown', 'mkd']`
Allow overriding reader extensions. This adds an extensions setting all readers in the style of [ext]_EXTENSIONS. So for the MarkdownReader, who's extension is "md", the setting read is MD_EXTENSIONS. The settings allow overriding the default options passed through the readers. In the case of Markdown the default values are ['codehilite','extra'], but user may change this through the setting: MD_EXTENSIONS = ['footnotes','abbr','codehilite'] 2011-06-15 23:48:54 +00:00			`extensions = ['codehilite', 'extra']`
Add the ability to read from markdown too. 2010-10-31 00:08:16 +01:00
			`def read(self, filename):`
			`"""Parse content and metadata of markdown files"""`
			`text = open(filename)`
pep8ize 2011-08-11 22:42:20 +02:00			`md = Markdown(extensions=set(self.extensions + ['meta']))`
Add the ability to read from markdown too. 2010-10-31 00:08:16 +01:00			`content = md.convert(text)`
ReST metadata parsing using docutils. 2011-05-10 07:55:30 +06:00
Metadata, not metadatas. 2011-05-07 20:00:30 +01:00			`metadata = {}`
Add the ability to read from markdown too. 2010-10-31 00:08:16 +01:00			`for name, value in md.Meta.items():`
Lowercase meta field's name before looking the processor. 2010-12-17 00:04:45 +03:00			`name = name.lower()`
Support configurable URL's & SAVE_AS path for Author, Category and Tag 2011-12-23 23:43:32 +00:00			`metadata[name] = self.process_metadata(name, value[0])`
Metadata, not metadatas. 2011-05-07 20:00:30 +01:00			`return content, metadata`
Add the ability to read from markdown too. 2010-10-31 00:08:16 +01:00
Added support for HTML as input format 2011-02-14 19:10:01 +01:00
Make readers with external dependencies optional. 2011-02-24 05:15:04 +00:00			`class HtmlReader(Reader):`
Add support for multiple file extensions per file reader. Conflicts: pelican/readers.py 2012-04-10 00:15:12 -04:00			`extension = ['html', 'htm']`
Added support for HTML as input format 2011-02-14 19:10:01 +01:00			`_re = re.compile('\<\!\-\-\#\s?[A-z0-9_-]\s?\:s?[A-z0-9\s_-]\s?\-\-\>')`

			`def read(self, filename):`
			`"""Parse content and metadata of (x)HTML files"""`
Use the with statement when opening files. 2012-03-09 16:17:09 +01:00			`with open(filename) as content:`
			`metadata = {'title': 'unnamed'}`
			`for i in self._re.findall(content):`
			`key = i.split(':')[0][5:].strip()`
			`value = i.split(':')[-1][:-3].strip()`
			`name = key.lower()`
			`metadata[name] = self.process_metadata(name, value)`
Added support for HTML as input format 2011-02-14 19:10:01 +01:00
Use the with statement when opening files. 2012-03-09 16:17:09 +01:00			`return content, metadata`
Added support for HTML as input format 2011-02-14 19:10:01 +01:00

Make readers with external dependencies optional. 2011-02-24 05:15:04 +00:00			`_EXTENSIONS = dict((cls.extension, cls) for cls in Reader.__subclasses__())`
Welcome Pelican 2.0 ! Refactoring of the internals to be more extensible. --HG-- rename : pelican/bloggenerator.py => pelican/generators.py 2010-10-30 00:56:40 +01:00
Use the with statement when opening files. 2012-03-09 16:17:09 +01:00
Allow overriding reader extensions. This adds an extensions setting all readers in the style of [ext]_EXTENSIONS. So for the MarkdownReader, who's extension is "md", the setting read is MD_EXTENSIONS. The settings allow overriding the default options passed through the readers. In the case of Markdown the default values are ['codehilite','extra'], but user may change this through the setting: MD_EXTENSIONS = ['footnotes','abbr','codehilite'] 2011-06-15 23:48:54 +00:00			`def read_file(filename, fmt=None, settings=None):`
Welcome Pelican 2.0 ! Refactoring of the internals to be more extensible. --HG-- rename : pelican/bloggenerator.py => pelican/generators.py 2010-10-30 00:56:40 +01:00			`"""Return a reader object using the given format."""`
			`if not fmt:`
Add the ability to read from markdown too. 2010-10-31 00:08:16 +01:00			`fmt = filename.split('.')[-1]`
Add a way to use Typogrify to enhance the generated HTML. 2012-03-11 02:48:36 +01:00
remove useless .keys() for key in dict expressions 2012-03-14 09:38:36 +01:00			`if fmt not in _EXTENSIONS:`
Add the ability to read from markdown too. 2010-10-31 00:08:16 +01:00			`raise TypeError('Pelican does not know how to parse %s' % filename)`
Add a way to use Typogrify to enhance the generated HTML. 2012-03-11 02:48:36 +01:00
Support configurable URL's & SAVE_AS path for Author, Category and Tag 2011-12-23 23:43:32 +00:00			`reader = _EXTENSIONS[fmt](settings)`
Allow overriding reader extensions. This adds an extensions setting all readers in the style of [ext]_EXTENSIONS. So for the MarkdownReader, who's extension is "md", the setting read is MD_EXTENSIONS. The settings allow overriding the default options passed through the readers. In the case of Markdown the default values are ['codehilite','extra'], but user may change this through the setting: MD_EXTENSIONS = ['footnotes','abbr','codehilite'] 2011-06-15 23:48:54 +00:00			`settings_key = '%s_EXTENSIONS' % fmt.upper()`
Add a way to use Typogrify to enhance the generated HTML. 2012-03-11 02:48:36 +01:00
Allow overriding reader extensions. This adds an extensions setting all readers in the style of [ext]_EXTENSIONS. So for the MarkdownReader, who's extension is "md", the setting read is MD_EXTENSIONS. The settings allow overriding the default options passed through the readers. In the case of Markdown the default values are ['codehilite','extra'], but user may change this through the setting: MD_EXTENSIONS = ['footnotes','abbr','codehilite'] 2011-06-15 23:48:54 +00:00			`if settings and settings_key in settings:`
			`reader.extensions = settings[settings_key]`
Add a way to use Typogrify to enhance the generated HTML. 2012-03-11 02:48:36 +01:00
Make readers with external dependencies optional. 2011-02-24 05:15:04 +00:00			`if not reader.enabled:`
			`raise ValueError("Missing dependencies for %s" % fmt)`
Add a way to use Typogrify to enhance the generated HTML. 2012-03-11 02:48:36 +01:00
			`content, metadata = reader.read(filename)`

			`# eventually filter the content with typogrify if asked so`
			`if settings and settings['TYPOGRIFY']:`
			`from typogrify import Typogrify`
			`content = Typogrify.typogrify(content)`

			`return content, metadata`