pelican-theme/pelican/readers.py

# -*- coding: utf-8 -*-
try:
    from docutils import core

    # import the directives to have pygments support
    from pelican import rstdirectives
except ImportError:
    core = False
try:
    from markdown import Markdown
except ImportError:
    Markdown = False
import re

from pelican.utils import get_date, open


_METADATAS_PROCESSORS = {
    'tags': lambda x: map(unicode.strip, x.split(',')),
    'date': lambda x: get_date(x),
    'status': unicode.strip,
}


class Reader(object):
    enabled = True

class RstReader(Reader):
    enabled = bool(core)
    extension = "rst"

    def _parse_metadata(self, content):
        """Return the dict containing metadatas"""
        output = {}
        for m in re.compile('^:([a-z]+): (.*)\s', re.M).finditer(content):
            name, value = m.group(1).lower(), m.group(2)
            output[name] = _METADATAS_PROCESSORS.get(
                name, lambda x:x
            )(value)
        return output

    def read(self, filename):
        """Parse restructured text"""
        text = open(filename)
        metadatas = self._parse_metadata(text)
        extra_params = {'input_encoding': 'unicode',
                        'initial_header_level': '2'}
        rendered_content = core.publish_parts(text,
                                              source_path=filename,
                                              writer_name='html',
                                              settings_overrides=extra_params)
        title = rendered_content.get('title')
        content = rendered_content.get('body')
        if not metadatas.has_key('title'):
            metadatas['title'] = title
        return content, metadatas

class MarkdownReader(Reader):
    enabled = bool(Markdown)
    extension = "md"

    def read(self, filename):
        """Parse content and metadata of markdown files"""
        text = open(filename)
        md = Markdown(extensions = ['meta', 'codehilite'])
        content = md.convert(text)
        
        metadatas = {}
        for name, value in md.Meta.items():
            name = name.lower()
            metadatas[name] = _METADATAS_PROCESSORS.get(
                name, lambda x:x
            )(value[0])
        return content, metadatas


class HtmlReader(Reader):
    extension = "html"
    _re = re.compile('\<\!\-\-\#\s?[A-z0-9_-]*\s?\:s?[A-z0-9\s_-]*\s?\-\-\>')

    def read(self, filename):
        """Parse content and metadata of (x)HTML files"""
        content = open(filename)
        metadatas = {'title':'unnamed'}
        for i in self._re.findall(content):
            key = i.split(':')[0][5:].strip()
            value = i.split(':')[-1][:-3].strip()
            metadatas[key.lower()] = value

        return content, metadatas


_EXTENSIONS = dict((cls.extension, cls) for cls in Reader.__subclasses__())

def read_file(filename, fmt=None):
    """Return a reader object using the given format."""
    if not fmt:
        fmt = filename.split('.')[-1]
    if fmt not in _EXTENSIONS.keys():
        raise TypeError('Pelican does not know how to parse %s' % filename)
    reader = _EXTENSIONS[fmt]()
    if not reader.enabled:
        raise ValueError("Missing dependencies for %s" % fmt)
    return reader.read(filename)
Fix #65. Unicode, grr. Thanks Bruno Bord. 2011-02-01 22:49:33 +00:00			`# -- coding: utf-8 --`
Make readers with external dependencies optional. 2011-02-24 05:15:04 +00:00			`try:`
			`from docutils import core`

			`# import the directives to have pygments support`
use absolute import for the rstdirectives 2011-05-06 19:25:11 +02:00			`from pelican import rstdirectives`
Make readers with external dependencies optional. 2011-02-24 05:15:04 +00:00			`except ImportError:`
			`core = False`
			`try:`
			`from markdown import Markdown`
			`except ImportError:`
			`Markdown = False`
Welcome Pelican 2.0 ! Refactoring of the internals to be more extensible. --HG-- rename : pelican/bloggenerator.py => pelican/generators.py 2010-10-30 00:56:40 +01:00			`import re`

			`from pelican.utils import get_date, open`


Fixed tags parsing, now it can parse tags like this "blah,minor, foo , bar". Also, code for metadata parsing was slightly refactored. 2010-12-22 01:08:23 +03:00			`_METADATAS_PROCESSORS = {`
use unicode.strip instead of string.strip of the string module for metadata processors 2011-05-06 19:26:25 +02:00			`'tags': lambda x: map(unicode.strip, x.split(',')),`
Fixed tags parsing, now it can parse tags like this "blah,minor, foo , bar". Also, code for metadata parsing was slightly refactored. 2010-12-22 01:08:23 +03:00			`'date': lambda x: get_date(x),`
use unicode.strip instead of string.strip of the string module for metadata processors 2011-05-06 19:26:25 +02:00			`'status': unicode.strip,`
Fixed tags parsing, now it can parse tags like this "blah,minor, foo , bar". Also, code for metadata parsing was slightly refactored. 2010-12-22 01:08:23 +03:00			`}`
Welcome Pelican 2.0 ! Refactoring of the internals to be more extensible. --HG-- rename : pelican/bloggenerator.py => pelican/generators.py 2010-10-30 00:56:40 +01:00

Make readers with external dependencies optional. 2011-02-24 05:15:04 +00:00			`class Reader(object):`
			`enabled = True`

			`class RstReader(Reader):`
			`enabled = bool(core)`
			`extension = "rst"`
Welcome Pelican 2.0 ! Refactoring of the internals to be more extensible. --HG-- rename : pelican/bloggenerator.py => pelican/generators.py 2010-10-30 00:56:40 +01:00
			`def _parse_metadata(self, content):`
			`"""Return the dict containing metadatas"""`
			`output = {}`
Fixed tags parsing, now it can parse tags like this "blah,minor, foo , bar". Also, code for metadata parsing was slightly refactored. 2010-12-22 01:08:23 +03:00			`for m in re.compile('^:([a-z]+): (.*)\s', re.M).finditer(content):`
Welcome Pelican 2.0 ! Refactoring of the internals to be more extensible. --HG-- rename : pelican/bloggenerator.py => pelican/generators.py 2010-10-30 00:56:40 +01:00			`name, value = m.group(1).lower(), m.group(2)`
Fixed tags parsing, now it can parse tags like this "blah,minor, foo , bar". Also, code for metadata parsing was slightly refactored. 2010-12-22 01:08:23 +03:00			`output[name] = _METADATAS_PROCESSORS.get(`
			`name, lambda x:x`
			`)(value)`
Welcome Pelican 2.0 ! Refactoring of the internals to be more extensible. --HG-- rename : pelican/bloggenerator.py => pelican/generators.py 2010-10-30 00:56:40 +01:00			`return output`

			`def read(self, filename):`
			`"""Parse restructured text"""`
			`text = open(filename)`
			`metadatas = self._parse_metadata(text)`
			`extra_params = {'input_encoding': 'unicode',`
			`'initial_header_level': '2'}`
pass along the source filename of the rst files for better errors 2011-05-06 19:28:14 +02:00			`rendered_content = core.publish_parts(text,`
			`source_path=filename,`
			`writer_name='html',`
Welcome Pelican 2.0 ! Refactoring of the internals to be more extensible. --HG-- rename : pelican/bloggenerator.py => pelican/generators.py 2010-10-30 00:56:40 +01:00			`settings_overrides=extra_params)`
			`title = rendered_content.get('title')`
			`content = rendered_content.get('body')`
			`if not metadatas.has_key('title'):`
			`metadatas['title'] = title`
			`return content, metadatas`

Make readers with external dependencies optional. 2011-02-24 05:15:04 +00:00			`class MarkdownReader(Reader):`
			`enabled = bool(Markdown)`
			`extension = "md"`
Add the ability to read from markdown too. 2010-10-31 00:08:16 +01:00
			`def read(self, filename):`
			`"""Parse content and metadata of markdown files"""`
			`text = open(filename)`
Add syntax highlight support for markdown posts 2010-11-24 15:49:10 +01:00			`md = Markdown(extensions = ['meta', 'codehilite'])`
Add the ability to read from markdown too. 2010-10-31 00:08:16 +01:00			`content = md.convert(text)`

			`metadatas = {}`
			`for name, value in md.Meta.items():`
Lowercase meta field's name before looking the processor. 2010-12-17 00:04:45 +03:00			`name = name.lower()`
Fixed tags parsing, now it can parse tags like this "blah,minor, foo , bar". Also, code for metadata parsing was slightly refactored. 2010-12-22 01:08:23 +03:00			`metadatas[name] = _METADATAS_PROCESSORS.get(`
Simplier metadata processing, using dict's 'get' method with default value. 2010-12-17 00:07:55 +03:00			`name, lambda x:x`
			`)(value[0])`
Add the ability to read from markdown too. 2010-10-31 00:08:16 +01:00			`return content, metadatas`

Added support for HTML as input format 2011-02-14 19:10:01 +01:00
Make readers with external dependencies optional. 2011-02-24 05:15:04 +00:00			`class HtmlReader(Reader):`
			`extension = "html"`
Added support for HTML as input format 2011-02-14 19:10:01 +01:00			`_re = re.compile('\<\!\-\-\#\s?[A-z0-9_-]\s?\:s?[A-z0-9\s_-]\s?\-\-\>')`

			`def read(self, filename):`
			`"""Parse content and metadata of (x)HTML files"""`
			`content = open(filename)`
			`metadatas = {'title':'unnamed'}`
			`for i in self._re.findall(content):`
			`key = i.split(':')[0][5:].strip()`
			`value = i.split(':')[-1][:-3].strip()`
			`metadatas[key.lower()] = value`

			`return content, metadatas`



Make readers with external dependencies optional. 2011-02-24 05:15:04 +00:00			`_EXTENSIONS = dict((cls.extension, cls) for cls in Reader.__subclasses__())`
Welcome Pelican 2.0 ! Refactoring of the internals to be more extensible. --HG-- rename : pelican/bloggenerator.py => pelican/generators.py 2010-10-30 00:56:40 +01:00
			`def read_file(filename, fmt=None):`
			`"""Return a reader object using the given format."""`
			`if not fmt:`
Add the ability to read from markdown too. 2010-10-31 00:08:16 +01:00			`fmt = filename.split('.')[-1]`
Welcome Pelican 2.0 ! Refactoring of the internals to be more extensible. --HG-- rename : pelican/bloggenerator.py => pelican/generators.py 2010-10-30 00:56:40 +01:00			`if fmt not in _EXTENSIONS.keys():`
Add the ability to read from markdown too. 2010-10-31 00:08:16 +01:00			`raise TypeError('Pelican does not know how to parse %s' % filename)`
Welcome Pelican 2.0 ! Refactoring of the internals to be more extensible. --HG-- rename : pelican/bloggenerator.py => pelican/generators.py 2010-10-30 00:56:40 +01:00			`reader = _EXTENSIONS[fmt]()`
Make readers with external dependencies optional. 2011-02-24 05:15:04 +00:00			`if not reader.enabled:`
			`raise ValueError("Missing dependencies for %s" % fmt)`
Welcome Pelican 2.0 ! Refactoring of the internals to be more extensible. --HG-- rename : pelican/bloggenerator.py => pelican/generators.py 2010-10-30 00:56:40 +01:00			`return reader.read(filename)`