youtube-dl/youtube_dl/extractor/crackle.py

# coding: utf-8
from __future__ import unicode_literals, division

import re

from .common import InfoExtractor
from ..compat import compat_str
from ..utils import (
    determine_ext,
    float_or_none,
    int_or_none,
    parse_age_limit,
    parse_duration,
)


class CrackleIE(InfoExtractor):
    _GEO_COUNTRIES = ['US']
    _VALID_URL = r'(?:crackle:|https?://(?:(?:www|m)\.)?crackle\.com/(?:playlist/\d+/|(?:[^/]+/)+))(?P<id>\d+)'
    _TEST = {
        'url': 'https://www.crackle.com/andromeda/2502343',
        'info_dict': {
            'id': '2502343',
            'ext': 'mp4',
            'title': 'Under The Night',
            'description': 'md5:d2b8ca816579ae8a7bf28bfff8cefc8a',
            'duration': 2583,
            'view_count': int,
            'average_rating': 0,
            'age_limit': 14,
            'genre': 'Action, Sci-Fi',
            'creator': 'Allan Kroeker',
            'artist': 'Keith Hamilton Cobb, Kevin Sorbo, Lisa Ryder, Lexa Doig, Robert Hewitt Wolfe',
            'release_year': 2000,
            'series': 'Andromeda',
            'episode': 'Under The Night',
            'season_number': 1,
            'episode_number': 1,
        },
        'params': {
            # m3u8 download
            'skip_download': True,
        }
    }

    def _real_extract(self, url):
        video_id = self._match_id(url)

        media = self._download_json(
            'https://web-api-us.crackle.com/Service.svc/details/media/%s/%s'
            % (video_id, self._GEO_COUNTRIES[0]), video_id, query={
                'disableProtocols': 'true',
                'format': 'json'
            })

        title = media['Title']

        formats = []
        for e in media['MediaURLs']:
            if e.get('UseDRM') is True:
                continue
            format_url = e.get('Path')
            if not format_url or not isinstance(format_url, compat_str):
                continue
            ext = determine_ext(format_url)
            if ext == 'm3u8':
                formats.extend(self._extract_m3u8_formats(
                    format_url, video_id, 'mp4', entry_protocol='m3u8_native',
                    m3u8_id='hls', fatal=False))
            elif ext == 'mpd':
                formats.extend(self._extract_mpd_formats(
                    format_url, video_id, mpd_id='dash', fatal=False))
        self._sort_formats(formats)

        description = media.get('Description')
        duration = int_or_none(media.get(
            'DurationInSeconds')) or parse_duration(media.get('Duration'))
        view_count = int_or_none(media.get('CountViews'))
        average_rating = float_or_none(media.get('UserRating'))
        age_limit = parse_age_limit(media.get('Rating'))
        genre = media.get('Genre')
        release_year = int_or_none(media.get('ReleaseYear'))
        creator = media.get('Directors')
        artist = media.get('Cast')

        if media.get('MediaTypeDisplayValue') == 'Full Episode':
            series = media.get('ShowName')
            episode = title
            season_number = int_or_none(media.get('Season'))
            episode_number = int_or_none(media.get('Episode'))
        else:
            series = episode = season_number = episode_number = None

        subtitles = {}
        cc_files = media.get('ClosedCaptionFiles')
        if isinstance(cc_files, list):
            for cc_file in cc_files:
                if not isinstance(cc_file, dict):
                    continue
                cc_url = cc_file.get('Path')
                if not cc_url or not isinstance(cc_url, compat_str):
                    continue
                lang = cc_file.get('Locale') or 'en'
                subtitles.setdefault(lang, []).append({'url': cc_url})

        thumbnails = []
        images = media.get('Images')
        if isinstance(images, list):
            for image_key, image_url in images.items():
                mobj = re.search(r'Img_(\d+)[xX](\d+)', image_key)
                if not mobj:
                    continue
                thumbnails.append({
                    'url': image_url,
                    'width': int(mobj.group(1)),
                    'height': int(mobj.group(2)),
                })

        return {
            'id': video_id,
            'title': title,
            'description': description,
            'duration': duration,
            'view_count': view_count,
            'average_rating': average_rating,
            'age_limit': age_limit,
            'genre': genre,
            'creator': creator,
            'artist': artist,
            'release_year': release_year,
            'series': series,
            'episode': episode,
            'season_number': season_number,
            'episode_number': episode_number,
            'thumbnails': thumbnails,
            'subtitles': subtitles,
            'formats': formats,
        }
[crackle] Add new extractor 8 years ago			`# coding: utf-8`
[crackle] Fix extraction and update _TESTS (closes #10333) 8 years ago			`from __future__ import unicode_literals, division`

[crackle] Fix extraction (closes #15969) 6 years ago			`import re`

[crackle] Add new extractor 8 years ago			`from .common import InfoExtractor`
[crackle] Fix extraction (closes #15969) 6 years ago			`from ..compat import compat_str`
			`from ..utils import (`
			`determine_ext,`
			`float_or_none,`
			`int_or_none,`
			`parse_age_limit,`
			`parse_duration,`
			`)`
[crackle] Add new extractor 8 years ago

			`class CrackleIE(InfoExtractor):`
[crackle] use geo bypass mechanism 7 years ago			`_GEO_COUNTRIES = ['US']`
[crackle] improve extraction - extract vtt subtitles - extract multiple resolutions for thumbnails - pass geo verification proxy headers - add support for mobile urls 7 years ago			`_VALID_URL = r'(?:crackle:\|https?://(?:(?:www\|m)\.)?crackle\.com/(?:playlist/\d+/\|(?:[^/]+/)+))(?P<id>\d+)'`
[crackle] Add new extractor 8 years ago			`_TEST = {`
[crackle] Fix extraction (closes #15969) 6 years ago			`'url': 'https://www.crackle.com/andromeda/2502343',`
[crackle] Add new extractor 8 years ago			`'info_dict': {`
[crackle] Fix extraction (closes #15969) 6 years ago			`'id': '2502343',`
[crackle] Add new extractor 8 years ago			`'ext': 'mp4',`
[crackle] Fix extraction (closes #15969) 6 years ago			`'title': 'Under The Night',`
			`'description': 'md5:d2b8ca816579ae8a7bf28bfff8cefc8a',`
			`'duration': 2583,`
			`'view_count': int,`
			`'average_rating': 0,`
			`'age_limit': 14,`
			`'genre': 'Action, Sci-Fi',`
			`'creator': 'Allan Kroeker',`
			`'artist': 'Keith Hamilton Cobb, Kevin Sorbo, Lisa Ryder, Lexa Doig, Robert Hewitt Wolfe',`
			`'release_year': 2000,`
			`'series': 'Andromeda',`
			`'episode': 'Under The Night',`
			`'season_number': 1,`
			`'episode_number': 1,`
[crackle] Add new extractor 8 years ago			`},`
			`'params': {`
			`# m3u8 download`
			`'skip_download': True,`
			`}`
			`}`

			`def _real_extract(self, url):`
			`video_id = self._match_id(url)`
[crackle] Fix extraction and update _TESTS (closes #10333) 8 years ago
[crackle] Fix extraction (closes #15969) 6 years ago			`media = self._download_json(`
			`'https://web-api-us.crackle.com/Service.svc/details/media/%s/%s'`
			`% (video_id, self._GEO_COUNTRIES[0]), video_id, query={`
			`'disableProtocols': 'true',`
			`'format': 'json'`
			`})`

			`title = media['Title']`

			`formats = []`
			`for e in media['MediaURLs']:`
			`if e.get('UseDRM') is True:`
			`continue`
			`format_url = e.get('Path')`
			`if not format_url or not isinstance(format_url, compat_str):`
			`continue`
			`ext = determine_ext(format_url)`
			`if ext == 'm3u8':`
			`formats.extend(self._extract_m3u8_formats(`
			`format_url, video_id, 'mp4', entry_protocol='m3u8_native',`
			`m3u8_id='hls', fatal=False))`
			`elif ext == 'mpd':`
			`formats.extend(self._extract_mpd_formats(`
			`format_url, video_id, mpd_id='dash', fatal=False))`
			`self._sort_formats(formats)`
[crackle] Fix extraction and update _TESTS (closes #10333) 8 years ago
[crackle] Fix extraction (closes #15969) 6 years ago			`description = media.get('Description')`
			`duration = int_or_none(media.get(`
			`'DurationInSeconds')) or parse_duration(media.get('Duration'))`
			`view_count = int_or_none(media.get('CountViews'))`
			`average_rating = float_or_none(media.get('UserRating'))`
			`age_limit = parse_age_limit(media.get('Rating'))`
			`genre = media.get('Genre')`
			`release_year = int_or_none(media.get('ReleaseYear'))`
			`creator = media.get('Directors')`
			`artist = media.get('Cast')`

			`if media.get('MediaTypeDisplayValue') == 'Full Episode':`
			`series = media.get('ShowName')`
			`episode = title`
			`season_number = int_or_none(media.get('Season'))`
			`episode_number = int_or_none(media.get('Episode'))`
			`else:`
			`series = episode = season_number = episode_number = None`
[crackle] Add new extractor 8 years ago
			`subtitles = {}`
[crackle] Fix extraction (closes #15969) 6 years ago			`cc_files = media.get('ClosedCaptionFiles')`
			`if isinstance(cc_files, list):`
			`for cc_file in cc_files:`
			`if not isinstance(cc_file, dict):`
			`continue`
			`cc_url = cc_file.get('Path')`
			`if not cc_url or not isinstance(cc_url, compat_str):`
			`continue`
			`lang = cc_file.get('Locale') or 'en'`
			`subtitles.setdefault(lang, []).append({'url': cc_url})`

[crackle] improve extraction - extract vtt subtitles - extract multiple resolutions for thumbnails - pass geo verification proxy headers - add support for mobile urls 7 years ago			`thumbnails = []`
[crackle] Fix extraction (closes #15969) 6 years ago			`images = media.get('Images')`
			`if isinstance(images, list):`
			`for image_key, image_url in images.items():`
			`mobj = re.search(r'Img_(\d+)[xX](\d+)', image_key)`
			`if not mobj:`
			`continue`
[crackle] improve extraction - extract vtt subtitles - extract multiple resolutions for thumbnails - pass geo verification proxy headers - add support for mobile urls 7 years ago			`thumbnails.append({`
[crackle] Fix extraction (closes #15969) 6 years ago			`'url': image_url,`
			`'width': int(mobj.group(1)),`
			`'height': int(mobj.group(2)),`
[crackle] Add new extractor 8 years ago			`})`

			`return {`
			`'id': video_id,`
			`'title': title,`
[crackle] Fix extraction (closes #15969) 6 years ago			`'description': description,`
			`'duration': duration,`
			`'view_count': view_count,`
			`'average_rating': average_rating,`
			`'age_limit': age_limit,`
			`'genre': genre,`
			`'creator': creator,`
			`'artist': artist,`
			`'release_year': release_year,`
			`'series': series,`
			`'episode': episode,`
			`'season_number': season_number,`
			`'episode_number': episode_number,`
[crackle] improve extraction - extract vtt subtitles - extract multiple resolutions for thumbnails - pass geo verification proxy headers - add support for mobile urls 7 years ago			`'thumbnails': thumbnails,`
[crackle] Add new extractor 8 years ago			`'subtitles': subtitles,`
			`'formats': formats,`
			`}`