Проблемы с кириллицей в python

Question

Проблема очень простая - банально не могу получить содержимое страницы с кириллическими символами, для примера взять хотя бы русскую Wikipedia. Используя urllib делал так, но постоянно натыкаюсь на Exception

from urllib.request import urlopen
from urllib.parse import quote


def get_content(name):
    print( urlopen('http://ru.wikipedia.org/wiki/' + quote(name)).readall()
           .decode('utf-8'))

get_content('лес')

такого вида:

UnicodeEncodeError: 'charmap' codec can't encode character '\xb2' in position 14187: character maps to <undefined>

Читал похожие вопросы в других обсуждениях, но не зависимо оттого, что я делаю с quote - результат пока тот же. Быть может, делаю что-то глупое, но пока просто-напросто достать страницу из вики не выходит

На чем вы запускаете скрипт? Не из консоли Windows, случайно? Что говорит, например sys.stdout.encoding? Просто с utf-8 всё должно работать. — approximatenumber, Mar 22 '16 at 07:46
Ошибка говорит, что у вас проблема с печатью текста (в консоле). См. вот небольшой ликбез по выводу Юникода в консоль на Питоне (проблема там другая, но решение одинаковое) — jfs, Mar 22 '16 at 16:09
В сторону: не стоит utf-8 жёстко прописывать—html страничка может другую кодировку использовать. See A good way to get the charset/encoding of an HTTP response in Python — jfs, Mar 22 '16 at 16:12

score 1 · Answer 1 · answered Mar 22 '16 at 18:43

1

Просто нужно добавить

# coding=utf-8
from urllib import urlopen, quote


def get_content(name):
    return urlopen('http://ru.wikipedia.org/wiki/' + quote(name)).read()

print get_content('лес')

answered Mar 22 '16 at 18:43

Стас Казанцев

41

Нет, в комментариях ранее отметили - все дело в консольном выводе, а не кодировке. Использую PyCharm - их консоль (терминал) отличается не только от консоли самой Windows, но и вообще странно устроена. – Lescott Mar 25 '16 at 20:48

PavelD. · Answer 2 · 2016-06-22T01:02:57.853

0

Возможно так поможет:

# ! /usr/bin/env python
# _*_ coding: utf-8 _*_

    print( urlopen(u'http://ru.wikipedia.org/wiki/' + quote(name)).readall()
       .decode('utf-8'))

edited Jun 22 '16 at 01:02

answered Jun 22 '16 at 00:57

PavelD.

125

Проблемы с кириллицей в python

2 Answers2