версия Питона 3.4
я установил на ubuntu локальный сервер и все это работает через браузер. есть такой код:
#python 3.4
import urllib.request
url = 'http://ya.ru'
resp = urllib.request.urlopen(url)
respData = resp.read()
print(respData)
вся информация взятая из указанного сайта, на выходе(на браузере) отображаетя вот в таком формате:
b'
картикни(jpg, png, ...)
ссылки
кнопки и поля для заполнения
только вот вместо кирилицы показыет такую крякозябру \xd0\x9a\xd1\x83\xd0\xbf\xd0\xb8\xd1\x82\xd1\x8c
'
все содержимое сайта как вы видите в ковычках а перед ковычками буква b (b' ') и текста очень много.
Моя цель. Получить только текст из указанного сайта. но вместо текста получаю крякозябры (\xd0\x9a\xd1\x83\xd0\xbf\xd0\xb8\xd1\x82\xd1\x8c)
Вопрос: как это исравить? учитывая что содержимое сайтов на входе будут на русском и на английских языках.
sys.stdoutимеетasciiкодировку, указывает на сломанное окружение. На Ubuntu всё проще чем на Windows. Просто локаль настройте. Я обновил ответ. – jfs Sep 20 '15 at 20:16your-script.py-- это просто пример (буквальный перевод с английского:ваша-программа.py) -- используйте настоящее имя файла, куда Вы сохранили код из ответа. – jfs Sep 20 '15 at 20:39