Кракозябры при чтении JSON

Question

Есть json, прочитал:

with open(name) as f:
    data = json.load(f)
    data_join = ''
    for i in data['rss']['channel']['items']:
       data_join += ' ' + i['description']
    result = chardet.detect(data_join)
    original_text = data_join.decode(result['encoding'])
    print(original_text)

Если сделать print(data_join), получаем:

ІЫРбвШ єШЯаР аРббзШвлТРов ЯаШЭпвм ЯЮапФЪР

и т.д.

Если сделать print(ascii(data['rss']['channel']['items'][0])), получаем что-то такое:

\u042c\u042b\u042d \u0432\u0433\u0430\u0428\u0431\u0432\u042e\u0422 \u042f\u042e \u0428\u0432\u042e\u0423\u0420\u042c 2016 \u0423\u042e\u0424\u0420 \

На этапе chardet.detect(data_join) выходит ошибка:

TypeError: Expected object of type bytes or bytearray, got: <class 'str'>

Как исправить на автомате? Не перебором возможных кодировок, а на лету.

явно в вопросе упомяните, что utf-8 не работает (и как именно: исключение получаете? Какое?). Ещё приведите значение: locale.getpreferredencoding(). Где вы получили кракозябры (в консоли, в файле -- чем файл открывали)? Какой результат: print(ascii(data['rss']['channel']['items'][0]))? — jfs, Oct 23 '17 at 12:56
@jfs locale.getpreferredencoding() выводит cp1251 Кракозябры получаю в консоли — Ruslan Sagitov, Oct 23 '17 at 13:11
откуда у вас json? Почему он в iso-8859-5 закодирован? — jfs, Oct 23 '17 at 13:38

jfs · Answer 1 · 2017-10-23T13:50:26.120

Если пытаться угадать кодировку файла "автоматом":

>>> import chardet
>>> chardet.detect('ЬЫЭ вгаШбвЮТ ЯЮ ШвЮУРЬ 2016 УЮФР'.encode('cp1251'))
{'encoding': 'ISO-8859-5', 'confidence': 0.99, 'language': 'Russian'}
>>> 'ЬЫЭ вгаШбвЮТ ЯЮ ШвЮУРЬ 2016 УЮФР'.encode('cp1251').decode('ISO-8859-5')
'млн туристов по итогам 2016 года'

то в общем случае вы можете ошибиться. Схема из устаревшей rfc 4627 (которая, предполагая содержимое json файла, может выбрать из различных utf-* кодировок), не помогла бы с iso-8859-5. В общем случае можно только гадать (нет 100% гарантии, что правильно кодировку выбрали) Проблемы с кодировкой Python 2.7.

Если есть возможность, то исправьте источник, чтобы либо более традиционная UTF-8 кодировка для передачи json использовалась бы, либо вообще использовались бы возможности json по экранированию символов, чтобы в ASCII кодировке передать (ensure_ascii=True). Обе опции, в отличии от такой кодировки как iso-8859-5, поддерживают произвольный набор символов — весь Unicode.

Если решите продолжать chardet использовать, то откройте файл в бинарном режиме open(name, 'rb'), чтобы в chardet.detect() передать байты. Строки не следует в detect() передавать. Зная кодировку, превратите данные в текст и передайте в json.loads().

Кракозябры при чтении JSON

1 Answers1