Python. Как декодировать json, содержащий кириллицу?

Question

Работаю с данными из твиттера, все твиты сохраняются в json файл. В файле встречаются(вместо кириллицы) такие символы:

Подскажите, пожалуйста, как декодировать уже записанный файл?

Вот код, который использовался для сбора данных:

def save_track_keywords():
"""
Track two keywords with a tracking stream and save machting tweets.
To stop the stream, press ctrl-c or kill the python process.
"""
# Set up file to write to
outfile = open("keywords_example.json", "w")

   def save_tweet(tweet):
       json.dump(tweet, outfile)
       # Insert a newline after one tweet
       outfile.write("\n")
   keywords = ["коррупция"]
   try:
       stream = streaming.stream(
           on_tweet=save_tweet, on_notification=print_notice, track=keywords)
   except (KeyboardInterrupt, SystemExit):
       logging.error("User stopped program, exiting!")
       outfile.flush()
       outfile.close()

Есть еще такая функция, которая сохранит данные в базу данных в нужной мне кодировке:

  def import_json(fi):
     """
     Load json data from a file into the database.
     """
     logging.warning("Loading tweets from json file {0}".format(fi))
     for line in open(fi, "rb"):
        data = json.loads(line.decode('utf-8'))
        database.create_tweet_from_dict(data)

Пример кода в студию! А encoding='utf-8' пробовали использовать? По умолчанию, используется системная кодировка, а на винде это скорее всего будет cp1251 — gil9red, Aug 23 '17 at 10:28
Давайте уточним, проблема возникает в import_json, в data = json.loads(line.decode('utf-8'))? У вас исключение возникает? Или проблема в том, что юникодные последовательсти вида \u0423 не декодируются в нормальный вид? — gil9red, Aug 23 '17 at 12:51

score 1 · Answer 1 · answered Aug 23 '17 at 13:46

При записи достаточно передать ensure_ascii=False, чтобы не экранировать не-ascii символы:

>>> import json
>>> print(json.dumps('ъ'))
"\u044a"
>>> print(json.dumps('ъ', ensure_ascii=False))
"ъ"

Обе json строки кодируют одну и ту же Питон строку.

Связанные вопросы:

Python. Как декодировать json, содержащий кириллицу?

1 Answers1