Поиск по бинарному файлу

Question

Коллеги, необходимо найти все вхождения в файле по формату "data\model\папка\папка\файл.расширение". Их может быть несколько. Структуру файла копать времени нет (файл не текстовый), поэтому решил пойти путём поиска первого совпадения и нахождения первого вхождения формата файла (tga, dds в обоих регистрах), после чего извлечения среза (файл[начало:конец]). Данный скрипт возвращает слишком много совпадений из несуществующих мест. Где я мог допустить ошибку?

# -*- coding: utf-8 -*-
import os
import glob

folder = r"C:\files\data\model"
final_folder = r"C:\files\data\model_patched"
files = glob.glob(folder + r'\**\*.fskin', recursive=True)
filecount = 0
oc_count = 0
for file in files:
    with open(file, 'r+b') as f:
        fcontent = f.read()
        fcontent = fcontent.decode("utf-16", errors='ignore')
        cur_pos = 0
        extensions = ['.TGA', '.DDS', '.tga', '.dds']
        occurences = []
        print("file {}:".format(file))
        while cur_pos != -1:
            string_begin = fcontent.find(r"data\model", cur_pos)
            cur_pos = string_begin  # начинаем с 0 или конца предыдущего вхождения
            string_end = 0
            cur_pos_iter = int(cur_pos)  # Чтобы не перезаписать cur_pos
            while string_begin != -1:
                ch = fcontent[cur_pos_iter:cur_pos_iter+4]  # берём 4 символа с текущей позиции
                if ch not in extensions:  # если не находим, увеличиваем счётчик на 1 и идём дальше
                    cur_pos_iter += 1
                else:  #  Если находим, ищем вхождение целиком, ставим курсор на конец вхождения и глушим цикл
                    string_end = cur_pos_iter+4
                    occurence = fcontent[string_begin:string_end]
                    cur_pos = string_end
                    print("Found {} [{}:{}]".format(occurence, string_begin, string_end))
                    oc_count += 1
        else:
            filecount += 1
            filename_relative = file[file.find('model')+5:]
            new_filename = final_folder+filename_relative
            # os.makedirs(os.path.dirname(new_filename), exist_ok=True)
            # with open(new_filename, 'wb') as fw:
            #    fw.write(bytearray(fcontent, 'utf-16'))
            #    fw.close()
            f.close()

print("Done. Replaced {} occurences in {} files.".format(filecount, oc_count))

не ясно что на входе что на выходе. Что значит "по формату" искать? Какая часть фиксирована в строке, какая нет? (почему бы регулярным выражением не воспользоваться?) Что на выходе хотите получить? Просто позиции в файле? На что хотите заменить? — jfs, Mar 16 '18 at 14:01
@jfs регэкспы - не самая сильная моя сторона. На входе файл с содержимым какая-то китайщинапуть к файлуещё китайщина. Путей может быть несколько, в разных частях файла. На выходе я хочу заменить эти пути на сгенерированные и сохранить в отдельный файл по структуре папок (закомменченная часть кода в конце). — Twen Shin, Mar 16 '18 at 15:04
у вас тут несколько задач, которые вызывают у вас сложности. Попробуйте по одной их решать. В первую очередь выясните, позволяет ли двоичный формат менять длину путей, которые вы хотите заменить (к примеру, есть ли нули после строки с путём или где задаётся длина, которую можно подкрутить)¶ Если в принципе возможно заменить строку, тогда временно забудьте о двоичном файле и создайте вручную простой тестовый файл куда вы примеры возможных путей поместите и научитесь в этом текстовом файле находить все нужные пути. Затем менять эти пути. Если требуется отдельные SO вопросы по подзадачам задайте. — jfs, Mar 16 '18 at 17:12
пример поиска в двоичном файле: Поиск паттерна (последовательность байт) в файле (несколько Гб) в Питоне 2 — jfs, Mar 16 '18 at 17:13
связанные вопросы: Поиск строк в файле, Как заменить строчку в .txt файле через python 3? — jfs, Mar 16 '18 at 17:15

Поиск по бинарному файлу

0 Answers0