1

Есть Dataframe. В нем Series c текстовыми полями и даны строчки-ключи. Нужно вывести те строки Dataframe, в которые есть вхождения строк-ключей

Vlados_he
  • 45
  • 6

1 Answers1

1

Можно фильтровать по регулярному выражению:

import re
import pandas

df = pandas.DataFrame(dict(column=["abc", "abba", "ba"]))
strings = "ab", "bc"
pattern = "|".join(map(re.escape, strings))
print(df[df.column.str.contains(pattern)])

Ожидаемо, результат не содержит "ba" строки:

  column
0    abc
1   abba

Для больших текстов, можно попробовать более эффективные алгоритмы. См. Поиск повторяющихся строк.

jfs
  • 52,361