8

Пишу авторизацию в приложении и хочется отсечь попытки неадекватных школьников уже на этом этапе вписать в EditText невалидное имя (маты).

Проверку хотел сделать через .contains ArrayList<String>, дак вот после наверное двадцатого элемента фантазия кончилась :) да и не совсем по душе пришлось занятие :)

Поэтому вопрос - может кто уже делал подобную БД и может поделиться (на полный список не рассчитываю по понятным причинам), чтобы просто Ctrl+C, Ctrl+V.

PS. Просьба отнестись с пониманием и не пинать больно - с подобной задачей столкнулся впервые.

Chekist
  • 1,417
  • 1
  • 14
  • 26
  • не думаю, что этот вопрос относится к Андроид.
    Вот что удалось найти мне:
    http://www.bannedwordlist.com/lists/swearWords.xml
    Думаю, можно еще поизвращаться с запросом в гугл, и найти что ни будь подобное на русском
    https://www.google.com.ua/webhp?sourceid=chrome-instant&ion=1&espv=2&es_th=1&ie=UTF-8#q=java%20dirty%20words%20list&es_th=1
    – Vladyslav Matviienko Mar 05 '15 at 19:49
  • Спасибо за корректировку. Да, список нужен именно в кириллице. – Chekist Mar 05 '15 at 19:51
  • 4
    Вот мой списочек https://club.panasonic.ru/stopwords.txt – Павел Вершинин Mar 06 '15 at 02:22
  • 2
    Вы не сможете адекватно детектировать мат без настоящего, живого модератора. Любой школьник быстро догадается заменять русскую у на английский y или переставить две буквы без особой потери смысла. Кроме того, что делать с частями слов («оскорблять»)? Разрешать их тотально или запрещать? – VladD Mar 06 '15 at 07:33
  • 1
    Попробуйте распарсить список запрещенных доменов .рф там неплохой список мата составили http://vnovokubanske.ru/internet1/262-zapret-domen-rf.html – GeneralProger Mar 06 '15 at 08:14
  • Вспоминаю один форум, который старательно замарывал слово "троебуквие". Меня это жутко бесило. Я долго не мог понять, что там вообще могло почудиться. Это надо иметь очень больную фантазию... – VadimTukaev Mar 07 '15 at 06:16
  • В данном случае таблица подобных слов может оказаться полезной, но в дополнение к модерации системы. Фантазия пользователя может оказаться более изощренной чем подразумевает ваш список – tutankhamun Apr 13 '15 at 20:08
  • Я думаю следует разработать систему, где можно кликнув на слово пометить её как матное, и после премодерации скрывать её от глаз людей (заменять на звёздочки например). Премодерировать легко - результат должен быть превосходным :) Ну естественно основные матные слова нужно будет добавить ручками. – cyberdream Apr 15 '15 at 07:53

1 Answers1

2

Тема стара как мир.

Из того, что я видел, именно php-censure - скрипт на PHP для определения нецензурных слов - оказался лучше других по отзывам. Можете взять на вооружение подход, который в нём используется: "плохие" слова определяются по частям. Отдельно приставка, отдельно корень и тд. Именно потому, что матерных слов существует не много, а много - производных от них, такой подход работает хорошо. Также используется список "хороших" слов, чтобы не зацензурировать лишнего.