Где можно найти корпус русских стоп слов, который будет содержать: союзы, местоимения, частицы, предлоги и т.д. во всех формах, падежах, единственных и множественных числах?
Asked
Active
Viewed 3,873 times
2
-
4Вопрос относится к nlp, т.к. удаление из текста стоп-слов это одна из задач nlp, у меня это удаление делается просто, ищу слово в корпусе, если оно там есть удалаяю его. Но т.к. стоп слова имеюи разные формы (он, его, ему, им и т.д.) нужен большой корпус со всеми такими формами. Поэтому и отнес вопрос к nlp, мало ли есть люди, которые nlp занимаются, и у которых имеется такой корпус. – marllborobro Feb 28 '18 at 13:13
-
3Очень важный и правильный вопрос для задач машинного обучения. Приводить код в таком вопросе смысла мало... – MaxU - stand with Ukraine Mar 01 '18 at 08:38
-
Тематичен ли поиск баз данных? – A K Dec 05 '19 at 12:38
1 Answers
4
https://github.com/stopwords-iso/stopwords-ru
Я в свое время пользовался этим, вполне хватило
lynx
- 430