Как обучить модель, на основе текстов из статей

Question

Подскажите как можно обучить модель ,способную определить возможность банкротства фирм, основываясь на текстах/заголовках статей в интернете?

На руках есть файл эксель с выборкой где присутствует id_фирмы название фирмы, название статьи, дата статьи, статья с текстом. Помогите разобраться как это делается.

Интересует анализ текста прежде всего.

score 1 · Answer 1 · answered Sep 26 '18 at 13:07

Существует несколько способов классификации текстов. В последнее время особой популярностью пользуются следующие два метода:

для больших наборов данных можно построить LSTM (Long Short-Term Memory) модель.
воспользоваться одномерной сверточной сетью CNN (Convolutional Neural Network)

Пример реализации LSTM модели при помощи Keras:

'''Trains an LSTM model on the IMDB sentiment classification task.
The dataset is actually too small for LSTM to be of any advantage
compared to simpler, much faster methods such as TF-IDF + LogReg.
# Notes
- RNNs are tricky. Choice of batch size is important,
choice of loss and optimizer is critical, etc.
Some configurations won't converge.
- LSTM loss decrease patterns during training can be quite different
from what you see with CNNs/MLPs/etc.
'''
from __future__ import print_function

from keras.preprocessing import sequence
from keras.models import Sequential
from keras.layers import Dense, Embedding
from keras.layers import LSTM
from keras.datasets import imdb

max_features = 20000
# cut texts after this number of words (among top max_features most common words)
maxlen = 80
batch_size = 32

print('Loading data...')
(x_train, y_train), (x_test, y_test) = imdb.load_data(num_words=max_features)
print(len(x_train), 'train sequences')
print(len(x_test), 'test sequences')

print('Pad sequences (samples x time)')
x_train = sequence.pad_sequences(x_train, maxlen=maxlen)
x_test = sequence.pad_sequences(x_test, maxlen=maxlen)
print('x_train shape:', x_train.shape)
print('x_test shape:', x_test.shape)

print('Build model...')
model = Sequential()
model.add(Embedding(max_features, 128))
model.add(LSTM(128, dropout=0.2, recurrent_dropout=0.2))
model.add(Dense(1, activation='sigmoid'))

# try using different optimizers and different optimizer configs
model.compile(loss='binary_crossentropy',
              optimizer='adam',
              metrics=['accuracy'])

print('Train...')
model.fit(x_train, y_train,
          batch_size=batch_size,
          epochs=15,
          validation_data=(x_test, y_test))
score, acc = model.evaluate(x_test, y_test,
                            batch_size=batch_size)
print('Test score:', score)
print('Test accuracy:', acc)

Пример CNN модели:

'''This example demonstrates the use of Convolution1D for text classification.

Gets to 0.89 test accuracy after 2 epochs.
90s/epoch on Intel i5 2.4Ghz CPU.
10s/epoch on Tesla K40 GPU.
'''
from __future__ import print_function

from keras.preprocessing import sequence
from keras.models import Sequential
from keras.layers import Dense, Dropout, Activation
from keras.layers import Embedding
from keras.layers import Conv1D, GlobalMaxPooling1D
from keras.datasets import imdb

# set parameters:
max_features = 5000
maxlen = 400
batch_size = 32
embedding_dims = 50
filters = 250
kernel_size = 3
hidden_dims = 250
epochs = 2

print('Loading data...')
(x_train, y_train), (x_test, y_test) = imdb.load_data(num_words=max_features)
print(len(x_train), 'train sequences')
print(len(x_test), 'test sequences')

print('Pad sequences (samples x time)')
x_train = sequence.pad_sequences(x_train, maxlen=maxlen)
x_test = sequence.pad_sequences(x_test, maxlen=maxlen)
print('x_train shape:', x_train.shape)
print('x_test shape:', x_test.shape)

print('Build model...')
model = Sequential()

# we start off with an efficient embedding layer which maps
# our vocab indices into embedding_dims dimensions
model.add(Embedding(max_features,
                    embedding_dims,
                    input_length=maxlen))
model.add(Dropout(0.2))

# we add a Convolution1D, which will learn filters
# word group filters of size filter_length:
model.add(Conv1D(filters,
                 kernel_size,
                 padding='valid',
                 activation='relu',
                 strides=1))
# we use max pooling:
model.add(GlobalMaxPooling1D())

# We add a vanilla hidden layer:
model.add(Dense(hidden_dims))
model.add(Dropout(0.2))
model.add(Activation('relu'))

# We project onto a single unit output layer, and squash it with a sigmoid:
model.add(Dense(1))
model.add(Activation('sigmoid'))

model.compile(loss='binary_crossentropy',
              optimizer='adam',
              metrics=['accuracy'])
model.fit(x_train, y_train,
          batch_size=batch_size,
          epochs=epochs,
          validation_data=(x_test, y_test))

PS оба примера используют заранее оцифрованный набор данных IMDB - база данных отзывов о фильмах.

score 0 · Accepted Answer · answered Sep 28 '18 at 09:09

Любое (почти) машинное обучение начинается с наличия набора обучающих данных. Перечисленных Вами атрибутов - "id_фирмы, название фирмы, название статьи, дата статьи, статья с текстом" для этого набора - мало. Для этапа обучения необходимо еще присутствие информации (признака), какие из фирм уже обанкротились, а какие нет. И тогда, обучив по этим данным классификатор, с его помощью вы сможете на других (уже реальных) данных получать значения этот признака (обанкротится или нет).

Так что начните с этого. Думаю - это может оказаться наиболее сложным моментом. А разбор текста - это в общем-то более-менее техническая задача. Там свои, конечно,заморочки. Но без размеченных как было описанных данных - вы точно никуда не продвинетесь.

Как обучить модель, на основе текстов из статей

2 Answers2