def load(fname):
  with open(fname) as f:
    for line in f:
      line = line.strip()
      yield line[:-1].strip(), int(line[-1])

all_data = list(load('data/yelp_labelled.txt'))
for text, id in all_data[:10]:
  print(text, id)

Wow... Loved this place. 1
Crust is not good. 0
Not tasty and the texture was just nasty. 0
Stopped by during the late May bank holiday off Rick Steve recommendation and loved it. 1
The selection on the menu was great and so were the prices. 1
Now I am getting angry and I want my damn pho. 0
Honeslty it didn't taste THAT fresh.) 0
The potatoes were like rubber and you could tell they had been made up ahead of time being kept under a warmer. 0
The fries were great too. 1
A great touch. 1

train_data = all_data[:int(len(all_data) * 0.7)]
dev_data = all_data[int(len(all_data) * 0.7):int(len(all_data) * 0.85)]
test_data = all_data[int(len(all_data) * 0.85):]

len(train_data), len(dev_data), len(test_data)

(700, 150, 150)

vocab = dict()

# tabulate the frequency of each word in the training set
for text, id in train_data:
  for word in text.split():
    if word not in vocab:
      vocab[word] = 1
    else:
      vocab[word] += 1

# drop words that appear less than 5 times
vocab = [word for word in vocab.keys() if vocab[word] >= 5]

# build sorted list of words
vocab = sorted(vocab)

# reverse lookup table
reverse_vocab = {v:k for k, v in enumerate(vocab)}

print(vocab[:10])

['&', '-', '2', '5', 'A', 'And', 'As', 'Best', 'Everything', 'Food']

P_word = {
  word: len([None for text, label in train_data if word in text]) / len(train_data)
  for word in vocab
}
P_word_given_pos = {
  word: len([None for text, label in train_data if word in text and label == 1]) /
        len([None for text, label in train_data if label == 1])
  for word in vocab
}
P_word_given_neg = {
  word: len([None for text, label in train_data if word in text and label == 0]) /
        len([None for text, label in train_data if label == 0])
  for word in vocab
}
P_pos = len([None for text, label in train_data if label == 1]) / len(train_data)
P_neg = len([None for text, label in train_data if label == 0]) / len(train_data)

P_pos_given_word = {
  word: P_word_given_pos[word] * P_pos / P_word[word]
  for word in vocab
}

P_neg_given_word ={
  word: P_word_given_neg[word] * P_neg / P_word[word]
  for word in vocab
}

def classify(text):
  pos_score = 1.0
  neg_score = 1.0
  for word in text.split():
    if word in vocab:
      pos_score *= P_pos_given_word[word]
      neg_score *= P_neg_given_word[word]
    else:
      # if word not in vocab, let the dataset's mean represent it
      pos_score *= P_pos
      neg_score *= P_neg
  return 1 if pos_score > neg_score else 0

classify('this is a good review'), classify('this is a bad review')

(1, 0)

dev_pred = [classify(text) for text, label in dev_data]
correct = sum(1 if pred==label else 0 for pred, (_, label) in zip(dev_pred, dev_data))
print(f'{100 * correct / len(dev_data):3.1f}% accuracy on dev')

60.0% accuracy on dev

N_splits = 5
dev_splits = [
  dev_data[
    int(len(dev_data) * (1/N_splits) * i):
    int(len(dev_data) * (1/N_splits) * (i+1))
  ] for i in range(N_splits)
]

for i, split in enumerate(dev_splits):
  split_pred = [classify(text) for text, label in split]
  split_correct = sum(1 if pred==label else 0 for pred, (_, label) in zip(split_pred, split))
  print(f'{100 * split_correct / (len(dev_data)/N_splits):3.1f}% accuracy on dev split {i}')

63.3% accuracy on dev split 0
70.0% accuracy on dev split 1
60.0% accuracy on dev split 2
53.3% accuracy on dev split 3
53.3% accuracy on dev split 4

alpha = 1

def P_word_given_pos_smoothed_fn(word, alpha):
  Nwc = len([None for text, label in train_data if word in text and label == 1])
  Nc = len([None for text, label in train_data if label == 1])
  return (Nwc + alpha) / (Nc + len(vocab) + alpha)

def P_word_given_neg_smoothed_fn(word, alpha):
  Nwc = len([None for text, label in train_data if word in text and label == 0])
  Nc = len([None for text, label in train_data if label == 0])
  return (Nwc + alpha) / (Nc + len(vocab) + alpha)

def classify_smoothed(text, alpha):
  pos_score = 1.0
  neg_score = 1.0
  for word in text.split():
    pos_score *= P_word_given_pos_smoothed_fn(word, alpha)
    neg_score *= P_word_given_neg_smoothed_fn(word, alpha)
  return 1 if pos_score > neg_score else 0

classify_smoothed('this is a good review', alpha), classify_smoothed('this is a bad review', alpha)

(1, 0)

dev_pred = [classify_smoothed(text, alpha) for text, label in dev_data]
correct = sum(1 if pred==label else 0 for pred, (_, label) in zip(dev_pred, dev_data))
print(f'{100 * correct / len(dev_data):3.1f}% accuracy on dev')

for i, split in enumerate(dev_splits):
  split_pred = [classify_smoothed(text, alpha) for text, label in split]
  split_correct = sum(1 if pred==label else 0 for pred, (_, label) in zip(split_pred, split))
  print(f'{100 * split_correct / (len(dev_data)/N_splits):3.1f}% accuracy on dev split {i}')

71.3% accuracy on dev
80.0% accuracy on dev split 0
70.0% accuracy on dev split 1
66.7% accuracy on dev split 2
66.7% accuracy on dev split 3
73.3% accuracy on dev split 4

for i in range(-3, 3):
  alpha = 2 ** i
  print(f'alpha = {alpha:4.2f}')

  dev_pred = [classify_smoothed(text, alpha) for text, label in dev_data]
  correct = sum(1 if pred==label else 0 for pred, (_, label) in zip(dev_pred, dev_data))
  print(f'{100 * correct / len(dev_data):3.1f}% accuracy on dev')

  for i, split in enumerate(dev_splits):
    split_pred = [classify_smoothed(text, alpha) for text, label in split]
    split_correct = sum(1 if pred==label else 0 for pred, (_, label) in zip(split_pred, split))
    print(f'{100 * split_correct / (len(dev_data)/N_splits):3.1f}% accuracy on dev split {i}')

  print()

alpha = 0.12
71.3% accuracy on dev
76.7% accuracy on dev split 0
70.0% accuracy on dev split 1
73.3% accuracy on dev split 2
66.7% accuracy on dev split 3
70.0% accuracy on dev split 4

alpha = 0.25
70.0% accuracy on dev
76.7% accuracy on dev split 0
66.7% accuracy on dev split 1
73.3% accuracy on dev split 2
66.7% accuracy on dev split 3
66.7% accuracy on dev split 4

alpha = 0.50
71.3% accuracy on dev
80.0% accuracy on dev split 0
66.7% accuracy on dev split 1
70.0% accuracy on dev split 2
70.0% accuracy on dev split 3
70.0% accuracy on dev split 4

alpha = 1.00
71.3% accuracy on dev
80.0% accuracy on dev split 0
70.0% accuracy on dev split 1
66.7% accuracy on dev split 2
66.7% accuracy on dev split 3
73.3% accuracy on dev split 4

alpha = 2.00
72.0% accuracy on dev
76.7% accuracy on dev split 0
66.7% accuracy on dev split 1
66.7% accuracy on dev split 2
73.3% accuracy on dev split 3
76.7% accuracy on dev split 4

alpha = 4.00
70.0% accuracy on dev
73.3% accuracy on dev split 0
56.7% accuracy on dev split 1
63.3% accuracy on dev split 2
73.3% accuracy on dev split 3
83.3% accuracy on dev split 4

  dev_pred = [classify_smoothed(text, alpha=2) for text, label in dev_data]
  correct = sum(1 if pred==label else 0 for pred, (_, label) in zip(dev_pred, dev_data))
  print(f'{100 * correct / len(dev_data):3.1f}% accuracy on dev')

72.0% accuracy on dev

top_positive_words = sorted(
  vocab,
  key=lambda word: P_pos_given_word[word],
  reverse=True
)[:10]

top_negative_words = sorted(
  vocab,
  key=lambda word: P_neg_given_word[word],
  reverse=True
)[:10]

print(f'Top positive words: {", ".join(top_positive_words)}')
print(f'Top negative words: {", ".join(top_negative_words)}')

Top positive words: Great, Their, great., loved, Good, amazing., delicious!, delicious., excellent, fantastic
Top negative words: bad, getting, minutes, probably, took, waited, wasn't, zero, being, give

Naive Bayes Classifier¶

Getting Started¶

Further Reading¶