路透社文章的文本數據分析與可視化


作者|Manmohan Singh
編譯|VK
來源|Towards Datas Science

當我要求你解釋文本數據時,你會怎么做?你將采取什么步驟來構建文本可視化?

本文將幫助你獲得構建可視化和解釋文本數據所需的信息。

從文本數據中獲得的見解將有助於我們發現文章之間的聯系。它將檢測趨勢和模式。對文本數據的分析將排除噪音,發現以前未知的信息。

這種分析過程也稱為探索性文本分析(ETA)。運用K-means、Tf-IDF、詞頻等方法對這些文本數據進行分析。此外,ETA在數據清理過程中也很有用。

我們還使用Matplotlib、seaborn和Plotly庫將結果可視化到圖形、詞雲和繪圖中。

在分析文本數據之前,請完成這些預處理任務。

從數據源檢索數據

有很多非結構化文本數據可供分析。你可以從以下來源獲取數據。

  1. 來自Kaggle的Twitter文本數據集。

  2. Reddit和twitter數據集使用API。

  3. 使用Beautifulsoup從網站上獲取文章、。

我將使用路透社的SGML格式的文章。為了便於分析,我將使用beauthoulsoup庫從數據文件中獲取日期、標題和文章正文。

使用下面的代碼從所有數據文件中獲取數據,並將輸出存儲在單個CSV文件中。

from bs4 import BeautifulSoup
import pandas as pd
import csv

article_dict = {}
i = 0
list_of_data_num = []

for j in range(0,22):
    if j < 10:
        list_of_data_num.append("00" + str(j))
    else:
        list_of_data_num.append("0" + str(j))

# 循環所有文章以提取日期、標題和文章主體
for num in list_of_data_num:
    try:
        soup = BeautifulSoup(open("data/reut2-" + num + ".sgm"), features='lxml')
    except:
        continue
    print(num)
    data_reuters = soup.find_all('reuters')
    for data in data_reuters:
        article_dict[i] = {}
        for date in data.find_all('date'):
            try:
                article_dict[i]["date"] = str(date.contents[0]).strip()
            except:
                article_dict[i]["date"] = None
            # print(date.contents[0])
        for title in data.find_all('title'):
            article_dict[i]["title"] = str(title.contents[0]).strip()
            # print(title.contents)
        for text in data.find_all('text'):
            try:
                article_dict[i]["text"] = str(text.contents[4]).strip()
            except:
                article_dict[i]["text"] = None
        i += 1


dataframe_article = pd.DataFrame(article_dict).T
dataframe_article.to_csv('articles_data.csv', header=True, index=False, quoting=csv.QUOTE_ALL)
print(dataframe_article)
  1. 還可以使用Regex和OS庫組合或循環所有數據文件。

  2. 每篇文章的正文以 開頭,因此使用find_all('reuters')。

  3. 你也可以使用pickle模塊來保存數據,而不是CSV。

清洗數據

在本節中,我們將從文本數據中移除諸如空值、標點符號、數字等噪聲。首先,我們刪除文本列中包含空值的行。然后我們處理另一列的空值。

import pandas as pd import re

articles_data = pd.read_csv(‘articles_data.csv’) print(articles_data.apply(lambda x: sum(x.isnull()))) articles_nonNull = articles_data.dropna(subset=[‘text’]) articles_nonNull.reset_index(inplace=True)

def clean_text(text):

‘’’Make text lowercase, remove text in square brackets,remove \n,remove punctuation and remove words containing numbers.’’’

    text = str(text).lower()
    text = re.sub(‘<.*?>+’, ‘’, text)
    text = re.sub(‘[%s]’ % re.escape(string.punctuation), ‘’, text)
    text = re.sub(‘\n’, ‘’, text)
    text = re.sub(‘\w*\d\w*’, ‘’, text)
    return text

articles_nonNull[‘text_clean’]=articles_nonNull[‘text’]\
                                  .apply(lambda x:clean_text(x))
  • 當我們刪除文本列中的空值時,其他列中的空值也會消失。

  • 我們使用re方法去除文本數據中的噪聲。

數據清理過程中采取的步驟可能會根據文本數據增加或減少。因此,請仔細研究你的文本數據並相應地構建clean_text()方法。

隨着預處理任務的完成,我們將繼續分析文本數據。

讓我們從分析開始。

1.路透社文章篇幅

我們知道所有文章的篇幅不一樣。因此,我們將考慮長度等於或超過一段的文章。根據研究,一個句子的平均長度是15-20個單詞。一個段落應該有四個句子。

articles_nonNull[‘word_length’] = articles_nonNull[‘text’].apply(lambda x: len(str(x).split())) print(articles_nonNull.describe())

articles_word_limit = articles_nonNull[articles_nonNull[‘word_length’] > 60]

plt.figure(figsize=(12,6)) 
p1=sns.kdeplot(articles_word_limit[‘word_length’], shade=True, color=”r”).set_title(‘Kernel Distribution of Number Of words’)

  • 我刪除了那些篇幅不足60字的文章。

  • 字長分布是右偏的。

  • 大多數文章有150字左右。

  • 包含事實或股票信息的路透社文章用詞較少。

2.路透社文章中的常用詞

在這一部分中,我們統計了文章中出現的字數,並對結果進行了分析。我們基於N-gram方法對詞數進行了分析。N-gram是基於N值的單詞的出現。

我們將從文本數據中刪除停用詞。因為停用詞是噪音,在分析中沒有太大用處。

1最常見的單字單詞(N=1)

讓我們在條形圖中繪制unigram單詞,並為unigram單詞繪制詞雲。

from gensim.parsing.preprocessing 
import remove_stopwords					   
import genism											      
from wordcloud import WordCloud								   
import numpy as np										   
import random									          

# 從gensim方法導入stopwords到stop_list變量
# 你也可以手動添加stopwords
gensim_stopwords = gensim.parsing.preprocessing.STOPWORDS			   
stopwords_list = list(set(gensim_stopwords))					           
stopwords_update = ["mln", "vs","cts","said","billion","pct","dlrs","dlr"]			          
stopwords = stopwords_list + stopwords_update
articles_word_limit['temp_list'] = articles_word_limit['text_clean'].apply(lambda x:str(x).split())

# 從文章中刪除停用詞
def remove_stopword(x):
    return [word for word in x if word not in stopwords]
articles_word_limit['temp_list_stopw'] = articles_word_limit['temp_list'].apply(lambda x:remove_stopword(x))

# 生成ngram的單詞
def generate_ngrams(text, n_gram=1):
    ngrams = zip(*[text[i:] for i in range(n_gram)])
    return [' '.join(ngram) for ngram in ngrams]
  
  
article_unigrams = defaultdict(int)
for tweet in articles_word_limit['temp_list_stopw']:
    for word in generate_ngrams(tweet):
        article_unigrams[word] += 1
        
article_unigrams_df = pd.DataFrame(sorted(article_unigrams.items(), key=lambda x: x[1])[::-1])
N=50

# 在路透社的文章中前50個常用的unigram
fig, axes = plt.subplots(figsize=(18, 50))
plt.tight_layout()
sns.barplot(y=article_unigrams_df[0].values[:N], x=article_unigrams_df[1].values[:N], color='red')
axes.spines['right'].set_visible(False)
axes.set_xlabel('')
axes.set_ylabel('')
axes.tick_params(axis='x', labelsize=13)
axes.tick_params(axis='y', labelsize=13)
axes.set_title(f'Top {N} most common unigrams in Reuters Articles', fontsize=15)
plt.show()


# 畫出詞雲
def col_func(word, font_size, position, orientation, font_path, random_state):
    colors = ['#b58900', '#cb4b16', '#dc322f', '#d33682', '#6c71c4',
              '#268bd2', '#2aa198', '#859900']
    return random.choice(colors)
fd = {
    'fontsize': '32',
    'fontweight' : 'normal',
    'verticalalignment': 'baseline',
    'horizontalalignment': 'center',
}
wc = WordCloud(width=2000, height=1000, collocations=False,
               background_color="white",
               color_func=col_func,
               max_words=200,
               random_state=np.random.randint(1, 8)) .generate_from_frequencies(article_unigrams)
fig, ax = plt.subplots(figsize=(20,10))
ax.imshow(wc, interpolation='bilinear')
ax.axis("off")
ax.set_title(‘Unigram Words of Reuters Articles’, pad=24, fontdict=fd)
plt.show()

Share, trade, stock是一些最常見的詞匯,它們是基於股票市場和金融行業的文章。

因此,我們可以說,大多數路透社文章屬於金融和股票類。

2.最常見的Bigram詞(N=2)

讓我們為Bigram單詞繪制條形圖和詞雲。

article_bigrams = defaultdict(int)
for tweet in articles_word_limit[‘temp_list_stopw’]:
    for word in generate_ngrams(tweet, n_gram=2):
        article_bigrams[word] += 1
        
df_article_bigrams=pd.DataFrame(sorted(article_bigrams.items(),
                                key=lambda x: x[1])[::-1])
                                
N=50

# 前50個單詞的柱狀圖
fig, axes = plt.subplots(figsize=(18, 50), dpi=100)
plt.tight_layout()
sns.barplot(y=df_article_bigrams[0].values[:N],
            x=df_article_bigrams[1].values[:N], 
            color=’red’)
axes.spines[‘right’].set_visible(False)
axes.set_xlabel(‘’)
axes.set_ylabel(‘’)
axes.tick_params(axis=’x’, labelsize=13)
axes.tick_params(axis=’y’, labelsize=13)
axes.set_title(f’Top {N} most common Bigrams in Reuters Articles’,
               fontsize=15)
plt.show()

#詞雲
wc = WordCloud(width=2000, height=1000, collocations=False,
               background_color=”white”,
               color_func=col_func,
               max_words=200,
               random_state=np.random.randint(1,8))\
               .generate_from_frequencies(article_bigrams)
               
fig, ax = plt.subplots(figsize=(20,10))
ax.imshow(wc, interpolation=’bilinear’)
ax.axis(“off”)
ax.set_title(‘Trigram Words of Reuters Articles’, pad=24,
             fontdict=fd)
plt.show()

Bigram比unigram提供更多的文本信息和上下文。比如,share loss顯示:大多數人在股票上虧損。

3.最常用的Trigram詞

讓我們為trigma單詞繪制條形圖和詞雲。

article_trigrams = defaultdict(int)
for tweet in articles_word_limit[‘temp_list_stopw’]:
    for word in generate_ngrams(tweet, n_gram=3):
        article_trigrams[word] += 1
df_article_trigrams = pd.DataFrame(sorted(article_trigrams.items(),
                                   key=lambda x: x[1])[::-1])
                                   
N=50

# 柱狀圖的前50個trigram 
fig, axes = plt.subplots(figsize=(18, 50), dpi=100)
plt.tight_layout()
sns.barplot(y=df_article_trigrams[0].values[:N],
            x=df_article_trigrams[1].values[:N], 
            color=’red’)
axes.spines[‘right’].set_visible(False)
axes.set_xlabel(‘’)
axes.set_ylabel(‘’)
axes.tick_params(axis=’x’, labelsize=13)
axes.tick_params(axis=’y’, labelsize=13)
axes.set_title(f’Top {N} most common Trigrams in Reuters articles’,
               fontsize=15)
plt.show()

# 詞雲
wc = WordCloud(width=2000, height=1000, collocations=False,
background_color=”white”,
color_func=col_func,
max_words=200,
random_state=np.random.randint(1,8)).generate_from_frequencies(article_trigrams)
fig, ax = plt.subplots(figsize=(20,10))
ax.imshow(wc, interpolation=’bilinear’)
ax.axis(“off”)
ax.set_title(‘Trigrams Words of Reuters Articles’, pad=24,
             fontdict=fd)
plt.show()

大多數的三元組都與雙元組相似,但無法提供更多信息。所以我們在這里結束這一部分。

3.文本數據的命名實體識別(NER)標記

NER是從文本數據中提取特定信息的過程。在NER的幫助下,我們從文本中提取位置、人名、日期、數量和組織實體。在這里了解NER的更多信息。我們使用Spacy python庫來完成這項工作。

import spacy	
from matplotlib import cm
from matplotlib.pyplot import plt

nlp = spacy.load('en_core_web_sm')
ner_collection = {"Location":[],"Person":[],"Date":[],"Quantity":[],"Organisation":[]}
location = []
person = []
date = []
quantity = []
organisation = []
def ner_text(text):
    doc = nlp(text)
    ner_collection = {"Location":[],"Person":[],"Date":[],"Quantity":[],"Organisation":[]}
    for ent in doc.ents:
        if str(ent.label_) == "GPE":
            ner_collection['Location'].append(ent.text)
            location.append(ent.text)
        elif str(ent.label_) == "DATE":
            ner_collection['Date'].append(ent.text)
            person.append(ent.text)
        elif str(ent.label_) == "PERSON":
            ner_collection['Person'].append(ent.text)
            date.append(ent.text)
        elif str(ent.label_) == "ORG":
            ner_collection['Organisation'].append(ent.text)
            quantity.append(ent.text)
        elif str(ent.label_) == "QUANTITY":
            ner_collection['Quantity'].append(ent.text)
            organisation.append(ent.text)
        else:
            continue
    return ner_collection
   articles_word_limit['ner_data'] = articles_word_limit['text'].map(lambda x: ner_text(x))
    
location_name = []
location_count = []
for i in location_counts.most_common()[:10]:
    location_name.append(i[0].upper())
    location_count.append(i[1])


fig, ax = plt.subplots(figsize=(15, 8), dpi=100)
ax.barh(location_name, location_count, alpha=0.7,
         # width = 0.5,
        color=cm.Blues([i / 0.00525 for i in [ 0.00208, 0.00235, 0.00281, 0.00317, 0.00362,
                                              0.00371, 0.00525, 0.00679, 0.00761, 0.00833]])
        )
plt.rcParams.update({'font.size': 10})
rects = ax.patches
for i, label in enumerate(location_count):
    ax.text(label+100 , i, str(label), size=10, ha='center', va='center')
ax.text(0, 1.02, 'Count of Location name Extracted from Reuters Articles', 
        transform=ax.transAxes, size=12, weight=600, color='#777777')
ax.xaxis.set_ticks_position('bottom')
ax.tick_params(axis='y', colors='black', labelsize=12)
ax.set_axisbelow(True)
ax.text(0, 1.08, 'TOP 10 Location Mention in Reuters Articles',
        transform=ax.transAxes, size=22, weight=600, ha='left')
ax.text(0, -0.1, 'Source: http://kdd.ics.uci.edu/databases/reuters21578/reuters21578.html',
        transform=ax.transAxes, size=12, weight=600, color='#777777')
ax.spines['right'].set_visible(False)
ax.spines['top'].set_visible(False)
ax.spines['left'].set_visible(False)
ax.spines['bottom'].set_visible(False)
plt.tick_params(axis='y',which='both', left=False, top=False, labelbottom=False)
ax.set_xticks([])
plt.show()

  • 從這個圖表中,你可以說大多數文章都包含來自美國、日本、加拿大、倫敦和中國的新聞。

  • 對美國的高度評價代表了路透在美業務的重點。

  • person變量表示1987年誰是名人。這些信息有助於我們了解這些人。

  • organization變量包含世界上提到最多的組織。

4.文本數據中的唯一詞

我們將在使用TF-IDF的文章中找到唯一的詞匯。詞頻(TF)是每篇文章的字數。反向文檔頻率(IDF)同時考慮所有提到的文章並衡量詞的重要性,。

TF-IDF得分較高的詞在一篇文章中的數量較高,而在其他文章中很少出現或不存在。

讓我們計算TF-IDF分數並找出唯一的單詞。

from sklearn.feature_extraction.text import TfidfVectorizer

tfidf_vectorizer = TfidfVectorizer(use_idf=True)
tfidf_vectorizer_vectors=tfidf_vectorizer.fit_transform(articles_word_limit[‘text_clean’])
tfidf = tfidf_vectorizer_vectors.todense()
tfidf[tfidf == 0] = np.nan

# 使用numpy的nanmean,在計算均值時忽略nan
means = np.nanmean(tfidf, axis=0)

# 將其轉換為一個字典,以便以后查找
Means_words = dict(zip(tfidf_vectorizer.get_feature_names(),
                       means.tolist()[0]))
unique_words=sorted(means_words.items(),
                    key=lambda x: x[1],
                    reverse=True)
print(unique_words)

5.用K-均值聚類文章

K-Means是一種無監督的機器學習算法。它有助於我們在一組中收集同一類型的文章。我們可以通過初始化k值來確定組或簇的數目。了解更多關於K-Means以及如何在這里選擇K值。作為參考,我選擇k=4。

from sklearn.feature_extraction.text import TfidfVectorizer
from sklearn.cluster import KMeans
from sklearn.metrics import adjusted_rand_score

vectorizer = TfidfVectorizer(stop_words=’english’,use_idf=True)
X = vectorizer.fit_transform(articles_word_limit[‘text_clean’])
k = 4
model = KMeans(n_clusters=k, init=’k-means++’,
               max_iter=100, n_init=1)
model.fit(X)
order_centroids = model.cluster_centers_.argsort()[:, ::-1]
terms = vectorizer.get_feature_names()
clusters = model.labels_.tolist()
articles_word_limit.index = clusters
for i in range(k):
    print(“Cluster %d words:” % i, end=’’)

for title in articles_word_limit.ix[i
                    [[‘text_clean’,’index’]].values.tolist():
    print(‘ %s,’ % title, end=’’)

它有助於我們將文章按不同的組進行分類,如體育、貨幣、金融等。K-Means的准確性普遍較低。

結論

NER和K-Means是我最喜歡的分析方法。其他人可能喜歡N-gram和Unique words方法。在本文中,我介紹了最著名和聞所未聞的文本可視化和分析方法。本文中的所有這些方法都是獨一無二的,可以幫助你進行可視化和分析。

我希望這篇文章能幫助你發現文本數據中的未知數。

原文鏈接:https://towardsdatascience.com/analysis-and-visualization-of-unstructured-text-data-2de07d9adc84

歡迎關注磐創AI博客站:
http://panchuang.net/

sklearn機器學習中文官方文檔:
http://sklearn123.com/

歡迎關注磐創博客資源匯總站:
http://docs.panchuang.net/


免責聲明!

本站轉載的文章為個人學習借鑒使用,本站對版權不負任何法律責任。如果侵犯了您的隱私權益,請聯系本站郵箱yoyou2525@163.com刪除。



 
粵ICP備18138465號   © 2018-2025 CODEPRJ.COM