自然語言處理(NLP)相關學習資料/資源


自然語言處理(NLP)相關學習資料/資源

 

 

1. 書籍推薦

 

自然語言處理

統計自然語言處理(第2版)

作者:宗成慶

出版社:清華大學出版社;出版年:2013;頁數:570

內容簡介:系統地描述了神經網絡之前的基於統計的NLP方法,能夠對NLP各項任務以及經典的算法學習了解。

數學之美(第2版)

作者:吳軍

出版社:人民郵電出版社;出版年:2014;頁數:312

內容簡介:講解了NLP里常用的數學模型,並把高深的數學原理講得更加通俗易懂,讓非專業讀者也能領略數學的魅力。

Speech and Language Processing (3rd)

作者:Dan Jurafsky and James H. Martin

Draft chapters in progress

在線網址:https://web.stanford.edu/~jurafsky/slp3/

內容簡介:由NLP領域極具影響力的學者編寫,從第一版開始就很全面系統地描述了NLP領域的各個任務以及常用模型,目前最新第三版還未正式出版,該版本加入了近幾年神經網絡方法,是一本極全面的NLP書籍。

Neural Network Methods for Natural Language Processing

作者:Yoav Goldberg

出版社:Morgan & Claypool Publishers;出版年:2017;頁數:310

內容簡介:專注神經網絡在NLP上的應用,適合初學者入門,主要包括常用的前饋神經網絡、卷積神經網絡和循環神經網絡在NLP上的應用。

機器學習

統計學習方法(第2版)

作者:李航

出版社:清華大學出版社;出版年:2019;頁數:464

內容簡介:全面系統地介紹了統計學習的主要方法,包括SVM、最大熵、隨機條件場等主流模型。注重模型的原理和公式推導,並有例子,適合對機器學習方法理論的推導學習。第2版新增了無監督學習的相關內容。

機器學習

作者:周志華

出版社:清華大學出版社;出版年:2016;頁數:425

內容簡介:西瓜書以生動形象的例子和圖解來介紹機器學習的主要方法,更適合初學者閱讀。

Deep Learning

作者:Ian Goodfellow, Yashua Bengio, and Aaron Courville

出版社:The MIT Press;出版年:2016;頁數:800

內容簡介:深度學習權威書籍,系統全面介紹了各種神經網絡方法包括其發展歷史,更推薦閱讀英文原版。

人工智能

人工智能:一種現代的方法(第3版)

Artificial Intelligence:A Modern Approach (3rd Edition)

作者:Stuart J.Russell,Peter Norvig

出版社:清華大學出版社;出版年:2013;頁數:918

內容簡介:被廣泛使用的經典人工智能教材,內容很豐富,包括了人工智能經典算法,講解清晰。

 

 

2. 網絡課程推薦

 

UFLDL Tutorial

網址:http://ufldl.stanford.edu/tutorial/

主講人:Andrew Ng等人

內容簡介:這是stanford一個比較早期的DL(DeepLearning)教程,例如如何使用棧式自編碼器構建深度前饋神經網絡。內容精短,易於早期入門,快速上手。其實目前無論各種高級的神經網絡都離不開最基本的BP(前向后向傳播)算法。

deeplearning.ai

網址:https://www.deeplearning.ai/deep-learning-specialization/

主講人:Andrew Ng等人

內容簡介:近期開設的DL公開課,通俗易懂,適合入門。

csc321 Neural Networks for Machine Learning

網址:http://www.cs.toronto.edu/~hinton/coursera_lectures.html

主講人:Hinton等人

內容簡介:多倫多大學的神經網絡機器學習課程,早期是由Hinton本人上課,需要有一定的基礎。

CS224n: Natural Language Processing with Deep Learning

網址:http://cs224d.stanford.edu/

主講人:Chris Manning等人

內容簡介:斯坦福大學的基於深度學習的自然語言處理課程,已經更新到2019年的最新課程,內容包括了最新的一些基於深度學習的NLP進展。

 

 

3. 學術博客推薦

 

Google AI Blog

網址:https://ai.googleblog.com/

內容簡介:谷歌AI官網博客,很多他們自己的工作也都會在blog上進行介紹。

我愛自然語言處理(52nlp)

網址:http://www.52nlp.cn/

內容簡介:國內博客,有很豐富的NLP相關資源

Sebastian Ruder

網址:https://ruder.io/#open

內容簡介:NLP學者Sebastian Ruder的個人博客,經常會撰寫一些技術博客和參加頂會的感想總結,十分值得學習。包括他整理的NLP-progress項目,可以了解NLP各個任務的SOTA。

colah‘s blog

網址:https://colah.github.io/

內容簡介:雖然現在不怎么更新了,但是之前的一些blog很經典,適合初學者對神經網絡的學習理解,當時火熱的“Understanding LSTM Networks”就是出自於此。

 

 

4. 文獻管理工具推薦

 

Mendeley

網址:https://www.mendeley.com/

內容簡介:免費強大的文獻管理工具,具有自動識別文章基本信息、檢索、標記、郵件推送等功能。界面簡潔、良好,推薦閱讀管理文獻使用。

Endnote

網址:https://endnote.com/

內容簡介:個人認為在閱讀文獻時沒有Mendeley方便,但是在word插入參考文件功能上比Mendeley流暢一些,看個人喜好。

 

 

5. 學術論文檢索網站推薦

 

Google Scholar

網址:https://scholar.google.com/

內容簡介:全球使用廣泛的論文檢索網站,每篇論文可以看到被引情況,可以通過設置直接導入Endnote。你還可以建立自己的Google Scholar主頁,會根據你的研究進行推薦。

dblp

網址:https://dblp.uni-trier.de/

內容簡介:一個計算機學科的文獻集成數據庫系統,可以根據作者、會議、期刊等分類來找到相關文獻,適合需要調研某個特定期刊、會議、作者時使用。

arXiv

網址:https://arxiv.org/

內容簡介:一個收錄科學文獻預印本的在線數據庫,科研工作者可以發布未正式出版物的論文,用於同行交流。能夠了解研究領域的最新進展。

ACL Anthology

網址:https://aclweb.org/anthology/

內容簡介:一個收錄計算語言學研究論文的數字檔案,對所有人免費開放。它包括NLP領域雜志(Computational Linguistics journal),以及許多相關頂會的文獻,例如ACL, EMNLP, NAACL,  COLING等。

中國知網

網址:https://www.cnki.net/

內容簡介:國內中文論文檢索庫,NLP可以重點關注《計算機學報》、《軟件學報》、《計算機研究與發展》、《中文信息學報》等期刊,以及一些優秀博士論文。

 

 

6. NLP工具推薦

 

英文

Stanford CoreNLP

網址:https://stanfordnlp.github.io/CoreNLP/

主要支持語言:Arabic, Chinese, English, French, German, Spanish

計算機語言:Java, Python

功能:

Ÿ   Part-of-speech (POS) tagger

Ÿ   Named entity recognizer (NER)

Ÿ   Parser

Ÿ   Coreference resolution system

Ÿ   Sentiment analysis

Ÿ   Bootstrapped pattern learning

Ÿ   Open information extraction

內容簡介:CoreNLP是斯坦福NLP組集合了他們在NLP上的研究所開發,在各項任務上都有不錯的表現,被廣泛使用。雖然支持中文,但是中文效果不是很理想

NLTK

網址:http://www.nltk.org/

主要支持語言:English

計算機語言:Python

功能:

Ÿ   WordNet

Ÿ   Classification

Ÿ   Tokenization

Ÿ   Stemming

Ÿ   Tagging

Ÿ   Parsing

Ÿ   Semantic reasoning

內容簡介:NLTK由賓夕法尼亞大學計算機和信息科學系開發的一個Python開源項目。提供NLP各種任務功能以及一些文本預處理、特征生成等相關函數。

Gensim

網址:https://radimrehurek.com/gensim/index.html

支持語言:根據語料語言而定

計算機語言:Python

主要功能:計算文本之間相似度

內容簡介:Gensim是一款開源的第三方Python工具包,主要用於從原始的非結構化的文本中,得到文本的向量表達。它支持包括TF-IDF、LSA、LDA、word2vec等在內的多種算法,支持流式訓練,並提供了諸如相似度計算,信息檢索等一些常用任務的API接口。

AllenNLP

網址:https://allennlp.org/

主要支持語言:English

計算機語言:Python, 需要PyTorch框架

主要功能:實現了大量先進的基於深度學習的NLP模型

內容簡介:AllenNLP是Allen AI實驗室的作品,基於PyTorch開發,實現了大量基於深度學習的先進模型。例如Transformer、BERT、ELMo、BiLSTM-CRF等模型。

中文

LTP

網址:http://ltp.ai/index.html

主要支持語言:Chinese

計算機語言:C++, Java, Python

主要功能:

Ÿ   分詞

Ÿ   詞性標注

Ÿ   命名實體識別

Ÿ   依存句法分析

Ÿ   語義角色標注

內容簡介:語言技術平台(Language Technology Platform,LTP)是哈工大社會計算與信息檢索研究中心開發的一整套中文語言處理系統。LTP制定了基於XML的語言處理結果表示,並在此基礎上提供了一整套自底向上的豐富而且高效的中文語言處理模塊(包括詞法、句法、語義等中文處理核心技術),以及基於動態鏈接庫(Dynamic Link Library, DLL)的應用程序接口、可視化工具,並且能夠以網絡服務(Web Service)的形式進行使用。

HanLP

網址:http://hanlp.com/

主要支持語言:Chinese

計算機語言:Java,有Python接口

主要功能:

Ÿ   分詞

Ÿ   詞性標注

Ÿ   命名實體識別

Ÿ   關鍵詞提取

Ÿ   自動摘要

Ÿ   短語提取

Ÿ   文本推薦

Ÿ   依存句法分析

Ÿ   文本分類

Ÿ   文本聚類

內容簡介:HanLP是一系列模型與算法組成的NLP工具包,主要由何晗開發,HanLP從v1.3版本起至v1.6正式由大快搜索主導開發,目標是普及自然語言處理在生產環境中的應用。HanLP具備功能完善、性能高效、架構清晰、語料時新、可自定義的特點。內部算法經過工業界和學術界考驗,配套書籍《自然語言處理入門》已經出版。

PaddleNLP

網址:https://github.com/paddlepaddle/models#PaddleNLP

主要支持語言:Chinese

計算機語言:Python接口

主要功能:

Ÿ   詞法分析

Ÿ   語言模型

Ÿ   語義表示

Ÿ   文本生成

Ÿ   情感分析

Ÿ   機器翻譯

Ÿ   對話系統

內容簡介:PaddleNLP是基於百度PaddlePaddle深度學習框架開發的自然語言處理工具、算法、模型和數據的開源項目。

NLPIR-ICTCLAS

網址:http://ictclas.nlpir.org/

主要支持語言:Chinese

計算機語言:C#, C++, Java

主要功能:

Ÿ   中文分詞

Ÿ   詞性標注

Ÿ   命名實體識別

Ÿ   新詞識別

Ÿ   關鍵詞提取

內容簡介:前身是中科院分詞系統ICTCLAS,由張華平博士主導開發。NLPIR系統支持多種編碼、多種操作系統、多種開發語言與平台。

THULAC

網址:https://github.com/thunlp/THULAC

主要支持語言:Chinese

計算機語言:C++, Java, Python

主要功能:

Ÿ   中文分詞

Ÿ   詞性標注

內容簡介:THULAC(THU Lexical Analyzer for Chinese)由清華大學自然語言處理與社會人文計算實驗室研制推出的一套中文詞法分析工具包,具有中文分詞和詞性標注功能。

pkuseg

網址:https://github.com/lancopku/pkuseg-python

主要支持語言:Chinese

計算機語言:Python3

主要功能:

Ÿ   中文分詞

Ÿ   詞性標注

內容簡介:由北京大學語言計算與機器學習研究組開發的一個多領域中文分詞工具包,具有多領域分詞的特點。目前支持了新聞領域、網絡領域、醫葯領域、旅游領域以及混合領域的分詞預訓練模型。

jieba

網址:https://github.com/fxsjy/jieba

主要支持語言:Chinese

計算機語言:Python, Java, C++等

主要功能:

Ÿ   中文分詞

Ÿ   詞性標注

Ÿ   關鍵詞收取

內容簡介:支持三種分詞模式:精確模式,試圖將句子最精確地切開,適合文本分析;全模式,把句子中所有的可以成詞的詞語都掃描出來,速度非常快,但是不能解決歧義;搜索引擎模式,在精確模式的基礎上,對長詞再次切分,提高召回率,適合用於搜索引擎分詞。支持繁體分詞。 支持自定義詞典。可以並行分詞,速度快。

 

 


免責聲明!

本站轉載的文章為個人學習借鑒使用,本站對版權不負任何法律責任。如果侵犯了您的隱私權益,請聯系本站郵箱yoyou2525@163.com刪除。



 
粵ICP備18138465號   © 2018-2025 CODEPRJ.COM