標簽【nlp】 - 碼上歡樂

Relation Extraction 信息抽取在自然語言處理中是一個很重要的工作，特別在當今信息爆炸的背景下，顯得格外的生重要。從海量的非結構外的文本中抽取出有用的信息，並結構化成下游工作可用的格 ...

目錄前言 BERT模型概覽 Seq2Seq Attention Transformer encoder部分 ...

中文分詞概述詞是最小的能夠獨立活動的有意義的語言成分，一般分詞是自然語言處理的第一項核心技術。英文中每個句子都將詞用空格或標點符號分隔開來，而在中文中很難對詞的邊界進行界定，難以將 ...

1. 問題描述給你若干篇文檔，找出這些文檔中最相似的兩篇文檔？相似性，可以用距離來衡量。而在數學上，可使用余弦來計算兩個向量的距離。 \[cos(\vec a, \vec b ...

　　詞的向量化就是將自然語言中的詞語映射成是一個實數向量，用於對自然語言建模，比如進行情感分析、語義分析等自然語言處理任務。下面介紹比較主流的兩種詞語向量化的方式：　　第一種即One-Hot編碼， ...

##基礎概念本文在進行文本相似度分析過程分為以下幾個部分進行，文本分詞語料庫制作算法訓練結果預測分析過程主要用兩個包來實現jieba，gensim jieba: ...

內容介紹這篇博客主要面向對Bert系列在Pytorch上應用感興趣的同學，將涵蓋的主要內容是：Bert系列有關的論文，Huggingface的實現，以及如何在不同下游任務中使用預訓練模型。看過 ...

使用Stanford Corenlp對中文進行詞性標注語言為Scala，使用的jar的版本是3.6.0，而且是手動添加jar包，使用sbt添加其他版本的時候出現了各種各樣的問題添加的jar包有5個代碼 import edu.stanford.nlp ...

假設你有許多小明同學一天內不同時段的照片，從小明提褲子起床到脫褲子睡覺各個時間段都有（小明是照片控！）。現在的任務是對這些照片進行分類。比如有的照片是吃飯，那就給它打上吃飯的標簽；有的照 ...

tree-lstm初探

https://zhuanlan.zhihu.com/p/35252733 可以先看看上面知乎文章里面的例子 Socher 等人於2012和2013年分別提出了兩種區分詞或短語類型的模型，即 ...