一.簡介
Word2Vec
是一個Estimator
表示文檔的單詞序列並用於訓練一個 Word2VecModel
。該模型將每個單詞映射到唯一的固定大小的向量。使用Word2VecModel
文檔中所有單詞的平均值將轉換為向量;然后,可以將此向量用作預測,文檔相似度計算等功能。
二.例子
在下面的代碼段中,我們從一組文檔開始,每個文檔都由單詞序列表示。對於每個文檔,我們將其轉換為特征向量。然后可以將該特征向量傳遞給學習算法。
import org.apache.spark.ml.feature.Word2Vec import org.apache.spark.ml.linalg.Vector import org.apache.spark.sql.Row // Input data: Each row is a bag of words from a sentence or document. val documentDF = spark.createDataFrame(Seq( "Hi I heard about Spark".split(" "), "I wish Java could use case classes".split(" "), "Logistic regression models are neat".split(" ") ).map(Tuple1.apply)).toDF("text") // Learn a mapping from words to Vectors. val word2Vec = new Word2Vec() .setInputCol("text") .setOutputCol("result") .setVectorSize(3) .setMinCount(0) val model = word2Vec.fit(documentDF) val result = model.transform(documentDF) result.collect().foreach { case Row(text: Seq[_], features: Vector) => println(s"Text: [${text.mkString(", ")}] => \nVector: $features\n") }