Spark ML 機器學習之Word2Vec

本文轉載自查看原文 2020-09-29 10:25 567 大數據生態圈/ 機器學習/ Scala/ Spark

一.簡介

Word2Vec是一個Estimator表示文檔的單詞序列並用於訓練一個 Word2VecModel。該模型將每個單詞映射到唯一的固定大小的向量。使用Word2VecModel 文檔中所有單詞的平均值將轉換為向量；然后，可以將此向量用作預測，文檔相似度計算等功能。

二.例子

在下面的代碼段中，我們從一組文檔開始，每個文檔都由單詞序列表示。對於每個文檔，我們將其轉換為特征向量。然后可以將該特征向量傳遞給學習算法。

import org.apache.spark.ml.feature.Word2Vec
import org.apache.spark.ml.linalg.Vector
import org.apache.spark.sql.Row

// Input data: Each row is a bag of words from a sentence or document.
val documentDF = spark.createDataFrame(Seq(
  "Hi I heard about Spark".split(" "),
  "I wish Java could use case classes".split(" "),
  "Logistic regression models are neat".split(" ")
).map(Tuple1.apply)).toDF("text")

// Learn a mapping from words to Vectors.
val word2Vec = new Word2Vec()
  .setInputCol("text")
  .setOutputCol("result")
  .setVectorSize(3)
  .setMinCount(0)
val model = word2Vec.fit(documentDF)

val result = model.transform(documentDF)
result.collect().foreach { case Row(text: Seq[_], features: Vector) =>
  println(s"Text: [${text.mkString(", ")}] => \nVector: $features\n") }

免責聲明！

本站轉載的文章為個人學習借鑒使用，本站對版權不負任何法律責任。如果侵犯了您的隱私權益，請聯系本站郵箱yoyou2525@163.com刪除。

猜您在找 Spark 機器學習 ---Word2Vec 機器學習：gensim之Word2Vec 詳解 word2vec學習 spark版 Spark ML機器學習學習Word2vec 機器學習之路： python 實踐 word2vec 詞向量技術機器學習算法實現解析——word2vec源代碼解析基於spark和sparkstreaming的word2vec 機器學習入門-文本特征-word2vec詞向量模型 1.word2vec（進行word2vec映射編碼）2.model.wv['sky']輸出這個詞的向量映射 3.model.wv.index2vec(輸出經過映射的詞名稱) 機器不學習：word2vec是如何得到詞向量的？