微信搜索lxw1234bigdata | 邀请体验:数阅–数据管理、OLAP分析与可视化平台 | 赞助作者:赞助作者

Spark机器学习API之特征处理(一)

Spark lxw1234@qq.com 16973℃ 2评论

关键字:spark、机器学习、特征处理

Spark机器学习库中包含了两种实现方式,一种是spark.mllib,这种是基础的API,基于RDDs之上构建,另一种是spark.ml,这种是higher-level API,基于DataFrames之上构建,spark.ml使用起来比较方便和灵活。

Spark机器学习中关于特征处理的API主要包含三个方面:特征提取、特征转换与特征选择。本文通过例子介绍和学习Spark.ml中提供的关于特征处理的API。

特征提取(Feature Extractors)

1.  TF-IDF (HashingTF and IDF)

TF-IDF是文本特征提取中一个常用的方法,用以评估一字词对于一个文件集或一个语料库中的其中一份文件的重要程度。关于spark.ml中提供的HashingTF和IDF的原理和用法,在之前的文章http://lxw1234.com/archives/2016/01/605.htm中已经介绍过,这里不再介绍。

2.  Word2Vec

Word2Vec是一个将单词转换成向量形式的工具。可以把对文本内容的处理简化为向量空间中的向量运算,计算出向量空间上的相似度,来表示文本语义上的相似度。

下面的例子将每个文档中的词语转换成长度为3的向量:

package com.lxw1234.spark.features

import org.apache.spark.SparkConf
import org.apache.spark.SparkContext
import org.apache.spark.ml.feature.Word2Vec

/**
 * auth: http://lxw1234.com
 */
object TestWord2Vec {
  def main(args : Array[String]) {
    val conf = new SparkConf().setMaster("local").setAppName("lxw1234.com")
    val sc = new SparkContext(conf)
    
    val sqlContext = new org.apache.spark.sql.SQLContext(sc)
    import sqlContext.implicits._
    
    val documentDF = sqlContext.createDataFrame(Seq(
      "苹果 官网 苹果 宣布".split(" "),
      "苹果 梨 香蕉".split(" ")
    ).map(Tuple1.apply)).toDF("text")
    
    val word2Vec = new Word2Vec().setInputCol("text").setOutputCol("result").setVectorSize(3).setMinCount(1)
    val model = word2Vec.fit(documentDF)
    
    val result = model.transform(documentDF)
    result.collect().foreach(println)
    
  }
}

程序运行输出如下:
[WrappedArray(苹果, 官网, 苹果, 宣布),[0.006021047011017799,-0.002911671996116638,0.05357655562693253]]
[WrappedArray(苹果, 梨, 香蕉),[-0.10302492479483286,-0.059321289261182145,0.05107089380423228]]


 

3.  CountVectorizer

该方法用于将所有的文本词语进行编号,每个词语对应一个编号,并统计该词语在文档中的词频作为特征向量。

package com.lxw1234.spark.features

import org.apache.spark.SparkConf
import org.apache.spark.SparkContext
import org.apache.spark.ml.feature.{CountVectorizer, CountVectorizerModel}

/**
 * auth: http://lxw1234.com
 */
object TestCountVectorizer {
  def main(args : Array[String]) {
    val conf = new SparkConf().setMaster("local").setAppName("lxw1234.com")
    val sc = new SparkContext(conf)
    
    val sqlContext = new org.apache.spark.sql.SQLContext(sc)
    import sqlContext.implicits._
    
    val df = sqlContext.createDataFrame(Seq(
      (0, Array("苹果","官网","苹果","宣布")),
      (1, Array("苹果","梨","香蕉"))
    )).toDF("id", "words")
    
    var cvModel: CountVectorizerModel = new CountVectorizer()
      .setInputCol("words")
      .setOutputCol("features")
      .setVocabSize(5)  //设置词语的总个数,词语编号后的数值均小于该值
      .setMinDF(1) //设置包含词语的最少的文档数
      .fit(df)
    
    println("output1:")
    cvModel.transform(df).select("id","words","features").collect().foreach(println)
    
    var cvModel2: CountVectorizerModel = new CountVectorizer()
      .setInputCol("words")
      .setOutputCol("features")
      .setVocabSize(3)  //设置词语的总个数,词语编号后的数值均小于该值
      .setMinDF(2) //设置包含词语的最少的文档数
      .fit(df)
    
    println("output2:")
    cvModel2.transform(df).select("id","words","features").collect().foreach(println)
    
  }
}

程序output1的输出如下:
[0,WrappedArray(苹果, 官网, 苹果, 宣布),(5,[0,3,4],[2.0,1.0,1.0])]
[1,WrappedArray(苹果, 梨, 香蕉),(5,[0,1,2],[1.0,1.0,1.0])]

程序output2的输出如下:
[0,WrappedArray(苹果, 官网, 苹果, 宣布),(1,[0],[2.0])]
[1,WrappedArray(苹果, 梨, 香蕉),(1,[0],[1.0])]
因为setMinDF(2)设置了词语最低出现的文档数为2,因此只保留了”苹果”一词。


 

您可以关注 lxw的大数据田地 ,或者 加入邮件列表 ,随时接收博客更新的通知邮件。

 

如果觉得本博客对您有帮助,请 赞助作者

转载请注明:lxw的大数据田地 » Spark机器学习API之特征处理(一)

喜欢 (5)
分享 (0)
发表我的评论
取消评论
表情

Hi,您需要填写昵称和邮箱!

  • 昵称 (必填)
  • 邮箱 (必填)
  • 网址
(2)个小伙伴在吐槽
  1. 你好,我问下那个word2vec的4单词怎么换成长度为3的向量.不是太懂
    尚少2016-04-12 11:38 回复
  2. 每篇文章可以用任意长度的向量俩表示,这个参数设置多少合适呢?有实验数据吗?还有这个与TF-IDF相比的话,哪个更好呢
    xxx2017-01-04 16:41 回复