公司网站做的一样算不算侵权6,沈阳做网站最好的公司有哪些,做网站需要的技术,python学习网站apache mahout最近#xff0c;我有一个有趣的问题要解决#xff1a;如何使用自动化对不同来源的文本进行分类#xff1f; 前一段时间#xff0c;我读到一个有关该项目以及许多其他文本分析工作的项目– Apache Mahout 。 尽管它不是一个非常成熟的版本#xff08;当前版本… apache mahout 最近我有一个有趣的问题要解决如何使用自动化对不同来源的文本进行分类 前一段时间我读到一个有关该项目以及许多其他文本分析工作的项目– Apache Mahout 。 尽管它不是一个非常成熟的版本当前版本为0.4 但它非常强大且可扩展。 在另一个出色的项目Apache Hadoop的基础上 它能够分析巨大的数据集。 因此我做了一个小项目以了解Apache Mahout的工作方式。 我决定使用Apache Maven 2来管理所有依赖关系因此我将首先从POM文件开始。 !--?xml version1.0 encodingUTF-8?--
project xmlnshttp://maven.apache.org/POM/4.0.0 xmlns:xsihttp://www.w3.org/2001/XMLSchema-instance xsi:schemalocationhttp://maven.apache.org/POM/4.0.0 http://maven.apache.org/maven-v4_0_0.xsdmodelversion4.0.0/modelversiongroupidorg.acme/groupidartifactidmahout/artifactidversion0.94/versionnameMahout Examples/namedescriptionScalable machine learning library examples/descriptionpackagingjar/packagingpropertiesproject.build.sourceencodingUTF-8/project.build.sourceencodingapache.mahout.version0.4/apache.mahout.version/propertiesbuildpluginsplugingroupidorg.apache.maven.plugins/groupidartifactidmaven-compiler-plugin/artifactidconfigurationencodingUTF-8/encodingsource1.6target1.6/targetoptimizetrue/optimize/configuration/plugin/plugins/builddependenciesdependencygroupidorg.apache.mahout/groupidartifactidmahout-core/artifactidversion${apache.mahout.version}/version/dependencydependencygroupidorg.apache.mahout/groupidartifactidmahout-math/artifactidversion${apache.mahout.version}/version/dependencydependencygroupidorg.apache.mahout/groupidartifactidmahout-utils/artifactidversion${apache.mahout.version}/version/dependencydependencygroupidorg.slf4j/groupidartifactidslf4j-api/artifactidversion1.6.0/version/dependencydependencygroupidorg.slf4j/groupidartifactidslf4j-jcl/artifactidversion1.6.0/version/dependency/dependencies
/project 然后我研究了可用于文本分类问题的Apache Mahout示例和算法。 最简单最准确的方法是朴素贝叶斯分类器 。 这是一个代码片段 package org.acme;import java.io.BufferedReader;
import java.io.IOException;
import java.io.FileReader;
import java.util.List;import org.apache.hadoop.fs.Path;
import org.apache.mahout.classifier.ClassifierResult;
import org.apache.mahout.classifier.bayes.TrainClassifier;
import org.apache.mahout.classifier.bayes.algorithm.BayesAlgorithm;
import org.apache.mahout.classifier.bayes.common.BayesParameters;
import org.apache.mahout.classifier.bayes.datastore.InMemoryBayesDatastore;
import org.apache.mahout.classifier.bayes.exceptions.InvalidDatastoreException;
import org.apache.mahout.classifier.bayes.interfaces.Algorithm;
import org.apache.mahout.classifier.bayes.interfaces.Datastore;
import org.apache.mahout.classifier.bayes.model.ClassifierContext;
import org.apache.mahout.common.nlp.NGrams;public class Starter {public static void main( final String[] args ) {final BayesParameters params new BayesParameters();params.setGramSize( 1 );params.set( verbose, true );params.set( classifierType, bayes );params.set( defaultCat, OTHER );params.set( encoding, UTF-8 );params.set( alpha_i, 1.0 );params.set( dataSource, hdfs );params.set( basePath, /tmp/output );try {Path input new Path( /tmp/input );TrainClassifier.trainNaiveBayes( input, /tmp/output, params );Algorithm algorithm new BayesAlgorithm();Datastore datastore new InMemoryBayesDatastore( params );ClassifierContext classifier new ClassifierContext( algorithm, datastore );classifier.initialize();final BufferedReader reader new BufferedReader( new FileReader( args[ 0 ] ) );String entry reader.readLine();while( entry ! null ) {List String document new NGrams( entry, Integer.parseInt( params.get( gramSize ) ) ).generateNGramsWithoutLabel();ClassifierResult result classifier.classifyDocument( document.toArray( new String[ document.size() ] ), params.get( defaultCat ) ); entry reader.readLine();}} catch( final IOException ex ) {ex.printStackTrace();} catch( final InvalidDatastoreException ex ) {ex.printStackTrace();}}
} 这里有一个重要的注意事项开始分类之前必须教系统。 为此有必要提供不同文本分类的示例更多–更好。 它应该是简单的文件其中每一行都以用制表符分隔的类别与文本本身开头。 铁 SUGGESTION Thats a great suggestion
QUESTION Do you sell Microsoft Office?
... 您可以提供更多的文件可以获得更精确的分类。 所有文件都必须放在“ / tmp / input”文件夹中它们将首先由Apache Hadoop处理。 :) 参考 JCG合作伙伴的 Apache Mahout入门 Andriy Redko {devmind}的 Andrey Redko。 翻译自: https://www.javacodegeeks.com/2012/02/apache-mahout-getting-started.htmlapache mahout