首页 > TAG信息列表 > apache-tika

java-使用Tika jars进行Mimetype检查

我正在开发单独的标准Java批处理程序.我正在尝试使用Tika Jars确定文件附件的模仿类型.我正在使用Tika 1.4 Jar文件. 我的代码看起来像 Parser parser= new AutoDetectParser(); InputStream stream = new FileInputStream(fileAttachment); int writerHandler =-1; ContentHandle

java-SOLR tika处理器无法完全抓取我的PDF文件

SOLR开发人员大家好, 我有一些pdf文件,其中包含一些电路图.电路上垂直书写了一些文字.例如,在电路延伸线上的pdf上有一个垂直标记的“连接器连接器”一词,当索引到SOLR中时,该连接器将变成“连接器”. 出于明显的原因,搜索不在给定的关键字上进行.是否可以更改基础处理器? 我试图在

java-如何使用OpenNLP创建自定义模型?

我正在尝试使用OpenNLP Java API从文档中提取名称,技能之类的实体.但它没有提取专有名称.我正在使用opennlp sourceforge link可用的模型 这是一段Java代码- public class tikaOpenIntro { public static void main(String[] args) throws IOException, SAXException,

仅在Eclipse外部执行时,才会发生“ java.lang.SecurityException:禁止的包名称:java.sql”错误

我正在使用Apache Tika编写主题建模程序,以从其他文件类型提取文本内容.实际上,它可以在Eclipse上完美运行.但是,当我从窗口10的命令提示符中导出到JAR文件以使用时,在尝试代码时出现此错误消息:“ parser.parse(stream,handler,metase,parseContext);” “ java.lang.SecurityExcep

java – JSoup-按标签获取标签之间的文本

场景:我使用Apache Tika从DOCX文件中获取XHTML.我需要解析此XHTML以获取特定标记之间的文本(例如div或p标记).为此,我使用Jsoup在标签之间获取文本. 问题:最初XHTML有这样的文字: some text [tab-space][tab-space] other text. 但是对于Jsoup,我得到了这个: some text other text.

无法在java.util.Scanner中设置字符编码

我使用Apache Tika来获取文件的编码. FileInputStream fis = new FileInputStream(my_file); final AutoDetectReader detector = new AutoDetectReader(fis); fis.close(); System.out.println("Encoding:" + detector.getC

如何将新的mime类型添加到apache tika

这是我阅读mime类型的课程.我正在尝试添加一个新的mime类型(属性文件)并读取它. 这是我的类文件: /* * To change this license header, choose License Headers in Project Properties. * To change this template file, choose Tools | Templates * and open the template in

python – 解析PDF文档中的表

此链接(http://www.lenovo.com/psref/pdf/psref450.pdf)中的PDF包含许多这样的表: 我想以编程方式从这些表中提取数据和结构. 我尝试过的事情:使用PDF将PDF转换为HTML > Tika:不幸的是,这些表被转换为空格分隔 段落 – 有些字符串包含空格,所以它是分裂它们是不可能的.> Python的PDFMi

java – Tika – 从docs中检索主要内容

Apache Tika的GUI实用程序提供了获取给定文档或URL的主要内容(除了格式文本和结构化文本之外)的选项.我只想知道哪个方法负责提取docs / url的主要内容.这样我就可以在我的程序中加入该方法.另外,他们是否在从HTML页面提取数据时使用任何启发式算法.因为有时在提取的内容中,我无法

java – 使用apache tika在doc文件中获取嵌入式资源

我有ms文档包含文本和图像.我想解析它们以获得xml结构.在研究之后,我最终使用apache tika来转换我的文档.我可以将我的doc解析为xml.这是我的代码: AutoDetectParser parser=new AutoDetectParser(); InputStream input=new FileInputStream(new File("1.docx")); Metadata metadat

Apache Tika和File访问而不是Java Input Stream

我希望能够创建一个新的Tika解析器来从文件中提取元数据.我们已经在使用Tika,元数据提取将始终如一. 我想我已经遇到了Tika的这个问题/增强请求: Allow passing of files or memory buffers to parsers 我有一个控制台c可执行文件,它接受输入文件的路径,然后输出它找到的元数据,每行