text-extraction

首页 > TAG信息列表 > text-extraction

如何在PHP中提取字符串的一部分

我正在使用preg_replace()进行一些字符串替换. $str = "<aa>Let's find the stuff qwe in between <id>12345</id> these two previous brackets</h>"; $do = preg_match("/qwe(.*)12345/", $str, $matches); 它工作正常,并给出以下结果 $match[0

java-根据图片中的文字创建单词图片

有谁知道任何允许我分解图像中的文本并为每个单词创建较小图像的库(最好是Java,但我会看什么)？我已经测试了GOCR和tesseract,但是我并不想抄写文本,在许多情况下,例如手写笔记或功能差的打字机,无论如何,文本都必须由人类抄写.大多数文本是西班牙语的事实也使OCR更加困难.我搜索了st

使用javascript从pdf文件中提取文本

我想在客户端仅使用Javascript从pdf文件中提取文本而不使用服务器.我已经在以下链接中找到了一个javascript代码：extract text from pdf in Javascript 然后在 http://hublog.hubmed.org/archives/001948.html 并在： https://github.com/hubgit/hubgit.github.com/tree/master/2011/1

php – 用于提取mailto：地址的Regexp

我想要一个reg exp,它可以获取一个字符串块,并找到匹配格式的字符串： <a href="mailto:x@x.com">....</a> 对于匹配此格式的所有字符串,它将提取mailto：之后找到的电子邮件地址.有什么想法吗？这是内部应用程序所必需的,而不是任何垃圾邮件发送者的目的！解决方法:如果你想匹配整个事

c – 如何从图像中检测文本区域？

我想从图像中检测文本区域作为tesseract OCR引擎的预处理步骤,当输入只是文本时引擎运行良好,但当输入图像包含非文本内容时它会下降,所以我想只检测图像中的文本内容,任何如何做到这一点的想法会有所帮助,谢谢.解决方法:看看使用OpenCV代码演示的这个bounding box技术：输入：侵蚀：

在java中获取URL参数并从该URL中提取特定文本

我有一个URL,我需要从这个URL获取v的值. 这是我的网址：http：//www.youtube.com/watch？v = _RCIP6OrQrE 任何有用和富有成效的帮助都非常感谢..解决方法:我认为最简单的方法之一就是将URL.getQuery()返回的字符串解析为 public static Map<String, String> getQueryMap(String query)

python – 从Image中提取文本

二,我试图提取的数字类型另一个样本另一个样本上面的图像是另一张图片的输出,我试图从中提取所有数字.我正在单独选择每个数字,执行图像变换(阈值处理,图像对比,平均然后对比),似乎没有提供可靠和强大的输出. 使用阈值处理效果很好,但提取的数字的亮度并不总是相同,因此需要

c# – 以编程方式在浏览器中获取所选文本

从我的Windows应用程序,我想检测“Internet Explorer”,Firefox和任何其他浏览器中的所选文本. 你知道我应该用什么代码来实现这个目标吗？这个想法不是在IE中搜索文本,而是在IE中“捕获所选文本”.顺便说一句,不仅是IE,而是任何具有焦点的Windows应用程序我能想到的一件事是模拟一

Python pdftotext ShellError使用textract

当我在包含PDF文件的目录上运行以下Python脚本时,我不断收到此错误： ShellError: The command pdftotext "path/to/pdf/title.pdf" - failed with exit code 1 ————- stdout ————- ————- stderr ————- ‘pdftotext’ is not recognized as an internal or

从android中捕获的图像中提取信息

这是我的形象：我使用此链接(tessaract)来捕获和处理图像： http://kurup87.blogspot.com/2012/03/android-ocr-tutorial-image-to-text.html 但这是问题,如果扫描整个区域,返回值是一些垃圾值,不准确.但是,如果我分别扫描V516990,2653和日期.结果是对的. 我的目的是一次扫描V516990和

HTML下载和文本提取

下载URL列表并仅提取文本内容的好工具或工具集是什么？不需要Spidering,但控制下载文件名称和线程将是一个奖励. 该平台是linux.解决方法:wget | html2ascii 注意：html2ascii也可以被称为html2a或html2text(我无法在网上找到合适的手册页). 另见：lynx.

使用Python从HTML中提取可读文本？

我知道像html2text,BeautifulSoup等的utils,但问题是他们也提取javascript并将其添加到文本中,因此很难将它们分开. htmlDom = BeautifulSoup(webPage) htmlDom.findAll(text=True) 交替, from stripogram import html2text extract = html2text(webPage) 这两个都提取了页面