开源文档内容提取工具Tika
2024-10-31 20:52
Apache Tika 是一个开源的文本提取工具,可以用于从各种文档格式中提取文本内容。其中,Tika也提供了一个OCR模块,可以用于从图片中提取文本。