2012年1月6日金曜日

Java向けの簡易なデータ抽出機能を提供するApache Tika 1.0

Java向けの簡易なデータ抽出機能を提供するApache Tika 1.0
InfoQ Japan
The Apache Tikaプロジェクトの目的はテキストやスプレッドシート、PDFや画像など規則性のないフォーマットから単一のAPIを使ってデータを抽出し言語を特定することだ。音声やビデオもある程度サポートしている。 TikaがApache Incubatorを離れ、Luceneのサブプロジェクト ...
マウスコンピューター/G-Tune