Windowsアプリケーション開発に関連した他の仕事を探す
見積もり募集の結果
見積もり募集の内容
-
提示した予算
-
100,000 円 ~ 300,000 円
-
依頼概要
-
#タイトル
指定の形式の書類をOCR処理するコンポーネントの作成
#依頼の目的・背景
現在、某業界の商品在庫管理を行うシステムを.NET WPFアプリケーションで開発しております。(※受託者にはどの業界か具体的に申し上げます)
そこで、商品データ入力をメーカーから受け取った「ペーパー」をOCR処理し、DBに書き込むという業務があります。
※ここでいう商品は「機械」みたいなもので、新規購入、中古購入、転売などの処理がありえる商品となります。
※この商品名には、英数字からなる、「商品コード」が記載されており、手入力はかなりめんどくさいし、入力ミスがあり得るため
※メーカーからの商品情報はデータでは受け取れず、ペーパーのみ、なのでOCR機能が大変重要
このペーパーですが、商品の性質上、中古購入や転売を行う際、「再利用」するもので、
・何度も使いまわすもので(コピーやFAX)薄くなったり、汚くなってるものがある
・まっすぐではなく、ななめのものもある
※上記サンプルは直接お問い合わせいただければ、お送りいたします。
というたぐいのペーパーとなります。
実際に読むところは、日本語はなく、「英数字」及び、「日付」(ただし、「平成」など「年月日」の部分は漢字)の部分となります。
※ただし、ペーパー作成メーカーによって「英数字」を全角で書いていたり、フォントちがいがあります。
また、読む項目は、「表」の中の項目となります。
※表に記載する項目、セルの数はメーカー統一となりますが、行の幅、列の幅などはメーカーごとにまちまち、すなわち読みたい場所の「座標指定」はできない状況
当初、tesseract-OCRを利用し、座標指定することによって、該当データを読み込む処理を行おうと考えていたのですが、各メーカーの書式をみて、断念しました。
また、表(罫線)の把握が自社開発では難しく、専門分野に得意な受託者に外注することといたしました。
商品コード(英数字)を管理するということで、読み込み精度のUPしたいのですが、そのため「学習機能」などの登録が必要である場合は、そのような機能をいれるべきか、アドバイス願います。
最後に
当システムは競合他社が存在するため、この依頼内容には業界や、読み込むペーパーなどは公開いたしません。
しかしながら、直接、お問い合わせいただいければ、秘密原則を条件に公開いたします。
よろしくお願いいたします。
#補足説明
作成物の具体的な仕様について説明します。
=言語・プラットフォーム=
.NET 4.5 CLRで動作。
原則全てC#で記述。
=製作物の形式=
ビルド可能なソースファイル一式。
=OCRエンジンについて=
弊社の開発班はtesseract-OCRとGhostScripterを使って実現しています。エンジンの選定の判断は一任しますので、予算などを含めて後ほど交渉をお願いします。
=入出力の形式=
入力:pdfファイル
出力:指定のクラス(詳細は後ほど)
=インターフェースの具体的な仕様=(依頼文にここまで必要か?)
次のような形で使用できるクラスを作成してください。
動作例コード
String pdfName = “sample.pdf”;
String resourcePath = String.Format(@“{0}¥{1}¥{2}”,Environment.SpecialFolder.Personal,”Resource”,pdfName);
var docInt = new DocumentInterpreter(resourcePath);
コンストラクターのみで準備が足りない場合は初期化メソッドを作ってそこで処理してください
なお必要最小限の機能があれば、柔軟性はいらないのでその分のパラメーターは削ってください
docInt.Initialize( 必要なパラメーター );
OCRを実行し、指定のクラスに読み込んだデータを格納する
DocumentContainer data = docInt.Process();
その他、プログレスバーへ渡すパラメーターをフックできるできるような形があるとなおいいです
-
キャンセル理由:ランサーと見積もり・日程などの条件が合致しなかったため
金額条件が合致しなかったため
提案数が少なかったため
この仕事に似たWindowsアプリケーション開発の他の仕事を探す