
概要
OCRって?
OCRとは紙に印刷された文字を読み取り、データ化(デジタル化)する技術のことです。OCRには「印刷された文字」を読み取る活字用のものと、人が「書いた文字」を読み取る手書き用のものがあります。「OCR for 手書き数字」は、紙媒体に書かれた手書きの数字を読み取り、デジタル化(データ化)するソフトウェアです。
実際にどんな場面で使用するのですか?
手で書かれた数字を読み取ることができますので、たとえばFAXで受け取っている「注文書の数量」、手書きで記入された「料金」の読み取りなどが考えられます。既に所定のフォームに数字を記入して運用されている場合は、フォームにOCRが数字を読み取るためのマークをつけ、数字を書き込む箇所に枠を設けていただくだけで読み取りが可能になります。
フォームを作成し、テストしてみたいのですが。
原則としてフォームの作成は有償にて対応させていただいております。お客様にてフォームの案を作成いただき弊社で読み取り可能なフォームへ変更いたします。尚、ご相談の内容によっては弊社で無償でテストを実施しておりますのでまずはお問い合わせフォームからご連絡ください。折り返し担当者より連絡させていただきます。尚、お客様がソフトウェア開発の会社であれば開発キットの提供も実施しておりますので、こちらも問い合わせフォームよりご相談願います。
フォームの作成を簡単にできないですか?
現在「OCR for 手書き数字 マイフォーム」を開発中です。こちらのバージョンではある程度簡易にお客様自身でフォームを作成していただくことが可能ですが、ある程度ソフトウェア開発のスキルやご経験があるお客様を対象としています。リリースは2009年の下期を予定しています。
費用について
フォームの作成
料金:15,000円/1フォーム
お客様にフォームの案を作成いただきます。フォームは手書きの場合は実寸で作成お願いいたします。ソフトコピーでいただく場合にはエクセルかワードでお願いしております。
開発キットの提供(SDK)
料金:150,000円
その他 弊社で提供させていただくOCRは弊社で自社開発したものです。また、読み取り方法に関しての特許を弊社で取得しております。
ソフロン 手書き数字OCR 開発キット仕様
利用可能なフォーマットについて
1.フォーマット内の4すみにマーカーが必要。
2.マーカーの大きさは、スキャン時の画像のずれより大きい必要がある。
4.認識する領域には、枠が必要で枠内には、文字が1文字だけ書かれる必要がある。
5.認識する文字は、画像上の大きさで60ピクセル以上の必要がある。
6.独自フォーマットの認識領域情報をあらかじめ調べ、iniファイルに設定する必要がある。
2.マーカーの大きさは、スキャン時の画像のずれより大きい必要がある。
4.認識する領域には、枠が必要で枠内には、文字が1文字だけ書かれる必要がある。
5.認識する文字は、画像上の大きさで60ピクセル以上の必要がある。
6.独自フォーマットの認識領域情報をあらかじめ調べ、iniファイルに設定する必要がある。
提供 SDKには以下のものが含まれます。
1.ソフロン文字認識モジュール DLL形式
2.文字認識用手書き数字辞書
3.ソフロン文字認識モジュールAPI仕様書
4.VBサンプルプログラム
2.文字認識用手書き数字辞書
3.ソフロン文字認識モジュールAPI仕様書
4.VBサンプルプログラム
API呼び出しの基本手順
ビットマップファイル名とフォーマット定義のiniファイルをわたして、画像全体を認識処理する場合。
OCRエンジンのAPI呼び出し手順
OCRエンジンのAPI呼び出し手順
1.辞書(SDK付属)ファイル名設定
2.ini(フォーマット定義)ファイル名設定
3.読み取り画像ファイル名設定
4.rrf(認識結果出力形式)ファイル名設定
5.認識処理開始関数呼び出し
認識処理のながれ
1.読み取り画像中の4つのマーカー位置をスキャンします。
2.マーカー位置から、上下左右、回転のずれを検出し補正します。
3.フォーマット定義にしたがって、1つずつの枠の位置を調べます。
4.枠の内側の領域を1文字分の認識領域として特定します。
5.認識領域内の文字を辞書と比べて特定します。
6.フォーマット定義内のすべての枠について認識が終了したら、認識結果をファイルに保存します。
2.マーカー位置から、上下左右、回転のずれを検出し補正します。
3.フォーマット定義にしたがって、1つずつの枠の位置を調べます。
4.枠の内側の領域を1文字分の認識領域として特定します。
5.認識領域内の文字を辞書と比べて特定します。
6.フォーマット定義内のすべての枠について認識が終了したら、認識結果をファイルに保存します。
制限事項
スキャンした画像が不鮮明である場合には認識率が大きく低下します。
文字が枠をはみ出している場合は読み取れない場合があります。
人間が見ても判読不能な文字は読み取れません。
文字が枠をはみ出している場合は読み取れない場合があります。
人間が見ても判読不能な文字は読み取れません。
