検索漏れを防ぐワイルドカードの使用について

検索漏れを防ぐワイルドカードの使用について
Japio 世界特許情報全文検索サービス(GPG/FX)にてテキスト検索を行う際、ワイルドカード(トラン
ケーション)を使用し、部分一致検索を行うことで、検索漏れを防ぐことができます。例えば、英語の単数
形と複数形、現在形、進行形及び過去形など、語尾変化のある単語をまとめて検索する場合、イギリス
英語とアメリカ英語とでスペルが異なる場合、表記揺れがある場合などにおいて有効です。
以下に、ワイルドカードの使用方法について説明いたします。
1.
ワイルドカードとは
ワイルドカード(トランケーション)とは、任意の文字を表す特殊記号であり、部分一致(前方
一致、後方一致、マスク)検索を行う際に用いられます。
GPG/FX では、ワイルドカードとして、 「?」(文字数指定あり)や 「*」(文字数指定なし)
(いずれも半角)を使用することができます。特に、英語での検索の場合、項目検索、詳細検索
のいずれでも単語単位のインデックスに対して検索を行うので、検索漏れを防ぐためにはワイルドカー
ドの使用が有効です。
?:1 文字の任意の文字列(例:t?p → top, tip, tap 等がヒット)
*:0 文字以上の任意の文字列(例:cat* → cat, cats, category 等がヒット)
両者を比較すると、前者の場合、ノイズは減りますが検索漏れが増え、逆に後者の場合は、ノイ
ズは増えますが検索漏れが減ります。単語の文字数が分かっている場合には 「?」(文字数指定あ
り)を、そうでない場合には 「*」(文字数指定なし)を使うことが有効です。
なお、「項目検索」での検索項目(発明の名称、要約、クレーム等)や、「詳細検索」で用いる
検索コード(フィールド)などに応じて、ワイルドカード使用の可否が異なります。詳しくは、GPG/FX
マニュアルの「2.3 検索機能、演算子、トランケーション」をご覧ください。
項目検索
詳細検索
2.
項目検索
(1)日本語による検索
発明の名称、要約、クレーム及び詳細な説明について、基本的に2文字単位で作成され
た(バイグラム(bi‒gram))インデックスに対して検索を行います1。1 文字での検索を行い
たい場合は、「*」 を用いて前方一致検索としてください。2文字以上の検索式用語であれば、
ワイルドカード指定は不要です。
(例)検索式用語として「車」から「車*」とすると検索結果が大きく増加します(国・公報種
別に「すべての国」、検索項目に「発明の名称(TI)」を選択)。
(※それぞれのヒット件数は文献蓄積状況等によって変わる場合があります。)
【1 文字検索(* なし)】1
【前方一致検索(* あり)】
出願人及び発明者については、前方一致検索となるよう検索式用語末尾にワイルドカード
(*)が自動付加されて検索が実行されます(例:「出願人(PA):特許」と入力すると、
「PA:特許*」として検索)。これに加えて、検索式用語の先頭や中間にワイルドカード(*, ?)
を使用することも可能です。(例:「出願人(PA):??特許」と入力すると、「PA:??特許*」と
して検索)
(2)英語による検索
発明の名称、要約、クレーム、詳細な説明、出願人及び発明者について、単語切り出しに
より作成されたインデックスに対して、ワイルドカード(*、?)を使用した検索が可能です。なお、
出願人及び発明者については、前方一致検索となるよう検索式用語末尾にワイルドカード
(*)が自動付加されます(日本語による検索の場合と同様です)。
具体例を以下に記載します。
【検索式用語】
1
【ヒットする例】
colo*r
→
colour(英), color(米)
cent??
→
centre(英), center(米)
machin*
→
machine, machines, machinery, machining
attach*
→
attach, attaches, attaching, attached, attachable, attachment
t??th
→
tooth, teeth, truth, tenth
PCT(国際公開)公報の日本語検索は、1 文字単位で作成された(ユニグラム(uni‒gram))インデックスに対して
検索を行います。
(3)分類、日付、文献・出願番号の検索
分類(IPC、FI、F ターム、ECLA、CPC)、日付(出願日、公報発行日、優先権主張
日)、文献番号、出願番号についても、ワイルドカード(*、?)を使用した検索が可能です。
なお、前方一致検索となるよう検索式用語末尾にワイルドカード(*)が自動付加されます。
3.
詳細検索
(1)日本語による検索
<バイグラム検索>
検索コードを指定する詳細検索では、基本的には、項目検索と同様に、2文字単位で作
成された(バイグラム(bi‒gram))インデックスに対して検索を行います。そのため、1 文字
での検索を行いたい場合は、「*」 を用いて前方一致検索としてください。2文字以上の検索
式用語であれば、ワイルドカード指定は不要です(上記2.(1)を参照)。
<キーワード検索>
一方、詳細検索で指定する検索コードのうち、「AL_F」(全文)、「TI_F」(発明の名
称)、「AB_F」(要約)、「CL_F」(クレーム)、「DS_F」(詳細な説明)については、キ
ーワード(形態素解析で区切られた語句2)単位で検索を行いますが、ワイルドカード(*、?)
も使用できます。なお、キーワード(形態素)の切出し方により、入力した検索式用語でうまく
ヒットしない場合があります。その際は、前方一致検索を試してください。検索結果画面の左欄
に表示される「キーワード(発明の名称)」は、キーワード単位なので、どのように形態素解析
されたかを探るヒントとすることもできます(下図参照)。
この例では、
「インタフェース」、「インターフェイス」のほか、
「グラフィカルユーザインタフェース」もキーワード
であることが分かります。
2
形態素解析とは文を形態素(言語で意味を持つ最小単位)と呼ばれる語句に区切る技術です。文がどのような語句
に区切られるかについては、例えば、http://www.atilika.com/ja/products/kuromoji.html を参考にしてくださ
い。
キーワードをインデックスとする検索コード(「AL_F」、「TI_F」、「AB_F」、「CL_F」、
「DS_F」)についての具体例を以下に記載します。
【検索式用語】
【ヒットする例】
インタ*フェイス
→
インタフェイス、インターフェイス
インターフェ?ス
→
インターフェイス、インターフェース
*インタフェイス
→
インタフェイス、グラフィカルユーザインタフェイス、ユーザインタフェイス
インタ*フェ?ス
→
インタフェイス、インターフェイス、インタフェース、インターフェース
<キーワード検索とバイグラム検索の比較>
キーワード検索とバイグラム(N グラム)検索を比較すると、以下のようになります(詳細は
後述の「6.参考資料」を参照ください。)。
キーワード検索
検索ノイズ
検索漏れ
少ない
多い
→ワイルドカード指定が有効
バイグラム検索
多い
→NOT 演算での絞り込みが有効
少ない
<おすすめは検索漏れを防ぐバイグラム検索>
検索漏れを防ぐ観点から、バイグラム検索を利用することをおすすめします(検索コードに
「_F」を含まないもの)。バイグラム検索では検索ノイズが増えますので、NOT 演算を行い、絞
り込みをすることが有効です。
(2)英語による検索
項目検索(上記2.(2))の場合とおおむね同様です(項目検索とは異なり、出願
人及び発明者について前方一致検索とするための検索式用語末尾へのワイルドカード(*)の
自動付加はされません)。
(3)分類、日付、文献・出願番号の検索
項目検索(上記2.(3))の場合とおおむね同様です(項目検索とは異なり、前方
一致検索にするための検索式用語末尾へのワイルドカード(*)の自動付加はされません)。
4.
注意:近傍検索とワイルドカードの併用
詳細検索では、キーワードをインデックスとするフィールドに対して近傍検索が可能ですが3、システ
ム上、日本語、英語ともに、近傍検索とワイルドカードを併用することができません(併用した場合、
ワイルドカードは無視して検索されます)。そのため、近傍検索を行う際は、キーワード(形態素)、
語尾変化、表記揺れなどに留意しながら、検索式を作成することが重要です。
具体例を以下に記載します。
【検索クエリ】
【説明】
AL_F:"旋回 車*"∼10
ワイルドカード(*)は無視され、「AL_F:"旋回 車"∼10」として検
索されます。キーワード単位で、「旋回」と「車」が近傍にあればヒット
しますが、キーワードが「車」でなく「車両」や「車体」といった場合には
ヒットしません。
「 AL_F:" 旋 回 車 "∼10 OR AL_F:" 旋 回 車 両 "∼10 OR
AL_F:"旋回 車体"∼10」など、キーワードを意識して OR でつなぐ
ようにしてください。
AL_F:"seal* rib*"∼20
ワイルドカード(*)は無視され、「AL_F:"seal rib"∼20」として検
索されます。「seal」と「rib」が近傍にあればヒットしますが、「seal」で
なく「sealing」、「seals」などの場合、「rib」でなく「ribs」などの場合
にはヒットしません。
「 AL_F:"seal
rib"∼20
OR
AL_F:"seals
rib"∼20
AL_F:"sealing rib"∼20 OR AL_F:"seal ribs"∼20 OR
AL_F:"seals ribs"∼20 OR AL_F:"sealing ribs"∼20」など、
語尾のバリエーションを意識して OR でつなぐようにしてください。
まとめ
5.
ワイルドカードの使用について、大まかには以下のようにまとめることができます。
項目検索
日 本語
バイグラム
詳細検索
1文字で検索: * を末尾に付ける
2文字以上で検索:ワイルドカード不要
キーワード※
英語
―
ワイルドカード(*, ?)使用可能
ワイルドカード(*, ?)使用可能
但し、近傍検索との併用は不可
※キーワード:「AL_F」(全文)、「CL_F」(請求項)、「AB_F」(要約)、「DS_F」(発明の詳細な説明)
を検索フィールドとするもの
3
GPG/FX 画面上部にある「検索お役立ち」から、検索簡易マニュアル「近傍検索について」を参照ください。
6.
参考資料
<キーワード検索とバイグラム(N グラム)検索について>
キーワード検索は、意味のある単語(キーワード)に基づいて検索するため、部分的に文
字が一致しているだけの意味のない文字列はヒットしません。したがってノイズは少ないと言えま
す。しかし、形態素解析で使用する辞書にはない言葉(未知語。特に、新語,造語、特殊
用語などが考えられます。)については、意味のある単位で適切に語句が切り出されるかどうか
は不明(形態素解析のロジックに依存)なため、検索漏れが起こる可能性があります。
したがって、キーワード検索は、ノイズが少ない利点を考慮して、お試し検索(どのような分
類が付与されているかなどを探る検索)など、手軽に検索する用途が考えられます。この際
に、ワイルドカードを使用すれば、一定程度検索漏れを防ぐことができます。
例えば、検索語を「スキー」とした場合、キーワードとして「スキー」を含むものがヒットしますが、
「スキー」と「アルペンスキー」が異なるキーワードとされた場合には、「アルペンスキー」が検索漏れ
となります。これを防ぐには、ワイルドカードで「AL_F:*スキー」や「AL_F:????スキー」などと指
定することが有効です。
一方、バイグラム(N グラム)検索は、それ自体では意味のない文字列や、未知語であっ
ても、文字面通りにヒットするため、検索漏れが少ないと言えます。その反面、文字面だけを見
て検索するので、ノイズが増えます。
したがって、バイグラム(N グラム)検索は、無効調査など検索漏れを防ぐための用途が考
えられます。この際に、絞り込み検索をすれば、ノイズを一定程度減らすことができます。
例えば、検索語を「スキー」とした場合、文字列として「スキー」を含むものがヒットするため、
「スキーム」、「ウイスキー」などを含むものもヒットします。これらは、ノイズとなるため、NOT 演算と
して、「AL:スキー NOT AL:スキーム NOT AL:ウイスキー」などと絞り込みをしてノイズを減ら
すことが有効です。