東京WEBメーカー
東京WEBメーカー
東京WEBメーカー
previous arrow
next arrow
Slider

新ラベリングとコンテンツ

既存のラベリングシステムがない場合や、予想以上にカスタマイズが必要な場合には、ゼロからラベリングシステムを作成する、という厳しい試練に立ち向かわざるを得ません。ここで最も重要な情報源はコンテンツ(と、その作者の可能性もあります。)とシステムのユーザーです。それでは、「コンテンツ」について説明していきましょう。サイトのコンテンツから直接ラベルを引き出すことも可能です。サイトコンテンツの代表サンプルを読み、各ドキュメントからその内容を示すようなキーワードを書き出します。このプロセスは時間がかかり、つらい作業です。しかも、ドキュメントが膨大な場合にはうまくいきません。この方法をとるのであれば、既に存在している「コンテンツの見本」に集中してスピードアップを図った方が無難です。タイトル、要約、抄録がコンテンツの見本として利用できます。候補となるラベルを捜してコンテンツ分析を行うことは、科学というよりもアートの範疇になります。コンテンツから重要な用語を自動抽出するソフトウェアツールも市販されています。大量のコンテンツがある場合には、一般に「エンティティ抽出」アプリケーションと呼ばれるツールを利用すれば、かなり時間の節約になるでしょう。ソフトウェアベースのソリューションはたいていそうですが、自動抽出ツールを使うと作業の8割までは完了します。ソフトウェアが出力した用語を制限語彙の候補とすることもできますが、それでも多少は人による作業が必要です。出てきた用語が確かなものか確認する必要があるからです。また自動抽出ツールはかなり高額で、使いこなすためのトレーニングと調整も必要です。もう1つの入手によるアプローチは、コンテンツの著作者へのラベル提案の依頼が挙げられます。著作者に接触できるのならこの方法が役に立つでしょう。例えば、テクニカルレポートや白書を作成した企業のリサーチャーや、プレスリリースを執筆した広報の担当者に話を聞きます。しかし、著作者が自分の書いたコンテンツのラベル用に制限語彙から言葉を選んだとしても、注意が必要です。著作者は必ずしも「自分のドキュメントはたくさんあるうちのひとつに過ぎないのだ」と認識していないので、選ばれたラベルは明確さに欠けているかもしれません。それに、著作者はプロのインデクサーではありません。著作者が選んだラベルは割り引いて受け止め、精度は求めないようにしましょう。他の情報源同様、著作者からのラベルもまた「役立つラベル候補」として考えるべきで、それが最終形ではありません。

コメントを残す

メールアドレスが公開されることはありません。 * が付いている欄は必須項目です