小嶋秀樹の仕事空間（過去の研究）

計算言語学（computational linguistics）

【単語間の意味的な類似度】

２つの英単語 w, w' 間の類似度σ(w, w') は，意味的な関連度に応じて 0〜1 の値（関連が強ければ大きな値）をとります．この類似度σは，英語辞書から自動生成した意味ネットワーク上の活性伝搬によって計算されます．

σ ( waiter,	restaurant )	= 0.175699
σ ( computer,	restaurant )	= 0.003268
σ ( red,	orange )	= 0.264262
σ ( red,	blood )	= 0.111443
σ ( green,	blood )	= 0.002268
σ ( dig,	spade )	= 0.116200
σ ( fly,	spade )	= 0.003431

具体的には，英語辞書（LDOCE）の見出し語をノードとし，語義定義に現われる単語をリンクに変換します．この意味ネットワーク上で，ノードw から〈エネルギー〉を伝搬させ，ノードw' が受け取った〈エネルギー〉を観察し，その値を類似度σとしています．（下図は，この活性伝搬の様子を，縦軸を〈エネルギー〉・横軸を時間として表わしたものです.）

この類似度σは，テキスト言語学でいう lexical cohesion にあたるものです．これによってテキストの意味を数量化し，コンピュータによる意味処理，に信号処理や統計処理の手法を応用できるようにしました．

おもな論文・著書──

Kozima Hideki, Teiji Furugori: Similarity between words computed by spreading activation on an English dictionary, Conference of the European Chapter of the Association for Computational Linguistics (EACL-1993; Utrecht, the Netherlands), pp.232-239, 1993.

【テキスト=セグメンテーション】

〈テキスト=セグメンテーション〉とは，ベタ書きのテキスト（ニュース記事や物語などの文章）を意味段落に区切っていくことです．区切りを見つける方法はいろいろ考えられますが，上記の〈単語間の意味的な類似度〉を利用した方法を考案しました．

原理は簡単です．テキスト（単語列）の上を移動する〈窓〉を用意します．この〈窓〉からは（一定語数の）部分列が見えます．この部分列に含まれる各単語間の平均類似度Σを計算し，その窓の位置にプロットすることで，グラフ（赤線）──LCP (Lexical Cohesion Profile) と呼びます──が得られます．〈窓〉が意味段落の内部にあればグラフは高い値を保ちます．〈窓〉が意味段落の境界上にあれば，その〈窓〉から見える部分列は意味的な一貫性を失うため，グラフは極小値をもつようになります．つまり，グラフの極小点から，テキストの意味的な区切りを見つけられるわけです．

おもな論文・著書──

Kozima Hideki: Text segmentation based on similarity between words, Annual Meeting of the Association for Computational Linguistics (ACL-1993; Ohio, USA), pp.286-288, 1993.
Kozima Hideki, Teiji Furugori: Segmenting narrative text into coherent scenes, Literary and Linguistic Computing, Vol.9, pp.13-19, 1994.

【単語間の文脈依存的な類似度】

単語間の類似度は文脈によって変化します．たとえば，bus から何を連想するかを考えた場合，エンジニアは engine や wheel を連想し，旅行者は tourist や timetable を連想するでしょう．そこで，文脈を単語集合 C として与え，その文脈の意味的な分布を考慮して，C から意味的に関連した単語を連想する手法を考えました．

たとえば以下の例にあるように，文脈 C = {bus, car, railway} としたとき，この手法によって C から連想された単語群（連想度順にソート）には，motor や wheel や engine などの単語がみられます．

{bus, car, railway} →: car, bus, motor, carriage, motor, passenger, vehicle, garage, road, inside, wheel, engine, ...
{bus, scenery, tour} →: bus, scenery, tour, abroad, tourist, passenger, make, everywhere, garage, set, machinery, something, timetable, ...
{read, magazine, paper} →: paper, read, magazine, newspaper, print, book, print, wall, something, article, specialist, that, ...
{read, machine, memory} →: machine, memory, read, computer, remember, someone, have, that, instrument, feeing, that, what, ...

おもな論文・著書──

Kozima Hideki, Akira Ito: Context-sensitive word distance by adaptive scaling of a semantic space, R. Mitkov, N. Nicolov (eds.), Recent Advances in Natural Language Processing, Contemporary Issues in Linguistic Theory 136, Amsterdam: John Benjamins, pp.111-124, 1997.
小嶋秀樹・伊藤昭: 文脈依存的に単語間の意味距離を計算する一手法, 情報処理学会論文誌, Vol.38, No.3, pp.481-489, 1997.