A statistically improbable phrase (統計的にありそうもないフレーズ) は文書内で一部の大規模なコーパスよりも頻繁に出てくるフレーズまたは単語の集まり。本やチャプターのキーワードはセクション内では偏って現れるため、Amazon.comはこの概念を所定の本またはチャプターを決定するキーワードとして使った 。クリスチャン・ラダーは著書『Dataclysm』で一定の人種または性別の最も特徴的なフレーズを決めるためにこのコンセプトを出会い系サイトとツイッターの投稿からのデータと共に使った。
例
コンピューターについての文書内で最も一般的な単語はtheの可能性が高いが、theは英語で最も共通して使われる単語でもあり、どの文書でもtheが頻繁に使われている可能性がある。しかしながら「明示的なブーリアンアルゴリズム」のようなフレーズは英語よりも文書でより高い確率で現れる。「Hence(それ故に)」は与えられたドキュメントでは出てくる可能性は低いが、与えたドキュメントでは現れる。「明示的なブーリアンアルゴリズム」は統計的にありそうもないフレーズである。
ダーウィンの種の起源の統計的に起こりそうもないフレーズは「temperate productions」「genera descended」「transitional gradations)」 「unknown progenitor」 「fossiliferous formations」 「our domestic breeds」 「modified offspring」 「doubtful forms」「closely allied forms」「profitable variations」「enormously remote」「transitional grades」「very distinct species and mongrel offspring」である。
関連項目
- Googlewhack – グーグル検索に2つの単語を入力し出てくる検索結果を一つだけにするゲーム
- tf-idf – 情報検索とテキストマイニングで使われる統計
脚注




