残照身辺雑記

日々の出来ごとや感じたことなどのあれこれを記録します。

「Google誕生」を読み終えた  "最強の検索エンジン"と"巨大企業Google"と"ネット検索基礎知識"の話し

Google誕生」をようやく読み終えた。スタンフォード大学で出会った同級生、L.ページとS.プリンが、検索エンジンGoogle"を生み出し、その技術を足掛かりに、巨大企業「Google」Inc.を育て上げるまでの物語です。500頁の大著ですが、同時代的に進行した技術革新の内幕を臨場感を持って興味深く読むことができました。

社会インフラともいうべき存在となった"Google検索エンジン"が、どのようにして生み出され、なぜ世界を制覇したのか、そして如何にして巨大企業の地位を確立したのか、彼ら二人が博士課程の研究テーマとして、検索技術プロジェクトをスタートさせた1996年から、本原著が出版された2005/11までの10年間が克明に描かれています。

いわゆるITベンチャーの起業とその成功の物語ですが、同時に、その原動力となったGoogleの検索技術の開発にも触れられています。ネット検索は日ごろ便利に使っているが、その中身のことは、意識することはないし、全く分かっていない。丁度いい機会なので、ネット検索技術についての基礎的な知識を仕入れながらの読書感想とすることにした。

昔からのPCユーザーなら検索ツールといえば、"Infoseek""excite""yahoo"あたりが古い馴染みで、最近では先ずYahooという感じであろう。少し前ころから、検索はGoogleだよ!と、時々、勧められるようになった。Yahooに慣れているし、不自由はない。使って比べてみても代り映えはしない。なぜ勧めるのか不思議に思っていた。

ところが、現在は、Yahooで検索して表示される答えは、ほとんど全てが、Googleによる検索結果なのだという!検索結果に代わり映えがしないのは当然なのだ。しかしどうしてそんなことになっているのだろう。それにはYahoo!Inc.とGoogle Inc.の間で争われた特許係争が関係しているとのことだ。

Googleの成功には二つの特許技術が大きく関わっている。一つは、検索に対して最速・最適な結果をもたらす"最強の検索エンジンGoogle"の技術であり、あと一つは、検索に連動した広告表示とクリック課金のシステムである。これら二つの強力な技術が、相乗的に、ユーザーの集客と広告収入の獲得をもたらし、高い競争力と収益力をもたらすことになった。

ところがここに大きな問題があった。"最強の検索エンジン"はGoogleの特許であるが、もう一つのクリック課金システムはYahooの特許(Overtureを買収)であったのだ。両者間で争いが起こり、特許係争に発展したが、2004年和解に至り、以後、両社は検索分野では協調関係にあるとされる。ということで、今や、Yahooの検索はほとんどがGoogleの検索に依存することになっているという。それで差異がないという訳だ。

クリック課金システムはなんとなくイメージできる。検索結果と同時に関連する広告が表示され、関心を持った誰かがその広告バナーをクリックすれば、そのたびごとに、広告主が検索サイトに広告料を支払う仕組みだろうとは理解できる。ところが"最強の検索エンジン"技術となると、何が、どう最強なのかが全く想像もつかない。

L.ページとS.プリンの二人は、1996年に学内のプロジェクトとして、インターネットの検索結果の適合性の向上に関する研究をスタートさせた。これがGoogleの原点になった。彼らの天才性は、この時点で、インターネット検索の重要性を、明確に、かつ強く確信していた点にあると思う。勿論、そのスタート時点で、既に、Google技術の基本になる"Link頻度によるPageRank"も構想していた数学的な天才達でもあった。この時代、ネット検索は附属的な機能と考えられており、その中で、彼らは、検索エンジンの開発に邁進した。

1998年ページランク (PageRank) と名付けた"検索語に対する適切な結果を得るための技術"が発明された。それに関する論文 Brin, S.; Page, L. (1998), The Anatomy of a Large-Scale Hypertextual Web Search Engine及びアメリカ合衆国特許第6,285,999号(大学名義出願)が公開された。この発明が基礎になって検索エンジンGoogle 」が開発されることになった。

従って、「Google 」の検索技術を理解するには、これらの論文・特許に当たる必要がある。しかし難解です!数学の素養がないと無理です。早々にGive-Up。しかも、実際の検索に適用しているアルゴリズム(問題の解き方の手順を定式化したもの)は、門外不出の極秘の扱いとのことです。ということで、少しでも理解できればと、インターネット検索についての基礎知識を勉強することにした。以下は、その概要です。お暇であればご参考まで。

PCのトップ画面の「検索窓」にキーワードを入れて検索ボタンをクリックすると、その瞬間に、求めていた情報が表示されます。何が起こっているのでしょうか?クリックした瞬間に、サイトのソフトが、広大なインターネット空間を、超高速で、隅々まで探し回って、適合する情報を探して出してくるのでしょうか?少し違うようなのです。

検索エンジンは、あらかじめ、ネット空間から情報を収集して、自らのサーバーに情報を記憶し蓄積しているのです。検索の要求があると、記憶されている情報の中から適合するものを選んで、表示する仕組みになっているのです。これなら、高速・高精度の検索が可能でしょう。検索の前に、すでに、情報の収集と記憶が行われているということなのです。

なので、記憶されている情報は十分であることが必要です。"十分"とは、可能であれば世の中の全ての情報ということになるでしょう。検索サーバーに記憶されていない限り情報は検索されないからです。言い換えれば、ネット検索の世界では、記憶されていない情報は、存在しないことと同じになってしまうということです。

事実、Google社では、"可能なものは全てダウンロードする!"が社是となっているとのことです。十分な記憶情報量を目指しているわけです。情報は日々爆発的に増加しています。当然、高性能な大容量の記憶装置(サーバー)が必須です。本書によれば、二人は、開発の初期の段階から、サーバー容量の確保に意を配ったことが述べられています。現在では、Google社が全世界に保有するサーバーの数は数百万台に達するとのことです(2010年時点の推定では300万台)。Google社はソフトのみならず巨大なハードウェアを装備した会社なのです。

因みに、サーバーとは;サービスを提供するコンピュータのこと。即ち、クライアント(検索を要求する側の者)からの要求に対して情報や処理結果を提供する機能を果たす側(Google側)のコンピュータやソフトウェアのことです。色々な種類のサーバがあります。ファイルサーバであれば保管しているファイル(データ)の提供、ウェブサーバであればウェブページのHTMLファイルや画像ファイルなどのデータの提供をするなど、さまざまです(by Wikipedia)。世界の全ての情報が、デジタル化されて、有形の機械の箱の中に収納できるという。電子というものの精妙さに今更ながら気づかされる。

随分昔インターネット検索が始まった頃のこと、色々な情報が検索にかかることが不思議で、誰が好き好んで文書のデジタル化をやっているのだろう、と思ったことがある。今になってみれば、情報は他者へ伝えるためのものである限り、情報が検索されやすくすることは必然のことであったのだと思う。図書館のデジタル化もGoogle社が先鞭をつけて取り組んだのだという。自動ページめくりロボット付きデジカメ機が開発され、数百万冊の規模の蔵書のデジタル化プロジェクトが進められた。"世界の全てを記憶する!"が実践されているのだ。

さて、彼らが自称する、最強の"検索エンジン"とはどんなものなのでしょうか?それには"検索エンジン"の仕組みを知る必要があります(以下は素人なりの理解ですので正確性については要注意です)。

私たちが理解する"検索"は、「検索キーワードの入力」-「検索ボタンのクリック」-「結果の表示」の一連の作業ということですが、これが行われるには、様々な仕組みが"全体のシステム"として作動しています。このシステムを構成する機械装置及びソフトウエアの全体が"検索エンジン"と呼ばれるものです。

検索エンジンは、基本的には次の3つの機能のサーバーによって構成されます;

a.クローラー
インターネット上にあるWebページのHTML文書、PDF、画像などのデーターを収集するプログラムです。常時、インターネット上を巡回して、記憶すべき情報を見つけます。巡回はWebページのリンクを辿って行われ、発見した情報はインデクサーに伝えます。

b.インデクサー:
クローラーが発見したページを読み込んで保存します。この際、インデックスという索引に相当するデータが付与されます。こうして保存された情報が検索対象になります。

c.サーチャー:
保存データの中から、検索キーワードでの要求に関係する情報だけを取り出します。取り出した情報(Webページなど)を、重要度に応じて、並べ替えて、検索要求があったパソコンに送信します。パソコンでは並べ替えの順に結果が表示されます。

さて、"検索エンジン"の優劣はどこで決まるのでしょう。aとb は検索情報の元になるので非常に重要でしょう。できるだけ素早く洩れなく多くの情報を集め、記憶するのが決め手です。しかしこれは、労を尽くせば結果は付いてきそうです。一方、cの「重要度に応じて並べ替える」という作業はどうでしょうか。何をどう考えて順番を付けるのでしょう。中々むつかしい。順番付け通りに結果が表示されます。ユーザが求める情報が、画面の最初に表示されれば、ユーザーの満足度は高く、高評価につながるでしょう。cの巧拙はの評価に直結するのです。しかしやり方は難しい。

ということで正解はcです。L.ページとS.プリンは、Webページの重要度の判断の指標に、Rank Pageなどの画期的な手法を考案し"門外不出の検索アルゴリズム"を構築して、検索精度を飛躍的に高めることに成功しました。その結果が"最強の検索エンジンGoogleということなのです。ネット検索の基礎の話しはこれまでです。

さてこの本が書かれたのはGoogl社の最初の株式公開が行われた直後のことでした。彼らのプロジェクトのスタートから10年目です。2004年の公開時の時価総額は2兆5,000億円(当時のレート110¥/$で換算)でした。既に、堂々たる大企業です。それから14年後の昨年の2018年には、時価総額80兆円、売上14兆円、利益3.5兆円(持ち株会社アルファベットbase)の超巨大企業に成長したのです。

因みに、アメリカ企業の時価総額の番付(2019.2.9.現在)は、No.1がマイクロソフト、次いで、僅差で、今を時めくGAFAGoogleAppleFacebookAmazon)が2位から5位であり、IT企業が上位を独占するという驚異の状況であるのです。

本書の中で特に印象深いのは人材についての記述です。天才・秀才のリクルートこそが事業発展の要であるというのです。その信念が徹底して述べられている。Google本社の愛称である"Googleplex"では、待遇・環境・企業文化について"Google Way"ともいうべき、天才・秀才達にとっての理想郷が実現していると語られている。

ものづくり企業の文化とものづくりの研究開発しか知らない者にとっては、果たしてそれが正しいことなのかと違和感を感じながら、それが意味するものは何なのだろうと考えさせられた。そもそもプログラムの研究開発とは何なのだろうか?"すべては頭脳の中で完結すること?""疑念の余地がない完璧な答えが約束された世界なのだろうか?"だとすれば、天才・秀才がすべてを律するのかもしれない。我々が慣れ親しんだ"自然法則の利用が発明の要件である"といった世界での"自然に翻弄され、思いもよらない結末"が常であるような研究開発とは異次元の世界のようだ。