Як выкарыстоўваць інструмент «Ngram Viewer» у Google Кнігі

Ngram, таксама звычайна называюць Ngram ўяўляе сабой статыстычны аналіз тэксту ці гаворкі ўтрыманне , каб знайсці п (лік) якога - то элемента ў тэксце. Гэта можа быць усё віды рэчаў, як фанемы, прэфіксы, фраза або ліст. Хоць N-грам некалькі смутны па-за даследчыка, гэта на самай справе выкарыстоўваецца ў розных галінах, і яна мае шмат наступстваў для людзей, якія робяць кампутарных праграмы, якія разумеюць і рэагуюць з натуральным гутарковай мовай. Гэта, увогуле, будзе цікавасць Google ў гэтай ідэі.

У выпадку Google Кнігі Ngram прагляду, тэкст , які будзе прааналізаваны зыходзіць ад велізарнай колькасці кніг Google сканаваў ў публічных бібліятэках , каб запоўніць іх Google Кнігі пошуку. Для Google Кнігі Ngram прагляду, яны спасылаюцца на тэкст, які вы збіраецеся шукаць як «корпус». Капрал ў Ngram прагляду падзеленыя па мове, хоць вы можаце асобна аналізаваць брытанскі і амерыканскі англійская або аб'яднаць іх разам. Ён заканчвае тым, што вельмі цікава, каб пераключыцца ад брытанцаў амерыканскага выкарыстання тэрмінаў і бачыць змена дыяграмы.

Колькі Ngram работ

  1. Перайсці да Google Кнігі Ngram прагляду ў books.google.com/ngrams.
  2. Элементы адчувальныя да рэгістра, у адрозненне ад вэб-пошуку Google, так што не забудзьцеся атрымаць выгаду з уласных імёнаў.
  3. Увядзіце любую фразу або фразы, якія Вы хочаце прааналізаваць. Абавязкова, каб аддзяліць кожную фразу з коскі. Google прапануе, «Альберт Эйнштэйн, Шэрлак Холмс, Франкенштэйн», каб вы пачалі.
  4. Далей, увядзіце ў дыяпазоне дат. Па змаўчанні 1800 па 2000 год, але ёсць пазнейшыя кнігі (2011 быў самым апошнім у спісе па дакументацыі Google, але гэта можа змяніцца.)
  5. Выберыце корпус. Вы можаце знайсці тэксты на замежнай мове або на англійскай, так і ў дадатку да стандартных варыянтаў выбару, вы можаце заўважыць такія рэчы, як «англійская мова (2009) або амерыканскага англійская мова (2009)» у ніжняй часткі. Гэта старыя корпуса, што Google з тых часоў абнаўляецца, але вы можаце мець некаторыя прычыны, каб зрабіць вашыя параўнання з старымі наборамі дадзеных. Большасць карыстальнікаў могуць ігнараваць іх і засяродзіцца на самых апошніх карпусоў.
  6. Усталюйце ўзровень згладжвання. Згладжванне ставіцца да таго, як гладкі графу ў канцы. Найбольш дакладнае ўяўленне будзе ўзровень згладжвання 0, але гэта можа быць цяжка чытаць. Па змаўчанні ўсталявана значэнне 3. У большасці выпадкаў, вам не трэба, каб наладзіць гэта.
  1. Націсніце на пошук шмат кнопкі кніг. (Вы таксама можаце проста націснуць кнопку ўводу ў пошукавым радку.)

Што такое Ngram Паказваюцца?

Google Кніга Ngram прагляд будзе выводзіць графік, які ўяўляе сабой выкарыстанне пэўнай фразы ў кнігах ў час. Калі вы ўвялі больш чым адно слова або фразу, вы ўбачыце каляровыя лініі, каб супаставіць розныя ўмовы пошуку. Гэта вельмі падобна на Google Trends , толькі пошук ахоплівае больш працяглы перыяд часу.

Вось рэальная жыццё example.We было цікава воцат пірагоў нядаўна. Яны згадваюцца ў Хатцы Лоры Ингаллс Ўайлдара на серыі Prairie, але мы ніколі не чулі пра такія рэчы. Мы першыя выкарыстоўвалі Google для вэб - пошуку , каб даведацца больш пра воцатам пірагоў. Па-відаць, яны лічацца часткай амерыканскай паўднёвай кухні і сапраўды зроблены з воцату. Яны паслухаюць да часоў, калі не кожны меў доступ да свежай плодаагародніннай прадукцыі ва ўсе часы года. Гэта цэлая гісторыя?

Мы шукалі Google Ngram прагляду, і ёсць некаторыя згадкі пра пірагу як у пачатку і канцы 1800-х гадоў, шмат згадак у 1940-х гадах, і ўсё большая колькасць згадак у апошні час (магчыма, некаторыя пірог настальгіі.) Ну, ёсць некаторыя праблема з дадзенымі на ўзроўні згладжвае з 3. Там у плато над згадваецца ў 1800 годзе. Вядома, не было роўнае колькасць згадак аднаго канкрэтнага пірага кожны год на працягу пяці гадоў? Што адбываецца ў тым, што, таму што ёсць не шмат кніг, выдадзеных на працягу гэтага часу, і таму, што нашы дадзеныя ўстаноўлены згладжваць, яна скажае карціну. Верагодна, там была адна кніга, у якой згадваецца воцат пірог, і ён толькі што атрымаў у сярэднім, каб пазбегнуць ўсплёску. Усталяваўшы разглажыванню 0, мы можам бачыць, што гэта менавіта так. Шып цэнтраў на 1869 г., i ёсць яшчэ адзін ўсплёск ў 1897 і 1900 гг.

Няўжо ніхто казаць аб воцаце пірагах у астатні час? Яны, верагодна, сапраўды казалі пра гэтыя пірогах. Былі верагодныя рэцэпты плывучых паўсюль. Яны проста не пісалі пра іх у кнігах, і гэта абмежаванне гэтых пошукаў Ngram.

Пашыраны Ngram Пошукавыя

Памятаеце, як мы казалі, што Ngrams можа складацца з усіх відаў розных тэкставых запытаў? Google дазваляе дэталізаваць зусім трохі з Ngram прагляду, а таксама. Калі вы хочаце, каб шукаць рыбу дзеяслоў замест рыбы назоўнік, вы можаце зрабіць гэта з дапамогай тэгаў. У гэтым выпадку, вы б шукаць «fish_VERB»

Google дае поўны спіс каманд, якія вы можаце выкарыстоўваць і іншыя перадавыя дакументацыі на іх сайце.