JP4859779B2 - Hazardous content evaluation assigning apparatus, program and method - Google Patents

Hazardous content evaluation assigning apparatus, program and method Download PDF

Info

Publication number
JP4859779B2
JP4859779B2 JP2007201181A JP2007201181A JP4859779B2 JP 4859779 B2 JP4859779 B2 JP 4859779B2 JP 2007201181 A JP2007201181 A JP 2007201181A JP 2007201181 A JP2007201181 A JP 2007201181A JP 4859779 B2 JP4859779 B2 JP 4859779B2
Authority
JP
Japan
Prior art keywords
vocabulary
harmful
word
content
black
Prior art date
Legal status (The legal status is an assumption and is not a legal conclusion. Google has not performed a legal analysis and makes no representation as to the accuracy of the status listed.)
Active
Application number
JP2007201181A
Other languages
Japanese (ja)
Other versions
JP2009037420A (en
Inventor
毅司 増山
慎一 佐藤
秀樹 本野
Current Assignee (The listed assignees may be inaccurate. Google has not performed a legal analysis and makes no representation or warranty as to the accuracy of the list.)
Yahoo Japan Corp
Original Assignee
Yahoo Japan Corp
Priority date (The priority date is an assumption and is not a legal conclusion. Google has not performed a legal analysis and makes no representation as to the accuracy of the date listed.)
Filing date
Publication date
Application filed by Yahoo Japan Corp filed Critical Yahoo Japan Corp
Priority to JP2007201181A priority Critical patent/JP4859779B2/en
Publication of JP2009037420A publication Critical patent/JP2009037420A/en
Application granted granted Critical
Publication of JP4859779B2 publication Critical patent/JP4859779B2/en
Active legal-status Critical Current
Anticipated expiration legal-status Critical

Links

Images

Landscapes

  • Information Transfer Between Computers (AREA)
  • Information Retrieval, Db Structures And Fs Structures Therefor (AREA)

Description

本発明は、インターネット上のサイトから有害語彙の検出と評価を行う評価付与装置、処理プログラム、及び処理方法に関する。   The present invention relates to an evaluation assigning apparatus, a processing program, and a processing method for detecting and evaluating harmful vocabulary from a site on the Internet.

インターネット上の情報を検索するためにサーチエンジンが利用されている。サーチエンジンは一般的にウェブページのリンクを解析してページまたはサイトにスコア付けを行い、検索結果のランキングを表示している。インターネット上にはジャンルを問わず膨大な数のウェブサイトが存在し、その中にはアダルトコンテンツや暴力的表現を含むものが多数存在する。従来の検索エンジンは上記のとおり、リンク解析によって、検索結果を決定しているため、入力するキーワードによっては、アダルトコンテンツが検索結果の上位に表示されることも多かった。   Search engines are used to search information on the Internet. Search engines typically analyze web page links, score pages or sites, and display search result rankings. There are a huge number of websites on the Internet, regardless of genre, and many of them include adult content and violent expressions. Since the conventional search engine determines the search result by link analysis as described above, the adult content is often displayed at the top of the search result depending on the input keyword.

特に、子供がインターネット検索をする際にこれらのサイトが表示されないよう、ペアレンタル・コントロールと呼ばれるフィルタリング・システムを導入することが増えている。これらは一般的にキーワードや登録したURLに基づいてサイトをフィルタリングして、検索結果に表示すべきでないページを決定している。そのため、新しいキーワードやURLを常に発見し、更新しなければならない。従来、これらの更新作業は人手で行っていたが、ウェブサイトの爆発的な増加に対応するのが難しく非効率であった。そのため、例えば、特許文献1、2や非特許文献1のような技術が開示されている。   In particular, a filtering system called parental control is increasingly introduced so that these sites are not displayed when a child searches the Internet. These generally filter sites based on keywords and registered URLs to determine pages that should not be displayed in search results. Therefore, new keywords and URLs must always be discovered and updated. Traditionally, these updates have been performed manually, but it has been difficult and inefficient to cope with the explosion of websites. Therefore, for example, techniques such as Patent Documents 1 and 2 and Non-Patent Document 1 are disclosed.

特許文献1に記載の技術では、専門用語を抽出する対象ドキュメントが既にデータベースに保存されており、かつ専門用語と関連する分野のドキュメントであることを前提としている。そのため、対象とするドキュメント数が限定されて、高精度で専門用語を抽出することができた。しかし、対象をウェブサイト全体に広げた場合、ウェブドキュメントは分野ごとに分類されていないという問題があり、専門用語を抽出する前に、まず対象とするウェブドキュメントをウェブ上から収集する必要がある。また、ウェブサイトは日々更新されるという特徴があり、さらに企業や官公庁だけでなく、個人の趣味・嗜好の基に作成されるものも多く存在するため、学術論文などにくらべてノイズとなる情報がドキュメント中に多く含まれている可能性が高く、上記の技術とは別の視点が必要となる。   In the technique described in Patent Document 1, it is assumed that the target document from which the technical term is extracted is already stored in the database and is a document in a field related to the technical term. Therefore, the number of target documents is limited, and technical terms can be extracted with high accuracy. However, if the target is extended to the whole website, there is a problem that the web document is not classified according to the field, so it is necessary to collect the target web document from the web before extracting the technical terms . In addition, because websites are updated daily, and there are many things created based on personal hobbies and preferences as well as companies and government offices, information that makes noise compared to academic papers etc. Is highly likely to be included in the document, and a different viewpoint from the above technique is required.

特許文献2に記載の技術では、カテゴリーごとに分類されたコンテンツ・データベースを有し、検索要求に基づいて検索した結果のウェブページをコンテンツ・データベースと比較し、コンテンツ・データベースに含まれるウェブサイトを検索結果から削除する方法について記載されている。この技術では、カテゴリーごとに分類されたコンテンツ・データベースを作成する必要があり、これは従来技術で述べたとおり、作成に非常に手間がかかるという問題があるが、その問題の解決手段については開示されていない。   The technology described in Patent Document 2 has a content database classified for each category, compares a web page obtained as a result of a search based on a search request with the content database, and selects a website included in the content database. It describes how to delete from search results. With this technology, it is necessary to create a content database classified by category, and as described in the prior art, there is a problem that creation is very laborious, but a solution to that problem is disclosed. It has not been.

非特許文献1には、自動車や映画のレビューを解析し、“excellent”と共起する語が多い場合はポジティブなレビュー、“poor”と共起するフレーズが多い場合はネガティブなレビューが多いことを発見したことが開示されている。この方法では、相互情報量を利用してレビューのP/N(ポジティブ/ネガティブ)を判定している。しかし、本技術では、ウェブページの記載内容がポジティブなものかネガティブなものかを判別することを目的としており、この技術をコンテンツの有害度の計算にあてはめようとすると、ブラック(有害)かホワイト(無害)かの判定になり、クレー(中間)の判定することはできない。   Non-Patent Document 1 analyzes reviews of automobiles and movies, and there are many positive reviews when there are many words that co-occur with “excellent” and many negative reviews when there are many phrases that co-occur with “poor”. Has been disclosed. In this method, the P / N (positive / negative) of the review is determined using the mutual information amount. However, the purpose of this technology is to determine whether the content of a web page is positive or negative. If this technology is applied to the calculation of the harmfulness of content, black (harmful) or white It is judged as (harmless), and clay (intermediate) cannot be judged.

特開2005−222263号公報JP 2005-222263 A 特開2007−128119号公報JP 2007-128119 A Peter D. Turney,“Thumbs Up or Thumbs Down? Semantic Orientation Applied to Unsupervised Clasification of Reviews”,Proceedings of the 40th Annual Meeting of Association for Computational Linguistics (ACL’02), Philadelphia, Pennsylvania, USA, July 8−10, 2002, pp417−424, NRC44946.Peter D. Turney, "Thumbs Up or Thumbs Down? Semantic Orientation Applied to Unsupervised Clasification of Reviews", Proceedings of the 40th Annual Meeting of Association for Computational Linguistics (ACL'02), Philadelphia, Pennsylvania, USA, July 8-10, 2002, pp417 -424, NRC44946.

本発明では、従来手作業で行っていた、新しいキーワードやウェブサイトの抽出を自動で行い、より高精度に有害サイトのフィルタリングを行うことを課題とする。また、それをペアレンタル・コントロールや検索結果のランク付けに応用することで、意図しないユーザにアダルトや暴力表現を含んだウェブページを表示しないことを課題とする。   An object of the present invention is to automatically extract new keywords and websites that have been performed manually, and to filter harmful sites with higher accuracy. In addition, by applying it to parental control and ranking of search results, it is an object to prevent web pages containing adult or violent expressions from being displayed to unintended users.

本発明の背景としては、検索結果のランキングにおいて、有害度の高いページの順位を下げて、そうでないページを積極的に上位に露出させたいという要求がある。しかしながら、一般的な検索エンジンは、リンク解析のみでコンテンツまで見ていないので、有害度が高いページも上位にランクされてしまうという問題点があった。ここで、有害度とは、子供に悪影響を及ぼす語彙を含んでいる度合いの意であり、例えば、アダルトサイト→有害度が高い、官公庁のトップページ→有害度が低い、といったものである。したがって、本発明の目的は、コンテンツ(ページ)に有害度を付与することである。ただし、本明細書では、「有害」または「有害度」の用語は、猥褻的、暴力的、中傷的な表現のみならず、ウェブページに掲載するには不適切な表現もしくはそれを測る度数を含むものとする。   As a background of the present invention, in the ranking of search results, there is a demand to lower the rank of highly harmful pages and to positively expose pages that are not so. However, since a general search engine does not look at content only by link analysis, there is a problem that pages with high harmfulness are also ranked higher. Here, the harmfulness means a degree including a vocabulary that adversely affects a child, for example, an adult site → highly harmful, or a top page of a government office → lowly harmful. Therefore, an object of the present invention is to give a harmful degree to content (page). In this specification, however, the term “harmful” or “harmfulness” refers to expressions that are inappropriate for posting on web pages or the frequency at which they are measured. Shall be included.

本発明では、上記課題に鑑み、以下のような解決手段を提供する。   In view of the above problems, the present invention provides the following solutions.

(1) インターネット上のサイトの有害語彙及び有害コンテンツの評価付与を行う評価付与装置であって、
所定の有害URLリストを取得し、該有害URLリストに含まれるURLを随時アクセスして該URLサイトのコンテンツを収集するクローラ部と、
前記コンテンツのデータを格納するコンテンツ・リポジトリ部と、
前記コンテンツ・リポジトリ部から前記コンテンツの文字データに含まれる語彙を抽出し、該語彙の所定のブラック度数と所定のグレー度数を求めて、語彙の有害度数を計算する語彙有害評価付与部と、
前記語彙有害評価付与部が計算した前記語彙の有害度数から前記コンテンツの有害度数を計算するコンテンツ有害評価付与部と、
を備えたことを特徴とする、評価付与装置。
(1) An evaluation granting device for giving assessments of harmful vocabulary and harmful content of sites on the Internet,
A crawler unit that acquires a predetermined harmful URL list, accesses URLs included in the harmful URL list as needed, and collects content of the URL site;
A content repository unit for storing the content data;
A vocabulary harmfulness evaluation imparting unit for extracting a vocabulary included in the character data of the content from the content repository unit, calculating a predetermined black frequency and a predetermined gray frequency of the vocabulary, and calculating a harmful level of the vocabulary;
A content harmful assessment granting unit that calculates the harmfulness number of the content from the harmfulness number of the vocabulary calculated by the vocabulary harmful assessment granting unit;
An evaluation imparting device comprising:

本評価付与装置は、予め定義された有害サイトのURLリストを入力とし、インターネット上の様々な有害サイトを自動的に探索(クロール)するクローラ部を備える。そして、探索したURLのコンテンツのデータをコンテンツ・リポジトリ部(データベース)に蓄積、格納する。さらに、コンテンツ・リポジトリ部からコンテンツの文字データに含まれる語彙を抽出し、該語彙の所定のブラック度数と所定のグレー度数を求めて、語彙の有害度数を計算する語彙有害評価付与部を備える。さらに、語彙有害評価付与部が計算した語彙の有害度数から前記コンテンツの有害度数を計算するコンテンツ有害評価付与部を備えている。なお、評価付与(レイティング)とは、対象となる物事に対して、ある基準を適用して、等級分けをしたり、度合いを測ることをいう。   The evaluation assigning device includes a crawler unit that receives a URL list of predetermined harmful sites as an input and automatically searches (crawls) various harmful sites on the Internet. Then, the content data of the searched URL is accumulated and stored in the content repository unit (database). Furthermore, a vocabulary harmfulness evaluation imparting unit is provided for extracting a vocabulary included in the character data of the content from the content repository unit, obtaining a predetermined black power and a predetermined gray power of the vocabulary, and calculating a harmful power level of the vocabulary. Furthermore, a content harmful evaluation assigning unit is provided for calculating the harmfulness number of the content from the harmfulness number of the vocabulary calculated by the vocabulary harmful evaluation assigning unit. Evaluation (rating) refers to grading or measuring the degree by applying a certain standard to the subject matter.

このような構成を備えることによって、インターネット上の膨大なウェブサイトに含まれるデータから、その語彙(単語、またはフレーズ)を自動的に集めて、その語彙ごとに所定の「ブラック度数」と所定の「グレー度数」を計算して、その値を用いて語彙の有害度数(語彙有害評価付与度)を定量的に計算することができる。さらに、その語彙を含んだコンテンツの有害度(コンテンツ有害評価付与度)も定量的に計算することができる。   By having such a configuration, the vocabulary (words or phrases) is automatically collected from data contained in a huge amount of websites on the Internet, and a predetermined “black frequency” and a predetermined vocabulary for each vocabulary. The “gray frequency” can be calculated, and the vocabulary degree of harmfulness (vocabulary harmfulness evaluation degree) can be quantitatively calculated using the value. Furthermore, the degree of harmfulness of content including the vocabulary (content harmful evaluation granting degree) can be calculated quantitatively.

この評価付与装置を作動させることによって、これまで目視で確認して分類していた有害用語や有害ウェブサイトを自動で収集することができる。さらに、上記で収集した用語やウェブサイト情報に基づいて、ペアレンタル・コントロールを行うことで、高精度にフィルタリングを行うことができる。   By operating this evaluation imparting device, it is possible to automatically collect harmful terms and harmful websites that have been visually confirmed and classified so far. Furthermore, filtering can be performed with high accuracy by performing parental control based on the terms and website information collected above.

また、本評価付与装置は、語彙有害評価付与部に下記の(2)〜(5)に記載の計算式を用いて、計算する演算手段を構成として備えることで、ブラック度数やグレー度数から語彙tの有害度数であるSO(t)(Semantic Orientationの略)を定量的に求めることができる。もちろん、計算式はこれに限定されるものでなく、他の公知の計算、例えば、非特許文献1に記載の計算方法を応用することも可能である。すなわち、この演算手段部分は他の計算式を用いたものと交換可能である。   In addition, this evaluation assigning device includes a computing means for calculating using the formulas described in (2) to (5) below in the vocabulary harmful evaluation assigning unit, so that the vocabulary can be determined from the black frequency or the gray frequency. SO (t) (abbreviation of Semantic Orientation) which is the harmful degree number of t can be obtained quantitatively. Of course, the calculation formula is not limited to this, and other known calculations such as the calculation method described in Non-Patent Document 1 can be applied. That is, this calculation means part can be exchanged with one using another calculation formula.

(2) 前記所定のブラック度数であるAVG_Black(t)は、下記数1式によって計算することを特徴とする、(1)に記載の評価付与装置。

Figure 0004859779
t:単語またはフレーズ(形態素)
Black: i番目のブラック・ワード
R(X,Y):単語またはフレーズXと単語またはフレーズYのシンプソン係数
m:ブラック・ワードの数 (2) The evaluation assigning apparatus according to (1), wherein AVG_Black (t), which is the predetermined black frequency, is calculated by the following equation (1).
Figure 0004859779
t: word or phrase (morpheme)
Black i : i-th black word R (X, Y): Simpson coefficient of word or phrase X and word or phrase Y m: number of black words

(3) 前記所定のグレー度数であるAVG_Gray(t)は、下記数2式によって計算することを特徴とする、(1)または(2)に記載の評価付与装置。

Figure 0004859779
Gray: j番目のグレー・ワード
n:グレー・ワードの数 (3) The evaluation assigning apparatus according to (1) or (2), wherein AVG_Gray (t), which is the predetermined gray frequency, is calculated by the following equation (2).
Figure 0004859779
Gray j : jth gray word n: number of gray words

(4) 前記語彙の有害度数であるSO(t)は、下記数3式によって計算することを特徴とする、(1)乃至(3)に記載の評価付与装置。

Figure 0004859779
α、β:閾値 (4) The evaluation assigning device according to any one of (1) to (3), wherein SO (t), which is the harmful degree number of the vocabulary, is calculated by the following equation (3).
Figure 0004859779
α, β: threshold

さらに、本装置は、下記(5)に記載の計算式を用いた演算手段を備えることによって、コンテンツの有害度数SO(c)を定量的に求めることができる。この演算手段部分は他の計算式を用いたものと交換可能とする。   Furthermore, this apparatus can quantitatively determine the harmful degree number SO (c) of the content by including a calculation means using the calculation formula described in the following (5). This calculation means portion can be exchanged with another calculation formula.

(5) 前記コンテンツの有害度数SO(c)は、下記数4式によって計算することを特徴とする、(1)乃至(4)に記載の評価付与装置。

Figure 0004859779
c:コンテンツ
γ:総単語またはフレーズに占めるSO(t)>0の単語またはフレーズの比率
l:コンテンツ内のSO(t)>0の単語またはフレーズ数 (5) The evaluation assigning device according to any one of (1) to (4), wherein the harmful degree number SO (c) of the content is calculated by the following equation (4).
Figure 0004859779
c: Content γ: Ratio of words or phrases with SO (t)> 0 in total words or phrases l: Number of words or phrases with SO (t)> 0 in content

(6) 前記ブラック・ワードは、複数のブラック・ワード候補の語彙に対して、操作員の目視判定結果と、該ブラック・ワード候補の語彙を含むサイトのURLをフィルタリングするツールの判定結果と、有害語辞書による判定結果を、それぞれ組み合わせることによって選別して、ブラック・ワードリストとして入力されることを特徴とする、(2)に記載の評価付与装置。 (6) The black word is a visual determination result of an operator for a plurality of black word candidate vocabularies, a determination result of a tool that filters URLs of sites including the vocabulary of black word candidates, The evaluation assigning apparatus according to (2), wherein the determination results obtained by the harmful word dictionary are selected by being combined and input as a black word list.

このような構成によれば、ブラック・ワード(単語だけでなくフレーズも含む)は、人間の目視判定結果、すなわち、例えば、5人中4人以上がブラックであると判定した結果を判定データとして取り込み、さらに、既存のURLフィルタリング・ツールを用いた判定データ、及び、既存の有害辞書を用いた判定データを取り込み、それらの判定データを組み合わせて、あるいは順次判定処理を行わせることによって絞り込みブラック・ワードの選別を行う。このように選別されたブラック・ワードに対して、本評価付与装置の有害度の評価付与を行うことで、さらに精度の向上が期待できる。   According to such a configuration, the black word (including not only the word but also the phrase) is the determination result of the human visual determination result, that is, the determination result that, for example, four or more of five people are black. In addition, the determination data using the existing URL filtering tool and the determination data using the existing harmful dictionary are imported, and the combination of these determination data or by sequentially performing the determination process, the narrowing black / Perform word sorting. Further improvement in accuracy can be expected by applying the evaluation of the degree of harmfulness of the evaluation assigning device to the black words selected in this way.

以上の説明は、解決手段を評価付与装置として実現する態様で行ったが、下記(7)または(8)の態様のように、本発明は、上記の機能をコンピュータに実行させるコンピュータ・プログラム(ソフトウェア)、または、その処理方法として捉えることができる。   The above description has been given in a mode in which the solving means is realized as an evaluation assigning device. However, as in the following mode (7) or (8), the present invention provides a computer program ( Software) or its processing method.

(7) 前記グレー・ワードは、複数のグレー・ワード候補の語彙に対して、操作員のブラックでないという目視判定結果と、該グレー・ワード候補の語彙を含むサイトのURLをフィルタリングするツールのブラックでないという判定結果と、有害語辞書によるブラックでないという判定結果をそれぞれ組み合わせることによって選別して、グレー・ワードリストとして入力されることを特徴とする、(3)に記載の評価付与装置。 (7) The gray word is a visual judgment result that the operator is not black with respect to a plurality of gray word candidate vocabularies, and a black of a tool for filtering URLs of sites including the vocabulary of gray word candidates The evaluation assigning apparatus according to (3), wherein the evaluation giving device according to (3) is selected by combining the determination result that is not black and the determination result that is not black by the harmful word dictionary, respectively, and is input as a gray word list.

このような構成によれば、(6)のブラック・ワードの選別と同様に、グレー・ワード(単語だけでなくフレーズも含む)についても同様な処理を行う。例えば、5人中1人以上がブラック・ワードと判定した語をグレー・ワード候補とし、次に、既存のURLフィルタリング・ツールや有害辞書によるフィルタリングがブラックでないと判定した結果を加えていき、グレー・ワードの選別を絞り込んでいくことができる。このように選別されたグレー・ワードに対して、本評価付与装置の有害評価付与を行うことで、さらに精度の向上が期待できる。   According to such a configuration, similar processing is performed for gray words (including not only words but also phrases), similarly to the selection of black words in (6). For example, a word determined by one or more of five people as a black word is a candidate for a gray word, and then the result of determining that filtering by an existing URL filtering tool or harmful dictionary is not black is added.・ You can narrow down the selection of words. A further improvement in accuracy can be expected by applying the harmful evaluation of the evaluation assigning apparatus to the gray words selected in this way.

(8) ウェブページにおける検索結果のリストから有害と判定されたウェブサイトを下位に表示するか、または削除して前記検索結果の画面に表示する、(1)乃至(7)に記載の評価付与装置。 (8) The evaluation given in any one of (1) to (7), in which a website determined to be harmful from the list of search results on the web page is displayed at a lower level or deleted and displayed on the search result screen. apparatus.

以上の(1)〜(8)の説明は、本発明の解決手段を、評価付与装置として実現する態様であるが、下記(9)または(10)の態様のように、本発明は、上記の機能をコンピュータに実行させるコンピュータ・プログラム(ソフトウェア)、または、その処理方法として捉えることができる。このような態様によって、(1)と同様な作用効果を得ることができる。   The description of (1) to (8) above is an embodiment in which the solving means of the present invention is realized as an evaluation imparting device. However, as in the following (9) or (10), the present invention It can be understood as a computer program (software) that causes a computer to execute the above functions, or a processing method thereof. By such an aspect, the same effect as (1) can be obtained.

(9) インターネット上のサイトの有害語彙及び有害コンテンツの評価付与を行うためのコンピュータ・プログラムであって、
コンピュータに、
所定の有害URLリストを取得し、該有害URLリストに含まれるURLを随時アクセスして該URLサイトのコンテンツを収集するステップと、
前記コンテンツのデータを格納するステップと、
前記格納されたデータから前記コンテンツの文字データに含まれる語彙を抽出し、該語彙の所定のブラック度数と所定のグレー度数を求めて、語彙の有害度数を計算するステップと、
前記計算した前記語彙の有害度数から前記コンテンツの有害度数を計算するステップと、
を実行させることを特徴とする、コンピュータ・プログラム。
(9) A computer program for evaluating and granting harmful vocabulary and harmful content of sites on the Internet,
On the computer,
Acquiring a predetermined harmful URL list, accessing URLs included in the harmful URL list as needed, and collecting contents of the URL site;
Storing the data of the content;
Extracting a vocabulary included in the character data of the content from the stored data, obtaining a predetermined black power and a predetermined gray power of the vocabulary, and calculating a harmful power of the vocabulary;
Calculating the harmfulness number of the content from the calculated harmfulness number of the vocabulary;
A computer program characterized in that the program is executed.

(10) インターネット上のサイトの有害語彙及び有害コンテンツの評価付与を行うための方法であって、
所定の有害URLリストを取得し、該有害URLリストに含まれるURLを随時アクセスして該URLサイトのコンテンツを収集するステップと、
前記コンテンツのデータを格納するステップと、
前記格納されたデータから前記コンテンツの文字データに含まれる語彙を抽出し、該語彙の所定のブラック度数と所定のグレー度数を求めて、語彙の有害度数を計算するステップと、
前記計算した前記語彙の有害度数から前記コンテンツの有害度数を計算するステップと、
を含むことを特徴とする、方法。
(10) A method for assigning an evaluation of harmful vocabulary and harmful content of a site on the Internet,
Acquiring a predetermined harmful URL list, accessing URLs included in the harmful URL list as needed, and collecting contents of the URL site;
Storing the data of the content;
Extracting a vocabulary included in the character data of the content from the stored data, obtaining a predetermined black power and a predetermined gray power of the vocabulary, and calculating a harmful power of the vocabulary;
Calculating the harmfulness number of the content from the calculated harmfulness number of the vocabulary;
A method comprising the steps of:

本発明によれば、今まで目視で確認して分類していた有害用語や有害ウェブサイトを自動で収集することができる。さらに、上記で収集した用語やウェブサイト情報に基づいて、ペアレンタル・コントロールを行うことで、漏れなくフィルタリングを行うことができる。   According to the present invention, it is possible to automatically collect harmful terms and harmful websites that have been visually confirmed and classified until now. Furthermore, filtering can be performed without omission by performing parental control based on the terms and website information collected above.

以下、本発明の実施形態について図を参照しながら説明する。   Hereinafter, embodiments of the present invention will be described with reference to the drawings.

[評価付与装置の構成、処理フロー]
図1は、評価付与装置10の機能ブロックの概略を示す図である。本装置は、入力部11、クローラ部12、コンテンツ・リポジトリ部13、語彙有害評価付与部14、コンテンツ有害評価付与部15、出力部16を含んで構成される。
[Configuration and processing flow of evaluation granting device]
FIG. 1 is a diagram showing an outline of functional blocks of the evaluation assigning apparatus 10. The apparatus includes an input unit 11, a crawler unit 12, a content repository unit 13, a vocabulary harmful assessment assigning unit 14, a content harmful assessment assigning unit 15, and an output unit 16.

有害URLリスト20は、それを予め所有するサイトやデータベースからのデータを、入力部11を介して本装置に入力されるものとする。クローラ部12は、この有害URLリスト20に基づいて、リストに含まれるURLの各サイトに順次アクセスし、そのサイトの内容(コンテンツ)を自動的に収集する。収集されたコンテンツのデータは、コンテンツ・リポジトリ部13に格納される。コンテンツ・リポジトリ部13は、一般にはデータベースであり、URL名、サイトアドレス、収集日時などと関連付けてコンテンツの内容が記録される。なお、クロール方法自体は、公知の手法を用いてよい。   It is assumed that the harmful URL list 20 is input to the apparatus via the input unit 11 as data from a site or database that owns the harmful URL list 20 in advance. Based on the harmful URL list 20, the crawler unit 12 sequentially accesses each site of the URL included in the list, and automatically collects the contents (contents) of the site. The collected content data is stored in the content repository unit 13. The content repository unit 13 is generally a database, and the content content is recorded in association with the URL name, site address, collection date and time, and the like. A known method may be used for the crawl method itself.

語彙有害評価付与部14は、コンテンツ・リポジトリ部13からコンテンツの文字データを取り出し、形態素解析を行って、単語またはフレーズ(語彙)に分解する。ここで、形態素解析は公知の様々な方法を利用してよい。そして、得られた語彙それぞれに対して、有害評価付与処理を行って、語彙の有害評価付与(以後、これをSO(t)で表す)計算を行う。語彙の有害評価付与の方式の詳細は後述する。   The vocabulary harmful evaluation assigning unit 14 extracts the character data of the content from the content repository unit 13, performs morphological analysis, and decomposes it into words or phrases (vocabulary). Here, various known methods may be used for the morphological analysis. Then, a harmful evaluation imparting process is performed on each of the obtained vocabularies, and a vocabulary harmful evaluation imparting (hereinafter referred to as SO (t)) is calculated. Details of the vocabulary harmful evaluation method will be described later.

コンテンツ有害評価付与部15は、語彙有害評価付与部14によって、計算された語彙の有害評価付与を基に、コンテンツの有害評価付与(以後、これをSO(c)で表す)計算を行う。語彙の有害評価付与の詳細は後述する。計算された語彙の有害評価付与は出力部16を介して外部に出力され、URLの有害度数として、サイトのフィルタリングやURL検索結果の表示などに利用される。   The content harmful evaluation assigning unit 15 performs content harmful evaluation assignment (hereinafter referred to as SO (c)) based on the vocabulary harmful evaluation assignment calculated by the vocabulary harmful evaluation assigning unit 14. Details of the vocabulary harmful assessment will be described later. The calculated harmful evaluation assignment of the vocabulary is output to the outside via the output unit 16, and is used as the URL harmful degree number for filtering the site, displaying the URL search result, and the like.

図2は、上記の装置が行うコンテンツの有害評価付与の処理フローをまとめた図である。すなわち、評価付与装置10は以下の処理を行う。
(1)外部サイトなどから有害URLリストをクローラ部が取り込む。
(2)クローラ部はインターネット上にURLへのリクエストを発行する。
(3)(有害)コンテンツを取得する。
(4)(有害)コンテンツをコンテンツ・リポジトリに格納する。
(5)語彙の有害評価付与処理を行う。
(6)コンテンツの有害評価付与処理を行う。
FIG. 2 is a diagram summarizing a processing flow of content harmful evaluation imparting performed by the above-described apparatus. That is, the evaluation assigning apparatus 10 performs the following processing.
(1) The crawler unit takes in a harmful URL list from an external site or the like.
(2) The crawler unit issues a request for a URL on the Internet.
(3) Acquire (harmful) content.
(4) Store (harmful) content in the content repository.
(5) A vocabulary harmful assessment is applied.
(6) A content harmful evaluation imparting process is performed.

[評価付与方式の詳細]
図3は、コンテンツの有害評価付与のイメージを示す図である。まず、クローラ部12によって収集された有害URLコンテンツ30は、形態素解析(品詞フィルタリング)処理を行って、形態素解析済み語彙リスト40を生成する。次に、語彙の有害評価付与計算では、予め定義されたブラック・ワードリスト50、グレー・ワードリスト60を用いる。ここで、グレー・ワードリストとは、ブラックかどうかの判定が難しい語を意味する。
[Details of evaluation method]
FIG. 3 is a diagram illustrating an image of content harmful evaluation assignment. First, the harmful URL content 30 collected by the crawler unit 12 is subjected to morphological analysis (part of speech filtering) processing to generate a morphological analyzed vocabulary list 40. Next, in the vocabulary harmful evaluation assignment calculation, the black word list 50 and the gray word list 60 defined in advance are used. Here, the gray word list means words that are difficult to determine whether they are black.

<有害評価付与の仮定>
本方式では以下の2つの仮定を前提としている。
(仮定1)ブラック・ワードが出現するコンテンツでは、異なるブラック・ワードも出現しやすい。
例えば、URL、http://www.△△△△.com/dera/○○○○.htmlのコンテンツは、以下のような内容を含んでいる。
<Assumption of granting harmful assessment>
This method assumes the following two assumptions.
(Assumption 1) In content in which black words appear, different black words are likely to appear.
For example, URL, http: // www. △△△△. com / dera / XXXXXX. The contents of html include the following contents.

“「愛しのフ○○ラチーオ」シリーズ第5弾! 今回ももちろんデジタルモザイクだから、見たい部分がはっきり、くっきり、すっきりですよ! フ○○チオ大好きな17人のギャルが自慢のフ○○テクでザー○ン味くらべ。”   “The 5th edition of the“ I love you OO lachio ”series! Of course, this time also a digital mosaic, so the parts you want to see are clear, clear and clean! FOO TECH boasts 17 gals who love FOO, and compared to the ZAEN taste. ”

これを、ある検索エンジンによる共起ヒット数を調べると下記のようになった。
「フ○○ラチオ」と「フ○○ラテク」の共起ヒット数→51,700件
「フ○○ラチオ」と「ザー○メン」の共起ヒット数→513,000件
「フ○○ラテク」と「ザー○メン」の共起ヒット数→54,300件
The number of co-occurrence hits by a certain search engine is as follows.
Number of co-occurrence hits of “Foo Lao” and “Fo Latech” → 51,700 Co-occurrence hits of “Fo Lao” and “The ○ Men” → 513,000 ”And“ Zar ○ Men ”co-occurrence hits → 54,300

(仮定2)グレー・ワードが出現するコンテンツでは、異なるグレー・ワードも出現しやすい。
例えば、URL、http://blogs.▲▲▲▲.co.jp/■■■■.htmlのコンテンツは以下のような内容を含んでいる。
(Assumption 2) In content in which gray words appear, different gray words are likely to appear.
For example, URL, http: // blogs. ▲▲▲▲. co. jp / ■■■■. The contents of html include the following contents.

“...これR−指定かかるシーンまであるwww、まぁ原作がなにぶんエロゲーなのでしょうがないといえばしょうがないのですが、じゃあ18禁とかちゃんと書いといてくださいよ、いやもしそうでも買いますけども...”   “… This is the R-designated scene that goes to www, the original is probably eroge, but I ’m not sure if it ’s ok. . ”

これを、ある検索エンジンによる共起ヒット数を調べると、「エロゲー」と「18禁」の共起ヒット数→858,000件となった。したがって、アプローチとしては、コーパスから共起情報を獲得し、ブラック・ワードとグレー・ワードのどちらと共起しやすいかをモデル化する方式をとった。   When the number of co-occurrence hits by a certain search engine was examined, the number of co-occurrence hits of “Eroge” and “18 prohibited” → 858,000. Therefore, the approach is to acquire co-occurrence information from the corpus and model whether it is easy to co-occur with a black word or a gray word.

<語彙の有害評価付与度>
具体的には、語彙有害評価付与部14の演算手段は、下記数5〜7式によって、語彙の有害評価付与度を求める。
<Degree of harmful evaluation of vocabulary>
Specifically, the computing means of the vocabulary harmful evaluation assigning unit 14 obtains the degree of harmful evaluation assignment of the vocabulary by the following equations 5-7.

Figure 0004859779
Figure 0004859779

Figure 0004859779
Figure 0004859779

Figure 0004859779
Figure 0004859779

ここで、
t:単語またはフレーズ(形態素)
α、β:閾値
Black: i番目のブラック・ワード
R(X,Y):数8式で表される単語またはフレーズXと単語またはフレーズYのシンプソン係数(1に近いほど関連性が高い)。
SO(t):tの有害度(0〜1の範囲)。1に近いほどブラック度が高い。
here,
t: word or phrase (morpheme)
α, β: threshold Black i : i-th black word R (X, Y): the Simpson coefficient of the word or phrase X and the word or phrase Y represented by the formula (the closer to 1, the higher the relevance) .
SO (t): t's degree of harm (range 0-1). The closer to 1, the higher the blackness.

Figure 0004859779
Figure 0004859779

図4は、語彙の有害評価付与方式のイメージを示す図である。   FIG. 4 is a diagram showing an image of a vocabulary harmful assessment giving method.

ここで、SO(t)の特徴としては、
・Black軸に寄っているほどスコアが高い。(Bによる影響)
・AVG_Black(t)が大きいほどスコアが高い。(Aによる影響)
が挙げられる。
Here, as a feature of SO (t),
・ The closer to the Black axis, the higher the score. (Influence of B)
-The higher the AVG_Black (t), the higher the score. (Effect of A)
Is mentioned.

また、図中のBによる影響としては、
・Black軸に寄っているほど、SO(t)は大きくなる。
例えば、(AVG_Black(t),AVG_Gray(t))=(0.9,0.3)の場合は、SO(t)は0.8538となり、同様に、(0.3,0.9)の場合は、0.0948となる。
・AVG_Black(t)が大きいほど、SO(t)は大きくなる。
例えば、(0.9,0.3)→0.8538、(0.5,0.3)→0.4287となる。
・AVG_Gray(t)が小さいほど、SO(t)は大きくなる。
例えば、(0.9,0.3)→0.8538、(0.9,0.1)→0.8944となる。
In addition, as an influence by B in the figure,
-The closer to the Black axis, the larger the SO (t).
For example, in the case of (AVG_Black (t), AVG_Gray (t)) = (0.9, 0.3), SO (t) is 0.8538, and similarly (0.3, 0.9) In this case, it becomes 0.0948.
-SO (t) increases as AVG_Black (t) increases.
For example, (0.9, 0.3) → 0.8538, (0.5, 0.3) → 0.4287.
-SO (t) becomes large, so that AVG_Gray (t) is small.
For example, (0.9, 0.3) → 0.8538, (0.9,0.1) → 0.8944.

また、図中のAによる影響としては、
・角度θが同じ場合、AVG_Black(t)が大きいほど、SO(t)は大きくなる。
例えば、(1.0,1.0)→0.7071、(0.5,0.5)→0.3535となる。
In addition, as an influence by A in the figure,
When the angle θ is the same, SO (t) increases as AVG_Black (t) increases.
For example, (1.0, 1.0) → 0.7071 and (0.5,0.5) → 0.3535.

<ブラック・ワードとグレー・ワード用のデータ収集方法>
データとしては、一般有害用語辞書(例えば、アダルト、グラビア、出会い系)や有害検索キーワードを母集団とする。語彙の選別方法としては、
・形態素解析
・日本語の単語またはフレーズ(Alphabet以外)の抽出
・「バスト」、「ソープ」など、ダイエットやファッションの用途で使われている場合がほとんどである語の除去
以上の選別によって、今回収集できた語彙数は441語であった。
<Data collection method for black and gray words>
As data, general harmful term dictionaries (for example, adult, gravure, dating) and harmful search keywords are used as a population. As a vocabulary selection method,
-Morphological analysis-Extraction of Japanese words or phrases (other than Alphabet)-Removal of words that are mostly used in diet and fashion applications such as "bust" and "soap" The number of vocabularies that could be collected was 441 words.

<ブラック・ワードの選別方法>
まず、目視チェックによって、5人中4人以上がブラックと判定し、次に、URLフィルタリング判定(対象語のWeb検索結果URLに対するチェック)やワードフィルタリング判定などのツールによるブラック判定を行った。その結果、今回収集できた語彙数は22語となった。このようにして、生成されたブラック・ワードリストは評価付与装置10の語彙有害評価付与部14の入力として用いられる。なお、上記の判定の順序は入れ替えて行ってもよい。
<Black word selection method>
First, four or more of the five people were determined to be black by visual check, and then black determination was performed using a tool such as URL filtering determination (checking the Web search result URL of the target word) or word filtering determination. As a result, the number of vocabularies that could be collected this time was 22 words. Thus, the generated black word list is used as an input to the vocabulary harmful evaluation assigning unit 14 of the evaluation assigning apparatus 10. Note that the order of the above determinations may be changed.

ここで、URLフィルタリング判定(対象語のウェブ検索結果URLに対するチェック)は、次のステップにより実行される。
(1) 有害URLを収集する。
(2) 対象語のウェブ検索結果のURLをチェックし、(1)で収集したURLが含まれているかチェックする。
(3) (2)でURLが含まれていればブラックとする。
Here, the URL filtering determination (check for the web search result URL of the target word) is executed by the following steps.
(1) Collect harmful URLs.
(2) Check the URL of the web search result of the target word, and check whether the URL collected in (1) is included.
(3) If the URL is included in (2), it is black.

また、ワードフィルタリング判定は、次のステップにより実行される。
(1) 有害ワードを収集する。
(2) 対象語が(1)に含まれているかをチェックする。
(3) (2)で含まれていればブラックとする。
The word filtering determination is performed by the following steps.
(1) Collect harmful words.
(2) Check whether the target word is included in (1).
(3) If it is included in (2), it will be black.

<グレー・ワードの選別方法>
まず、目視チェックとして、5人中1人以上がブラックと判定し、次に、URLフィルタリング判定(対象語のWeb検索結果URLに対するチェック)やワードフィルタリング判定などのツールによるブラックでない判定を行った。その結果、今回収集できた語彙数は293語となった。このようにして、生成されたグレー・ワードリストは評価付与装置10の語彙有害評価付与部14の入力として用いられる。URLフィルタリング判定、ワードフィルタリング判定については、前述のステップと同様である。なお、上記の判定の順序は入れ替えて行ってもよい。
<Gray word selection method>
First, as a visual check, one or more of the five people were determined to be black, and then a non-black determination was performed by a tool such as URL filtering determination (check for the Web search result URL of the target word) or word filtering determination. As a result, the number of vocabularies that could be collected this time was 293 words. Thus, the generated gray word list is used as an input to the vocabulary harmful evaluation assigning unit 14 of the evaluation assigning apparatus 10. URL filtering determination and word filtering determination are the same as those described above. Note that the order of the above determinations may be changed.

<コンテンツの有害評価付与方式>
具体的には、コンテンツ有害評価付与部15の演算手段は、コンテンツcの有害評価付与度SO(c)を下記の数9式で求める。
<Hazardous content assessment method>
Specifically, the calculation means of the content harmful evaluation assigning unit 15 obtains the harmful evaluation assignment degree SO (c) of the content c by the following equation (9).

Figure 0004859779
t:単語またはフレーズ(形態素)
c:コンテンツ
γ:総単語またはフレーズに占めるSO(t)>0の単語またはフレーズの比率、または0≦γ≦1の任意の値で調整可能
l:コンテンツ内のSO(t)>0の単語またはフレーズ数
SO(t):tの有害度(0〜1の範囲)。1に近いほどブラック性が高い。
SO(c):cの有害度(0〜1の範囲)。1に近いほどブラック性が高い。
Figure 0004859779
t: word or phrase (morpheme)
c: Content γ: Adjustable by the ratio of the word or phrase of SO (t)> 0 in the total word or phrase, or any value of 0 ≦ γ ≦ 1, l: Word of SO (t)> 0 in the content Or the number of phrases SO (t): t's degree of harm (range 0-1). The closer to 1, the higher the blackness.
SO (c): Detrimental degree of c (range of 0 to 1). The closer to 1, the higher the blackness.

[具体的計算例]
図5、図6、図7は、実際のURLサンプルの評価付与計算例を示した図である。なお、以降の記載では、固有名詞、及び記載するのに差しさわりのある用語は、一部を伏せ字に置き換えている。
[Specific calculation example]
5, FIG. 6, and FIG. 7 are diagrams showing an example of calculation for assigning an evaluation of an actual URL sample. In the following description, some of the proper nouns and terms that are stipulated to be described are replaced with face-down characters.

ここでは、例として、URL、http://www.▲▲▲▲.com/dera/●●●●●●.htmlのコンテンツとして以下の記述を調べた。   Here, as an example, URL, http: // www. ▲▲▲▲. com / dera / ●●●●●●. The following description was examined as html content.

“「愛しのフ○○チーオ」シリーズ第5弾! 今回ももちろんデジタルモザイクだから、見たい部分がはっきり、くっきり、すっきりですよ! フ○○チオ大好きな17人のギャルが自慢のフ○○テクでザー○ン味くらべ。”   “The 5th edition of the“ Ai no Fu ○ ○ Chio ”series! Of course, this time also a digital mosaic, so the parts you want to see are clear, clear and clean! FOO TECH boasts 17 gals who love FOO, and compared to the ZAEN taste. ”

図8、図9は、別のURLサンプルの評価付与計算例を示す図である。ここでは、URL、http://△△△△.co.jp/○○○○○/XXXXXX.htmlのコンテンツとして以下の記述を調べた。   FIG. 8 and FIG. 9 are diagrams showing an example of calculation for assigning evaluation of another URL sample. Here, URL, http: // ΔΔΔΔ. co. jp / XXXXXX / XXXXXXX. The following description was examined as html content.

“...これR−指定かかるシーンまであるwww まぁ原作がなにぶんエロゲーなのでしょうがないといえばしょうがないのですが じゃあ18禁とかちゃんと書いといてくださいよ、いやもしそうでも買いますけども...”   “… This R-Wow there is a scene that takes a designated scene. Well, I can't help saying that the original is probably erotic.

以下に、実際のサンプル適用例を2つ示す。   Two actual sample application examples are shown below.

[サンプル適用例1(「ランジェリー」でブログ検索した場合]
図10は、サンプル適用例1として、「ランジェリー」で通常のブログ検索した場合の検索結果の画面を示す図である。この検索結果で図中のかっこ内の数値が求められたコンテンツの有害度であり、コンテンツのタイトル欄の横に表示されている。
[Sample application example 1 (blog search with “Lingerie”)
FIG. 10 is a diagram illustrating a search result screen when a normal blog search is performed using “Lingerie” as Sample Application Example 1. In this search result, the numerical value in parentheses in the figure is the harmfulness of the content, which is displayed next to the title column of the content.

[サンプル適用例2(「ランジェリー」でブログ検索した場合+有害フィルタ)]
図11は、サンプル適用例2として、「ランジェリー」で通常のブログ検索した結果に、更に有害フィルタをかけた場合の検索結果の画面を示す図である。ここで、有害フィルタの閾値α、βとして0.02を用いているが、この値は、管理者または利用者が変更可能とする。この検索結果では、図中のかっこ内の数値が求められたコンテンツの有害度であるが、閾値以上の有害度を示すコンテンツを持つページは、検索結果から削除されて表示されている。このように、有害度を単に検索結果に表示するだけでなく、所定の閾値を超えたページを自動的に表示させないことで、子供などの利用者にも安心して検索エンジンを使用させることができる。
[Sample application example 2 (blog search with “Lingerie” + harmful filter)]
FIG. 11 is a diagram showing a screen of a search result when a harmful filter is further applied to the result of a normal blog search in “Lingerie” as Sample Application Example 2. Here, 0.02 is used as the threshold values α and β of the harmful filter, but this value can be changed by the administrator or the user. In this search result, the numerical value in parentheses in the figure is the degree of harmfulness of the obtained content, but the page having the content showing the harmful degree equal to or higher than the threshold is deleted from the search result and displayed. In this way, not only the harmfulness level is simply displayed in the search results but also the pages exceeding the predetermined threshold value are not automatically displayed, so that users such as children can use the search engine with peace of mind. .

[応用例]
なお、本発明は、以下のような応用(一部)も可能である。
[Application example]
The present invention can be applied (partly) as follows.

(1)語彙の有害度を知りたい場合
・有害語彙の検知を行う。
文書分類やクラスタリングなどで、どの語が原因で有害と判定されたかの分析を行う。また、有害用語であるかどうか判断が難しい語彙の裏付けを行う。
(1) If you want to know the harmfulness of the vocabulary ・ Detect harmful vocabulary.
Analyzes which words are judged harmful due to document classification and clustering. Also, support vocabulary that is difficult to judge whether it is a harmful term.

(2)コンテンツ(ページ)の有害度を知りたい場合
・検索問題への適用
有害度の高いページの検索ランキングを低くしたり、排除したりする。また、有害度の低いページを積極的に上位に露出させる。あるいは、リンク解析技術と組み合わせて検索結果のランキングを行う。
・文書分類・クラスタリング問題への適用
有害か、そうでないかというような2値分類とは異なる分類を行う。または、有害ページの検知を行う。
(2) When you want to know the harmfulness of the content (page) ・ Application to search problems Lower or eliminate the search ranking of pages with high harmfulness. In addition, the less harmful pages are actively exposed to the top. Alternatively, search results are ranked in combination with link analysis technology.
・ Application to document classification / clustering problem A classification different from binary classification such as harmful or not is performed. Or it detects harmful pages.

[評価付与装置10のハードウェア構成]
図12は、本発明の好適な実施形態の一例に係る評価付与装置10のハードウェア構成を示す図である。
[Hardware Configuration of Evaluation Granting Device 10]
FIG. 12 is a diagram illustrating a hardware configuration of the evaluation assigning apparatus 10 according to an example of the preferred embodiment of the present invention.

評価付与装置10は、制御部130を構成するCPU131(マルチプロセッサ構成ではCPU132など複数のCPUが追加されてもよい)、バスライン105、通信I/F(I/F:インターフェイス)120、メインメモリ170、BIOS(Basic Input Output System)180、USBポート190、I/Oコントローラ160、キーボード及びマウスなどの入力装置110、並びに表示装置140を備える。   The evaluation assigning apparatus 10 includes a CPU 131 constituting the control unit 130 (a plurality of CPUs such as a CPU 132 may be added in a multiprocessor configuration), a bus line 105, a communication I / F (I / F: interface) 120, a main memory 170, a basic input output system (BIOS) 180, a USB port 190, an I / O controller 160, an input device 110 such as a keyboard and a mouse, and a display device 140.

I/Oコントローラ160には、テープドライブ151、ハードディスク153、光ディスクドライブ152、及び半導体メモリ154などの記憶装置150を接続することができる。   A storage device 150 such as a tape drive 151, a hard disk 153, an optical disk drive 152, and a semiconductor memory 154 can be connected to the I / O controller 160.

BIOS180は、評価付与装置10の起動時にCPU131が実行するブートプログラムや、評価付与装置10のハードウェアに依存するプログラムなどを格納する。   The BIOS 180 stores a boot program executed by the CPU 131 when the evaluation assigning apparatus 10 is started, a program depending on the hardware of the evaluation assigning apparatus 10, and the like.

ハードディスク153は、評価付与装置10として機能するための各種プログラム及び本発明の機能を実行するプログラムを記憶する。   The hard disk 153 stores various programs for functioning as the evaluation assigning apparatus 10 and programs for executing the functions of the present invention.

光ディスクドライブ152としては、例えば、DVD−ROMドライブ、CD−ROMドライブ、DVD−RAMドライブ、CD−RAMドライブを使用することができる。この場合は各ドライブに対応した光ディスク1521を使用する。光ディスク1521から光ディスクドライブ152によりプログラムまたはデータを読み取り、I/Oコントローラ160を介してメインメモリ170またはハードディスク153に提供することもできる。また、同様にテープドライブ151に対応したテープメディア1511を主としてバックアップのために使用することもできる。   As the optical disk drive 152, for example, a DVD-ROM drive, a CD-ROM drive, a DVD-RAM drive, or a CD-RAM drive can be used. In this case, the optical disk 1521 corresponding to each drive is used. A program or data may be read from the optical disk 1521 by the optical disk drive 152 and provided to the main memory 170 or the hard disk 153 via the I / O controller 160. Similarly, the tape medium 1511 corresponding to the tape drive 151 can be used mainly for backup.

評価付与装置10に提供されるプログラムは、ハードディスク153、光ディスク1521、またはメモリカードなどの記録媒体に格納されて提供される。このプログラムは、I/Oコントローラ160を介して、記録媒体から読み出され、または通信I/F120を介してダウンロードされることによって、評価付与装置10にインストールされ実行されてもよい。   The program provided to the evaluation assigning device 10 is provided by being stored in a recording medium such as the hard disk 153, the optical disk 1521, or a memory card. This program may be read from the recording medium via the I / O controller 160 or downloaded via the communication I / F 120 to be installed and executed in the evaluation assigning apparatus 10.

上述のプログラムは、内部または外部の記憶媒体に格納されてもよい。ここで、記憶媒体としては、ハードディスク153、光ディスク1521、またはメモリカードの他に、MDなどの光磁気記録媒体、テープメディア1511を用いることができる。また、専用通信回線やインターネットなどの通信回線に接続されたサーバシステムに設けたハードディスク153または光ディスクライブラリなどの記憶装置を記録媒体として使用し、通信ネットワークを介してプログラムを評価付与装置10に提供してもよい。   The above program may be stored in an internal or external storage medium. Here, in addition to the hard disk 153, the optical disk 1521, or the memory card, a magneto-optical recording medium such as an MD, or a tape medium 1511 can be used as the storage medium. Further, a storage device such as a hard disk 153 or an optical disk library provided in a server system connected to a communication line such as a dedicated communication line or the Internet is used as a recording medium, and a program is provided to the evaluation assigning apparatus 10 via the communication network. May be.

ここで、表示装置140は、ユーザによるデータの入力を受け付ける画面を表示したり、評価付与装置10による演算処理結果の画面を表示したりするものであり、ブラウン管表示装置(CRT)、液晶表示装置(LCD)などのディスプレイ装置を含む。   Here, the display device 140 displays a screen for accepting input of data by the user, or displays a screen of a calculation processing result by the evaluation assigning device 10, and is a cathode ray tube display device (CRT), a liquid crystal display device. (LCD) and other display devices.

ここで、入力装置110は、操作員による入力の受け付けを行うものであり、キーボード及びマウスなどにより構成してよい。   Here, the input device 110 receives input by an operator, and may be configured by a keyboard, a mouse, and the like.

また、通信I/F120は、評価付与装置10を専用ネットワークまたは公共ネットワークを介して端末と接続できるようにするためのネットワーク・アダプタである。通信I/F120は、モデム、ケーブル・モデム及びイーサネット(登録商標)・アダプタを含んでよい。   The communication I / F 120 is a network adapter that enables the evaluation assigning apparatus 10 to be connected to a terminal via a dedicated network or a public network. The communication I / F 120 may include a modem, a cable modem, and an Ethernet (registered trademark) adapter.

以上の例は、評価付与装置10のハードウェア構成について主に説明したが、一般的なコンピュータに、プログラムをインストールして、そのコンピュータを、評価付与装置10として動作させ、上記で説明した機能を実現することもできる。   In the above example, the hardware configuration of the evaluation assigning apparatus 10 has been mainly described. However, the function described above is installed by installing a program in a general computer and operating the computer as the evaluation assigning apparatus 10. It can also be realized.

以上、本発明の実施形態について説明したが、本発明は上述した実施形態に限るものではない。また、本発明の実施形態に記載された効果は、本発明から生じる最も好適な効果を列挙したに過ぎず、本発明による効果は、本発明の実施例に記載されたものに限定されるものではない。   As mentioned above, although embodiment of this invention was described, this invention is not restricted to embodiment mentioned above. The effects described in the embodiments of the present invention are only the most preferable effects resulting from the present invention, and the effects of the present invention are limited to those described in the embodiments of the present invention. is not.

評価付与装置10の機能ブロックの概略を示す図である。2 is a diagram showing an outline of functional blocks of an evaluation assigning device 10. FIG. コンテンツの有害評価付与の処理フローを示す図である。It is a figure which shows the processing flow of the harmful evaluation provision of a content. コンテンツの有害評価付与のイメージを示す図である。It is a figure which shows the image of harmful evaluation provision of a content. 語彙の有害評価付与方式のイメージを示す図である。It is a figure which shows the image of the harmful evaluation provision system of a vocabulary. 実際のURLサンプルの評価付与計算例(その1)示す図である。It is a figure which shows the example of the evaluation provision calculation of the actual URL sample (the 1). 実際のURLサンプルの評価付与計算例(その2)を示す図である。It is a figure which shows the example of the evaluation provision calculation of the actual URL sample (the 2). 実際のURLサンプルの評価付与計算例(その3)を示す図である。It is a figure which shows the evaluation provision example (the 3) of an actual URL sample. 別のURLサンプルの評価付与計算例(その1)を示す図である。It is a figure which shows the example of the evaluation provision calculation of another URL sample (the 1). 別のURLサンプルの評価付与計算例(その2)を示す図である。It is a figure which shows the example of the evaluation provision calculation of another URL sample (the 2). サンプル適用例1(「ランジェリー」でブログ検索した場合の検索結果を示す図である。It is a figure which shows the search result at the time of carrying out a blog search by the sample application example 1 ("Lingerie"). サンプル適用例2(「ランジェリー」でブログ検索した場合+有害フィルタ(閾値0.02)の検索結果を示す図である。It is a figure which shows the search result of sample application example 2 (blog search by "Lingerie" + harmful filter (threshold value 0.02)). 評価付与装置10のハードウェア構成を示す図である。2 is a diagram illustrating a hardware configuration of an evaluation assigning device 10. FIG.

符号の説明Explanation of symbols

10 評価付与装置
11 入力部
12 クローラ部
13 コンテンツ・リポジトリ部
14 語彙有害評価付与部
15 コンテンツ有害評価付与部
16 出力部
20 有害URLリスト
30 有害URLコンテンツ
40 形態素解析済み語彙リスト
50 ブラック・ワードリスト
60 グレー・ワードリスト
DESCRIPTION OF SYMBOLS 10 Evaluation granting device 11 Input part 12 Crawler part 13 Content repository part 14 Vocabulary harmful evaluation grant part 15 Content harmful evaluation grant part 16 Output part 20 Harmful URL list 30 Harmful URL content 40 Morphological analyzed vocabulary list 50 Black word list 60 Gray word list

Claims (10)

インターネット上のサイトの語彙及びコンテンツの有害度の評価付与を行う評価付与装置であって、
所定の有害URLリストを取得し、該有害URLリストに含まれるURLを随時アクセスして該URLサイトのコンテンツを収集するクローラ部と、
前記コンテンツのデータを格納するコンテンツ・リポジトリ部と、
前記コンテンツ・リポジトリ部から前記コンテンツの文字データに含まれる語彙を抽出し、所定の選別されたブラック・ワードと該語彙との関係に基づき該語彙のブラック度数を求め所定の選別されたグレー・ワードと該語彙との関係に基づき該語彙のグレー度数を求め、該ブラック度数と該グレー度数から該語彙の有害度数を計算する語彙有害評価付与部と、
前記語彙有害評価付与部が計算した前記語彙の有害度数からインターネット上のサイトのコンテンツの有害度数を計算するコンテンツ有害評価付与部と、
を備えたことを特徴とする、評価付与装置。
An evaluation application device to evaluate grant of harmful of the word彙及beauty content of sites on the Internet,
A crawler unit that acquires a predetermined harmful URL list, accesses URLs included in the harmful URL list as needed, and collects content of the URL site;
A content repository unit for storing the content data;
Extract the vocabulary included in the character data of the content from the content repository unit, obtains a blanking rack power of the vocabulary based on the relationship between predetermined sorted Black word and the vocabulary, a predetermined sorted gray word and asked Me a gray degree of the vocabulary based on the relationship between the vocabulary, the vocabulary harmful evaluation giving unit for calculating a harmful degree of the vocabulary from the black power and the gray degree,
A content adverse assessment assigning unit that calculates the harmfulness number of content on the Internet from the harmfulness number of the vocabulary calculated by the vocabulary harmful assessment granting unit;
An evaluation imparting device comprising:
前記所定のブラック度数であるAVG_Black(t)は、所定の選別されたブラック・ワードを基に、下記数1式によって計算することを特徴とする、請求項1に記載の評価付与装置。
Figure 0004859779
t:単語またはフレーズ(形態素)
Black: i番目のブラック・ワード
R(X,Y):単語またはフレーズXと単語またはフレーズYのシンプソン係数
m:ブラック・ワードの数
2. The evaluation assigning apparatus according to claim 1, wherein AVG_Black (t), which is the predetermined black frequency, is calculated by the following equation (1) based on a predetermined selected black word.
Figure 0004859779
t: word or phrase (morpheme)
Black i : i-th black word R (X, Y): Simpson coefficient of word or phrase X and word or phrase Y m: number of black words
前記所定のグレー度数であるAVG_Gray(t)は、所定の選別されたグレー・ワードを基に、下記数2式によって計算することを特徴とする、請求項1または2に記載の評価付与装置。
Figure 0004859779
Gray: j番目のグレー・ワード
n:グレー・ワードの数
3. The evaluation assigning apparatus according to claim 1, wherein AVG_Gray (t) that is the predetermined gray frequency is calculated by the following equation (2) based on a predetermined selected gray word.
Figure 0004859779
Gray j : jth gray word n: number of gray words
前記語彙の有害度数であるSO(t)は、下記数3式によって計算することを特徴とする、請求項1乃至3に記載の評価付与装置。
Figure 0004859779
α、β:閾値
4. The evaluation assigning apparatus according to claim 1, wherein SO (t), which is a harmful degree number of the vocabulary, is calculated by the following equation (3).
Figure 0004859779
α, β: threshold
前記コンテンツの有害度数SO(c)は、下記数4式によって計算することを特徴とする、請求項1乃至4に記載の評価付与装置。
Figure 0004859779
c:コンテンツ
γ:総単語またはフレーズに占めるSO(t)>0の単語またはフレーズの比率
l:コンテンツ内のSO(t)>0の単語またはフレーズ数
5. The evaluation assigning apparatus according to claim 1, wherein the harmful degree number SO (c) of the content is calculated by the following equation (4).
Figure 0004859779
c: Content γ: Ratio of words or phrases with SO (t)> 0 in total words or phrases l: Number of words or phrases with SO (t)> 0 in content
前記ブラック・ワードは、複数のブラック・ワード候補の語彙に対して、操作員の目視判定結果と、該ブラック・ワード候補の語彙を含むサイトのURLをフィルタリングするツールの判定結果と、有害語辞書による判定結果を、それぞれ組み合わせることによって選別して、ブラック・ワードリストとして入力されることを特徴とする、請求項2に記載の評価付与装置。   The black word includes a visual determination result of an operator for a plurality of black word candidate vocabularies, a determination result of a tool that filters a URL of a site including the vocabulary of black word candidates, and a harmful word dictionary. 3. The evaluation assigning apparatus according to claim 2, wherein the determination results are selected and combined as a black word list. 前記グレー・ワードは、複数のグレー・ワード候補の語彙に対して、操作員のブラックでないという目視判定結果と、該グレー・ワード候補の語彙を含むサイトのURLをフィルタリングするツールのブラックでないという判定結果と、有害語辞書によるブラックでないという判定結果を、それぞれを組み合わせることによって選別して、グレー・ワードリストとして入力されることを特徴とする、請求項3に記載の評価付与装置。   The gray word is a visual determination result that the operator is not black for a plurality of gray word candidate vocabularies, and a determination that the gray word is not black for a tool that filters URLs of sites including the gray word candidate vocabularies. 4. The evaluation assigning apparatus according to claim 3, wherein the result and the determination result that it is not black by the noxious word dictionary are selected by combining them and are input as a gray word list. ウェブページにおける検索結果のリストから有害と判定されたウェブサイトを下位に表示するか、または削除して前記検索結果の画面に表示する、請求項1乃至7に記載の評価付与装置。   The evaluation assigning apparatus according to claim 1, wherein a website determined to be harmful from a list of search results on a web page is displayed at a lower level, or deleted and displayed on the search result screen. インターネット上のサイトの語彙及びコンテンツの有害度の評価付与を行うためのコンピュータ・プログラムであって、
コンピュータに、
所定の有害URLリストを取得し、該有害URLリストに含まれるURLを随時アクセスして該URLサイトのコンテンツを収集するステップと、
前記コンテンツのデータを格納するステップと、
前記格納されたデータから前記コンテンツの文字データに含まれる語彙を抽出し、所定の選別されたブラック・ワードと該語彙との関係に基づき該語彙のブラック度数を求め、所定の選別されたグレー・ワードと該語彙との関係に基づき該語彙のグレー度数を求め、該ブラック度数と該グレー度数から該語彙の有害度数を計算するステップと、
前記計算した前記語彙の有害度数からインターネット上のサイトのコンテンツの有害度数を計算するステップと、
を実行させることを特徴とする、コンピュータ・プログラム。
A computer program for evaluating grant of harmful of the word彙及beauty content of sites on the Internet,
On the computer,
Acquiring a predetermined harmful URL list, accessing URLs included in the harmful URL list as needed, and collecting contents of the URL site;
Storing the data of the content;
Extract the vocabulary included in the character data of the content from the stored data, determine the blanking rack power of the vocabulary based on the relationship between predetermined sorted Black word and the vocabulary, a predetermined sorted gray - determine the gray degree of the vocabulary based on words and the relationship between the vocabulary, calculating a harmful degree of the vocabulary from the black power and the gray degree,
Calculating the harmfulness number of the content on the Internet from the calculated harmfulness number of the vocabulary;
A computer program characterized in that the program is executed.
インターネット上のサイトの語彙及びコンテンツの有害度の評価付与を行うための方法であって、
コンピュータが、所定の有害URLリストを取得し、該有害URLリストに含まれるURLを随時アクセスして該URLサイトのコンテンツを収集するステップと、
前記コンピュータが、前記コンテンツのデータを格納するステップと、
前記コンピュータが、前記格納されたデータから前記コンテンツの文字データに含まれる語彙を抽出し、所定の選別されたブラック・ワードと該語彙との関係に基づき該語彙のブラック度数を求め、所定の選別されたグレー・ワードと該語彙との関係に基づき該語彙のグレー度数を求め、該ブラック度数と該グレー度数から該語彙の有害度数を計算するステップと、
前記コンピュータが、前記計算した前記語彙の有害度数からインターネット上のサイトのコンテンツの有害度数を計算するステップと、
を含むことを特徴とする、方法。
A method for evaluating grant of harmful of the word彙及beauty content of sites on the Internet,
A computer acquiring a predetermined harmful URL list, accessing URLs included in the harmful URL list as needed, and collecting contents of the URL site;
The computer storing the data of the content;
The computer extracts the vocabulary included in the character data of the content from the stored data, determine the blanking rack power of the vocabulary based on the relationship between predetermined sorted Black word and the vocabulary, certain seeking gray degree of the vocabulary based on sorted relationship between gray word and the vocabulary, calculating a harmful degree of the vocabulary from the black power and the gray degree,
The computer calculating the harmfulness number of the content of the site on the Internet from the calculated harmfulness number of the vocabulary;
A method comprising the steps of:
JP2007201181A 2007-08-01 2007-08-01 Hazardous content evaluation assigning apparatus, program and method Active JP4859779B2 (en)

Priority Applications (1)

Application Number Priority Date Filing Date Title
JP2007201181A JP4859779B2 (en) 2007-08-01 2007-08-01 Hazardous content evaluation assigning apparatus, program and method

Applications Claiming Priority (1)

Application Number Priority Date Filing Date Title
JP2007201181A JP4859779B2 (en) 2007-08-01 2007-08-01 Hazardous content evaluation assigning apparatus, program and method

Publications (2)

Publication Number Publication Date
JP2009037420A JP2009037420A (en) 2009-02-19
JP4859779B2 true JP4859779B2 (en) 2012-01-25

Family

ID=40439264

Family Applications (1)

Application Number Title Priority Date Filing Date
JP2007201181A Active JP4859779B2 (en) 2007-08-01 2007-08-01 Hazardous content evaluation assigning apparatus, program and method

Country Status (1)

Country Link
JP (1) JP4859779B2 (en)

Families Citing this family (9)

* Cited by examiner, † Cited by third party
Publication number Priority date Publication date Assignee Title
JP4934572B2 (en) * 2007-11-14 2012-05-16 エヌ・ティ・ティ レゾナント株式会社 SPAM feature information generation apparatus, SPAM information filtering apparatus, information retrieval apparatus and method thereof
CN102105875B (en) * 2009-07-15 2013-05-01 呢哦派豆株式会社 System and method for providing a consolidated service for a homepage
JP5084820B2 (en) * 2009-12-25 2012-11-28 ヤフー株式会社 Crawl system, server, and harmful URL list update method
WO2012023541A1 (en) * 2010-08-20 2012-02-23 楽天株式会社 Information provision device, information provision method, programme, and information recording medium
JP5865185B2 (en) * 2012-06-15 2016-02-17 西日本電信電話株式会社 Communication apparatus and URL evaluation system
JP6237632B2 (en) * 2012-09-27 2017-11-29 日本電気株式会社 Text information monitoring dictionary creation device, text information monitoring dictionary creation method, and text information monitoring dictionary creation program
US9749352B2 (en) 2012-12-20 2017-08-29 Foundation Of Soongsil University-Industry Cooperation Apparatus and method for collecting harmful website information
US9756064B2 (en) 2012-12-20 2017-09-05 Foundation Of Soongsil University-Industry Cooperation Apparatus and method for collecting harmful website information
JP7260439B2 (en) * 2019-08-19 2023-04-18 ヤフー株式会社 Extraction device, extraction method and extraction program

Family Cites Families (6)

* Cited by examiner, † Cited by third party
Publication number Priority date Publication date Assignee Title
JPH069054B2 (en) * 1988-01-22 1994-02-02 日本電気株式会社 Document automatic classifier
JPH1131150A (en) * 1997-07-10 1999-02-02 Matsushita Electric Ind Co Ltd Registered communication address updating device
JP2001028006A (en) * 1999-07-15 2001-01-30 Kdd Corp Method and device for automatic information filtering
WO2001055873A1 (en) * 2000-01-28 2001-08-02 Websense, Inc. System and method for controlling access to internet sites
JP4161171B2 (en) * 2002-06-17 2008-10-08 ヤマハ株式会社 Information classification apparatus, method and program
JP4253209B2 (en) * 2003-04-08 2009-04-08 ヤフー株式会社 Filtering apparatus, system, method and program

Also Published As

Publication number Publication date
JP2009037420A (en) 2009-02-19

Similar Documents

Publication Publication Date Title
JP4859779B2 (en) Hazardous content evaluation assigning apparatus, program and method
US8458198B1 (en) Document analysis and multi-word term detector
US7805303B2 (en) Question answering system, data search method, and computer program
US7599926B2 (en) Reputation information processing program, method, and apparatus
US7526474B2 (en) Question answering system, data search method, and computer program
US8086557B2 (en) Method and system for retrieving statements of information sources and associating a factuality assessment to the statements
KR102324048B1 (en) Method, apparatus, computer device and storage medium for verifying community question answer data
US20160171095A1 (en) Identifying and Displaying Relationships Between Candidate Answers
US20060287988A1 (en) Keyword charaterization and application
Lu et al. Translation of web queries using anchor text mining
WO2009096523A1 (en) Information analysis device, search system, information analysis method, and information analysis program
US20040098385A1 (en) Method for indentifying term importance to sample text using reference text
Kaisser et al. Improving search results quality by customizing summary lengths
US20160085740A1 (en) Generating training data for disambiguation
US20070061322A1 (en) Apparatus, method, and program product for searching expressions
RU2738335C1 (en) Method and system for classifying and filtering prohibited content in a network
JP2002245061A (en) Keyword extraction
KR101507637B1 (en) Device and method for supporting detection of mistranslation
Dąbrowski et al. Mining and searching app reviews for requirements engineering: Evaluation and replication studies
Versley et al. Not just bigger: Towards better-quality Web corpora
JP5136910B2 (en) Information analysis apparatus, information analysis method, information analysis program, and search system
JP2008257511A (en) Technical term extraction device, method, and program
JP2004164079A (en) Device, method and program for analyzing data
US20060161537A1 (en) Detecting content-rich text
JP4143085B2 (en) Synonym acquisition method and apparatus, program, and computer-readable recording medium

Legal Events

Date Code Title Description
A621 Written request for application examination

Free format text: JAPANESE INTERMEDIATE CODE: A621

Effective date: 20090626

A977 Report on retrieval

Free format text: JAPANESE INTERMEDIATE CODE: A971007

Effective date: 20110616

A131 Notification of reasons for refusal

Free format text: JAPANESE INTERMEDIATE CODE: A131

Effective date: 20110621

A521 Request for written amendment filed

Free format text: JAPANESE INTERMEDIATE CODE: A523

Effective date: 20110815

TRDD Decision of grant or rejection written
A01 Written decision to grant a patent or to grant a registration (utility model)

Free format text: JAPANESE INTERMEDIATE CODE: A01

Effective date: 20111004

A01 Written decision to grant a patent or to grant a registration (utility model)

Free format text: JAPANESE INTERMEDIATE CODE: A01

A61 First payment of annual fees (during grant procedure)

Free format text: JAPANESE INTERMEDIATE CODE: A61

Effective date: 20111101

R150 Certificate of patent or registration of utility model

Ref document number: 4859779

Country of ref document: JP

Free format text: JAPANESE INTERMEDIATE CODE: R150

Free format text: JAPANESE INTERMEDIATE CODE: R150

FPAY Renewal fee payment (event date is renewal date of database)

Free format text: PAYMENT UNTIL: 20141111

Year of fee payment: 3

R250 Receipt of annual fees

Free format text: JAPANESE INTERMEDIATE CODE: R250

R250 Receipt of annual fees

Free format text: JAPANESE INTERMEDIATE CODE: R250

R250 Receipt of annual fees

Free format text: JAPANESE INTERMEDIATE CODE: R250

S531 Written request for registration of change of domicile

Free format text: JAPANESE INTERMEDIATE CODE: R313531

R350 Written notification of registration of transfer

Free format text: JAPANESE INTERMEDIATE CODE: R350

R250 Receipt of annual fees

Free format text: JAPANESE INTERMEDIATE CODE: R250

R250 Receipt of annual fees

Free format text: JAPANESE INTERMEDIATE CODE: R250

S533 Written request for registration of change of name

Free format text: JAPANESE INTERMEDIATE CODE: R313533

S111 Request for change of ownership or part of ownership

Free format text: JAPANESE INTERMEDIATE CODE: R313111

R250 Receipt of annual fees

Free format text: JAPANESE INTERMEDIATE CODE: R250

R350 Written notification of registration of transfer

Free format text: JAPANESE INTERMEDIATE CODE: R350

R350 Written notification of registration of transfer

Free format text: JAPANESE INTERMEDIATE CODE: R350

R250 Receipt of annual fees

Free format text: JAPANESE INTERMEDIATE CODE: R250

R250 Receipt of annual fees

Free format text: JAPANESE INTERMEDIATE CODE: R250

R250 Receipt of annual fees

Free format text: JAPANESE INTERMEDIATE CODE: R250

R250 Receipt of annual fees

Free format text: JAPANESE INTERMEDIATE CODE: R250

S111 Request for change of ownership or part of ownership

Free format text: JAPANESE INTERMEDIATE CODE: R313111

R350 Written notification of registration of transfer

Free format text: JAPANESE INTERMEDIATE CODE: R350

R250 Receipt of annual fees

Free format text: JAPANESE INTERMEDIATE CODE: R250