이 튜토리얼은 간단한 Nutch 2.2.1 + Solr 4.3.1 설정을 작성합니다.

2.x 이후 Nutch는 Apache Gora를 데이터 저장소 백엔드로 사용합니다. 특정 Gora 데이터 저장소를 선택해야합니다. 이 튜토리얼에서는 HBase 0.90.4를 사용합니다.

이러한 도구의 특정 버전 만 원활하게 함께 작동합니다. 항상 최신 버전의 프로그램을 선택하지 마십시오.

다운로드

새 디렉토리를 만들고이 파일을 다운로드 한 다음 압축을 풉니 다. trynutch이 튜토리얼에서는이 디렉토리 를 호출 할 것이다 .

누치 . 이 자습서는 다음을 사용합니다 Nutch 2.2.1.
HBase . 이 자습서는 다음을 사용합니다 HBase 0.90.4.
Solr . 이 자습서는 다음을 사용합니다 Solr 4.3.1.

HBase 구성

HBase 및 사육사 저장소 디렉토리를 설정해야합니다. 편집 trynutch/hbase-0.90.4/conf/hbase-site.xml:

<configuration>
  <property>
    <name>hbase.rootdir</name>
    <value>file:///path/to/trynutch/hbase</value>
  </property>
  <property>
    <name>hbase.zookeeper.property.dataDir</name>
    <value>/path/to/trynutch/zookeeper</value>
  </property>
</configuration>

이 후 다음 명령을 사용하여 HBase를 시작할 수 있습니다.

$ ./trynutch/hbase/bin/start_hbase.sh

특히 당신은 hbase 명령 줄 유틸리티를 실행할 수 있습니다 :

$ ./bin/hbase shell

다음 명령을 사용하여 HBase를 다시 중지 할 수 있습니다.

$ ./trynutch/hbase/bin/stop_hbase.sh

(내 mashine 때로는 stop_hbase.sh영원히 걸립니다. 삭제 trynutch/hbase및 trynutch/zookeeper지우기 /tmp및 몇 번 다시 시작이 문제를 해결할 것으로 보인다.)

우분투 시스템에서 hbase을 실행하는 데 문제가 /etc/hosts있다면 호스트와 로컬 호스트가 동일한 IP 주소 (127.0.0.1)를 가지고 있는지 살펴보고 싶을 것 입니다. 우분투 시스템에서는 현재 호스트에 127.0이 있습니다. 1 .1 이 문제에 대한 추가 정보 찾기

Nutch 설정

웹 크롤러의 이름을 설정해야합니다. 또한 Nutch에게 HBase를 Gora 데이터 저장소 백엔드로 사용한다고 알려야합니다. 수정 trynutch/apache-nutch-2.2.1/conf/nutch-site.xml.

<configuration>
  <property>
    <name>http.agent.name</name>
    <value>your-crawler-name</value>
  </property>
  <property>
    <name>storage.data.store.class</name>
    <value>org.apache.gora.hbase.store.HBaseStore</value>
    <description>Default class for storing data</description>
  </property>
</configuration>

이 행을 trynutch/apache-nutch-2.2.1/conf/gora.properties다음 과 같이 변경하십시오 .

gora.datastore.default=org.apache.gora.hbase.store.HBaseStore

열기 trynutch/apache-nutch-2.2.1/ivy/ivy.xml. 아래로 스크롤하여 섹션 Gora artifacs에 주석 처리를 해제하십시오.

<dependency org="org.apache.gora" name="gora-hbase" rev="0.3" conf="*->default" />

이제 Nutch (2.x 소스 아카이브 만 사용할 수 있기 때문에)를 컴파일해야합니다.

$ cd trynutch/apache-nutch-2.2.1/
$ ant runtime

(이것은 처음으로 시간이 오래 걸릴 수도 있습니다. 내 마신에서는 25 분이 걸렸습니다.)

Solr 구성

Nutch와 함께 제공되는 데이터베이스 스키마는 구형입니다.

이 스키마를 다운로드 하여 저장하십시오 trynutch/solr-4.3.1/example/solr/collection1/conf/schema.xml.

Solr을 시작하십시오.

$ cd trynutch/solr-4.3.1/example/
$ java -jar start.jar

Solr이 실행 중이면 다음 사이트에 액세스 할 수 있어야합니다.

http://localhost:8983/solr/admin/

러닝 너치

HBase 및 Solr이 실행 중인지 확인하십시오.

이 자습서의 크롤링 범위를 제한 trynutch/apache-nutch-2.2.1/runtime/local/conf/regex-urlfilter.txt하고 마지막 줄을 다음과 같이 변경하십시오.

+^http://work-at-google.com

Nutch와 함께 기어 가기.

$ cd trynutch/apache-nutch-2.2.1/runtime/local/
$ mkdir urls
$ echo "http://work-at-google.com" > urls/seed.txt
$ bin/nutch inject urls
$ bin/nutch generate -topN 5
$ bin/nutch fetch -all
$ bin/nutch parse -all
$ bin/nutch updatedb

이제이 데이터 Solr을 피드하십시오.

$ bin/nutch solrindex http://localhost:8983/solr/ -all

이제 http : // localhost : 8983 / solr / # / collection1 / query 에서 Solr의 데이터를 검색 할 수 있습니다 .

아파치 너치(Apache Nutch) Architecture & Crawling 구조 (0)	2018.08.05
크롤링데이터쓰기 (0)	2018.08.05

PETABYTE

Nutch Solr 튜토리얼

이 튜토리얼은 간단한 Nutch 2.2.1 + Solr 4.3.1 설정을 작성합니다.

다운로드

HBase 구성

Nutch 설정

Solr 구성

러닝 너치

출처

'빅데이터 > Nutch' 카테고리의 다른 글

+ Recent posts

티스토리툴바