이 튜토리얼은 간단한 Nutch 2.2.1 + Solr 4.3.1 설정을 작성합니다.
2.x 이후 Nutch는 Apache Gora를 데이터 저장소 백엔드로 사용합니다. 특정 Gora 데이터 저장소를 선택해야합니다. 이 튜토리얼에서는 HBase 0.90.4를 사용합니다.
이러한 도구의 특정 버전 만 원활하게 함께 작동합니다. 항상 최신 버전의 프로그램을 선택하지 마십시오.
다운로드
새 디렉토리를 만들고이 파일을 다운로드 한 다음 압축을 풉니 다. trynutch
이 튜토리얼에서는이 디렉토리 를 호출 할 것이다 .
- 누치 . 이 자습서는 다음을 사용합니다
Nutch 2.2.1
. - HBase . 이 자습서는 다음을 사용합니다
HBase 0.90.4
. - Solr . 이 자습서는 다음을 사용합니다
Solr 4.3.1
.
HBase 구성
HBase 및 사육사 저장소 디렉토리를 설정해야합니다. 편집 trynutch/hbase-0.90.4/conf/hbase-site.xml
:
<configuration>
<property>
<name>hbase.rootdir</name>
<value>file:///path/to/trynutch/hbase</value>
</property>
<property>
<name>hbase.zookeeper.property.dataDir</name>
<value>/path/to/trynutch/zookeeper</value>
</property>
</configuration>
이 후 다음 명령을 사용하여 HBase를 시작할 수 있습니다.
$ ./trynutch/hbase/bin/start_hbase.sh
특히 당신은 hbase 명령 줄 유틸리티를 실행할 수 있습니다 :
$ ./bin/hbase shell
다음 명령을 사용하여 HBase를 다시 중지 할 수 있습니다.
$ ./trynutch/hbase/bin/stop_hbase.sh
(내 mashine 때로는 stop_hbase.sh
영원히 걸립니다. 삭제 trynutch/hbase
및 trynutch/zookeeper
지우기 /tmp
및 몇 번 다시 시작이 문제를 해결할 것으로 보인다.)
우분투 시스템에서 hbase을 실행하는 데 문제가 /etc/hosts
있다면 호스트와 로컬 호스트가 동일한 IP 주소 (127.0.0.1)를 가지고 있는지 살펴보고 싶을 것 입니다. 우분투 시스템에서는 현재 호스트에 127.0이 있습니다. 1 .1 이 문제에 대한 추가 정보 찾기
Nutch 설정
웹 크롤러의 이름을 설정해야합니다. 또한 Nutch에게 HBase를 Gora 데이터 저장소 백엔드로 사용한다고 알려야합니다. 수정 trynutch/apache-nutch-2.2.1/conf/nutch-site.xml
.
<configuration>
<property>
<name>http.agent.name</name>
<value>your-crawler-name</value>
</property>
<property>
<name>storage.data.store.class</name>
<value>org.apache.gora.hbase.store.HBaseStore</value>
<description>Default class for storing data</description>
</property>
</configuration>
이 행을 trynutch/apache-nutch-2.2.1/conf/gora.properties
다음 과 같이 변경하십시오 .
gora.datastore.default=org.apache.gora.hbase.store.HBaseStore
열기 trynutch/apache-nutch-2.2.1/ivy/ivy.xml
. 아래로 스크롤하여 섹션 Gora artifacs
에 주석 처리를 해제하십시오.
<dependency org="org.apache.gora" name="gora-hbase" rev="0.3" conf="*->default" />
이제 Nutch (2.x 소스 아카이브 만 사용할 수 있기 때문에)를 컴파일해야합니다.
$ cd trynutch/apache-nutch-2.2.1/
$ ant runtime
(이것은 처음으로 시간이 오래 걸릴 수도 있습니다. 내 마신에서는 25 분이 걸렸습니다.)
Solr 구성
Nutch와 함께 제공되는 데이터베이스 스키마는 구형입니다.
이 스키마를 다운로드 하여 저장하십시오 trynutch/solr-4.3.1/example/solr/collection1/conf/schema.xml
.
Solr을 시작하십시오.
$ cd trynutch/solr-4.3.1/example/
$ java -jar start.jar
Solr이 실행 중이면 다음 사이트에 액세스 할 수 있어야합니다.
http://localhost:8983/solr/admin/
러닝 너치
HBase 및 Solr이 실행 중인지 확인하십시오.
이 자습서의 크롤링 범위를 제한 trynutch/apache-nutch-2.2.1/runtime/local/conf/regex-urlfilter.txt
하고 마지막 줄을 다음과 같이 변경하십시오.
+^http://work-at-google.com
Nutch와 함께 기어 가기.
$ cd trynutch/apache-nutch-2.2.1/runtime/local/
$ mkdir urls
$ echo "http://work-at-google.com" > urls/seed.txt
$ bin/nutch inject urls
$ bin/nutch generate -topN 5
$ bin/nutch fetch -all
$ bin/nutch parse -all
$ bin/nutch updatedb
이제이 데이터 Solr을 피드하십시오.
$ bin/nutch solrindex http://localhost:8983/solr/ -all
이제 http : // localhost : 8983 / solr / # / collection1 / query 에서 Solr의 데이터를 검색 할 수 있습니다 .
출처
'빅데이터 > Nutch' 카테고리의 다른 글
아파치 너치(Apache Nutch) Architecture & Crawling 구조 (0) | 2018.08.05 |
---|---|
크롤링데이터쓰기 (0) | 2018.08.05 |