일 | 월 | 화 | 수 | 목 | 금 | 토 |
---|---|---|---|---|---|---|
1 | 2 | 3 | 4 | |||
5 | 6 | 7 | 8 | 9 | 10 | 11 |
12 | 13 | 14 | 15 | 16 | 17 | 18 |
19 | 20 | 21 | 22 | 23 | 24 | 25 |
26 | 27 | 28 | 29 | 30 | 31 |
- Spring Batch
- 웹 커리큘럼
- spring reactive
- Spring Framework
- reactor
- 웹앱
- 공유기 서버
- ipTIME
- reactive
- reactor core
- 서버운영
- 웹 스터디
- Today
- Total
목록Back-End (53)
Hello World
5주차. 스파크로 머신러닝 시작이번 주의 제목은 노트가 아니라 메모 겸 후기다. 5주차에는 수업이 없고 과제와 퀴즈만 있다.Lab 4. 스파크로 머신러닝 시작영화 목록과 평점 이력을 트레이닝 셋으로 해서 내가 영화 평점을 몇 개 입력해서 다른 영화의 내 평점을 예측하도록 기계학습을 해보는 과제이다. 스파크의 머신러닝 라이브러리(MLlib)에서의 협업 필터링(Collaborative Filtering) 에서는 ALS(Alternating Least Squares)라는 알고리즘을 사용하는데, 유사도를 평가하는 데는 평균 제곱근 오차(Root Mean Square Error; RMSE) 라는 방법을 사용한다. 정확한 의미는 이해하지 못했지만, 순서대로 따라가니 풀 수 있었다.Lab 4. QuizRMSE의 값에..
4주차. 데이터 품질, 탐헌적 데이터 분석과 머신 러닝Lecture 7. 데이터 품질데이터 클리닝왜곡: 처리과정에서 변질된 표본들선택편견: 값에 따른 표본의 가능도(likelihood)좌우검열: 데이터가 무한대일 때 시작과 끝을 어떻게 자를지의존성: 표본이 독립적인지 아닌지에 대한 판단정확성과 (과정의)간소에 대한 트레이드오프단위 통일, 중복 제거 등문제텍스트 파싱같은 엔티티 다른 표현(2 vs two, NYC vs NewYork)비구조적-구조적 전환시 primary key너무 길어서 잘리는 필드형식 문제(특히 날짜)수집과정에서 무결성 체크구조에 없는건 기본값전송신뢰할만한 프로토콜인가받은 데이터의 확인이 가능한가(checksum)분석의 어려움크기, 성능모델에 적용전문지식 부족다트판(때려맞추기)대충 경험(..
Lecture 5. 반구조적 데이터자료 형태구조적: 정형(schema) 데이터. RDB, formatted msg반구조적: schema를 그때그때. XML, JSON, mp3tag비구조적: plain text파일이란byte의 나열FS를 통한 상하구조POSIX interface(이건 왜?)테이블처음부터 구조를 잘 짜야같은 데이터도 타입문제(2 vs 2.0)이력관리취합 문제필드가 다를 때데이터 단위가 다름같은 값인데 표현이 다름pandasdata analysys + modeling for pythonDataFrame: named columnR도 비슷한 data frame 지원DF in pySpark1.3부터 RDD 확장으로 지원pandas, R의 DF와 같지만 분산환경pandas DF와 convert 쉬움p..
edX에서 Spark로 빅데이터 입문(Introduction to Big Data with Apache Spark)을 듣고 있다. UC Berkeley의 Anthony Joseph 교수가 진행하는 수업으로, 실제 데이터를 가지고 과제 4개를 진행하면서 Spark로 빅데이터 분석하는 방법을 배운다고 하는데, 수업 난이도 자체는 높지 않다. 대상은 Python 경험자로 분산 컴퓨팅/Spark에 대한 지식은 없어도 된다고 되어있다. 환경 설정도 Jupyter(IPython Notebook의 새 이름)와 PySpark가 이미 세팅된 환경을 Vagrant로 제공해주는데, Vagrant의 이름만 알고 있는 정도였지만 동영상에서 OS별로 제공하는 동영상을 보고 따라하는데 무리는 없었다.실습은 노트북 파일에서 비어있는..
https://www.youtube.com/watch?v=KFYXY3MT-XA - extension오류나면 php.ini에서 검색해서 ;(주석)지울것
1. http://windows.php.net/download/ 에 접속합니다.PHP For Windows: Binaries and sources Releaseswindows.php.net 2. 원하는 버전을 다운로드 받습니다. (Zip으로 받아주세요.)(필자는 "VC11 x64 Thread Safe (2015-Sep-04 02:29:43)"을 받습니다.) 2-1 Non Thread Safe , Thread Safe 방식PHP는 멀티 프로세스 방식인 것과 다르게 윈도우는 멀티쓰레드 방식이기 때문에 쓰레드 용 PHP가 Thread Safe 방식입니다.기존의 방식과 다른 방식으로 변환해서 하는 것이기에 성능이 저하 되나, 안정성이 높습니다.성능이 저하 되는 문제점을 해결한 방식이 Non Thread Safe..
1. 아래 사이트에 접속합니다.http://apachelounge.com/download/Apache VC14 binaries and modules downloadapachelounge.com 2. Apache 를 다운로드 합니다. 1. 자신의 운영체제에 맞게 32비트인지 64비트인지 선택합니다. (이 정보는 불확실합니다.)2. 저장합니다. 3. 다운로드 받은 압축파일을 C: 드라이브에 압축을 해제 합니다. 1. 압축된 파일을 더블 클릭합니다.2. 압축해제를 합니다. (C:\ 폴더에 하시면 됩니다.) 4. C:\Apache24\conf 폴더에 접속합니다. ( 설명대로 안하셨다면 압축해제한 폴더내의 conf 폴더에 들어갑니다. ) 1. "httpd.conf" 파일을 마우스 반대쪽 클릭합니다.2. 연결프로그..
Kafka 클러스터의 모든 분산 처리는 Zookeeper를 매개로 이루어 지기 때문에, Kafka가 사용하는 Zookeeper 트리의 구조를 파악하면 Kafka 클러스터의 동작 방식을 이해하는데 큰 도움이 된다. 아래의 그림은 Kafka가 사용하는 Zookeeper 트리의 주요 노드를 정리해 놓은 것이다. 좀 더 상세한 정보는 Kafka Wiki의 Kafka data structures in Zookeeper를 참조하길 바란다. Zookeeper CLI로 Zookeeper 트리 탐색하기Zookeeper 트리는 파일 시스템의 디렉토리 구조와 비슷하기 때문에 Zookeeper 패키지에 포함되어 있는 zkCli.sh라는 CLI 툴을 사용하여 디렉토리를 탐색하듯이 ls 명령어를 통해 Zookeeper 트리를 탐..
Kafka는 기본적으로 JMX 인터페이스를 제공하기 때문에 Kafka에서 제공하는 MBean(managed bean)들의 값을 모니터링할 수 있다. 하지만 JMX 툴보다는 Kafka 전용으로 개발된 모니터링 툴을 사용하는 것이 훨씬 간편하고, 중요한 정보들을 좀 더 직관적으로 파악할 수 있기 때문에 이 글에서는 JMX를 통한 모니터링 대신Kafka Offset Monitor를 사용하여 Kafka의 상태를 모니터링해 보도록 한다. Kafka Offset Monitor 실행하기Kafka Offset Monitor 홈페이지에서 jar 파일을 다운 받은 뒤 다음의 커맨드를 통해 Kafka Offset Monitor를 실행한다.java -cp KafkaOffsetMonitor-assembly-0.2.1.jar c..
Kafka는 producer와 consumer를 구현할 때 사용할 수 있는 Java 클라이언트를 공식적으로 제공한다. 그 외에도 서드파티에서 C, C++, Ruby, Python, Go를 비롯한 다양한 언어의 클라이언트를 제공한다. 이 글에서는 Java 클라이언트를 사용하는 법을 다룬다. Producer 구현하기Hello, World! 예제package com.epicdevs.kafka; import java.util.Properties; import kafka.javaapi.producer.Producer; import kafka.producer.KeyedMessage; import kafka.producer.ProducerConfig; public class ProducerExample { publi..