본문 바로가기
[패스트캠퍼스] 데이터분석 부트캠프

[11주차 학습일지] 패스트캠퍼스 박조은 강사님 생성형AI 활용법 강의(웹스크래핑)

by 클로버심 2025. 9. 7.

생성형  AI 사이트

생성형 AI 문서 도구 서비스

생성형 AI로 데이터 수집부터 분석까지

  1. Yes24 URL 에서 도서 목록 수집해 주세요. 
  2. Yes24 에서 도서목록을 수집하고자 합니다. 다음의 정보를 참고해 주세요.
    1. 네트워크 메뉴를 통해 실제 데이터를 가져오는 URL
    2. 해당 Request에 대한 Header 정보
    3. Payload 
    4. 응답 예시 (HTML, JSON 의 일부 정보) 우클릭 copy - Copy outerHTML
    5. Google AI Studio 프롬프트 작성
      더보기
      1. Request URL 정보
      2. Form Data 
      3. Copy outerHTML 붙여넣기
      컴퓨터공학 분야 yes24 도서 페이지당 120개씩 5페이지 도서 수집하고 표로 출력하고 csv로 저장하고 표로 출력하는 코드 만들어줘
    6. Google AI Studio 답변 예시
      1. 필요한 라이브러리 설치
        먼저 터미널이나 명령 프롬프트에서 아래 명령어를 실행하여 필요한 라이브러리를 설치해주세요.
      2. 파이썬 스크래핑 코드
        아래 코드를 코랩에서 실행하세요.
      3. 코드 작업 수행 순서
        필요한 라이브러리 설치: requests, beautifulsoup4, pandas, tqdm
        Yes24 '컴퓨터/IT' 분야 베스트셀러 페이지 접속: 페이지당 120개씩, 총 5페이지를 순회합니다.
        HTML 파싱: 각 도서 항목(<li>)에서 필요한 정보(제목, 저자, 출판사, 가격 등)를 추출합니다.
        데이터 정제: 가격과 같은 숫자 데이터에서 불필요한 문자를 제거하고 숫자로 변환합니다.
        Pandas DataFrame으로 변환: 수집한 데이터를 표 형태로 만듭니다.
        결과 출력: 콘솔에 전체 표를 출력합니다.
        CSV 파일로 저장: yes24_cs_books.csv 라는 이름의 파일로 결과를 저장합니다.
      4. 주의사항: 웹 스크래핑은 해당 웹사이트의 서버에 부하를 줄 수 있습니다. 과도하게 잦은 요청은 피하고, 사이트의 이용 약관 및 로봇 배제 표준(robots.txt)을 존중하는 것이 중요합니다. 이 코드는 교육 및 학습 목적으로 작성되었습니다.
    7. 파이썬 수행 결과 예시

웹스크래핑이 처음이다? 과정을 먼저 도식화 해보기 - Mermaid, Excalidraw

어떻게 프롬프트를 작성할 것인가?

ex1) 50페이지 분량의 마크다운 슬라이드를 작성하되 초보자를 대상으로 자세하게 작성할 것, 내용은 글머리기호 5개 이상으로 작성하고 내용은 명사형 종결로 작성할 것, 표와 인포그래픽을 그릴 수 있는 내용으로 작성할 것, 제목에는 슬라이드 번호 등은 넣지 말것

ex2) reveal.js 로 html 슬라이드를 다음 내용으로 만들되, 다양한 인터랙티브한 효과와 인포그래픽을 포함하고 적절한 배경 이미지도 5개 이상 포함해서 해당 내용을 보완해서 슬라이드로 작성할것, 배경은 어두운 색상으로 하고 제목은 24포인트, 내용은 17포인트로 작성할 것, 도형을 적절히 활용하고, 표는 5개 이상 포함해서 인터랙티브하게 작성할 것, 답변은 꼭 html 형식으로 할 것

ex3) 위 내용으로 html 형태의 인포그래픽 대시보드를 작성하되 표가 5개 이상, 그래프도 5개 이상, 탭이나 메뉴로 내용을 구분하고 테마를 선택할 수 있는 기능도 추가하고 인터랙티브한 기능까지 추가해서 작성할 것

수업 중 대부분 구글 AI Studio 이용

생성형 AI 사용 방법

  • 인내심을 갖고 대화하기 (줄 수 있는 정보는 다 주기)
  • 생성형AI가 학습하지 않은 기술 적인 질문을 할 때는 관련 문서 함께 질문하거나 관련 문서의 링크를 추가하기
  • EDA 할 때 무료 버전을 유료 버전처럼 사용하기 (메타 정보를 최대한 많이 주기)
  • 수집한 텍스트로 더 해보기
    • EDA
    • 유사도 기반의 추천시스템LangChain을 통해 분석하기

 

더보기

<<4Ls 회고법>>

1. Liked 좋았던 것 : 챗지피티가 아닌 무궁무진하고 다양한 생성형AI를 알게 되었음
2. Lacked 아쉬웠던 것 : 2일 동안 담아내기엔 정말 어마어마한 내용이었던 것 같음(중간에 놓치면 따라가기 벅찬, 속도가 꽤 빠른 편이었음)
3. Learned 배운 것 : 크롤링보다 쉽고 간편한 AI를 활용한 웹스크래핑과 그 밖에 Visual Studio Code에서 Gemini를 활용하는 방법, Google AI Studio와 Notebooklm 활용법, 코랩에서 AI활용하여 바로 코드 작성 및 수행하는 방법 등
4. Longed for 앞으로 바라는 것 : 이틀동안 배운 내용을 복습하면서 생성형 AI를 더욱 잘 활용하는 법 터득하