提问者:小点点

防止mysql数据库中的重复行


我编写了代码从eBay.com收集汽车信息(标题,制造,型号,传输,年份,价格)数据并保存到MySQL中。

我希望如果一行的所有项(标题,make,model,。。。)都与另一行相似,那么就避免将此数据插入到Mysql中,只有当一行的所有项都相似时才这样做(如果只有标题或模型等相同,则不要禁止插入)。

我创建的数据库和表非常简单(我是初学者),如果需要我可以删除数据库并创建一个新的

代码:

import requests
from bs4 import BeautifulSoup
import re
import mysql.connector

conn = mysql.connector.connect(user='root', password='1234', 
host='127.0.0.1', database='web_scraping')
cursor = conn.cursor()
url = 'https://www.ebay.com/b/Cars-Trucks/6001?_fsrp=0&_sacat=6001&LH_BIN=1&LH_ItemCondition=3000%7C1000%7C2500&rt=nc&_stpos=951 25&Model%2520Year=2020%7C2019%7C2018%7C2017%7C2016%7C2015'
res = requests.get(url)
soup = BeautifulSoup(res.text, 'html.parser')
ebay_cars = soup.find_all('li', class_='s-item')
for car_info in ebay_cars:
    title_div = car_info.find('div', class_='s-item__wrapper clearfix')
    title_sub_div = title_div.find('div', class_='s-item__info clearfix')
    title_p = title_sub_div.find('span', class_='s-item__price')
    title_tag = title_sub_div.find('a', class_='s-item__link')
    title_maker = title_sub_div.find('span', class_='s-item__dynamic s- 
    item__dynamicAttributes1')
    title_model = title_sub_div.find('span', class_='s-item__dynamic s- 
    item__dynamicAttributes2')
    title_trans = title_sub_div.find('span', class_='s-item__dynamic s- 
    item__dynamicAttributes3')



    name_of_car = re.sub(r'\d{4}', '', title_tag.text)
    maker_of_car = re.sub(r'Make: ','', title_maker.text)
    model_of_car = re.sub(r'Model: ', '', title_model.text)
    try:
        if title_trans.text.startswith(r'Transmission: '):
            trans_of_car = re.sub(r'Transmission: ', '', title_trans.text)
        else:
            trans_of_car = ''
    except AttributeError:
        trans_of_car = ''
    year_of_car = re.findall(r'\d{4}', title_tag.text)
    year_of_car = ''.join(str(x) for x in year_of_car)

    price_of_car = title_p.text
    print(name_of_car ,trans_of_car )
    sql = 'INSERT INTO car_info(Title, Maker, Model, Transmission, Year, 
    Price) VALUES (%s, %s, %s, %s, %s, %s)'
    cursor.execute(sql , (name_of_car, maker_of_car, model_of_car, 
    trans_of_car, year_of_car, price_of_car))



conn.commit()
conn.close()

共2个答案

匿名用户

您可以尝试将mysql表的列设置为唯一的,这样它就不会允许插入冗余数据

CREATE TABLE TABLE1(
  col1 varchar(20),
  col2 varchar(20),
  col3 varchar(20),
  col4 varchar(20),
  CONSTRAINT uc UNIQUE (col1,col2,col3,col4)
 );

希望这能有所帮助:-)

匿名用户

这不是直接回答你的问题,但我还不能评论…… 我建议您看看SQLAlchemy,这是一个用于python的库,它可以使使用sql dtabase变得更容易。 例如,您可以在模型生成器中给出一个参数unique=true。 有关SQLAlchemy,请参见herer:https://www.sqlalchemy.org/